jump to navigation

Czym jest ufność? 02/18/2008

Posted by Mikołaj Morzy in eksploracja danych, teoria.
add a comment

statistics.jpgCzy zastanawialiście się kiedyś nad znaczeniem pojęcia ufności? To ciekawe, ponieważ większość osób nie zaprząta sobie głowy tak podstawowymi pytaniami, przyjmując je za pewniki. Ale nie wszyscy. John Langford przedstawił ciekawe podsumowanie różnych sposobów postrzegania ufności. Według Langforda, wykorzystuje się przynajmniej pięć pojęć, które określamy mianem ufności.

  • ufność jako prawdopodobieństwo: najprostsze podejście zrównujące pojęcia ufności i prawdopodobieństwa, w dużym uproszczeniu, jeśli zdarzenie charakteryzuje się wysoką ufnością, jest wysoce prawdopodobne,
  • przedziały ufności: granice wyznaczające obszar, w którym z dużym prawdopodobieństwem spodziewamy się znaleźć wartość nieznanej zmiennej, niestety, w eksploracji danych przedziały ufności są często wątpliwe, ponieważ wymagają niezależności obserwacji oraz źle znoszą prawdopodobieństwa warunkowe i prawdopodobieństwa w stanie niepewności,
  • Bayesowskie przedziały ufności: określają granice obszaru, w którym leży wartość nieznanej zmiennej wyznaczona przez rozkład a posteriori, który z kolei został wyliczony na podstawie rozkładu a priori za pomocą twierdzenia Bayesa, wyliczenia nie wymagają niezależności obserwacji oraz dobrze sobie radzą z prawdopodobieństwem warunkowym, ale dokładność silnie zależy od jakości oszacowania prawdopodobieństwa a priori zajścia zdarzenia – a to może być bardzo trudne,
  • asymptotyczne przedziały ufności: przedziały wyliczone po przybliżeniu nieznanego rozkładu za pomocą rozkładu normalnego przy założeniu, że wariancja obserwacji jest skończona i że obserwacje są niezależne i pochodzą z tego samego rozkładu,
  • wewnętrzne przedziały ufności: przedziały wyliczone nie w oparciu o obserwacje, ale na podstawie predykcji, których dokonujemy po przeanalizowaniu obserwacji, ich cechy i praktyczna użyteczność pozostają niezbadane,
  • przedziały gamesman (?) : o ile dobrze rozumiem, te przedziały ufności są zbiorem predykcji dokonanych przez model teoriogrowy, przy czym zakładamy, że predykcje te z dużym prawdopodobieństwem zawierają prawdziwą wartość ukrytej zmiennej.

Dzień Darwina 02/14/2008

Posted by Mikołaj Morzy in Uncategorized.
1 comment so far

Dziś zupełnie off-topic. Dwa dni temu, 12 lutego, obchodziliśmy Dzień Darwina. Z tej okazji postanowiłem umieścić tu odnośniki do fantastycznych wykładów „bulteriera Darwina”, prof. Richarda Dawkinsa. Wykłady te odbyły się w 1991 roku w cyklu Wykładów Bożonarodzeniowych Royal Institution (nota bene, same wykłady, zwane także Wykładami Farradayowskimi, trwają nieprzerwanie od 1825 roku!). Dawkins przedstawił cykl wykładów dotyczących, a jakże, ewolucji. Trzeba przyznać, że ten człowiek ma dar popularyzacji nauki.

Pracując dla Google 02/12/2008

Posted by Mikołaj Morzy in Uncategorized.
add a comment

google.gif Czytając ten post na przemian zieleniłem się i pociłem z zazdrości. Niech to będzie dla Was, dzieci, zachętą do wytężonej pracy. Ja mogę się tylko pocieszyć tym, że na Politechnice Poznańskiej za chwilę będzie tak samo…

Jak osiągnąć żałosną efektywność bazy danych? 02/06/2008

Posted by Mikołaj Morzy in bazy danych.
add a comment

Zajmuję się eksploracją danych, ale wywodzę się z jej „bazodanowego” pnia, stąd interesują mnie żywo kwestie związane z technologią baz danych. Tom Kyte kieruje nas do arcyśmiesznego filmu na YouTube, prezentującego najgorsze praktyki SQL z fantastycznym francuskim akcentem. Myślę, że będę pokazywał ten film studentom jako lekturę obowiązkową.

Tutorial składa się z trzech części:

  1. http://www.youtube.com/watch?v=40Lnoyv-sXg
  2. http://www.youtube.com/watch?v=GbZgnAINjUw
  3. http://www.youtube.com/watch?v=y70FmugnhPU

Tutorial dotyczący eksploracji sieci społecznych 02/04/2008

Posted by Mikołaj Morzy in eksploracja danych, sieci społeczne.
add a comment

Jona Kleinberga nikomu zajmującemu się eksploracją danych przedstawiać nie trzeba. W trakcie ostatniej konferencji KDD’07 Kleinberg wygłosił fantastyczny wykład proszony na temat kierunków i problemów eksploracji ogromnych sieci społecznych.
Poniżej link do wykładu i slajdów, lektura absolutnie obowiązkowa dla wszystkich interesujących się odkrywaniem wiedzy w dużych sieciach.


Challenges in Social Network Data: Processes, Privacy and Paradoxes

Kontrowersyjny artykuł o sieciach społecznych 02/01/2008

Posted by Mikołaj Morzy in sieci społeczne.
2 komentarze

Duncan WattsWiększość osób zajmujących się badaniem sieci społecznych wierzy, że w każdej sieci społecznej występuje pewien elitarny zbiór węzłów, których wzbudzenie niesie za sobą kaskadowe przeniesienie informacji przez całą sieć. Zgodnie z tym poglądem, rozprzestrzenianie się trendów, mód i informacji w sieci społecznej ma charakter epidemii, a głównymi nosicielami wirusa są Łącznicy (ang. Connectors), Specjaliści (ang. Mavens) oraz Sprzedawcy (ang. Salesmen). Wybuch epidemii, zgodnie z Prawem Nielicznych (ang. Law of the Few), może nastąpić, jeśli spełnione są trzy warunki:

  • w rozprzestrzenianiu się epidemii muszą uczestniczyć aktywnie Łącznicy, Specjaliści i Sprzedawcy,
  • epidemia musi posiadać wysoki stickiness factor, czyli musi reprezentować informację lub trend, które są łatwo przyswajalne i zapamiętywalne,
  • epidemia musi wystąpić w sprzyjających jej rozprzestrzenianiu warunkach i właściwym kontekście.

Podstawową książką, popularyzującą takie spojrzenie na kwestię przepływów w sieciach społecznych, jest „The Tipping Point” autorstwa Malcolma Gladwella. Książka ta stała się podstawą działania wielu agencji marketingowych i w dużej mierze zdeterminowała sposób naszego myślenia o sieciach społecznych. W końcu, podstawowe założenia tej teorii dobrze się zgadzają ze zdrowym rozsądkiem…

Cóż, znalazł się niejaki Duncan Watts, który uznał, że zdrowy rozsądek całkowicie się myli. Watts doszedł do wniosku, że wpływ „wpływowych” węzłów w sieci społecznej jest ogromnie wyolbrzymiony, a kierowanie środków (np. podczas kampanii marketingowej) do elitarnej grupy węzłów „wpływowych” jest ogromnym marnotrawstwem pieniędzy i czasu. Watts jest etatowym pracownikiem Uniwersytetu Columbia, a aktualnie pracuje naukowo dla Yahoo! Swoje wnioski oparł na wielu symulacjach komputerowych, w których próbował odtworzyć środowisko sieci społecznej i badał w syntetycznych warunkach proces rozprzestrzeniania się i adopcji trendu. Zgodnie z teorią Wattsa, sposób, w jaki trend powstaje i rozprzestrzenia się w sieci, nie przypomina swą charakterystyką epidemii choroby, lecz raczej pożar lasu: w ciągu roku wybucha bardzo wiele pożarów, ale tylko nieliczne przeradzają się w katastrofalne pożary. Podobnie, wg Wattsa, rzecz się ma z trendami. Obserwacje Wattsa prowadzą do następujących wniosków:

  • nie istnieje żadne wytłumaczenie sposobu, w jaki „wpływowe” jednostki sieci społecznej miałyby wpływać na pozostałych uczestników sieci,
  • w większości przypadków nowy trend rozpoczyna się od zupełnie przypadkowego i zwyczajnego węzła sieci,
  • trendy rozpoczynające się we „wpływowych” węzłach rozprzestrzeniają się szybciej i intensywniej, ale prawdopodobieństwo ich powstania jest dużo mniejsze, niż w przypadku trendów powstających w zwyczajnych węzłach,
  • głównym powodem przyjęcia lub odrzucenia trendu jest globalny stan sieci, a mówiąc słowami Wattsa: „jeśli społeczeństwo jest gotowe zaakceptować trend, prawie każdy może rozpocząć taki trend, ale jeśli społeczeństwo nie jest gotowe na trend, prawie nikt nie może rozpocząć takiego trendu”,
  • masowy marketing jest efektywniejszy od marketingu wirusowego.

Prawda, że kontrowersyjne i sprzeczne z intuicją? Cały artykuł „Is the Tipping Point Toast?” opublikowano na łamach FastCompany.com, zdecydowanie polecam lekturę.

%d blogerów lubi to: