jump to navigation

Wywiad z Usamą Fayyadem 08/31/2009

Posted by Mikołaj Morzy in Uncategorized.
add a comment

fayyadAjay Ohri przynosi nam ciekawy wywiad z dr. Usamą Fayyadem. Dr. Fayyad jest jednym z twórców pojęcia „eksploracja danych” i jednym z pionierów całej dyscypliny. Jego publikacje stanowią początek wielu badań, w szczególności jego prace prowadzone w NASA Jet Propulsion Laboratory. Fayyad jest także twórcą Yahoo! Research oraz pierwszym na świecie Chief Data Officer, osobą odpowiedzialną za stworzenie infrastruktury umożliwiającej analizę i eksplorację terabajtów danych gromadzonych przez Yahoo!

Najciekawszy fragment wywiadu dotyczy listy 5 grzechów, których każdy data miner powinien unikać za wszelką cenę. Fayyad podaje następujące:

  • algorytmy które nie wiedzą niczego o danych: wiedza domenowa posiadana przez ekspertów musi być zaszyta w algorytmie eksploracji (an ounce of knowledge is worth a ton of data),
  • przekleństwo wielowymiarowości nie może być ignorowane, jedną z pierwszych technik, które muszą być stosowane, jest redukcja liczby wymiarów,
  • zbiory uczące i testujące muszą być losowane „uczciwie”, nie wolno podglądać zbioru testowego, ponieważ nieuchronnie prowadzi to do modeli które są nadmiernie dopasowane,
  • reguły biznesowe muszą być włączone do procesu eksploracji, ponieważ dyktują one kształt danych,
  • żadna duża baza danych nie jest IID (ang. independent and identically distributed), każda taka prawdziwie wielka baza danych rośnie w czasie, ewoluuje i pochodzi z wielu nieustannie zmieniających się rozkładów, stąd segmentacja danych stanowi obowiązkowy pierwszy krok w każdej analizie.

Cały wywiad jest ciekawy i zdecydowanie warty lektury.

Nauki doktora Semmelweisa 08/28/2009

Posted by Mikołaj Morzy in nauka.
3 comments

semmelweisIgnacy Filip Semmelweis był węgierskim lekarzem-położnikiem, pracującym w jednym z głównych szpitali Wiednia w latach 30-tych i 40-tych XIX wieku. Głównym problemem położnictwa w owym czasie była powszechnie występująca gorączka połogowa, która zabijała do 20% wszystkich kobiet. Semmelweis zauważył, że jeden z oddziałów charakteryzował się wyjątkowo niską śmiertelnością, na poziomie 2%. Starał się zidentyfikować czynniki, które odróżniały ten oddział od pozostałych oddziałów w szpitalu. Dwa zdarzenia zwróciły jego szczególną uwagę. Po pierwsze, podczas jego 4-miesięcznej nieobecności zapadalność na gorączkę połogową bardzo znacznie spadła na jego oddziale. Po drugie, jeden z jego przyjaciół ukłuł się nożem podczas przeprowadzania autopsji kobiety, która zmarła na gorączkę połogową, i wkrótce potem sam zmarł. Autopsja ciała przyjaciela wykazała symptomy bardzo podobne do symptomów gorączki połogowej. Semmelweis doszedł do wniosku, że to lekarze są winni zakażeniom, ponieważ wielu z nich rano dokonywało autopsji kobiet zmarłych poprzedniego dnia, a następnie udawali się na sale operacyjne przyjmować porody. Semmelweis uznał, że lekarze muszą w jakiś sposób przenosić chorobę z martwych ciał na żywe pacjentki (większość z nas dostrzeże tu działanie bakterii i drobnoustrojów). Nakazał więc, aby lekarze dokładnie czyścili dłonie chlorem i wapnem przed wejściem na salę operacyjną. W ciągu jednego roku śmiertelność na jego oddziałach spadła z 18% do 1%. Niestety, teoria Semmelweisa (pamiętajmy, że było to zanim Ludwik Pasteur sformułował teorię o drobnoustrojach stanowiących przyczynę wielu chorób zakaźnych) wzbudziła ogromny opór w środowisku lekarskim, a sam Semmelweis stał się przedmiotem kpin i został całkowicie wyśmiany. Naukowe periodyki całkowicie odrzuciły teorię o zbawiennych skutkach dezynfekcji rąk (czyli podstawy antyseptyki), Semmelweis został wyrzucony z pracy i zmuszony do przeprowadzki na Węgry. Reszta historii jest jeszcze smutniejsza: w 1865 roku doznał załamania nerwowego i ostatnie lata spędził w szpitalu dla umysłowo chorych, gdzie zmarł nie doczekawszy się rehabilitacji  i docenienia swoich zasług. Dopiero w 1879 roku Pasteur udowodnił występowanie bakterii w krwii kobiet cierpiących na gorączkę połogową.

Jakie z tej historii płyną wnioski? Niestety, nauka nie zawsze pokazuje swoje jasne oblicze. Wierzymy, że nauka ma wbudowane mechanizmy auto-naprawy, nie uznaje żadnych świętości ani dogmatów, a poddawanie w wątpliwość i kwestionowanie zastałych praw i paradygmatów jest cnotą (o ile odbywa się za pomocą metody naukowej, rzecz jasna). Historia doktora Semmelweisa pokazuje, że w niektórych przypadkach środowisko naukowe woli trzymać się ustalonego konsensusu i nie przyjmuje teorii tylko dlatego, że teoria wydaje się zbyt dziwaczna lub śmieszna, mimo, że empiryczne dane wyraźnie wspierają nową teorię. Takie zachowanie, polegające na automatycznym odrzuceniu nowej wiedzy ze względu na to, że zaprzecza ona ustalonym normom, przekonaniom, paradygmatom czy wierze, nosi nazwę odruchu Semmelweisa.

na podstawie artykułu i prezentacji Ronny’ego Kohavi.

Kolejny zbiór danych 08/27/2009

Posted by Mikołaj Morzy in eksploracja danych, nauka, sieci społeczne.
add a comment

realityminingMIT udostępnia kolejny ciekawy zbiór danych. Tym razem chodzi o projekt Reality Mining, ktorego celem jest odkrywanie wzorców złożonej aktywności w społecznościach ludzkich. Zebrane dane opisują zachowania dużej grupy ludzi w kontekście komunikacji. Przez osiem miesięcy naukowcy z MIT zbierali dane z ponad 100 telefonów komórkowych, rejestrując prawie 350 tysięcy godzin rozmów. Oprócz danych o połączeniach telefonicznych wykorzystano także Bluetooth i rejestrowano nie tylko fakty rozmów, ale także mierzono lokalizację telefonów, ich względną odległość, oraz aktywność. Wynikiem przeprowadzonych eksperymentów są zarówno interesujące wizualizacje, liczne publikacje naukowe, oraz, co dla nas najważniejsze, publicznie dostępne zbiory danych.

Pełny zbiór danych (38MB w formacie MySQL) jest dostępny poprzez indywidualny email, który można wysłać na adres reality at media dot mit dot edu, ale można też ściągnąć zbiór opisujący działania jednej osoby. Jeśli ktoś chce, może także pobrać aplikację, która była wykorzystywana do gromadzenia danych. Całość projektu została wykonana przy współpracy z koncernem Nokia.

Long Tail, czyli upadła hipoteza 08/22/2009

Posted by Mikołaj Morzy in biznes, teoria.
add a comment

W 2004 roku Chris Anderson opublikował w magazynie Wired artykuł pt. The long tail. Koncepcje przedstawione w tym artykule zostały następnie przez niego rozwinięte i opublikowane w postaci książki pt. The Long Tail : Why the Future of Business Is Selling Less of More. Podtytuł książki mówi sam za siebie. Główna idea Andersona jest następująca: ponieważ handel elektroniczny, a w szczególności handel dobrami cyfrowymi, likwiduje koszty przechowywania i umożliwia bezpośredni dostęp klientów do dowolnego produktu, oznacza to całkowitą zmianę paradygmatu handlu. W przeciwieństwie do tradycyjnego handlu, zdominowanego przez niewielką liczbę popularnych i łatwo dostępnych produktów (książek, filmów, albumów) handel elektroniczny aktywuje i udostępni produkty niszowe, kolekcjonerskie, dotychczas trudno dostępne. Poniższy rysunek (zaczerpnięty z artykułu Anity Elberse), dobrze ilustruje to zjawisko.

longtailWedług Andersona, dostępność produktów niszowych spowoduje, że „długi ogon” ulegnie pogrubieniu (tzn. wzrośnie sprzedaż produktów niszowych kosztem sprzedaży produktów popularnych) i sprzedawcy będą mogli realizować zyski w obszarze „długiego ogona” produktów niszowych. Argumentacja była prosta:

  • produkty dotychczas trudno dostępne stają się dostępne na jedno kliknięcie myszki,
  • systemy rekomendacyjne ułatwiają eksplorację niezbadanych obszarów długiego ogona,
  • klienci nadają produktom niszowym większą wartość ze względu na ich niszowy charakter.

Przez wiele lat proponenci idei Web 2.0 przyjmowali koncepcję Andersona za udowodniony i sprawdzony model funkcjonowania handlu elektronicznego w erze Web 2.0. Całe szczęście, że w nauce dogmaty nigdy nie utrzymują się zbyt długo (w końcu nauka jest najbardziej rewolucyjną dyscypliną, jej podstawą i motorem działania jest kwestionowanie zastałych praw0. Okazuje się, że cała koncepcja „długiego ogona” jest z gruntu fałszywa, sprzeczna z ekonomiczną teorią zachowania grupowego i nie znajdująca potwierdzenia w danych empirycznych! W opublikowanym w Harvard Business Review artykule Should You Invest in the Long Tail? Anita Elberse dowodzi, że żadne zjawisko „długiego ogona” nie istnieje. Wręcz przeciwnie, rynki elektroniczne powodują tylko jeszcze dalej idącą dominację przedmiotów popularnych (wyraźne spłaszczenie ogona). Rynek elektroniczny to rynek typu winner-takes-it-all a zachowanie się uczestników jest zgodne z teorią zachowań grupowych Williama McPhee. Według Elberse nie istnieją użytkownicy zainteresowani tylko i wyłącznie produktami niszowymi, użytkownicy kupujący produkty z „długiego ogona” robią to niejako przy okazji kupowania produktów popularnych. Widać wyraźne zwiększenie dominacji bardzo wąskiej grupy przedmiotów hiper-popularnych (blockbusters), a średnie oceny produktów niszowych są zdecydowanie niższe niż oceny produktów popularnych. Elberse dochodzi do następujących wniosków w odniesieniu do rynków i dóbr elektronicznych:

  • producenci powinni skupiać wysiłki marketingowe na swoich najbardziej popularnych produktach,
  • produkcja produktów niszowych musi się odbywać najniższym możliwym kosztem, ponieważ możliwości sprzedania tych produktów są jeszcze mniejsze niż na rynku tradycyjnym,
  • sprzedaż produktów niszowych może być zwiększona przez systemy rekomendacyjne,
  • wiele produktów niszowych to produkty, które kiedyś były popularne, lecz przeniosły się do „długiego ogona” w wyniku zestarzenia się; istnieje realna szansa ich marketingu w połączeniu z produktami popularnymi (tzw. odgrzewane kotlety),
  • poszerzenie oferty o produkty niszowe umożliwia przyciągnięcie „ciężkich” klientów (tzn. klientów którzy dokonują wielu transakcji), ponieważ produkty niszowe są kupowane zdecydowanie częściej przez „ciężkich klientów”.

Artykuł jest bardzo ciekawy i zdecydowanie warty lektury.

post scriptum

Chris Anderson opublikował swoją recenzję artykułu Elberse, która z kolei przygotowała swoją odpowiedź.

Dane miasta i hrabstwa San Francisco dostępne publicznie 08/20/2009

Posted by Mikołaj Morzy in bazy danych, eksploracja danych, nauka.
add a comment

datasfMam wrażenie, że w nauce jednym z kluczowych problemów jest znalezienie właściwego pytania, na które próbujemy później znaleźć odpowiedź. W przypadku eksploracji danych przekłada się to często na problem znalezienia danych (informacji), dla których poszukujemy nowych algorytmów przetwarzania, modelowania, znajdowania wzorców, itp. Dodatkowo, żeby nasze badania miały sens, przetwarzane dane powinny być możliwie często rzeczywiste, bo w końcu kto ma jeszcze siłę czytać o setnym z kolei algorytmie odkrywania reguł asocjacyjnych, który jest testowany na syntetycznych danych?

W najbliższym czasie przygotuję post z odnośnikami do repozytoriów danych, z których korzystam w dydaktyce i badaniach. Dzisiaj chciałbym zwrócić uwagę na nowo utworzone repozytorium. DataSF to serwis udostępniający kilkadziesiąt zbiorów danych dotyczących miasta i hrabstwa San Francisco.  Wszystkie zbiory danych są dostępne po rejestracji użytkownika. Dane są bardzo zróżnicowane i dotyczą takich zagadnień, jak: wybory lokalne i federalne, środowisko naturalne, geografia, ochrona zdrowia, budownictwo mieszkaniowe, transport publiczny, bezpieczeństwo, czy prace publiczne. Można znaleźć zbiory zawierające lokalizację, nazwę i datę zasadzenia wszystkich przydrożnych drzew w San Francisco, listę wezwań policji do miejsc przestępstw, czy też szczegółową listę wydanych zezwoleń na budowę.

Nic tylko brać i eksplorować, płacząc przy tym nad tym, że wieki upłyną, zanim rodzima administracja publiczna zrozumie, że ujawnianie informacji gromadzonej o obywatelach nie stanowi zagrożenia, tylko obowiązek (jeśli na poważnie chcemy myśleć o budowie społeczeństwa otwartego).

Scholarpedia 08/20/2009

Posted by Mikołaj Morzy in nauka.
add a comment

scholarpediaNatknąłem się na interesującą inicjatywę. W 2006 roku Eugene M. Izhikevich, naukowiec z Neurosciences Institute w San Diego utworzył serwis ScholarPedia, którego celem ma być utworzenie encyklopedii składającej się tylko i wyłącznie z recenzowanych artykułów napisanych przez naukowców. Projekt wykorzystuje oprogramowanie MediaWiki i stanowi uzupełnienie Wikipedii. Kuratorzy i główny edytor zapraszają znanych naukowców do przygotowywania artykułów, które następnie podlegają tradycyjnemu procesowi recenzji prac naukowych (ang. blind review). Wśród autorów można znaleźć aż 16 laureatów nagrody Nobla. Tylko zarejestrowani użytkownicy mogą dokonywać edycji artykułów, a każda edycja musi być zatwierdzona przez odpowiedniego kuratora. Artykuły są darmowe i dostępne publicznie, jednak podlegają ochronie (nie można ich kopiować, cytaty należy opatrywać właściwymi referencjami bibliograficznymi).

Póki co zbiór artykułów nie  jest imponujący, w chwili obecnej Scholarpedia liczy ok. 500 zrecenzowanych artykułów, a 1600 jest w trakcie recenzji. Początkowo, autorzy skupili się na następujących dyscyplinach i dziedzinach nauki: neurologia, fizyka, astrofizyka, obliczenia inteligentne (ang. computational intelligence, to ma być zaczątek całego działu dotyczącego informatyki), układy dynamiczne, ale znaleźć można też artykuły dotyczące innych dziedzin.

Na początek polecam artykuł dotyczący statystyki Bayesowskiej, jest znacznie lepszy niż artykuł umieszczony na Wikipedii.

Zagadki z kapeluszami 08/11/2009

Posted by Mikołaj Morzy in Uncategorized.
add a comment

Straw HatsDziś trzy zagadki z kapeluszami. W każdym przypadku zakładamy, że istnieją tylko kapelusze czerwone i niebieskie oraz że przypisanie kapelusza do osoby jest całkowicie losowe, tzn. prawdopodobieństwo posiadania kapelusza czerwonego lub niebieskiego jest takie samo i wynosi 50%. We wszystkich trzech zagadkach zakładamy także, że nie można zobaczyć koloru własnego kapelusza. Zagadki podaję w kolejności od najprostszej do najtrudniejszej.

Trzy kapelusze (sekwencyjnie)

Zespół liczy trzech graczy, każdy z nich ma na głowie losowo przydzielony kapelusz, czerwony lub niebieski. Zespół musi opracować strategię maksymalizującą swoją szansę w grze, której zasady są następujące. Zespół wygrywa wówczas, gdy:

  • co najmniej jeden z uczestników zgadnie poprawnie kolor własnego kapelusza (choć może i dwóch i trzech zgadywać),
  • żaden z udzielających odpowiedzi nie pomyli się co do koloru swojego kapelusza,
  • każdy gracz może albo zgadywać kolor (czerwony lub niebieski), albo milczeć,
  • gracze udzielają odpowiedzi w ustalonej kolejności.

Strategia gwarantująca 50% szans na zwycięstwo jest prosta: pierwsi dwaj milczą a ostatni mówi „czerwony”. Można jednak opracować znacznie lepszą strategię.

Trzy kapelusze (jednocześnie)

Zasady gry są identyczne jak poprzenio, jednak gracze nie udzielają odpowiedzi w z góry ustalonej kolejności, ale muszą podjąć decyzję jednocześnie (czyli pierwszy gracz nie może przekazać drugiemu i trzeciemu żadnej informacji)

Dziesięć kapeluszy

Dziesięciu graczy stoi w linii w taki sposób, że każdy widzi kapelusze graczy stojących przed nim (tzn. gracz 10 widzi wszystkie kapelusze poza swoim, gracz 9 widzi osiem kapeluszy przed sobą poza swoim i gracza 10, itd.) Gracze zaczynają zgadywać kolor swojego kapelusza, przy czym błędna odpowiedź karana jest natychmiastowym uśmierceniem gracza. Celem jest opracowanie strategii maksymalizującej przeżywalność całej grupy.

Strategia gwarantująca przeżycie 75% graczy jest następująca: gracz 10 podaje, jako kolor swojego kapelusza, kolor kapelusza gracza 9 (czyli ma 50% szans na przeżycie). Gracz 9 zna już kolor swojego kapelusza i go podaje. Gracz 8 podaje, jako kolor swojego kapelusza, kolor kapelusza gracza 7, itd. Co ciekawe, można opracować zdecydowanie lepszą strategię.

Życzę przyjemnego główkowania.

Haiku o eksploracji danych 08/08/2009

Posted by Mikołaj Morzy in eksploracja danych, Uncategorized.
add a comment

maitreya_haikuNie zauważyłem tego wcześniej, ale KDNuggets organizował konkurs na haiku dotyczące eksploracji danych. Pierwsza edycja konkursu odbyła się w  2005 roku. Haiku to tradycyjna japońska forma poetycka składająca się z 17 sylab podzielonych na wersy o 5, 7 i 5 sylabach. Charakterystyczną cechą haiku jest występująca prawie zawsze referencja do pory roku.

Zwycięskie prace są następujące:

voting and stacking,
bagging, boosting, random forests
error below zero
Grigorios Tsoumakas, Greece

Model nearly done
Wait! Data from the future
It predicts too well
Andrew Cathie, New Zealand

no deviations
subjective quality norm
sense of humor good
Ian Painter, USA

I was like her
according to Pearson R
we were both outliers
Atif Abdul-Rahman, Pakistan

Na marginesie, w czasopiśmie „Głos Politechniki” wydawanym co miesiąc przez Politechnikę Poznańską pojawiała się swego czasu kolumna „Poezja inżyniera”. A gdy już mówimy o poezji, nigdy nie wolno nam zapominać o wielkim szkockim poecie Ewanie McTeagle

Skecz ten jest zainspirowany twórczością Williama Topaz McGonagalla, powszechnie uznawanego za najgorszego poetę świata.

Zagadka (test IQ) 08/03/2009

Posted by Mikołaj Morzy in Uncategorized.
add a comment

Urlop, urlop i po urlopie. Czas wrócić do pracy i do blogowania. Na początek miła rozrywka na rozgrzewkę. Podobno to zadanie jest wykorzystywane w Japonii podczas rozmów o pracę (legenda głosi, że w ten sposób Japończycy testują intelekt swoich informatyków). Gdzieś usłyszałem, że średni czas rozwiązania tej zagadki to 15 minut, ale wydaje mi się to mocno przesadzone, bo zadanie jest zdecydowanie łatwiejsze i można się z nim uporać znacznie szybciej. Dla pewności, proszę przed rozpoczęciem zerknąć na zegarek.

Reguły gry są bardzo proste:

  • ojciec nie może zostać bez matki na brzegu z którąkolwiek z córek (niezależnie od innych postaci)
  • matka nie może zostać bez ojca na brzegu z którymkolwiek z synów (niezależnie od innych postaci)
  • złodziej nie może zostać bez policjanta z jakąkolwiek inną postacią
  • tratwa mieści maksymalnie dwie postaci
  • tratwą mogą operować tylko matka, ojciec i policjant
  • aby przepłynąć tratwą naciśnij czerwoną dźwignię
  • aby rozpocząć grę naciśnij niebieski okrągły guzik

Powodzenia i do dzieła!

riverIQ

%d bloggers like this: