jump to navigation

Projekt ESSO 06/17/2011

Posted by Mikołaj Morzy in nauka, sieci społeczne, zbiór danych.
2 komentarze

Facebook logo Właśnie dostałem mejl od Jurka Surmy, który zajmuje się analizą sieci społecznych w Szkole Głównej Handlowej w Warszawie. We współpracy z Harvardem rozpoczęli badania, do których wykorzystują „wiodącą sieć społeczną na rynku”. Szczegóły można przeczytać na stronie projektu. Celem badań jest analiza zachowań użytkowników internetowych sieci społecznych. Po zebraniu danych Jurek planuje stworzyć też portal zawierający zbiory danych (anonimizowane), wyniki badań, publikacje, itp.Tego typu inicjatywy są bardzo cenne, bo z nich faktycznie mogą zrodzić się publikacje, które zaczną być widoczne na świecie. Zatem wszyscy posiadający konta na FB, do dzieła: http://apps.facebook.com/Projekt_ESSO/

Ngram Viewer: eksploracja ewolucji języka w czasie 01/06/2011

Posted by Mikołaj Morzy in dataset, eksploracja danych, nauka, Uncategorized, zbiór danych.
1 comment so far

Google Labs logoGoogle nie przestaje zadziwiać. Właśnie natknąłem się na Google Ngram Viewer, aplikację umożliwiającą śledzenie częstotliwości występowania zlepków słów we wszystkich książkach dostępnych przez Google Books. Na wstępie uwaga: przyzwyczailiśmy się (przynajmniej w eksploracji danych) używać terminu n-gram do określania sekwencji następujących po sobie n znaków, np. słowo eksploracja może być podzielona na bi-gramy: ek-ks-kp-pl-lo-or-ra-ac-cj-ja. Moje pierwsze wrażenie było takie, że Google używa tego terminu niepoprawnie (wg. nich jest to sekwencja n słów występujących w tekście). Jednak krótki rzut oka do Wikipedii pokazuje, że ich użycie jest prawidłowe:

An n-gram is a subsequence of n items from a given sequence. The items in question can be phonemes, syllables, letters, words or base pairs according to the application.

Do dyspozycji są zbiory danych z książek opublikowanych w Anglii, Stanach Zjednoczonych, można też ograniczyć analizę do książek w językach: chińskim, niemieckim, hiszpańskim, francuskim, hebrajskim i rosyjskim. Dane są dostępne zarówno przez interfejs Google’a, jak i w formacie do pobrania i samodzielnego przetwarzania (dane są dostępne na licencji Creative Commons 3.0). Jeśli zechcecie wykorzystać ten korpus danych, to powinniście w referencjach umieścić pracę

Jean-Baptiste Michel*, Yuan Kui Shen, Aviva Presser Aiden, Adrian Veres, Matthew K. Gray, William Brockman, The Google Books Team, Joseph P. Pickett, Dale Hoiberg, Dan Clancy, Peter Norvig, Jon Orwant, Steven Pinker, Martin A. Nowak, and Erez Lieberman Aiden. Quantitative Analysis of Culture Using Millions of Digitized Books. Science (ta publikacja nie jest dostępna za darmo ze strony czasopisma Science, ale jeśli ktoś przez przypadek kliknie tutaj…)

I zupełnie na marginesie: oto jak można połączyć naukę z marketingiem. Przy okazji pracy nad Ngram Viewer ekipa z Google (przy współpracy z młodymi ludźmi z Harvardu i MIT) ukuła nowy termin: culturomics. Prawda, że zgrabne i chwytliwe?

Jeszcze więcej danych 03/10/2010

Posted by Mikołaj Morzy in bazy danych, dataset, zbiór danych.
2 komentarze

Google Public Data Explorer logoGoogle Public Data Explorer to nowy członek rodziny produktów Google Labs. Jest to narzędzie do wizualizacji publicznych zbiorów danych. Umożliwia tworzenie wykresów (kołowych, słupkowych, liniowych, bąbelkowych) animowanych w czasie, osadzanie tych wykresów na stronach www oraz automatyczną aktualizację wykresów. Przykładowo, ten wykres porównuje stopę bezrobocia w Polsce, Czechach i Norwegii na przestrzeni ostatnich 15 lat:

Example of Google Public Data Explorer(niestety, WordPress.com wycina znaczniki <IFRAME> więc nie mogę osadzić animowanej wersji wykresu).

W chwili obecnej nie można załadować i zwizualizować swojego zbioru danych (do tego celu można się posłużyć serwisami Swivel, Many Eyes, iCharts, Trendrr, Verifiable czy Timetric), a dostępny zbiór danych obejmuje m.in.:

  • dane EuroStatu o bezrobociu, inflacji i płacy minimalnej w Unii
  • dane o bezrobociu w Stanach (US Bureau of Labor)
  • dane o GDP i podatkach w Stanach (US Bureau of Economic Analysis)
  • dane z amerykańskiego spisu powszechnego (US Census Bureau)
  • dane OECD (fact book)

Kolejny konkurs piękności 03/01/2010

Posted by Mikołaj Morzy in dataset, eksploracja danych, konkurs, nauka, zbiór danych.
add a comment

Yahoo! logo Yahoo! Labs organizują kolejny konkurs eksploracji danych. Tym razem problem polega na stworzeniu algorytmu rankingu dokumentów w odpowiedzi na zapytanie użytkownika. Konkurs Learning to Rank Challenge rozpoczyna się dziś, 1 marca 2010, i potrwa do 31 maja 2010. Uczestnicy, którzy dokonają rejestracji (konieczne jest utworzenie konta Yahoo!) uzyskają dostęp do zbiorów danych zawierających zapytania użytkowników, dokumenty z indeksu Yahoo! oraz wektory cech wyekstrahowane z dokumentów WWW wraz z ocenami ich dopasowania do cech (ang. relevance judgement). Niestety, Yahoo! nie publikuje samych treści zapytań, treści dokumentów ani opisów cech, a jedynie ich identyfikatory, czyli zadanie polega wprost na rankingu zbioru dokumentów dla danego zapytania na podstawie dostarczonych dopasowań cech. Dostępne są dwa zbiory danych pobrane z dwóch różnych krajów, występują dla nich różnice w zbiorach indeksowanych cech. Zbiory są dość małe (tysiące zapytań, dziesiątki tysięcy dokumentów), więc ich przetwarzanie nie wymaga specjalnego sprzętu. Dodatkowe informacje o konkursie zostały opublikowane jako lista FAQ. Nagrody są dość atrakcyjne: 1000*2^{4-i} dolarów za i-te miejsce dla pierwszych czterech miejsc, plus zaproszenie do zaprezentowania swoich wyników w trakcie tegorocznej konferencji ICML’2010 w Hajfie w Izraelu.

Udział w tym konkursie będzie bez wątpienia jedną z możliwości zaliczenia laboratorium z eksploracji danych, jakie prowadzę w tym semestrze na specjalizacji TPD.

Kaggle – nowy serwis internetowy związany z eksploracją danych 02/03/2010

Posted by Mikołaj Morzy in bazy danych, dataset, eksploracja danych, nauka, zbiór danych.
1 comment so far

Kaggle logoGąski, gąski do domu! czyli nowy serwis poświęcony eksploracji danych. Właśnie stałem się świadomy istnienia serwisu Kaggle, oferującego możliwość przygotowywania konkursów eksploracyjnych. Posiłkując się cytatem z Hala Variana, odpowiedzialnego za finanse Google („ciągle powtarzam, że w przeciągu najbliższych dziesięciu lat najbardziej seksownym zawodem będą statystycy„), twórcy serwisu postawili sobie za cel przygotowanie otwartej platformy umożliwiającej zorganizowanie dowolnego konkursu związanego z eksploracją danych, analizą statystyczną czy uczeniem maszynowym.

Koncepcja jest prosta. Serwis jest całkowicie darmowy i automatyzuje całą procedurę przygotowywania konkursu: rejestrację uczestników, specyfikację zbioru uczącego i testującego, opis nagrody, rejestrację i sprawdzanie rozwiązań, utrzymywanie listy najlepszych wyników, itd. Można wskazać preferowany sposób oceny nadsyłanych rozwiązań, wyspecyfikować warunki poprawności rozwiązania (Kaggle może np. sprawdzać, czy nadsyłane rozwiązania mają wystarczającą liczbę wierszy i czy wartości w poszczególnych kolumnach są właściwego typu). Cały proces budowania konkursu odbywa się przy użyciu edytorów WYSIWYG, nie ma ograniczenia na wielkość danych wejściowych.

Po co taki serwis? Autorzy twierdzą (słusznie), że otwarte konkursy stanowią fantastyczne pole innowacji i rozwoju. Klasycznym przykładem jest konkurs Netflix, w którym główna nagroda wynosiła okrągły milion dolarów. Ale nagrody wcale nie muszą być wysokie. Sam fakt udziału w takim wyścigu, możliwość porównania się z najlepszymi, duch rywalizacji i synergia pojawiająca się dzięki zderzeniu różnych technik, modeli, podejść i szkół, stanowi wystarczającą gratyfikację. Wiele firm może traktować otwarte konkursy jako doskonały sposób rozwoju swoich aplikacji i technologii czy pozyskiwać zdolnych pracowników.

W chwili obecnej serwis jest w stanie beta, czyli jego funkcjonalność i stabilność mogą odbiegać od powszechnie przyjętych standardów. Serwis jest dostępny pod adresem http://demo.kaggle.com Aktualnie dostępne są trzy konkursy: konkurs organizowany przez Orange w ramach KDD Cup 2009, konkurs dotyczący danych z australijskiej ligi futbolu AFL, oraz konkurs AusDM Analytic Challenge zorganizowany w zeszłym roku razem z konferencją AusDM’09 Australian Conference on Data Mining.

Poważnie rozważam możliwość zorganizowania konkursu eksploracyjnego jako formy zaliczenia przedmiotu „Eksploracja danych”, który będę prowadził w semestrze letnim dla specjalizacji Technologie Przetwarzania Danych…

Terroryzm w Rudzie-Gwizdanowie 11/07/2009

Posted by Mikołaj Morzy in bazy danych, dataset, zbiór danych.
1 comment so far

terroristKto z Was wie, gdzie mieści się Ruda-Gwizdanów? Do dzisiaj też nie miałem pojęcia. W 1997 roku miał tam miejsce atak terrorystyczny, polegający na odpaleniu ładunków wybuchowych podczas spotkania weteranów. Niestety, Wikipedia milczy o ataku, podobnie jak Google. Więc skąd wiem, że terroryści zawitali do Gwizdanowa?

Od 2001 roku Uniwersytet Stanu Maryland gromadzi informacje o aktach terroryzmu na całym świecie. Niedawno baza danych o szumnej nazwie „Global Terrorism Database” została udostępniona publicznie. Baza zawiera informacje o ponad 80 000 aktach terroryzmu i oferuje możliwość wyszukiwania według regionu, kraju, typu ataku, czasu czy liczby ofiar. Serwis oferuje także kalendarium i proste narzędzia do wizualizacji. Wszystkie dane można uzyskać w surowej postaci po skontaktowaniu się z autorami. Baza danych może być swobodnie wykorzystywana do badań naukowych pod warunkiem zacytowania źródła danych. Wszystkie szczegóły znajdują się na głównej stronie projektu.

A tutaj można sprawdzić akty terroryzmu popełnione w Polsce na przestrzeni ostatnich 30 lat.

Wszystkie najlepsze rzeczy w życiu są za darmo 10/31/2009

Posted by Mikołaj Morzy in eksploracja danych, nauka, teoria, zbiór danych.
2 komentarze

eslNa przykład książka „The Elements of Statistical Learning” autorstwa Trevora Hastie, Roberta Tibshirani i Jerome Friedmana. To już druga edycja książki wydanej przez Springera w serii „Springer Series on Statistics„. Na ponad 700 stronach książka opisuje m.in.: uczenie nadzorowane, regresję liniową, klasyfikację liniową i regresję logitową, metody wygładzania, metody oceny modeli, wnioskowanie bayesowskie, metody bootstrap, algorytm EM, różne algorytmy indukcji drzew, techniki boosting, sieci neuronowe, rodzinę algorytmów SVM, metody k-najbliższych sąsiadów, odkrywanie reguł asocjacyjnych, metody analizy skupień, wybór cech przy użyciu metod PCA i ICA, algorytmy Random Forest, metody uczenia Ensemble oraz eksplorację danych wielowymiarowych. A najlepsze jest to, że książkę tę można (legalnie, bez targania z osiołka) mieć za darmo.

Książka jest dostępna na stronie domowej Roberta Tibshirani na Stanfordzie. Ale to nie wszystko! Wraz z książką można pobrać:

Chapeaux bas dla wydawcy, że pozwolił umieścić tę książkę w sieci. Książka już trafiła na moją listę lektur polecanych studentom.

I jeszcze jeden zbiór danych 09/28/2009

Posted by Mikołaj Morzy in eksploracja danych, zbiór danych.
1 comment so far

nycTym razem Big Apple udostępnia swoje zbiory danych. Nie są to zbiory tak bogate jak zbiory San Francisco lub kolekcja data.gov, tym niemniej można tam znaleźć kilka ciekawostek.Fascynująca jest tendencja otwierania danych na zewnątrz i ich udostępniania w celach naukowych, badawczych lub tak, po prostu. W końcu w danych o podmiotach publicznych jest ukryta wiedza, która w naturalny sposób przynależy do domeny publicznej. I od razu chce mi się biadolić nt. często spotykanej w Polsce urzędniczej manii tajności dokumentów i danych.

Zbiory nowojorskie są podzielone logicznie na kategorie:

  • health survey
  • population census
  • income census
  • american community survey
  • social indicators survey
  • crime statistics
  • NYC department of city planning
  • NYC department of education

Część zbiorów danych jest od razu wyposażona w narzędzia wizualizacyjne.

Całość danych jest udostępniona przez Population Research Center uniwersytetu Columbia i dostępna tutaj.

%d blogerów lubi to: