jump to navigation

Ngram Viewer: eksploracja ewolucji języka w czasie 01/06/2011

Posted by Mikołaj Morzy in dataset, eksploracja danych, nauka, Uncategorized, zbiór danych.
1 comment so far

Google Labs logoGoogle nie przestaje zadziwiać. Właśnie natknąłem się na Google Ngram Viewer, aplikację umożliwiającą śledzenie częstotliwości występowania zlepków słów we wszystkich książkach dostępnych przez Google Books. Na wstępie uwaga: przyzwyczailiśmy się (przynajmniej w eksploracji danych) używać terminu n-gram do określania sekwencji następujących po sobie n znaków, np. słowo eksploracja może być podzielona na bi-gramy: ek-ks-kp-pl-lo-or-ra-ac-cj-ja. Moje pierwsze wrażenie było takie, że Google używa tego terminu niepoprawnie (wg. nich jest to sekwencja n słów występujących w tekście). Jednak krótki rzut oka do Wikipedii pokazuje, że ich użycie jest prawidłowe:

An n-gram is a subsequence of n items from a given sequence. The items in question can be phonemes, syllables, letters, words or base pairs according to the application.

Do dyspozycji są zbiory danych z książek opublikowanych w Anglii, Stanach Zjednoczonych, można też ograniczyć analizę do książek w językach: chińskim, niemieckim, hiszpańskim, francuskim, hebrajskim i rosyjskim. Dane są dostępne zarówno przez interfejs Google’a, jak i w formacie do pobrania i samodzielnego przetwarzania (dane są dostępne na licencji Creative Commons 3.0). Jeśli zechcecie wykorzystać ten korpus danych, to powinniście w referencjach umieścić pracę

Jean-Baptiste Michel*, Yuan Kui Shen, Aviva Presser Aiden, Adrian Veres, Matthew K. Gray, William Brockman, The Google Books Team, Joseph P. Pickett, Dale Hoiberg, Dan Clancy, Peter Norvig, Jon Orwant, Steven Pinker, Martin A. Nowak, and Erez Lieberman Aiden. Quantitative Analysis of Culture Using Millions of Digitized Books. Science (ta publikacja nie jest dostępna za darmo ze strony czasopisma Science, ale jeśli ktoś przez przypadek kliknie tutaj…)

I zupełnie na marginesie: oto jak można połączyć naukę z marketingiem. Przy okazji pracy nad Ngram Viewer ekipa z Google (przy współpracy z młodymi ludźmi z Harvardu i MIT) ukuła nowy termin: culturomics. Prawda, że zgrabne i chwytliwe?

Reklamy

Jeszcze więcej danych 03/10/2010

Posted by Mikołaj Morzy in bazy danych, dataset, zbiór danych.
2 Komentarze

Google Public Data Explorer logoGoogle Public Data Explorer to nowy członek rodziny produktów Google Labs. Jest to narzędzie do wizualizacji publicznych zbiorów danych. Umożliwia tworzenie wykresów (kołowych, słupkowych, liniowych, bąbelkowych) animowanych w czasie, osadzanie tych wykresów na stronach www oraz automatyczną aktualizację wykresów. Przykładowo, ten wykres porównuje stopę bezrobocia w Polsce, Czechach i Norwegii na przestrzeni ostatnich 15 lat:

Example of Google Public Data Explorer(niestety, WordPress.com wycina znaczniki <IFRAME> więc nie mogę osadzić animowanej wersji wykresu).

W chwili obecnej nie można załadować i zwizualizować swojego zbioru danych (do tego celu można się posłużyć serwisami Swivel, Many Eyes, iCharts, Trendrr, Verifiable czy Timetric), a dostępny zbiór danych obejmuje m.in.:

  • dane EuroStatu o bezrobociu, inflacji i płacy minimalnej w Unii
  • dane o bezrobociu w Stanach (US Bureau of Labor)
  • dane o GDP i podatkach w Stanach (US Bureau of Economic Analysis)
  • dane z amerykańskiego spisu powszechnego (US Census Bureau)
  • dane OECD (fact book)

Kolejny konkurs piękności 03/01/2010

Posted by Mikołaj Morzy in dataset, eksploracja danych, konkurs, nauka, zbiór danych.
add a comment

Yahoo! logo Yahoo! Labs organizują kolejny konkurs eksploracji danych. Tym razem problem polega na stworzeniu algorytmu rankingu dokumentów w odpowiedzi na zapytanie użytkownika. Konkurs Learning to Rank Challenge rozpoczyna się dziś, 1 marca 2010, i potrwa do 31 maja 2010. Uczestnicy, którzy dokonają rejestracji (konieczne jest utworzenie konta Yahoo!) uzyskają dostęp do zbiorów danych zawierających zapytania użytkowników, dokumenty z indeksu Yahoo! oraz wektory cech wyekstrahowane z dokumentów WWW wraz z ocenami ich dopasowania do cech (ang. relevance judgement). Niestety, Yahoo! nie publikuje samych treści zapytań, treści dokumentów ani opisów cech, a jedynie ich identyfikatory, czyli zadanie polega wprost na rankingu zbioru dokumentów dla danego zapytania na podstawie dostarczonych dopasowań cech. Dostępne są dwa zbiory danych pobrane z dwóch różnych krajów, występują dla nich różnice w zbiorach indeksowanych cech. Zbiory są dość małe (tysiące zapytań, dziesiątki tysięcy dokumentów), więc ich przetwarzanie nie wymaga specjalnego sprzętu. Dodatkowe informacje o konkursie zostały opublikowane jako lista FAQ. Nagrody są dość atrakcyjne: 1000*2^{4-i} dolarów za i-te miejsce dla pierwszych czterech miejsc, plus zaproszenie do zaprezentowania swoich wyników w trakcie tegorocznej konferencji ICML’2010 w Hajfie w Izraelu.

Udział w tym konkursie będzie bez wątpienia jedną z możliwości zaliczenia laboratorium z eksploracji danych, jakie prowadzę w tym semestrze na specjalizacji TPD.

Kaggle – nowy serwis internetowy związany z eksploracją danych 02/03/2010

Posted by Mikołaj Morzy in bazy danych, dataset, eksploracja danych, nauka, zbiór danych.
1 comment so far

Kaggle logoGąski, gąski do domu! czyli nowy serwis poświęcony eksploracji danych. Właśnie stałem się świadomy istnienia serwisu Kaggle, oferującego możliwość przygotowywania konkursów eksploracyjnych. Posiłkując się cytatem z Hala Variana, odpowiedzialnego za finanse Google („ciągle powtarzam, że w przeciągu najbliższych dziesięciu lat najbardziej seksownym zawodem będą statystycy„), twórcy serwisu postawili sobie za cel przygotowanie otwartej platformy umożliwiającej zorganizowanie dowolnego konkursu związanego z eksploracją danych, analizą statystyczną czy uczeniem maszynowym.

Koncepcja jest prosta. Serwis jest całkowicie darmowy i automatyzuje całą procedurę przygotowywania konkursu: rejestrację uczestników, specyfikację zbioru uczącego i testującego, opis nagrody, rejestrację i sprawdzanie rozwiązań, utrzymywanie listy najlepszych wyników, itd. Można wskazać preferowany sposób oceny nadsyłanych rozwiązań, wyspecyfikować warunki poprawności rozwiązania (Kaggle może np. sprawdzać, czy nadsyłane rozwiązania mają wystarczającą liczbę wierszy i czy wartości w poszczególnych kolumnach są właściwego typu). Cały proces budowania konkursu odbywa się przy użyciu edytorów WYSIWYG, nie ma ograniczenia na wielkość danych wejściowych.

Po co taki serwis? Autorzy twierdzą (słusznie), że otwarte konkursy stanowią fantastyczne pole innowacji i rozwoju. Klasycznym przykładem jest konkurs Netflix, w którym główna nagroda wynosiła okrągły milion dolarów. Ale nagrody wcale nie muszą być wysokie. Sam fakt udziału w takim wyścigu, możliwość porównania się z najlepszymi, duch rywalizacji i synergia pojawiająca się dzięki zderzeniu różnych technik, modeli, podejść i szkół, stanowi wystarczającą gratyfikację. Wiele firm może traktować otwarte konkursy jako doskonały sposób rozwoju swoich aplikacji i technologii czy pozyskiwać zdolnych pracowników.

W chwili obecnej serwis jest w stanie beta, czyli jego funkcjonalność i stabilność mogą odbiegać od powszechnie przyjętych standardów. Serwis jest dostępny pod adresem http://demo.kaggle.com Aktualnie dostępne są trzy konkursy: konkurs organizowany przez Orange w ramach KDD Cup 2009, konkurs dotyczący danych z australijskiej ligi futbolu AFL, oraz konkurs AusDM Analytic Challenge zorganizowany w zeszłym roku razem z konferencją AusDM’09 Australian Conference on Data Mining.

Poważnie rozważam możliwość zorganizowania konkursu eksploracyjnego jako formy zaliczenia przedmiotu „Eksploracja danych”, który będę prowadził w semestrze letnim dla specjalizacji Technologie Przetwarzania Danych…

Terroryzm w Rudzie-Gwizdanowie 11/07/2009

Posted by Mikołaj Morzy in bazy danych, dataset, zbiór danych.
1 comment so far

terroristKto z Was wie, gdzie mieści się Ruda-Gwizdanów? Do dzisiaj też nie miałem pojęcia. W 1997 roku miał tam miejsce atak terrorystyczny, polegający na odpaleniu ładunków wybuchowych podczas spotkania weteranów. Niestety, Wikipedia milczy o ataku, podobnie jak Google. Więc skąd wiem, że terroryści zawitali do Gwizdanowa?

Od 2001 roku Uniwersytet Stanu Maryland gromadzi informacje o aktach terroryzmu na całym świecie. Niedawno baza danych o szumnej nazwie „Global Terrorism Database” została udostępniona publicznie. Baza zawiera informacje o ponad 80 000 aktach terroryzmu i oferuje możliwość wyszukiwania według regionu, kraju, typu ataku, czasu czy liczby ofiar. Serwis oferuje także kalendarium i proste narzędzia do wizualizacji. Wszystkie dane można uzyskać w surowej postaci po skontaktowaniu się z autorami. Baza danych może być swobodnie wykorzystywana do badań naukowych pod warunkiem zacytowania źródła danych. Wszystkie szczegóły znajdują się na głównej stronie projektu.

A tutaj można sprawdzić akty terroryzmu popełnione w Polsce na przestrzeni ostatnich 30 lat.

%d blogerów lubi to: