jump to navigation

Kaggle – nowy serwis internetowy związany z eksploracją danych 02/03/2010

Posted by Mikołaj Morzy in bazy danych, dataset, eksploracja danych, nauka, zbiór danych.
trackback

Kaggle logoGąski, gąski do domu! czyli nowy serwis poświęcony eksploracji danych. Właśnie stałem się świadomy istnienia serwisu Kaggle, oferującego możliwość przygotowywania konkursów eksploracyjnych. Posiłkując się cytatem z Hala Variana, odpowiedzialnego za finanse Google („ciągle powtarzam, że w przeciągu najbliższych dziesięciu lat najbardziej seksownym zawodem będą statystycy„), twórcy serwisu postawili sobie za cel przygotowanie otwartej platformy umożliwiającej zorganizowanie dowolnego konkursu związanego z eksploracją danych, analizą statystyczną czy uczeniem maszynowym.

Koncepcja jest prosta. Serwis jest całkowicie darmowy i automatyzuje całą procedurę przygotowywania konkursu: rejestrację uczestników, specyfikację zbioru uczącego i testującego, opis nagrody, rejestrację i sprawdzanie rozwiązań, utrzymywanie listy najlepszych wyników, itd. Można wskazać preferowany sposób oceny nadsyłanych rozwiązań, wyspecyfikować warunki poprawności rozwiązania (Kaggle może np. sprawdzać, czy nadsyłane rozwiązania mają wystarczającą liczbę wierszy i czy wartości w poszczególnych kolumnach są właściwego typu). Cały proces budowania konkursu odbywa się przy użyciu edytorów WYSIWYG, nie ma ograniczenia na wielkość danych wejściowych.

Po co taki serwis? Autorzy twierdzą (słusznie), że otwarte konkursy stanowią fantastyczne pole innowacji i rozwoju. Klasycznym przykładem jest konkurs Netflix, w którym główna nagroda wynosiła okrągły milion dolarów. Ale nagrody wcale nie muszą być wysokie. Sam fakt udziału w takim wyścigu, możliwość porównania się z najlepszymi, duch rywalizacji i synergia pojawiająca się dzięki zderzeniu różnych technik, modeli, podejść i szkół, stanowi wystarczającą gratyfikację. Wiele firm może traktować otwarte konkursy jako doskonały sposób rozwoju swoich aplikacji i technologii czy pozyskiwać zdolnych pracowników.

W chwili obecnej serwis jest w stanie beta, czyli jego funkcjonalność i stabilność mogą odbiegać od powszechnie przyjętych standardów. Serwis jest dostępny pod adresem http://demo.kaggle.com Aktualnie dostępne są trzy konkursy: konkurs organizowany przez Orange w ramach KDD Cup 2009, konkurs dotyczący danych z australijskiej ligi futbolu AFL, oraz konkurs AusDM Analytic Challenge zorganizowany w zeszłym roku razem z konferencją AusDM’09 Australian Conference on Data Mining.

Poważnie rozważam możliwość zorganizowania konkursu eksploracyjnego jako formy zaliczenia przedmiotu „Eksploracja danych”, który będę prowadził w semestrze letnim dla specjalizacji Technologie Przetwarzania Danych…

Komentarze»

1. Kaggle w klasie « data mining à la polonaise - 11/23/2010

[…] konkurs został przygotowany na platformie Kaggle In Class. Kiedy pierwszy raz pisałem o Kaggle, serwis był siermiężnym serwisem z paroma zbiorami danych. Od tego czasu przeszedł istotny […]


Skomentuj

Wprowadź swoje dane lub kliknij jedną z tych ikon, aby się zalogować:

Logo WordPress.com

Komentujesz korzystając z konta WordPress.com. Log Out / Zmień )

Zdjęcie z Twittera

Komentujesz korzystając z konta Twitter. Log Out / Zmień )

Facebook photo

Komentujesz korzystając z konta Facebook. Log Out / Zmień )

Google+ photo

Komentujesz korzystając z konta Google+. Log Out / Zmień )

Connecting to %s

%d bloggers like this: