jump to navigation

10 najważniejszych algorytmów eksploracji danych 01/30/2008

Posted by Mikołaj Morzy in eksploracja danych.
add a comment

reflect.jpgTen wpis stanowi kontynuację poprzedniego postu. Równolegle z opracowaniem listy 10 najważniejszych problemów eksploracji danych ta sama grupa badaczy zadała najsłynniejszym eksploratorom pytanie o 10 najważniejszych i najbardziej wpływowych algorytmów eksploracji danych. Grono przepytywanych było faktycznie elitarne, ponieważ kandydatury zgłaszali tylko i wyłącznie laureaci ACM KDD Innovation Award oraz IEEE ICDM Research Contributions Award. Zgłaszając propozycję do listy, każdy elektor podawał nazwę algorytmu, krótkie uzasadnienie swojego wyboru oraz podstawową referencję literaturową. Po uzyskaniu wstępnej listy została ona wyczyszczona przy użyciu Google Scholar (usunięto pozycje literaturowe posiadające mniej niż 50 cytowań), a wynikowe 18 algorytmów podzielono na 10 kategorii. W ostatnim kroku z pośród 18 kandydatów wybrano, drogą głosowania, 10 algorytmów. Głosowali laureaci obu wspomnianych wyżej prestiżowych wyróżnień oraz członkowie komitetów programowych konferencji KDD’06, ICDM’06 i SDM’06. Zwycięzcami okazały się: C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, oraz CART.

Poniższy artykuł stanowi doskonałe wprowadzenie do algorytmów eksploracji danych i stanowi lekturę obowiązkową dla praktyków i teoretyków eksploracji danych. Można także obejrzeć slajdy panelowe prezentujące wyniki głosowania.

Xindong Wu, Vipin Kumar, J. Ross Quinlan, Joydeep Ghosh, Qiang Yang, Hiroshi Motoda, Geoffrey J. McLachlan, Angus Ng, Bing Liu, Philip S. Yu, Zhi-Hua Zhou, Michael Steinbach, David J. Hand and Dan Steinberg, Top 10 Algorithms in Data Mining, Knowledge and Information Systems, 14(2008), 1: 1-37.

10 najważniejszych problemów eksploracji danych 01/22/2008

Posted by Mikołaj Morzy in eksploracja danych.
1 comment so far

top-problem.jpegW październiku 2005 roku grupa badaczy postanowiła podążyć drogą wyznaczoną przez Davida Hilberta i sformułować program badawczy w dziedzinie eksploracji danych na najbliższe lata. Wysłali więc kwestionariusz do organizatorów poprzednich konferencji IEEE ICDM i ACM KDD z prośbą o wskazanie 10 najważniejszych nierozwiązanych problemów stojących przed naszą społecznością. Odpowiedzi udzielili, między innymi, Pedro Domingos, Charles Elkan, Johannes
Gehrke, Jiawei Han, David Heckerman, Daniel Keim, Jiming Liu, David Madigan, Gregory Piatetsky-Shapiro, Vijay V. Raghavan, Rajeev Rastogi, Salvatore J. Stolfo, Alexander Tuzhilin, i Benjamin W. Wah.

Oto lista 10 najważniejszych problemów eksploracji danych (kolejność nie odzwierciedla ważności):

  1. stworzenie Unifikującej Teorii Eksploracji Danych (UTED),
  2. opracowanie skalowalnych metod dla problemów opisanych bardzo wieloma wymiarami oraz dla problemów opisanych przez dane strumieniowe,
  3. praca nad eksploracją przebiegów czasowych i danych sekwencyjnych,
  4. odkrywanie złożonych wzorców w złożonych typach danych,
  5. eksploracja struktur sieciowych (zarówno sieci społecznych jak i sieci komputerowych),
  6. opracowanie metod rozproszonej eksploracji danych oraz wykorzystanie systemów agentowych do odkrywania wiedzy,
  7. eksploracja danych w dziedzinie biologii i ekologii,
  8. eksploracja danych opisujących procesy (np. przepływy pracy),
  9. bezpieczeństwo, poufność i spójność danych,
  10. praca z danymi, które są niezrównoważone, dynamiczne, podlegające ewolucji.

Cały program badawczy został szczegółowo opisany w artykule „10 Challenging Problems in Data Mining Research” (pdf), można także obejrzeć slajdy prezentowane podczas konferencji ICDM’2005. Artykuł jest bardzo ciekawy i bez wątpienia stanowi „a-must-read” dla wszystkich zajmujących się eksploracją danych.

Quis custodiet ipsos custodes? 01/21/2008

Posted by Mikołaj Morzy in Uncategorized.
add a comment

surveillanceTen post ironicznie nawiązuje do najnowszej historii Polski.

William Cohen pisze ciekawy komentarz do artykułu G.Reynoldsa zamieszczonego w najnowszym numerze Popular Mechanics. Reynolds wskazuje na gigantyczny wzrost liczby kamer i podsłuchów wykorzystywanych publicznie i prywatnie. Jednocześnie, krytykuje brak symetrii między pilnującymi i pilnowanymi. Upowszechnienie się niewielkich, lekkich i tanich urządzeń do nagrywania dźwięku i obrazu może, paradoksalnie, przyczynić się do ochrony praw i wolności obywatelskich, jednak wymaga to zlikwidowania owych asymetrii. Dlaczego, pyta Reynolds, supermarket nagrywa wszystkich i wszystko (łącznie ze swoimi pracownikami), a obywatelowi nie wolno robić zdjęć wewnątrz sklepu? Dlaczego policjanci nagrywają zatrzymania i kontrole drogowe, sami jednocześnie uniemożliwiając drugiej stronie zarejestrowanie zajścia?

Cohen zauważa, słusznie, że jest to częścią ogólniejszego trendu. Obywatele tracą kontrolę nad tym, w jaki sposób i gdzie są przetwarzane i przechowywane informacje o nich samych, podczas gdy firmy prywatne i organy administracji próbują coraz silniej kontrolować zakres informacji o nich który przedostaje się do wiadomości publicznej. Jak dowodzi Cohen, problemem nie jest utrata prywatności (która w dobie wszechobecnego podsłuchu i podglądania i tak jest pustym terminem), lecz utrata kontroli nad prywatnymi danymi. Najciekawsza jest jednak ostatnia część postu Cohena, w której przypomina on ideę otwartego standardu kontroli nad danymi prywatnymi, zgodnie z którym każdy obywatel mógłby w łatwy sposób decydować, które dane osobowe mogłyby być wykorzystywane podczas interakcji obywatela z poszczególnymi podmiotami (sklepy, szkoły, banki, szpitale, wypożyczalnie, itp.).

Awantura o MapReduce 01/20/2008

Posted by Mikołaj Morzy in Uncategorized.
add a comment

No i się narobiło. Dwaj giganci świata baz danych, David DeWitt i Mike Stonebraker napisali felieton, w którym przypuścili frontalny atak na filary technologii Google, MapReduce i BigTable. Czarę goryczy przelał fakt, że macierzysta uczelnia Stonebrakera, Uniwersytet Berkeley, postanowił wprowadzić kurs programowania z wykorzystaniem MapReduce.

Główne zarzuty DeWitta i Stonebrakera są następujące:

  • MapReduce reprezentuje krok wstecz w rozwoju systemów baz danych, rezygnuje z deklaratywnego języka zapytań wysokiego poziomu na rzecz programowania niskopoziomowego i nie wykorzystuje schematów, ograniczeń integralnościowych i referencyjnych,
  • MapReduce jest mało wydajną implementacją, ignorującą np. indeksowanie,
  • MapReduce jest wtórnym wytworem, nieudolnie kopiującym pomysły pojawiające się w dziedzinie rozproszonych i sfederowanych baz danych na przestrzeni ostatnich dwudziestu lat,
  • MapReduce jest pozbawiona większości cech systemów baz danych: przetwarzania transakcyjnego, wielowersyjności, ograniczeń integralnościowych i referencyjnych,
  • MapReduce jest bazą danych tylko do odczytu.

Felieton wywołał ogromne poruszenie, poza komentarzami umieszczonymi bezpośrednio pod felietonem wiele uwag można znaleźć na serwisach Slashdot i Reddit.

Hello world! 01/09/2008

Posted by Mikołaj Morzy in Uncategorized.
add a comment

HandshakeWitam serdecznie i zaczynam (zgodnie ze swoim noworocznym postanowieniem) prowadzić ten blog. Jego głównym celem jest dotarcie do młodych i średniomłodych adeptów eksploracji danych, posługujących się na co dzień w pracy językiem polskim. Chciałbym na tym forum, z jednej strony, dzielić się z czytelnikami wszelkimi nowinkami  i informacjami dotyczącymi eksploracji danych, a z drugiej strony, wykorzystać je do nawiązania współpracy między teoretykami i praktykami eksploracji pracującymi w firmach i na uczelniach. Podsumowując, na tym blogu znajdziecie Państwo:

  • wyszperane przeze mnie informacje, odnośniki, artykuły, dotyczące eksploracji
  • prezentacje osób zajmujących się w Polsce eksploracją danych
  • dyskusje na temat narzędzi i algorytmów

Mam nadzieję, że starczy mi zapału, sumienności i regularności aby publikować tutaj wartościowe wpisy i zbudować wokół tego blogu „eksploracyjną” społeczność. Będę traktować ten blog jako wspólne dobro rodzimych Eksploratorek i Eksploratorów, więc jeśli ktokolwiek z Państwa będzie chciał skorzystać z tej formy komunikacji do rozgłoszenia wszem i wobec nowin związanych z eksploracją, z przyjemnością oddam Państwu głos.

Zapraszam serdecznie do uczestnictwa. Państwa komentarze są najbardziej wartościowym elementem tego blogu!

%d bloggers like this: