jump to navigation

10 najważniejszych problemów eksploracji danych 01/22/2008

Posted by Mikołaj Morzy in eksploracja danych.
trackback

top-problem.jpegW październiku 2005 roku grupa badaczy postanowiła podążyć drogą wyznaczoną przez Davida Hilberta i sformułować program badawczy w dziedzinie eksploracji danych na najbliższe lata. Wysłali więc kwestionariusz do organizatorów poprzednich konferencji IEEE ICDM i ACM KDD z prośbą o wskazanie 10 najważniejszych nierozwiązanych problemów stojących przed naszą społecznością. Odpowiedzi udzielili, między innymi, Pedro Domingos, Charles Elkan, Johannes
Gehrke, Jiawei Han, David Heckerman, Daniel Keim, Jiming Liu, David Madigan, Gregory Piatetsky-Shapiro, Vijay V. Raghavan, Rajeev Rastogi, Salvatore J. Stolfo, Alexander Tuzhilin, i Benjamin W. Wah.

Oto lista 10 najważniejszych problemów eksploracji danych (kolejność nie odzwierciedla ważności):

  1. stworzenie Unifikującej Teorii Eksploracji Danych (UTED),
  2. opracowanie skalowalnych metod dla problemów opisanych bardzo wieloma wymiarami oraz dla problemów opisanych przez dane strumieniowe,
  3. praca nad eksploracją przebiegów czasowych i danych sekwencyjnych,
  4. odkrywanie złożonych wzorców w złożonych typach danych,
  5. eksploracja struktur sieciowych (zarówno sieci społecznych jak i sieci komputerowych),
  6. opracowanie metod rozproszonej eksploracji danych oraz wykorzystanie systemów agentowych do odkrywania wiedzy,
  7. eksploracja danych w dziedzinie biologii i ekologii,
  8. eksploracja danych opisujących procesy (np. przepływy pracy),
  9. bezpieczeństwo, poufność i spójność danych,
  10. praca z danymi, które są niezrównoważone, dynamiczne, podlegające ewolucji.

Cały program badawczy został szczegółowo opisany w artykule „10 Challenging Problems in Data Mining Research” (pdf), można także obejrzeć slajdy prezentowane podczas konferencji ICDM’2005. Artykuł jest bardzo ciekawy i bez wątpienia stanowi „a-must-read” dla wszystkich zajmujących się eksploracją danych.

Komentarze»

1. Pawel K - 02/26/2009

Bardzo ciekawy rozwiązanie reprezentuje paragraf „Mining complex knowledge from complex data”.

Autorzy mówiąc o „complex data” wspominają o wykresach, obrazach czy multimediach jako „non-relational data”. Jednym z rozwiązań jakie proponują to integracja wiedzy z danej dziedziny i procesów biznesowych w proces eksploracji. Podobne rozwiązanie można zastosować również do danych relacyjnych. Mianowicie, surowe dane przetrzymywane w bazie danych są jedynie przez system przetwarzane, nie analizowane. Dopiero, osoba śledząca wyniki takiej eksploracji (przetwarzania) potrafi je zinterpretować.

Nawiązując do teorii informacji, dane niosą pewną informację – wiedzę, która dla systemu jest ukryta. Poprzez integrację wiedzy i procesów biznesowych w proces eksploracji możemy z danych surowych „wyciągnąć” bogatą wiedzę.

Badania i próby zostały już podjęte i są dalej rozwijane. Więcej w artykule: „Defining the notion of „Information Content” and reasoning about it in a database”.


Skomentuj

Wprowadź swoje dane lub kliknij jedną z tych ikon, aby się zalogować:

Logo WordPress.com

Komentujesz korzystając z konta WordPress.com. Log Out / Zmień )

Zdjęcie z Twittera

Komentujesz korzystając z konta Twitter. Log Out / Zmień )

Facebook photo

Komentujesz korzystając z konta Facebook. Log Out / Zmień )

Google+ photo

Komentujesz korzystając z konta Google+. Log Out / Zmień )

Connecting to %s

%d bloggers like this: