jump to navigation

Eksploracja i eksploratorki/eksploratorzy – wyniki ogólnoświatowej ankiety 03/19/2010

Posted by Mikołaj Morzy in biznes, eksploracja danych, nauka.
6 Komentarzy

Rok temu pisałem o ankiecie organizowanej przez Rexer Analytics. Właśnie dostałem jej podsumowanie. Z podsumowania wynika niezbicie, że wszystkie osoby zajmujące się eksploracją danych są mądre, piękne, spełnione zawodowo i emocjonalnie, oraz zupełnie nie przystają do informatycznych stereotypów.

Najciekawsze wyniki są związane z porównaniem odpowiedzi udzielanych przez reprezentatki i reprezentantów akademii i biznesu. Wyraźnie np. widać zupełnie inne preferencje dotyczące wykorzystywanych narzędzi. W ankiecie wzięło udział 137 osób reprezentujących akademię i 392 osoby reprezentujące biznes. Poniżej wykres obrazujący ranking ulubionych narzędzi:

Preferencje dot. narzędzi do eksploracji danych

Poza kwestią wyboru narzędzi ankieta sprawdzała także stopień satysfakcji z możliwości wykorzystywanego narzędzia.

Satysfakcja z wykorzystywanego narzędzia

Zaciekawiło mnie, w których działach przedsiębiorstw najczęściej są wykorzystywane techniki eksploracji danych. Okazuje się, że przede wszystkim w marketingu i logistyce. Bardzo cieszy wysoka pozycja departamentów R&D.

Gdzie wykorzystywane są techniki eksploracji danych?Najbardziej zdziwiły mnie wyniki pytania o typ wykształcenia osób zajmujących się ekploracją danych. Gdybym miał zgadywać, powiedziałbym, że 70% to informatyczki i informatycy. Okazuje się, że stanowimy zaledwie ćwierć społeczności! Osobiście bardzo się cieszę, że coraz więcej osób z wykształceniem socjologicznym i ekonomicznym garnie się do eksploracji danych.

Wykształcenie osób zajmujących się eksploracją danych

Ostatnie pytanie interesuje mnie w szczególności, ponieważ pozwala mi dostosować zawartość prowadzonego przeze mnie kursu do wymagań i oczekiwań rynku. Zdziwiła mnie wysoka pozycja regresji, choć, z drugiej strony, trudno o bardziej klasyczną metodę analizy danych. Zupełnie nie rozumiem, dlaczego tak wysoko na liście znalazła się faktoryzacja analiza czynnikowa, zastanawia mnie też stosunkowo wysoka pozycja sieci neuronowych. To może mieć związek z powszechnym wykorzystaniem sieci neuronowych w badaniach naukowych lub z obecnością tego narzędzia w popularnych pakietach do eksploracji.

Popularne metody eksploracji danych

Pełne podsumowanie wyników ankiety można znaleźć tutaj: Rexer Analytics 2009 Data Miner Survey Summary

Reklamy

Jeszcze więcej danych 03/10/2010

Posted by Mikołaj Morzy in bazy danych, dataset, zbiór danych.
2 Komentarze

Google Public Data Explorer logoGoogle Public Data Explorer to nowy członek rodziny produktów Google Labs. Jest to narzędzie do wizualizacji publicznych zbiorów danych. Umożliwia tworzenie wykresów (kołowych, słupkowych, liniowych, bąbelkowych) animowanych w czasie, osadzanie tych wykresów na stronach www oraz automatyczną aktualizację wykresów. Przykładowo, ten wykres porównuje stopę bezrobocia w Polsce, Czechach i Norwegii na przestrzeni ostatnich 15 lat:

Example of Google Public Data Explorer(niestety, WordPress.com wycina znaczniki <IFRAME> więc nie mogę osadzić animowanej wersji wykresu).

W chwili obecnej nie można załadować i zwizualizować swojego zbioru danych (do tego celu można się posłużyć serwisami Swivel, Many Eyes, iCharts, Trendrr, Verifiable czy Timetric), a dostępny zbiór danych obejmuje m.in.:

  • dane EuroStatu o bezrobociu, inflacji i płacy minimalnej w Unii
  • dane o bezrobociu w Stanach (US Bureau of Labor)
  • dane o GDP i podatkach w Stanach (US Bureau of Economic Analysis)
  • dane z amerykańskiego spisu powszechnego (US Census Bureau)
  • dane OECD (fact book)

Nazywam się major Bień 03/10/2010

Posted by Mikołaj Morzy in nauka.
11 Komentarzy

Major Bień z "Psów"i mam stopień majora! Wszystko się odbyło w miarę szybko i sprawnie, zaczęliśmy o 11:00 a o 14:00 Dziekan wręczył mi zaświadczenie o podjęciu przez Radę Wydziału Informatyki i Zarządzania PP uchwały o nadaniu mi stopnia majora. Tajemnicze wiewiórki nawet w nocy podmieniły tabliczkę na drzwiach. O, niech no w najbliższej sesji jakaś studentka lub jakiś student ośmielą się przyjść z mylnie wypisanym indeksem!

Dla szanownych czytelniczek i czytelników oznacza to, że wracamy do normalnej (albo i większej) częstotliwości wpisów.

Cicho wszędzie, głucho wszędzie 03/08/2010

Posted by Mikołaj Morzy in humor, zagadki.
add a comment

Skąd ta cisza na blogu? Odpowiedź poniżej w formie rebusu.

53° 44′ 0″ N, 21° 49′ 0″ E (minus K)

Konkurs dotyczący prac doktorskich i magisterskich 03/04/2010

Posted by Mikołaj Morzy in eksploracja danych, konkurs, nauka.
add a comment

Firma StatSoft, producent pakietu STATISTICA, organizuje po raz kolejny konkurs na najlepszą pracę doktorską i magisterską przygotowaną z zastosowaniem narzędzi statystyki i analizy danych zawartych w programach STATISTICA i STATISTICA Data Miner. Patronat nad konkursem sprawuje Polskie Towarzystwo Statystyczne. Najlepsza praca doktorska zostanie wyróżniona nagrodą w wysokości 8 000 zł, natomiast najlepsza praca magisterska ma szanse wygrać 4 000 zł. Dodatkowo, wydziały promujące nagrodzone prace otrzymają za darmo licencje na użytkowanie oprogramowania STATISTICA i STATISTICA Data Miner. Zwycięzcy zostaną także uhonorowani okolicznościowymi dyplomami. W ramach konkursu można także wzbogacić swój dorobek o publikację. Jak głosi zawiadomienie o konkursie:

Konkursowi towarzyszy publikacja „Zastosowania metod statystycznych w badaniach naukowych”, zawierająca skróty wybranych prac. Publikacja może być uwzględniania w ocenie dorobku naukowego poszczególnych uczonych i jednostek naukowych. Kolejne tomy (wydane w latach: 2000, 2003 i 2008) zostały szeroko rozpowszechnione w bibliotekach i instytucjach naukowych w całym kraju.

Chętni do udziału powinni się zapoznać ze szczegółowym regulaminem konkursu.

Fatalna reklama 03/03/2010

Posted by Mikołaj Morzy in eksploracja danych, humor.
6 Komentarzy

Tradycyjnie najgorsze możliwe reklamy telewizyjne są produkowane w Stanach Zjednoczonych przez lokalnych dealerów samochodowych. Nie wszystkie są tak straszliwe, jak reklama kubańskiego ginekologa sprzedającego amerykańskie samochody, ale z moich własnych doświadczeń wynika, że większość z nich jest niewiele lepsza.

Okazuje się, że nasi dobrzy przyjaciele z firmy Oracle postanowili pójść szlakiem przetartym przez sprzedawców używanych aut i do reklamy swojego środowiska do eksploracji danych wymóżdżyli takie oto cudo:

Kolejny konkurs piękności 03/01/2010

Posted by Mikołaj Morzy in dataset, eksploracja danych, konkurs, nauka, zbiór danych.
add a comment

Yahoo! logo Yahoo! Labs organizują kolejny konkurs eksploracji danych. Tym razem problem polega na stworzeniu algorytmu rankingu dokumentów w odpowiedzi na zapytanie użytkownika. Konkurs Learning to Rank Challenge rozpoczyna się dziś, 1 marca 2010, i potrwa do 31 maja 2010. Uczestnicy, którzy dokonają rejestracji (konieczne jest utworzenie konta Yahoo!) uzyskają dostęp do zbiorów danych zawierających zapytania użytkowników, dokumenty z indeksu Yahoo! oraz wektory cech wyekstrahowane z dokumentów WWW wraz z ocenami ich dopasowania do cech (ang. relevance judgement). Niestety, Yahoo! nie publikuje samych treści zapytań, treści dokumentów ani opisów cech, a jedynie ich identyfikatory, czyli zadanie polega wprost na rankingu zbioru dokumentów dla danego zapytania na podstawie dostarczonych dopasowań cech. Dostępne są dwa zbiory danych pobrane z dwóch różnych krajów, występują dla nich różnice w zbiorach indeksowanych cech. Zbiory są dość małe (tysiące zapytań, dziesiątki tysięcy dokumentów), więc ich przetwarzanie nie wymaga specjalnego sprzętu. Dodatkowe informacje o konkursie zostały opublikowane jako lista FAQ. Nagrody są dość atrakcyjne: 1000*2^{4-i} dolarów za i-te miejsce dla pierwszych czterech miejsc, plus zaproszenie do zaprezentowania swoich wyników w trakcie tegorocznej konferencji ICML’2010 w Hajfie w Izraelu.

Udział w tym konkursie będzie bez wątpienia jedną z możliwości zaliczenia laboratorium z eksploracji danych, jakie prowadzę w tym semestrze na specjalizacji TPD.

%d blogerów lubi to: