jump to navigation

Poszukiwany/poszukiwana 03/23/2009

Posted by Mikołaj Morzy in Uncategorized.
add a comment

poszukiwanyZwracam się do moich studentów, jeśli tacy znajdują się między czytelnikami tego blogu.

Znajomy zwrócił się do mnie z pytaniem, czy znam kogoś chętnego do napisania na zamówienie gry w Javie przeznaczonej na telefon komórkowy. Chodzi o jakąś warszawską firmę, prawdopodobnie ta gra na komórkę ma być elementem większej kampanii marketingowej (ale to tylko moje podejrzenia, ponieważ znajomy też nie zna żadnych szczegółów a ci ludzie w Warszawie to jego znajomi, a on jako poznański patriota woli, żeby cashflow płynął na linii W-wa -> Poznań). W każdym razie, jeśli ktoś ma chwilę czasu, ochotę zarobić dukata (nie mam pojęcia, o jakiej kwocie mowa) i potrafi napisać taką gierkę, proszę o kontakt, przekieruję gdzie trzeba. Tylko jeśli wszystko okaże się jakąś gigantyczną farsą (np. będziecie musieli pisać grę wychwalającą Legię Warszawa), to nie miejcie do mnie żalu.

Reklamy

Eksploracja danych i parapsychologia 03/22/2009

Posted by Mikołaj Morzy in eksploracja danych.
add a comment

zenercardsDr Joseph Bank Rhine był psychologiem, botanikiem i badaczem zjawisk paranormalnych. Początkowo zainspirowany przez A.Conan-Doyle’a, po rozpoczęciu pracy na Uniwersytecie Duke’a w Durham utworzył tam pierwsze laboratorium parapsychologii. Stał się twórcą pojęcia postrzegania pozazmysłowego (ESP, extra-sensory perception) i uznanym „ekspertem” od zjawisk paranormalnych. Współpracował m.in. z dr.Karlem Zenerem, twórcą tzw. kart Zenera (przedstwionych na obrazku) służących do testowania paranormalnych zdolności rozmaitych mediów.

Jednym z najbardziej zdumiewających eksperymentów Rhine’a był eksperyment badający posiadanie przez ludzi zdolności do postrzegania pozazmysłowego za pomocą kart o dwóch kolorach: czerwonej i czarnej. Rhine kazał obiektom swoich badań zgadywać, czy leżąca na stole karta jest czerwona, czy czarna. Interesowały go osoby, które potrafiły 10 razy z rzędu prawidłowo „odczytać” kolor karty. W wyniku zakrojonego na szeroką skalę eksperymentu Rhine przekonał się, że mniej więcej jedna na tysiąc osób posiada zdolności do postrzegania pozazmysłowego (\sim \frac{1}{2^{10}}). Ale najciekawsze było to, że osoby, które pomyślnie zdały test na posiadanie ESP, nie potrafiły tego testu zdać po raz kolejny. Konkluzja Rhine’a?

Nie należy informować badanych o tym, że odkryto u nich ESP, ponieważ sam fakt wiedzy o posiadaniu tych zdolności natychmiast je eliminuje.

Jaki to ma związek z eksploracją danych? Sparafrazuję tu samego Jeffreya Ullmana:

Największym ryzykiem eksploracji danych jest „odkrycie” wzorców, które są całkowicie bezużyteczne. Jeśli poszukujesz interesujących wzorców w większej liczbie miejsc, niż pozwalają na to Twoje dane, na pewno znajdziesz wzorce, które będą zupełnymi śmieciami.

Do napisania tego postu skłoniła mnie lektura wykładów z eksploracji danych A.Rajaramana i J.Ullmana. Pełną biografię J.B.Rhine’a można znaleźć na stronach Fundacji Jamesa Randiego oraz w Trivia-Library.com.

Habilitacja – koniec męki 03/21/2009

Posted by Mikołaj Morzy in eksploracja danych, nauka, teoria, Uncategorized.
1 comment so far

pileofpapersZacząłem pisać rozprawę w maju zeszłego roku. Przez pierwsze dwa miesiące pracowałem wyjątkowo aktywnie, pracując w dzień, poświęcając popołudnie dziecku, kładąc Agatkę spać i jadąc pisać w nocy na uczelnię. Zaprzyjaźniłem się z wszystkimi strażnikami, prowadząc z nimi długie nocne rozmowy. Przyznaję, że miałem najlepszą z możliwych motywację: we wrześniu miała się urodzić Martusia, a byłem świadomy, że z dwójką małych dzieci jakość i tempo pracy naukowej muszą się załamać. No i była jeszcze min. Kudrycka, powtarzająca za Katonem: Ceterum censeo habilitatus esse delendam. Myślałem, że dobrze będzie, jeśli ten most spłonie, ale lepiej, żeby spłonął, jak już po nim przejdę.

Rozprawa została ukończona we wrześniu, tuż przed narodzinami Martusi. W grudniu była gotowa recenzja wydawnicza (wspaniałomyślnie zgodził się wykonać recenzję prof. Rybiński z Politechniki Warszawskiej), potem musiałem się ustosunkować do uwag Recenzenta i dokonać stosownych poprawek w tekście. Następnie, rozprawa utknęła w Wydawnictwie Politechniki Poznańskiej. W zeszłym tygodniu otrzymałem korektę techniczną (chapeaux bas dla Pani Aleksandry z Wydawnictwa PP za fantastyczną pracę i wartościowe uwagi). Wreszcie, wczoraj zaniosłem ostateczną wersję manuskryptu, która powędrowała do drukarni…

Moja opinia na temat habilitacji nie uległa zmianie. Nadal uważam, że istnieją bardzo dobre argumenty za jej likwidacją, a także sensowne argumenty za jej pozostawieniem. To nie habilitacja stanowi problem w polskim szkolnictwie wyższym, ale złe zwyczaje i niskie standardy, brak obiektywnych miar oceny pracy naukowej i dydaktycznej, bylejakość, mizeria publikacyjna, oraz brak realnej konkurencji o miejsca pracy. Habilitacja to niewiele znaczący prefiks przed nazwiskiem. Prawdziwe znaczenie mają jakość i liczba własnych publikacji oraz pozycja międzynarodowa (członkostwo w komitetach programowych konferencji czy komitetach redakcyjnych czasopism).

Wydawnictwo obiecało, że będę mógł upublicznić rozprawę po podpisaniu stosownej umowy. Na razie mogę tylko przedstawić spis treści i streszczenie.

KDD Cup 2009 03/20/2009

Posted by Mikołaj Morzy in eksploracja danych.
7 Komentarzy

orange W tym roku konkurs KDD Cup korzysta z danych dostarczonych przez Orange. Tematyka konkursu jest poświęcona zagadnieniom Customer Relationship Management (CRM).

Podstawowe zadania związane z prezentowanym zbiorem danych obejmują

  • churn: typowanie klientów, którzy są skłonni porzucić aktualnego operatora,
  • appetency: identyfikacja klientów, którzy są skłonni skorzystać z nowych ofert lub nabyć nowy produkt,
  • up-selling: identyfikacja klientów, którzy są skłonni wybrać dodatkowe opcje, wyposażenie, lub kosztowniejszy abonament.

Konkurs przebiega w dwóch ścieżkach: szybkiej i wolnej. W ramach szybkiej ścieżki należy zbudować model w oparciu o pełny zbiór danych (15000 zmiennych). Dane zostały opublikowane 10 marca (w danych udostępniono tylko niewielką liczbę wartości atrybutu decyzyjnego na potrzeby prowadzenia testów), 6 kwietnia zostanie opublikowany zbiór danych obejmujący wszystkie wartości atrybutu decyzyjnego. Od tego momentu uczestnicy mają 4 dni na przygotowanie, przetestowanie i zgłoszenie swoich modeli. W ramach wolnej ścieżki organizatorzy dostarczają znacznie mniejszy zbiór danych (230 zmiennych), który stanie się dostępny 11 kwietnia. Ostateczny termin zgłaszania rozwiązań upływa 11 maja. W trakcie konferencji KDD’2009 odbędzie się półdniowy warsztat poświęcony konkursowi.

Na pewno będę starał się przekonać moich studentów, że warto wystartować w takim konkursie (tym bardziej, że w tym roku KDD przywędrowała do Paryża). Serdecznie zapraszam wszystkich zainteresowanych studentów, pomogę Wam pobrać dane i umieścić je w uczelnianych serwerach bazodanowych, chętnie też popracuję z Wami nad algorytmami.

Z zupełnie innej beczki (choć też chodzi o konkurs): Rowenta Trophy Extreme Ironing.

Mapa nauki 03/20/2009

Posted by Mikołaj Morzy in Uncategorized.
add a comment

Bollen et al. prezentują bardzo ciekawy artykuł „Clickstream Data Yields High-Resolution Maps of Science„. Autorzy krytykują tradycyjną metodę wyznaczania powiązań między dziedzinami nauki na podstawie cytowań prac, twierdząc, że tradycyjna miara jest pod wieloma względami obciążona błędami:

  • cytowania rzadko przekraczają granice dyscyplin,
  • cytowania pełnią rolę społeczną (np. mają na celu zadowolić potencjalnych recenzentów),
  • cytowania nie potrafią uchwycić subtelnego wpływu, jaki poszczególne dziedziny mogą na siebie wywierać,
  • nauki przyrodnicze i ścisłe są nadreprezentowane w dużych bazach danych cytowań,
  • cytowania faworyzują publikacje uznane, najczęściej starsze, nie pokazując aktualnych trendów.

Autorzy proponują całkowicie inne podejście: analizę logów serwerów www największych serwisów bibliograficznych i wiązanie dyscyplin na podstawie zapytań do baz danych publikacji naukowych. W przeprowadzonych eksperymentach autorzy zbudowali mapę nauki na podstawie miliarda (sic!) zapytań do takich serwisów jak Thomson Scientific, Elsevier, Journal STORage, Ingenta Connect, oraz 23 kampusów wchodzących w skład California State University.

Wynikiem ich pracy jest bardzo ciekawa mapa współczesnej nauki:

mapofscience

Górnicy do kilofów 03/20/2009

Posted by Mikołaj Morzy in eksploracja danych.
add a comment

gornikMarkus Persson jest (zapewne niezamierzonym) autorem pierwszej gry dotyczącej eksploracji danych (mining nuggets). Do drążenia korytarzy służy prawy klawisz myszki, lewy klawisz myszki umożliwia konstrukcję ścian. Przejście każdego poziomu wymaga zgromadzenia określonej liczby samorodków złota . Gra wymaga zainstalowanej Javy i zajmuje mniej niż 4KB.

Zasady gry są proste:

  • górnik maszeruje przed siebie tak długo, aż nie napotka ściany, po zderzeniu ze ścianą górnik zawraca, lecz istnieje 66% szansy że górnik odwracając się wykona skok (w ten sposób można tworzyć chodniki nachylone pod kątem),
  • jeśli górnik napotka złoto, zabiera ze sobą kawałek (pod warunkiem, że wcześniej nie niósł złota),
  • jeśli górnik niosący złoto dojdzie do którejkolwiek z platform startowych, odkłada złoto i wraca do pracy,
  • jeśli górnik napotka stromą ścianę, istnieje 66% szansy, że postara się przeskoczyć ścianę,
  • upadek z wysokości 100 pikseli powoduje śmierć górnika.
    miners

    Jak zapewnić unikalność kluczy w tabeli 03/19/2009

    Posted by Mikołaj Morzy in bazy danych.
    add a comment

    To jest niewiarygodne. TheDailyWTF donosi o oryginalnym pomyśle zapewniania unikalnych wartości klucza podstawowego tabeli. Czegoś takiego w życiu bym nie wymyślił.

    Przypominam sobie natomiast swojego studenta, który miał podobnie oryginalny pomysł na rozwiązanie prostego zadania: napisz skrypt PHP, który przyjmie jako parametr nazwisko pracownika, a następnie wyszuka tego pracownika w bazie danych i wyświetli dodatkowe informacje o pracowniku. Poniżej zamieszczam pseudokod rozwiązania, które zobaczyłem:

    $user = "...";
    $pass = "...";
    $db = "...";
    $name = $_GET['empname'];
    $conn = oci_connect($user,$pass,$db);
    $sql = "SELECT * FROM PRACOWNICY";
    $stmt = oci_parse($conn,$sql);
    oci_execute($stmt, OCI_DEFAULT);
    
    while ($result = oci_fetch_array($stmt)) {
        if ($name == $result['NAZWISKO'])
            echo "Pracownik ". $result['NAZWISKO']) . 
                 " pracuje jako " . $result['ETAT']) . 
                 " i zarabia " . $result['PLACA']);
        }
    

    Co gorsza, student nie rozumiał, czemu się czepiam, bo przecież działa…

    Ankieta z Rexer Analytics 03/15/2009

    Posted by Mikołaj Morzy in Uncategorized.
    5 Komentarzy

    Już po raz trzeci Karl Rexer, szef Rexer Analytics, organizuje coroczną ankietę dla praktyków eksploracji danych. Ankieta nie ma charakteru marketingowego, a jej wyniki są jawnie publikowane w postaci artykułu i prezentacji. Stanowi ona przegląd opinii i preferencji osób, które zawodowo zajmują się eksploracją danych.

    http://rexeranalytics.com/Data-Miner-Survey-Intro.html (czas ok. 15 minut)

    Krzyżówka z eksploracji danych! 03/15/2009

    Posted by Mikołaj Morzy in eksploracja danych.
    1 comment so far

    crosswordWow! Tego jeszcze nie było. KDNuggets publikuje pierwszą na świecie krzyżówkę poświęconą eksploracji danych. Chwytajcie póki gorące, to niepowtarzalna okazja zabłysnąć w towarzystwie, zaimponować dziewczynie, lub zawstydzić bardziej elokwentnego kolegę. Konkurencja niewielka, bo i niewiele osób potrafi taką krzyżówkę rozwiązać (choć, wbrew nazwie, hasła z krzyżówki obejmują dość szeroki obszar, a część odpowiedzi jest dostępna nawet dla profanów).

    Nie musicie rozwiązywać krzyżówki online, możecie sobie pobrać krzyżówkę w formacie pdf i rozwiązać ją w wolnej chwili. Gregory Piatetsky-Schapiro czeka na rozwiązania do 17 marca

    Mapa konferencji zgłaszanych do DBWorld 03/08/2009

    Posted by Mikołaj Morzy in nauka.
    Tags: ,
    add a comment

    Sam się sobie dziwię, że wcześniej na to nie wpadłem. Lista DBWorld jest podstawowym źródłem informacji o konferencjach, warsztatach, ofertach pracy i nowych książkach z szeroko pojętej tematyki baz danych.

    W Aachen powstała aplikacja do wizualizacji i porządkowania zgłoszeń o nadchodzących konferencjach. Nazywa się DBWorldMap i jest całkiem udana. Mamy do dyspozycji kalendarz z możliwością wyświetlania informacji o konferencjach wg. daty rozpoczęcia, daty nadsyłania artykułów, lub daty ogłoszenia informacji o konferencji. Interaktywna mapa umożliwia wizualizację miejsc odbywania się konferencji. Mamy też do dyspozycji wyszukiwarkę, która umożliwia zawężenie wyszukiwania tylko do ogłoszeń o konferencjach, ogłoszeń o pracę, ogłoszeń o książkach, itd. Na poniższym zrzucie pokazuję konferencje, których termin zgłaszania artykułów mieści się w przedziale między 3 marca a 31 sierpnia 2009, i które odbywają się niedaleko Poznania.

    dbworldmap

    %d blogerów lubi to: