jump to navigation

Tatuaże 05/29/2009

Posted by Mikołaj Morzy in Uncategorized.
add a comment

tatooZamiast banalnego szlaczka na nodze młodzież politechniczna powinna rozważyć taką formę promowania nauki.

Zagadka 05/29/2009

Posted by Mikołaj Morzy in Uncategorized.
11 comments

question markW trakcie semestru zadawałem studentom na przedmiocie „Eksploracja danych” zagadki, których celem miała być gimnastyka umysłowa. Ponieważ skończyliśmy już podstawowy cykl zajęć, skończyły się też zagadki, których rozwiązanie jest premiowane podwyższeniem oceny. Żeby jednak studenci nie wypadli z wprawy, mam zamiar raz na jakiś czas umieszczać tu zagadki, których rozwiązania możecie wpisywać w komentarzach. Zaczynamy od prostej łamigłówki arytmetycznej.

Rozważmy liczbę 135. Suma cyfr wynosi 1+3+5=9. A jeśli podwoimy liczbę, to mamy 2*135=270, 2+7+0=9. Rozważmy wszystkie liczby trzycyfrowe, jakie możemy utworzyć ze zbioru \{1,3,5\}:

  • 153, 1+5+3=9; 2*153=306, 3+0+6=9
  • 531, 5+3+1=9; 2*531=1062, 1+0+6+2=9

Okazuje się, że wszystkie kombinacje mają tę samą własność, a mianowicie, suma cyfr w oryginalnej liczbie jest taka sama, jak suma cyfr w podwojonej liczbie.

Pytanie: ile istnieje trzycyfrowych liczb zawierających co najmniej jedną cyfrę 1, które posiadają powyższą własność?

Konkurs eksploracyjny organizowany przez USCD 05/29/2009

Posted by Mikołaj Morzy in eksploracja danych, nauka.
Tags:
add a comment

UCSDLogoUniwersytet Californijski w San Diego i firma Fico organizują konkurs dotyczący eksploracji danych. Zadanie polega na znalezieniu anomalii w dużym zbiorze danych pochodzących z e-biznesu. Na konkurs składają się dwa oddzielne zadania:

  • maksymalizacja dokładności klasyfikacji binarnej (każdy rekord jest sklasykowany jako „normalny” lub „anomalia”) na przedstawionym testowym zbiorze danych, przy czym zbiór uczący jest w pełni poetykietowany, miarą jest lift przy odcięciu 20%,
  • maksymalizacja dokładności klasyfikacji binarnej na przedstawionym testowym zbiorze danych, który został wzbogacony o dodatkowe atrybuty, które są trudne do przeanalizowania, a jednocześnie niosą ze sobą użyteczną informację.

Udział w konkursie jest otwarty dla wszystkich studentów pierwszego i drugiego stopnia studiów oraz dla wszystkich pracowników naukowych, zatrudnionych w jednostkach akademickich. Pozostałe osoby mogą uczestniczyć w konkursie, ale nie otrzymają nagrody (do podziału jest $8000 dla najlepszych rozwiązań obu zadań). W konkursie mogą brać udział zarówno grupy, jak i indywidualne osoby.

Konkurs rozpoczął się 15 maja i trwa do 15 lipca. Udział w konkursie to możliwość sprawdzenia siebie i swojej wiedzy, dreszczyk emocji, a w przypadku zajęcia wysokiego miejsca bardzo ładny element w CV. Serdecznie zapraszam wszystkich zainteresowanych studentów, mogę zająć się zorganizowaniem serwera, ściągnięciem i załadowaniem danych, oraz opieką merytoryczną. Jeśli jesteście zainteresowani i chcecie poświęcić parę wieczorów na zabawę w eksplorację danych, nie czekajcie tylko zgłaszajcie się do mnie drogą mejlową lub osobiście na uczelni.

Tematy prac magisterskich 2010 05/18/2009

Posted by Mikołaj Morzy in nauka.
add a comment

writing Dostałem oficjalną zgodę, więc mogę opublikować swoje propozycje tematów prac magisterskich na rok 2010. Proszę pamiętać, że nie decyduje kolejność zgłoszeń, a jedynie wynik „rozmowy kwalifikacyjnej” oraz średnia z dotychczasowego przebiegu studiów. Jeśli uznacie Państwo, że któryś z tematów szczególnie Was interesuje, proszę o umawianie się drogą mejlową, chętnie opowiem więcej o każdym temacie, podyskutujemy o możliwych szczegółach implementacyjnych.

Feedback Miner – system do eksploracji komentarzy w serwisie aukcyjnym

Celem pracy jest opracowanie i implementacja zbioru narzędzi, które wspomogą użytkowników serwisu aukcyjnego Allegro poprzez inteligentną analizę i wizualizację danych dotyczących komentarzy oraz reputacji potencjalnych kontrahentów. Produktem finalnym projektu jest wtyczka do przeglądarki lub zestaw skryptów Greasemonkey oferujący pożądaną funkcjonalność. Podstawą pracy jest literatura oraz bogaty zestaw rzeczywistych danych dostarczone przeze mnie.

Lista zadań szczegółowych obejmuje:

  • zapoznanie się z literaturą dotyczącą eksploracji danych tekstowych,
  • opracowanie modeli eksploracji danych tekstowych ze szczególnym uwzględnieniem algorytmów odkrywania cech,
  • implementacja środowiska eksploracji komentarzy tekstowych, publikacja interfejsu w postaci usługi sieciowej,
  • opracowanie i implementacja komponentu klienckiego (wtyczka lub skrypty JS).

Możliwe narzędzia do implementacji: Java, JavaScript, Apache Lucene, Weka, LingPipe, Morfologik, PL/SQL

ContextDB – system zarządzania kontekstową bazą danych i generator aplikacji WWW

Celem pracy jest implementacja koncepcji kontekstowego systemu zarządzania bazą danych. Częścią KSZBD jest generator aplikacji WWW, który automatycznie tworzy widoki danych właściwe dla bieżącego kontekstu. W ramach projektu należy opracować operatory kontekstowego modelu danych (selekcja, wywodzenie, porządkowanie), generator aplikacji WWW oraz wybrane konteksty domyślne (kalendarz). Produktem finalnym projektu jest w pełni funkcjonalny prototyp kontekstowego systemu bazy danych.
Lista zadań szczegółowych obejmuje:

  • zapoznanie się z technologiami potrzebnymi do implementacji projektu i wybór pomocniczych bibliotek i architektur szkieletowych,
  • implementacja kontekstowego modelu danych,
  • implementacja generatora aplikacji WWW

Możliwe narzędzia do implementacji: Java, JavaScript, PL/SQL, .NET, Oracle ADF, JavaServer Faces, Spring MVC, …

osobiście uważam, że to najciekawszy i najbardziej wymagający projekt, ale efekt końcowy może być fantastyczny

Wielowymiarowa analiza sieci społecznych

Celem projektu jest opracowanie i implementacja środowiska wielowymiarowej analizy sieci społecznych. Środowisko MDSNA umożliwia implementację operatorów analizy wielowymiarowej w odniesieniu do sieci społecznych (pivot, drill-down, roll-up, center), import i eksport danych oraz wizualizację uzyskanych wyników. Projekt wymaga dogłębnego zapoznania się z analizą sieci społecznych (ang. SNA, social network analysis), a także biegłej znajomości modelu przetwarzania OLAP (online analytical processing).

Lista zadań szczegółowych obejmuje:

  • zapoznanie się z literaturą dotyczącą analizy sieci społecznych,
  • wybór operatorów do analizy wielowymiarowej sieci społecznych,
  • implementacja środowiska do wielowymiarowej analizy sieci społecznych.

Możliwe narzędzia do implementacji: Java, JavaScript, EJB 3.0, PL/SQL, …

Doktorat honoris causa dla… 05/13/2009

Posted by Mikołaj Morzy in nauka.
add a comment

People Dolly's Degree O mały włos przegapilibyśmy istotne zdarzenie w świecie akademickim. Jak donosi Huffington Post, Uniwersytet Tennessee w Knoxville (gdzie to do cholery jest?) postanowił nadać tytuł doktora honoris causa Dolly Parton. Z właściwą miłośnikom country finezją pani Parton zażartowała z tytułu, nawiązując jak zwykle do rozmiaru swojego biustu: „jestem teraz dr Dolly, nareszcie ludzie mówiąc o ‚podwójnych D’ będą mieli na myśli coś zupełnie innego”.

Myślę, że Politechnika Poznańska powinna rozważyć na poważnie możliwość nadania tytułu doktora h.c. Beacie Kozidrak, która ma z dr Parton tak wiele wspólnego. Duży cyc, zła fryzura, koszmarna muzyka i równie imponujące osiągnięcia na niwie nauki. Zgłaszajcie swoje propozycje, koniecznie wraz z uzasadnieniem.

Eksploracja danych i muzyka (part 1) 05/12/2009

Posted by Mikołaj Morzy in eksploracja danych, muzyka.
Tags: ,
5 comments

album-against-the-grain Otwieram nowy dział w blogu. Co jakiś czas będę starał się prezentować piosenki tematycznie związane z eksploracją danych. Wszelkie komentarze i sugestie bardzo mile widziane, jeśli znajdziecie cokolwiek pasującego np. do reguł asocjacyjnych, klasyfikacji bayesowskiej lub analizy skupień, piszcie.

Jakiś czas temu na laboratorium z eksploracji danych przerabialiśmy metody indukcji drzew decyzyjnych i omawialiśmy różne kryteria oceny jakości podziału bieżącej partycji. Między innymi, mówiliśmy o entropii. Zatem zaczynamy od mojego ukochanego zespołu Bad Religion i utworu z płyty Against the Grain, zatytułowanego, a jakże, „Entropy„. Poniżej słowa i sama piosenka.

random blobs of power expressed as that which we all disregard,
ordered states of nature on a scale that no one thinks about,
don’t speak to me of anarchy or peace or calm revolt,
man, we’re in a play of slow decay orchestrated by boltzmann,

it’s entropy, it’s not a human issue,
entropy, it’s a matter of course,
entropy, energy at all levels,
entropy, from it you can not divorce
and your pathetic moans of suffrage tend to lose all significance,

extinction, degradation;
the natural outcomes of our ordered lives,
power, motivation; temporary fixtures for which we strive,
something in our synapses assures us we’re ok
but in our disquilibrium we simply can not stay,
it’s entropy……

a stolid proposition from a man unkempt as I,
my affectatious nature I can not rectify,
but we are out of equilibrium unnaturally,
a pang of consciousness of death
and then you will agree

05/12/2009

Posted by Mikołaj Morzy in nauka.
Tags: , ,
add a comment

tr4web Mam nadzieję, że tym razem już naprawdę po raz ostatni piszę o naszym warsztacie. Decyzją organizatorów konferencji ADBIS zmienił się kalendarz zgłoszeń na wszystkie warsztaty i wygląda następująco:

  • termin zgłaszania artykułów: 18 maja 2009
  • termin powiadomień o przyjęciu artykułu: 15 czerwca 2009
  • termin przesyłania wersji CR artykułów: 27 czerwca 2009

Od ostatniego czasu zaszły pewne zmiany. Po pierwsze, wszystkie artykuły prezentowane w trakcie warsztatu zostaną opublikowane przez Springera w serii Lecture Notes in Computer Science. Po drugie, wybrane artykuły zostaną zaproszone do szybkiej publikacji w czasopiśmie ACM Journal of Data and Information Quality.

Muszę jeszcze napisać nowy CFP (call for papers) i wysłać na listy dyskusyjne poświęcone konferencjom naukowym. Wiele osób w zabawny sposób usprawiedliwia fakt zmiany harmonogramu. Przejrzałem archiwum listy DB-World i pozbierałem najczęstsze usprawiedliwienia:

  • Due to popular request, the deadline for the X has been extended to …
  • Due to organizational reasons, the deadlines for the X have been extended to …
  • Due to many requests, the paper submission deadline has been extended to …
  • Due to numerous requests, the paper submission deadline is extended to …
  • Due to repeated requests, the deadline is extended to …
  • Because of a large number of requests, the submission date for the X has been extended to …
  • Due to author reqests, the paper deadline is now extended to …
  • Due to numerous requests from author, the submission deadline is extended to …
  • Following numerous requests, the deadline for the submission of papers has been extended to …
  • Due to request of delaying the submission by several authors, the deadline of X for submitting full paper has been extended to …

To jest trochę orwellowskie, bo i tak wszyscy wiedzą, o co chodzi: na konferencję X przesłano zbyt mało artykułów, aby dokonać sensownej selekcji.

Eksploracja danych tylko w sześciu słowach 05/12/2009

Posted by Mikołaj Morzy in eksploracja danych.
Tags:
add a comment

KDNuggets ogłosiło konkurs na historie dotyczące eksploracji danych. Każda historia miała liczyć sobie dokładnie… sześć słów. Oto najciekawsze zgłoszenia:

  • Mining data. Almost done. Computer crashes.
  • Came. Saw. Mined. Found. Validated. Satisfied.
  • Only six words? Get more data!
  • Great expectations, awesome results, not implemented.
  • bzqesn too tholwkw much poijjezq noise.
  • Sample, Model; Whoops — worse than random!
  • Garbage data in, garbage model out.

Na wieczór przygotowuję dłuższy post, w którym mam też zamiar wytłumaczyć się z dłuższego okresu milczenia.

%d bloggers like this: