jump to navigation

Znów hermetyczny humor 09/30/2009

Posted by Mikołaj Morzy in Uncategorized.
add a comment

W dniach 24-25 września odbył się w Pittsburgu szczyt G20. Nie obyło się przy tym bez tradycyjnych protestów. Protestowali anarchiści, antyglobaliści, alterglobaliści, działacze ekologiczni, działacze organizacji pokojowych, kibice Pittsburgh Steelers, reprezentanci Greenpeace oraz … eksploratorki i eksploratorzy danych.

Pracownicy Machine Learning Department uniwersytetu Carnegie Mellon postanowili podzielić się ze światem swoimi postulatami, między innymi:

  • support vector machines!
  • free variables!
  • bayesians against discrimination! (moje ulubione)
  • ban genetic algorithms!

Niestety, postulaty są tak hermetyczne, że jest mało prawdopodobne, żeby znalazły szersze poparcie.

protestsPełną kolekcję zdjęć można zobaczyć tutaj.

I jeszcze jeden zbiór danych 09/28/2009

Posted by Mikołaj Morzy in eksploracja danych, zbiór danych.
1 comment so far

nycTym razem Big Apple udostępnia swoje zbiory danych. Nie są to zbiory tak bogate jak zbiory San Francisco lub kolekcja data.gov, tym niemniej można tam znaleźć kilka ciekawostek.Fascynująca jest tendencja otwierania danych na zewnątrz i ich udostępniania w celach naukowych, badawczych lub tak, po prostu. W końcu w danych o podmiotach publicznych jest ukryta wiedza, która w naturalny sposób przynależy do domeny publicznej. I od razu chce mi się biadolić nt. często spotykanej w Polsce urzędniczej manii tajności dokumentów i danych.

Zbiory nowojorskie są podzielone logicznie na kategorie:

  • health survey
  • population census
  • income census
  • american community survey
  • social indicators survey
  • crime statistics
  • NYC department of city planning
  • NYC department of education

Część zbiorów danych jest od razu wyposażona w narzędzia wizualizacyjne.

Całość danych jest udostępniona przez Population Research Center uniwersytetu Columbia i dostępna tutaj.

TR4Web – ostatni wpis 09/25/2009

Posted by Mikołaj Morzy in Uncategorized.
add a comment

tr4webMiało już nie być więcej o warsztacie TR4Web, który odbył się w Rydze dwa tygodnie temu, ale postanowiłem jeszcze ostatni raz wspomnieć o tym wydarzeniu.

Uaktualniłem stronę warsztatu i dodałem:

  • slajdy z prezentacji
  • wszystkie artykuły prezentowane w czasie warsztatu
  • zdjęcia zrobione w trakcie warsztatu i w trakcie moich spacerów po Rydze

Wszystko to jest dostępne na stronie warsztatu: http://www.cs.put.poznan.pl/tr4web/programm.html

W przyszłym roku konferencja ADBIS (a wraz z nią wszystkie warsztaty) wędruje do Nowego Sadu w Serbii. Ponieważ postanowiłem powtórzyć warsztat, już teraz zachęcam do rozważenia możliwości wysłania swojego artykułu (publikacja w LNCS za 100 EUR nie chodzi piechotą).

SWEETpedia 09/10/2009

Posted by Mikołaj Morzy in nauka.
Tags: ,
2 comments

Jestem w trakcie przygotowywania wykładu pt. „Semantic Web”, który będzie sobą obejmował podstawowe elementy sieci semantycznej: składowanie danych w RDF, ontologie w RDFS, języki OWL, inteligentni agenci, usługi sieciowe typu REST, logika, zaufanie, itp. Natknąłem się na ciekawe zestawienie artykułów naukowych dotyczących wykorzystywania Wikipedii w kontekście sieci semantycznej. Artykuły dotyczą, między innymi, identyfikacji nazwanych encji, rozróżniania słów wieloznacznych, ontologii, wydobywania informacji, automatycznego tłumaczenia, konstrukcji hierarchii konceptów, itp. W chwili obecnej kolekcja liczy 227 artykułów i stanowi niezbędnik każdego badacza, zajmującego się siecią semantyczną.

Kolekcja artykułów nazywa się SWEETpedia.

Eksploracja danych i muzyka (part 3) 09/03/2009

Posted by Mikołaj Morzy in muzyka.
1 comment so far

Arjen Anthony Lucassen to holenderski gitarzysta-multiinstrumentalista, który w 2004 roku popełnił operę w stylu rocka progresywnego. Dzieło nosi tytuł Into the Electric Castle i jest mieszanką wszyskiego: rock progresywny, jazz, metal progresywny, fusion, itp. Tak przynajmniej twierdzi recenzent allmusic.com, ponieważ ja nie jestem w stanie udźwignąć wysłuchania nawet jednego utworu. Zdecydowanie za bardzo pachnie mi to latami 80-tymi. Czemu więc zawdzięczamy króciutki wpis o artyście i jego albumie? Zawdzięczamy to piątemu utworowi na płycie, który nosi tytuł The Decision Tree (We’re Alive)

Tak, tak, bardzo starzy czytelnicy tego bloga trafnie rozpoznali na wokalu Fisha z Marillion.

Kwartet Anscombe’a 09/02/2009

Posted by Mikołaj Morzy in eksploracja danych, nauka.
add a comment

Francis Anscombe był angielskim statystykiem, który dużą część życia spędził na uniwersytetach Yale i Princeton. Anscombe był jednym z pionierów analizy wizualnej i często podkreślał istotność wizualizacji zbioru danych poddawanego analizie. Na potrzeby ilustracji stworzył cztery proste zbiory danych, nazwane kwartetem Anscombe’a.

anscombeCo jest takiego ciekawego w tych czterech zbiorach? Otóż wszystkie cztery mają dokładnie te same własności statystyczne:

  • średnia \overline{x_i}= 9.0
  • wariancja \sigma^2_x= 10.0
  • średnia \overline{y_i}= 7.5
  • wariancja \sigma^2_y= 3.75
  • korelacja \rho_{x,y}= 0.816
  • regresja liniowa: y = 0.5x + 3

Ten przykład dobitnie pokazuje, jak istotne jest zapoznanie się i zaprzyjaźnienie z eksplorowanymi danymi.

Informatyka musi wydorośleć 09/01/2009

Posted by Mikołaj Morzy in nauka.
add a comment

acm_logoW najnowszym numerze Communications of the ACM Lance Fortnow publikuje arcyciekawy artykuł pt. „Najwyższy czas aby informatyka wydoroślała„, w którym agresywnie atakuje aktualny sposób dysseminacji wiedzy w środowisku naukowym. Otóż wg. Fortnowa informatyka, w przeciwieństwie do większości „dorosłych” dyscyplin naukowych, jako główną platformę publikacji wyników badawczych wykorzystuje materiały konferencyjne, zamiast czasopism. Dlaczego jest to złe? Ponieważ konferencje mają służyć czterem celom: ocenie publikacji i naukowców, upublicznianiu wyników badań, tworzeniu sieci społecznych między naukowcami, oraz dyskutowania zagadnień uznawanych przez środowisko za kontrowersyjne. Ponieważ informatyka skupiła się tylko i wyłącznie na pierwszym celu, w wyniku otrzymaliśmy sytuację, w której mamy zdecydowanie zbyt dużo zbyt drogich konferencji. Marnujemy swój czas i pieniądze podatników, mimo, że istnieją lepsze i tańsze sposoby publikacji wyników pracy naukowej. Wiele uniwersytetów wykorzystuje listy publikacji przy ocenie kandydatów, promocjach, awansach, itp. Jako że znakomita większość dorobku naukowego większości informatyków stanowią publikacje w materiałach konferencyjnych, w naturalny sposób stały się one podstawą do oceny jakości pracy badawczej kandydatów. A przecież nie do tego (albo nie tylko do tego) służą konferencje. Z jednej strony, powstało bardzo wiele konferencji, często o bardzo wąsko zdefiniowanych zakresach poruszanych tematów, z drugiej strony, konferencje zrobiły się bardzo drogie (myślę, że faktycznie możemy szacować koszt udziału w konferencji zagranicznej na ok. 800-1000 EUR wliczając koszt zakwaterowania, podróży i opłaty konferencyjnej, że o dietach nie wspomnę). W efekcie żadko się zdarza, aby w konferencji brał udział ktokolwiek, kto nie jest jednocześnie autorem publikacji. Zawęża to możliwości tworzenia prawdziwych sieci między naukowcami, a także ogranicza możliwość zawiązania się konstruktywnej dyskusji po każdej prezentacji. Dominacja konferencji nad czasopismami była usprawiedliwiona do lat 80-tych, kiedy to młoda, dynamiczna dyscyplina potrzebowała szybkiej możliwości publikacji wyników. W chwili obecnej, aktualny model przynosi więcej szkód niż korzyści.

Fortnow zauważa także inne niepokojące aspekty konferencyjnej dominacji. Komitety programowe czołowych konferencji są zdominowane przez przedstawicieli „topowych” uniwersytetów, co nieuchronnie pociąga za sobą faworyzowanie własnych dyplomantów, znajomych, czy współpracowników (i ta praktyka jest niejawnie akceptowana jako norma w środowisku). Zwiększająca się liczba konferencji powoduje też zawężenie ich zakresu, co skutkuje „taplaniem się we własnym sosie”, niemożnością nawiązania szerszych kontaktów, czy np. wyjściem poza sztywne ramy wąsko pojmowanej specjalizacji i nawiązaniem współpracy z reprezentantami innych dyscyplin. Największy cios jednak spotyka to, co w nauce najcenniejsze: jej delikatny i subtelny mechanizm samokontroli i samooczyszczania, zwany „peer review„, czyli procedurą recenzowania. Zbyt wiele artykułów próbuje walczyć o zbyt mało miejsc w materiałach konferencyjnych, a proces przyjmowania artykułów cierpi z wielu powodów:

  • recenzenci są obciążani nadmierną liczbą publikacji do recenzji,
  • wiele recenzji jest zlecanych „w dół”, do adiunktów i asystentów, więc o programie konferencji często decydują ludzie bez odpowiedniego doświadczenia i wiedzy,
  • zgłaszane wyniki (ze względu na limit stron) są podawane tak nieczytelnie, że nie sposób rzetelnie ocenić wartości prezentowanej pracy,
  • członkowie komitetów programowych faworyzują znane sobie metody lub artykuły dotyczące ich specjalizacji,
  • brak mechanizmów dyskusji i wymiany opinii między autorami a recenzentami

W efekcie autorzy dostają 3-4 zdawkowe nieistotne recenzje, przygotowywane na kolanie i na ostatnią chwilę, zamiast 2 porządnych prawdziwych recenzji (jakie za zwyczaj przychodzą z czasopisma). Prace przesyłane na konferencję są pisane pod dyktando terminów zgłaszania (a nie faktycznego zakończenia badań), a wielu naukowców idzie śladami Siergieja Bubki i publikuje LPU (least publishable unit), najmniejszy fragment badań który, w połączeniu z nazwiskiem, gwarantuje przyjęcie artykułu. I niestety nowo podjęte kroki naprawsze (ciągły nabór artykułów do VLDB, ślepe recenzje wymuszające usunięcie wszystkich referencji do siebie czy swoich prac, wielopoziomowe komitety programowe, możliwość wysyłania odpowiedzi recenzentom przed ostateczną publikacją recenzji) nie rozwiązują problemu w 100%. No i materiały konferencyjne pozwalają opublikować wyniki już nawet w przeciągu 6 miesięcy, podczas gdy publikacja w czasopiśmie zajmuje 1-2 lata.

Fortnow proponuje, aby jak najszybciej przejść na spoób praktykowany przez inne dyscypliny: najwyżej cenić publikacje w czasopismach, konferencje na nowo uczynić miejscem fermentu intelektualnego, dyskusji i wymiany poglądów, zezwollić na prezentacje bez publikacji (poszerzając grono potencjalnych uczestników konferencji) oraz zmienić fundamentalnie sposób prezentacji wyników badawczych (otwarte czasopisma, WWW).

Our conference system forces researchers to focus too heavily on quick, technical, and safe papers instead of considering broader and newer ideas. Meanwhile, we have devoted much of our time and money to conferences where we can present our research that we can rarely attend conferences and workshops to work and socialize with our colleagues. Computer science has grown to become a mature field where no major university can survive without a strong CS department. It is time for computer science to grow up and publish in a way that represents the major discipline it has become.

To bardzo ciekawy i dający do myślenia artykuł. Serdecznie zapraszam do lektury.

post scriptum

Dyskusję, jaka wywiązała się po publikacji artykułu, można śledzić na blogu Lance’a Fortnowa.

Jeśli to kogoś interesuje, to jest też dostępna wstępna wersja artykułu.

%d bloggers like this: