jump to navigation

Claremont Report 12/28/2008

Posted by Mikołaj Morzy in bazy danych, nauka.
1 comment so far

researchGrupa luminarzy świata baz danych spotkała się w Berkeley aby przedyskutować dalsze kierunki rozwoju dziedziny. Lista uczestników zapiera dech w piersiach: Rakesh Agrawal, Anastasia Ailamaki, Philip A. Bernstein, Eric A. Brewer, Michael J. Carey, Surajit Chaudhuri, AnHai Doan, Daniela Florescu, Michael J. Franklin, Hector Garcia-Molina, Johannes Gehrke, Le Gruenwald, Laura M. Haas, Alon Y. Halevy, Joseph M. Hellerstein, Yannis E. Ioannidis, Hank F. Korth, Donald Kossmann, Samuel Madden, Roger Magoulas, Beng Chin Ooi, Tim O’Reilly, Raghu Ramakrishnan, Sunita Sarawagi, Michael Stonebraker, Alexander S. Szalay, Gerhard Weikum. Spotkanie było kontynuacją serii wcześniejszych spotkań, które odbywały się w latach 1988, 1990, 1995, 1996, 1998 i 2003.

Wynikiem spotkania jest The Claremont Report on Database Research, absolutne must-read dla wszystkich zajmujących się bazami danych i eksploracją danych. Na stronie spotkania znajdują się także wszystkie prezentacje w natywnym formacie. Paul Heymann ze Stanford InfoBlog umieścił wszystkie prezentacje online na SlideShare.

Nowa książka 12/27/2008

Posted by Mikołaj Morzy in eksploracja danych, nauka.
1 comment so far

datamining-knowitallPojawiła się nowa książka dotycząca eksploracji danych. Jest to zbiorcza publikacja pt. „Data Mining: Know it All„, przygotowana przez czołowych specjalistów w dziedzinie. Lista autorów jest imponująca: Soumen Chakrabarti, Earl Cox, Eibe Frank, Ralf Hartmut Gaeting, Jiawei Han, Xia Jiang, Micheline Kamber, Sam S. Lightstone, Thomas P. Nadeau, Richard E Neapolitan, Dorian Pyle, Mamdouh Refaat, Markus Schneider, Toby J. Teorey i Ian H. Witten.

Cytując za wydawcą:

This book brings all of the elements of data mining together in a single volume, saving the reader the time and expense of making multiple purchases. It consolidates both introductory and advanced topics, thereby covering the gamut of data mining and machine learning tactics ? from data integration and pre-processing, to fundamental algorithms, to optimization techniques and web mining methodology.

The proposed book expertly combines the finest data mining material from the Morgan Kaufmann portfolio. Individual chapters are derived from a select group of MK books authored by the best and brightest in the field. These chapters are combined into one comprehensive volume in a way that allows it to be used as a reference work for those interested in new and developing aspects of data mining.

This book represents a quick and efficient way to unite valuable content from leading data mining experts, thereby creating a definitive, one-stop-shopping opportunity for customers to receive the information they would otherwise need to round up from separate sources.

  • Chapters contributed by various recognized experts in the field let the reader remain up to date and fully informed from multiple viewpoints.
  • Presents multiple methods of analysis and algorithmic problem-solving techniques, enhancing the reader’s technical expertise and ability to implement practical solutions.
  • Coverage of both theory and practice brings all of the elements of data mining together in a single volume, saving the reader the time and expense of making multiple purchases.

Mam zamiar zamówić swoją kopię natychmiast po powrocie do pracy.

Najpiękniejszy wzór matematyki 12/26/2008

Posted by Mikołaj Morzy in nauka.
add a comment

euler Dziś natknąłem się na wideo, które może być  bardzo dobrym zwieńczeniem okresu świątecznego. Pamiętam omawianie tożsamości Eulera na wykładach z analizy matematycznej, ale wcześniej nie trafiało do mnie, jak ważnym, eleganckim i pięknym wzorem jest ta formuła.

e^{i\pi}+1=0

Poniższy filmik prezentuje zarówno wzór, jak i jeden z możliwych dowodów (przez sumowanie rozwinięć funkcji trygonometrycznych). Przypomniało mi się od razu „Rozplatanie tęczy” Richarda Dawkinsa (recenzje) z całym zachwytem nad pięknem nauki.

Impact Factor vs EigenFactor 12/25/2008

Posted by Mikołaj Morzy in nauka.
add a comment

eigenvectorPodstawowym miernikiem jakości pracy naukowej jest liczba cytowań artykułów danej osoby. Ponieważ śledzenie wszystkich cytowań jest trudne (a czasem niemożliwe), uogólnia się liczbę cytowań z poziomu indywidualnego naukowca na poziom czasopisma, w którym opublikowano pracę. Pielęgnacją liczników cytowań do poszczególnych czasopism zajmował się Instytut Informacji Naukowej, przejęty później przez Thomson Reuters i przekształcony w Thomson Scientific. Podstawową miarą wykorzystywaną do oceny „jakości” czasopisma jest Impact Factor (IF). Formuła wyliczania IF dla danego roku n jest trywialna, IF(n)=A/B, gdzie A jest liczbą cytowań artykułów z dwóch poprzedzających lat, a B jest liczbą „cytowalnych” artykułów z tego samego okresu (do mianownika nie wlicza się listów edytorskich czy korespondencji z wydawcą). W trakcie pierwszych dwóch lat istnienia czasopisma nie posiada ono współczynnika IF. Innymi słowy, czasopismo X ma IF(2008)=1 jeśli każdy artykuł zamieszczony w tym czasopiśmie w latach 2006-2007 został średnio zacytowany jeden raz.

Od razu rzucają się w oczy podstawowe problemy i wątpliwości związane z użyciem tej miary do oceny jakości pracy naukowej:

  • miara ocenia jakość czasopism, a nie jakość indywidualnych publikacji, jakość publikacji może być bardzo różna w ramach jednego czasopisma,
  • niektóre publikacje w naturalny sposób zdobywają więcej cytowań, dotyczy to w szczególności publikacji przekrojowych, prezentujących np. aktualny stan badań w danej dziedzinie, artykuły opisujące najnowsze odkrycia naukowe są cytowane mniej chętnie,
  • liczba cytowań może silnie zależeć od zwyczajów panujących w danej dziedzinie naukowej, w niektórych dziedzinach tradycyjnie umieszcza się w publikacjach bardzo obszerną bibliografię, w innych bibliografia jest ograniczona tylko do kluczowych pozycji,
  • szerokość okna czasowego jest zbyt mała, wiele artykułów, które zapoczątkowały nowe kierunki badań, jest cytowanych przez wiele lat od daty ich publikacji,
  • wiele cytowań wliczanych do IF to cytowania własne, gdzie autor(ka) artykułu cytuje swoją wcześniejszą pracę,
  • do wyliczania IF wykorzystuje się tylko czasopisma indeksowane przez Web of Knowledge, nie uwzględnia się publikacji internetowych ani książek,
  • IF jest bardzo silnie związany z literaturą anglojęzyczną, na liście indeksowanych czasopism jest niewiele pozycji w językach innych niż angielski,
  • miara jest nieodporna na manipulację.

Oczywiście, IF ma też sporo zalet: Web of Knowledge zawiera 9000 czasopism, miara może być stosowana do porównywania dorobku publikacyjnego w różnych dziedzinach, potrafi ewoluować w czasie. Z mojego punktu widzenia największym problemem związanym z IF jest korzystanie z cytowania bez uwzględnienia jakości cytowania. To problem bardzo podobny do problemu określania reputacji użytkowników aukcji internetowych na podstawie anonimowych komentarzy (pisaliśmy o tym z Adamem Wierzbickim w naszej pracy „Eksploracja aukcji internetowych w poszukiwaniu pozytywnej i negatywnej reputacji sprzedawców„). Każdy, kto kiedykolwiek spotkał się z algorytmem PageRank, szybko zauważy, że algorytm ten idealnie nadaje się do oceny jakości czasopism.

Na szczęście, grupa entuzjastów nie tylko wpadła na ten pomysł, ale go zrealizowała i udostępniła wyniki. Algorytm, zwany EigenFactor, wyznacza ważność czasopisma analogicznie do algorytmu PageRank. Na stronie eigenfactor.org umieszczono zarówno ranking czasopism z poszczególnych dyscyplin naukowych, jak i wizualną mapę powiązań między dyscyplinami naukowymi. Najważniejsze, że metoda sprawdza się w praktyce. W mojej dziedzinie najlepsze, według EigenFactor, są następujące czasopisma:

  • Journal of the ACM
  • IEEE Transactions on Knowledge and Data Engineering
  • Information Processing Letters
  • VLDB Journal
  • ACM Transactions on Information Systems
  • ACM Transactions on Database Systems
  • SIGMOD Records

Poza miarą EigenFactor autorzy przygotowali także Article Influence Score, która z grubsza odpowiada aktualnie wykorzystywanemu IF, dzięki czemu można zaobserwować różnice między obiema miarami. Póki co, na razie nic nie wskazuje aby Ministerstwo Nauki i Szkolnictwa Wyższego czy poszczególne uczelnie miały odstąpić od wykorzystywania IF przy rozliczaniu pracy naukowej.

Seminarium poświęcone Wikipedii 12/04/2008

Posted by Mikołaj Morzy in sieci społeczne.
3 komentarze

wikipedia1W bieżącym roku akademickim Zarząd Oddziału Wielkopolskiego PTI wzorem ubiegłych lat bedzie organizował otwarte seminaria poświęcone różnym aspektom technologii informacyjnej. Pierwsze  seminarium odbędzie się 9 grudnia 2008 o godz. 18.30 w Centrum Wykładowym Politechniki Poznańskiej – ul. Piotrowo 2, sala nr 13.  Seminarium jest otwarte dla wszystkich zainteresowanych.

Temat seminarium: „Wikipedia (nie tylko polska) na rozdrożu”

Prelegentem będzie dr Janusz Dorożyński – czynny i bardzo aktywny wikipedian, autor prawie 5000 edycji, uczestniczący w życiu społeczności, w tym ivl, ale takze irl. W PTI od 1985 roku, członek Zarządu Oddziału
Wielkopolskiego poprzedniej kadencji, obecnie członek Zarządu Głównego.

Poniżej streszczenie wykładu.

Wikipedia jest z nami już siedem lat. Z szalonego pomysłu wyrosła nie tylko na instytucję, nie tylko na zasób wszelakich informacji a’la „Nowe Ateny”, ale też na symbol i punkt odniesienia szerszy niż ona sama i nazwany wikinomia. I pomimo swego wikinomicznego charakteru, czyli dobrowolnego i bezpłatnego oddawania owoców swojej pracy przez wikispołeczności ma wymagania też tradycyjne – utrzymanie infrastruktury to kwoty rzędu kilku milionów dolarów rocznie. To jeden z wielu tradycyjnych, realnych, a nie wirtualnych aspektów funkcjonowania Wikipedii. Ważnych, ale wynikających jednak z faktu istnienia treści ją wypełniających.  Wspomniane siedem lat zaowocowało treścią nadzwyczaj obficie – zgromadzono kilka milionów artykułów, czyli więcej niż jakakolwiek encyklopedia tradycyjna. Liczba lat i liczba haseł może nasunąć na myśl biblijne analogie – czy nie były to owe lata tłuste? A jeśli tak, to jakie będą kolejne? Czy jest to rozdroże, czy może początek innej drogi? Właśnie w tych dniach na polskiej wikipedii włączono pierwszy, niższy stopień mechanizmu jakościowej weryfikacji haseł –
wersje przejrzane. Pomimo niepewności co do przyszłej oceny oznacza to wstąpienie na nową drogę, choćby ze względu na opinie, że jest to odstępstwo od pryncypiów i ideałów wiki. Innym potwierdzeniem nowej drogi, choć nie tak wyrazistym, jest aktualny stan i zauważalne tendencje w kształtowaniu się społeczności. To tylko dwa przykładowe aspekty mogące potwierdzać tezę wykładu.

Zostaną w nim przedstawione ogólne informacje o Wikipedii jako takiej, wprowadzające do tematu, po czym nastąpi jego rozwinięcie w odniesieniu do wikipedii polskiej oraz częściowo rosyjskiej. Wykładowca, dr inż. Janusz Dorożyński, poda przykłady dotyczące rosyjskiej wikipedii z autopsji – brał udział w niedawnej wikikonferencji Moskwa’2008.

%d blogerów lubi to: