jump to navigation

Big Data: fakty, mity, obietnice i zagrożenia 12/29/2014

Posted by Mikołaj Morzy in konferencja.
5 Komentarzy

Pod koniec października miałem przyjemność występować na TEDx Bydgoszcz i prezentować swoją wizję internetu przyszłości. Moje wystąpienie nosiło tytuł „Big Data: fakty, mity, obietnice i zagrożenia” i miało zdecydowanie pesymistyczny wydźwięk. Całkiem niedawno powtórzyłem, w nieco rozszerzonej formie, te same tezy podczas konferencji Homo Informaticus 2.0 organizowanej przez Instytut Filozofii UAM. Postaram się poniżej pokrótce streścić główne tezy mojego wystąpienia.

Swoją prezentację zacząłem od prostego zegara, który odmierzył 15 sekund. Niby nic, a w świecie internetu upłynęła cała wieczność. W trakcie tych 15 sekund:

  • załadowano 1500 obrazów na Flickra
  • zarejestrowano 20 nowych domen
  • dokonano 170 000 aktualizacji statusu na Facebooku
  • na LinkedIn powstało 25 nowych profili
  • na YouTube załadowano 150 nowych filmów o łącznej długości 6 godzin
  • powstały 4000 nowych notek blogowych
  • na Skypie przegadano 90 000 minut
  • wydano 200 000 zapytań do Google, z czego 40 000 dotyczyło pornografii
  • wysłano 40 000 000 e-maili

Te statystyki zdają się potwierdzać tezę Alvina Tofflera o „szoku przyszłości”. W tak skonstruowanym świecie tysiące bytów próbują konkurować o najbardziej ograniczony zasób: mój czas. Przewrotną ilustracją tego pędu jest strona www.milliondollarhomepage.com, na której pomysłowy młodzieniec, Alex Tew, sprzedał dokładnie 1 milion pikseli po dolarze za piksel. Do dziś strona jest wypełniona złej jakości reklamami prowadzącymi do setek serwisów, z których wiele nie było odświeżanych od początku lat 90-tych (swoją drogą losowe klikanie w Million Dollar Homepage jest niezapomnianym przeżyciem, swoistą archeologią internetową, przenoszącą czasem do zamierzchłej przeszłości ręcznie tworzonych, brzydkich stron www). Dzisiejszy internet jest spełnieniem najczarniejszych snów dwóch wielkich myślicieli XX wieku: George’a Orwella i Aldousa Huxleya. Pierwszy bał się, że rozwój cywilizacji doprowadzi do powstania narzędzi, które umożliwią objęcie społeczeństwa pełną kontrolą i pozbawią ludzi elementarnej wolności. Drugi bardziej obawiał się trywializacji i sprowadzenia kultury do wspólnego mianownika, co w efekcie doprowadzić miało do zidiocenia społeczeństw. Można powiedzieć, że przeciwstawne wizje Orwella i Huxleya wieszczyły społeczeństwa zniewolone lub ogłupione (jak zgrabnie to ktoś ujął: „Albo Wielki Brat ogląda Ciebie, albo Ty oglądasz Wielkiego Brata„). Można jednak mieć obawy, że to nie jest „albo, albo”, lecz że raczej obserwujemy oba te zjawiska jednocześnie.

Trudno jest zdefiniować samo pojęcie big data. Wyszukałem w sieci paru definicji i wyglądają mniej więcej następująco:

Big data is nothing more than a tool for capturing reality. David Leonhard, NYT

Big data is a cultural movement by which we continue to discover how humanity interacts with the world. Drew Conway, Project Florida

big data represents the cultural shift in which more and more decisions are made by algorithms with transparent logic, operating on documented immutable evidence. Daniel Gillick, Google

Jak zwykle jednak najlepszej definicji dostarczył sam internet, twierdząc, że:

[…] data is big when data size becomes the part of the problem.

W odniesieniu do zjawiska big data często mówi się o tzw. trzech V: volume, velocity, variety. Pierwsze V odnosi się do ilości gromadzonych danych. Przykładowo, w trakcie jednego 6-godzinnego lotu samolot Boeing 737 produkuje 240 terabajtów danych. Drugie V podkreśla prędkość, z jaką dane są generowane. Dotyczy to przede wszystkim strumieni kliknięć w internecie, wyświetleń reklam, przesyłania informacji między zautomatyzowanymi agentami, sieci sensorycznych, itp. Dobrym przykładem tego zjawiska jest świat giełdy, który został w ponad 95% przejęty przez algorytmy handlujące. Tak zwani „racjonalni gracze”, podejmujący swoje decyzje inwestycyjne na podstawie analizy rynku, sytuacji polityczno-ekonomicznej, itp., stanowią, w zależności od szacunków, od 1% do 5% kupujących i sprzedających. W latach 60-tych średni czas posiadania jednej akcji wynosił nieco ponad 8 lat. W roku 1990 jedna akcja pozostawała w ręku jednego inwestora przez dwa lata. Na początku bieżącej dekady czas ten skrócił się do 4-5 miesięcy, dwa lata temu wynosił jeszcze 5 dni. W dniu dzisiejszym jedna akcja utrzymuje się w ręku jednego inwestora średnio przez 30 sekund. Jeśli kiedyś w telewizji zobaczycie „eksperta” od spraw gospodarczych wygadującego dyrdymały o inwestorach wycofujących się z rynku kraju X, Y lub Z, zapytajcie go o to, jakie decyzje inwestycyjne można podjąć w ciągu 30 sekund… Ostatnie V odnosi się do różnorodności danych, na jakie napotykamy. W rzeczywistości w niedługiej przyszłości każdy przedmiot, ożywiony i nieożywiony, będzie generował i konsumował dane przesyłane przez sieć. Już dziś statystyczny mieszkaniec rozwiniętego technologicznie kraju przetwarza dziennie więcej informacji niż jego przodek z XVIII wieku przetwarzał przez całe swoje życie.

Na ten obraz nakłada się także rewolucja spowodowana upowszechnieniem się urządzeń przenośnych. Mają one podstawową zaletę nad tradycyjnymi urządzeniami: umożliwiają natychmiastową akcję. Z jednego z niedawnych badań wynika, że ponad 50% akcji będących rezultatem wyszukania informacji przy użyciu telefonu lub tabletu wydarza się w przeciągu jednej godziny od wyszukiwania. Takie twarde ograniczenie czasowe na przydatność i użyteczność informacji nakłada dodatkowe wyzwania technologiczne i naukowe, ale też i otwiera zupełnie nowe możliwości. Poniższa tabelka dobrze obrazuje to zjawisko:

liczba ludności 6.3 6.8 7.2 7.6
liczba urządzeń 0.5 12.5 25 50
urządzenia/osoba 0.08 1.84 3.47 6.58
czas 2005 2010 2015 2020

W świecie nauki termin Internet of Things z każdym miesiącem staje się coraz gorętszym hasłem. Trzeba zdać sobie sprawę z tego, że człowiek stanowi (lub w bardzo niedługiej przyszłości będzie stanowił) absolutny margines jeśli chodzi o wykorzystanie internetu. To medium jest idealne do komunikacji między maszynami. Myślę, że IoT może spowodować prawdziwy renesans technologii semantycznych i umożliwić powstanie aplikacji tak zaawansowanych, że z dzisiejszej perspektywy wydają się co najwyżej odległą futurystyczną wizją.

Big Data przyszły z licznymi obietnicami. Zgodnie z predykcjami technologicznych guru dostępność ogromnych wolumenów danych miała zrewolucjonizować lingwistykę, socjologię, psychologię, wznieść inżynierię społeczną na nowe wyżyny, zautomatyzować dziesiątki obszarów ludzkiej działalności. Rzeczywistość, póki co, wygląda dużo szarzej. Pokazowy produkt Big Data, czyli Google Flu Trends, sprawował się doskonale do 2010 roku (chociaż kompletnie nie przewidział wybuchu epidemii H1N1 w 2009), ale już w sezonie 2012/13 przeszacował liczbę zachorowań dwukrotnie! Innymi słowy predykcje Google Flu Trends na ostatnie sezony grypy są bezużyteczne. Innym przykładem miały być automatyczne tłumaczenia. Google Translator, mając do dyspozycji praktycznie wszystkie teksty napisane w danym języku, miał być w stanie dokonywać translacji bez konieczności odwoływania się do skomplikowanych modeli języka, gramatyk, itp. Pozwoliłem sobie poddać próbie Google Translate i najpierw przetłumaczyłem pewną znaną strofę z polskiego na angielski, a później odwróciłem tłumaczenie i efekt był następujący:

Litwo mojej ojczyzny jesteś tak długo, jak doceniać potrzebę zdrowia jest po prostu dowiedzieć się, kto stracił…

Jednak powyższe to tylko dykteryjki, prawdziwe zagrożenie czai się gdzie indziej. Oczywiście wszyscy wiedzieli od dawna, że wszyscy wszystkich podsłuchują. Jednak dopiero ujawnienie przez Edwarda Snowdena skali inwigilacji uświadomiło ludziom, jak daleko zaszły sprawy. Jako przykład niech posłuży PRISM: Microsoft zaczął przekazywać swoje dane w 2007 roku, rok później Yahoo, Google i Facebook w 2009, później YouTube, AOL, Skype, Apple. Na usta ciśnie się pytanie, które zadali starożytni Rzymianie: Quis custodiet ipsos custodes? Jestem przekonany, że z każdego, absolutnie każdego, można w cyfrowym świecie zrobić złodzieja, pedofila lub terrorystę.

Swoje wystąpienie zakończyłem nieśmiałą nutką optymizmu. Mimo wszystko wydaje się, że sprawa nie jest zupełnie przegrana. Internet stał się zbyt istotnym medium aby można było nim zawładnąć całkowicie i poddać kontroli totalnej. W chwili obecnej trzeba usilnie bronić neutralności sieci z jednej strony, a z drugiej strony pozbyć się złudzeń związanych z zachowaniem prywatności w sieci. No i nieufnie podchodzić do wszystkiego, co jest „darmowe”. Jeśli nie płacisz za produkt, to z dużym prawdopodobieństwem produktem jesteś ty sam.

Reklamy

Studenci! Możecie jechać na konferencję! Za darmo! 09/05/2012

Posted by Mikołaj Morzy in konferencja, nauka.
add a comment

Google for students logo Po raz kolejny firma Google ogłasza nabór wniosków grantowych dla najlepszych studentek i studentów informatyki. Tym razem oferowane granty umożliwiają wyjazd na jedną z wymienionych niżej konferencji:

Grant pokrywa zarówno koszty podróży do 1000 EUR jak i opłatę konferencyjną. Warunki jakie musi spełniać kandydatka/kandydat są następujące:

  • dana osoba musi aktualnie studiować na I, II lub III stopniu studiów informatycznych,
  • musi to być osoba która obroni(ła) pracę dyplomową w 2011 lub 2012 roku (dotyczy także obrony pracy inżynierskiej lub doktoratu),
  • musi posiadać „strong academic background with demonstrated leadership ability” (cokolwiek to znaczy),
  • musi potwierdzić swój udział w konferencji i faktycznie być na obradach (czytaj: nie finansujemy darmowego lotu do Barcelony w celu zwiedzania Sagrada Familia).

Google preferuje osoby z wykształceniem zorientowanym na technologie internetowe, programowanie i systemy operacyjne. Wśród pożądanych umiejętności wymieniają między innymi:

  • umiejętność programowania w jednym z języków: C, C++, Perl. Python, Java,
  • znajomość obsługi i umiejętność administrowania systemami Unix/Linux,
  • znajomość TCP/IP i umiejętność projektowania/programowania dużych systemów informatycznych,
  • analizowanie i monitorowanie dużych systemów rozproszonych,
  • znajomość struktur danych, algorytmów, umiejętność analizy złożoności obliczeniowej procedur.

Teoretycznie o grant może się starać każdy, kto wypełni ten formularz. W praktyce jednak zostałem poproszony o rekomendowanie najlepszych studentek i studentów wewnętrznie. Jeśli więc ktoś miał ze mną zajęcia i (a) nie dostał ode mnie wymęczonej trójczyny (b) chciałby bardzo spróbować aplikować o taki grant, proszę o pilny kontakt mejlowy. Szczególnie ofertę tę kieruję do moich dyplomantek i dyplomantów. Liczba grantów jest ograniczona, więc warto się pospieszyć!

The Advisor czyli koniec bibliografii 08/31/2012

Posted by Mikołaj Morzy in konferencja, nauka, sieci społeczne.
9 Komentarzy

W trakcie tegorocznej konferencji ASONAM wysłuchałem ciekawej prezentacji pt. „Fast Recommendation on Bibliographic Networks” wygłoszonej przez Onura Kucuktunca z Ohio State University. Idea polega na przyspieszeniu algorytmu rekomendującego artykuły naukowe na podstawie historycznej bazy bibliograficznej. Główny algorytm rekomendacyjny to losowy spacer z restartem (RWR, ang. random walk with restart), autorzy niestety nie podają źródła dla bazy danych cytatów. Idea algorytmu jest prosta: rozpoczynając od wskazanego artykułu naukowego A podążaj losowo do artykułów cytujących artykuł A lub prac cytowanych przez A. W zależności od dodatkowego parametru algorytmu losowy spacer może mieć preferencję do prac starszych lub nowszych. Unikanie pułapki zapętlenia odbywa się przez losowy przeskok do innego artykułu. Z czysto naukowego punktu widzenia interesujące są zaproponowane optymalizacje: po pierwsze autorzy sugerują przeorganizowanie macierzy sąsiedztwa opisującej graf cytowań w taki sposób, aby losowy spacer unikał cache misses, czyli żeby kolejne bloki danych wymagane przez algorytm znajdowały się już w pamięci podręcznej (tzw. lokalność odwołań do pamięci). Po drugie, autorzy wprowadzają do algorytmu z pozoru niewielkie poprawki, które ponad sześciokrotnie redukują liczbę aktualizacji pozycji w macierzy sąsiedztwa. W efekcie uzyskują ogromne przyspieszenie działania algorytmu.

A teraz najciekwasze.

Algorytm został zaimplementowany w prototypowym systemie theadvisor, dostępnym w postaci usługi webowej. System przyjmuje na wejście plik Bibtex lub RIS z częściową bibliografią, a w odpowiedzi wyrzuca rekomendowaną listę pozycji literaturowych. Podane na wejście pozycje stanowią ziarno (ang. seed) od którego algorytm rekomendacyjny zaczyna przeszukiwanie bazy danych bibliograficznych. Nie posiadając plliku Bibtex lub RIS można także podać nazwisko autora lub nazwę obszaru (oczywiście kosztem trafności rekomendacji). Jakby tego było mało, theadvisor wyświetla rekomendowaną listę prac oraz dostarcza wizualizacji powiązań między publikacjami.

Załóżmy, że pracuję nad artykułem dotyczącym ewolucji sieci społecznościowych w czasie. Rozpocząłem od zdefiniowania prac „Graphs over time: densification laws, shrinking diameters and possible explanations” i „Graph evolution: Densification and shrinking diameters” Leskoveca, Kleinberga i Faloutsosa jako moich głównych inspiracji. Następnie ustawiam suwak „I want papers to be more…” pośrodku między opcjami „traditional” i „recent” i klikam na przycisk „Start the search with the selected papers”.  Odpowiedź theadvisor jest następująca:

Relevant Citations

  1. Michalis Faloutsos, Petros Faloutsos, Christos Faloutsos:
    On Power-law Relationships of the Internet Topology.
    SIGCOMM, pp.251-262, 1999. [dblp] [citeseer] [pdf] [google]
  2. Hongwu Ma, An-Ping Zeng:
    The Connectivity Structure, Giant Strong Component and Centrality of Metabolic Networks.
    Bioinformatics, 19(11):1423-1430, 2003. [dblp] [arXiv] [citeseer] [pdf] [google]
  3. Jon M. Kleinberg, Ravi Kumar, Prabhakar Raghavan, Sridhar Rajagopalan, Andrew Tomkins:
    The Web as a Graph: Measurements, Models, and Methods.
    COCOON, pp.1-17, 1999. [dblp] [citeseer] [pdf] [google]
  4. Ravi Kumar, Prabhakar Raghavan, Sridhar Rajagopalan D. Sivakumar, Sridhar Rajagopalan, D Sivakumar, Andrew Tomkins, Eli Upfal:
    Stochastic Models for the Web Graph
    [citeseer] [pdf] [google]
  5. Ravi Kumar, Prabhakar Raghavan, Sridhar Rajagopalan, Andrew Tomkins:
    Trawling the Web for Emerging Cyber-Communities.
    Computer Networks, 31(11-16):1481-1493, 1999. [dblp] [citeseer] [pdf] [google]
  6. Michael Mitzenmacher:
    A Brief History of Generative Models for Power Law and Lognormal Distributions.
    Internet Mathematics, 1(2), 2003. [dblp] [citeseer] [pdf] [google]
  7. P. Erdős, A Rényi:
    On the Evolution of Random Graphs
    1960. [citeseer] [pdf] [google]
  8. Jon M. Kleinberg:
    Authoritative Sources in a Hyperlinked Environment.
    J. ACM, 46(5):604-632, 1999. [dblp] [citeseer] [pdf] [google]
  9. Fan R. K. Chung, Linyuan Lu, Van H. Vu:
    The Spectra of Random Graphs with Given Expected Degrees.
    Internet Mathematics, 1(3), 2003. [dblp] [citeseer] [pdf] [google]
  10. Deepayan Chakrabarti, Yiping Zhan, Christos Faloutsos:
    R-MAT: A Recursive Model for Graph Mining.
    SDM, 2004. [dblp] [citeseer] [pdf] [google]

A na dodatek jeszcze to:

Visualization of bibliographic database

Wiele wskazuje na to, że przez najbliższy czas kompilowanie referencji do artykułów stanie się dużo łatwiejsze. Cały prototyp jest dostępny pod adresem theadvisor.osu.edu

ASONAM 2012, dzień 2 08/28/2012

Posted by Mikołaj Morzy in konferencja, nauka, sieci społeczne.
14 Komentarzy

Hagia Sophia in IstanbulDrugi dzień konferencji rozpoczął wykład zaproszony wygłoszony przez Barry’ego Wellmana z Uniwersytetu w Toronto. Wellman dopiero co opublikował książkę „Networked. The New Social Operating System„, którą już zamówiłem i po przeczytaniu zamieszczę tu krótką recenzję (powinna być ciekawa, bo Wellman jest socjologiem z głęboką znajomością Internetu, ale w przeciwieństwie do większości informatyków potrafi umiejscowić Internet w szerszym kontekście ludzkiej działalności lub porównać zmiany społeczne spowodowane przez usieciowienie z wcześniejszymi etapami rozwoju ludzkich społeczeństw). Wykład, zatytułowany „The New Social Operating System”, był w dużej mierze streszczeniem książki. Prawdę powiedziawszy, Wellman na scienie mnie rozczarował. Wykład był niemrawy i nie przedstawił niczego rzeczywiście nowego (w przeciwieństwie do wczorajszego wystąpienia Ulrika Brandesa). Wellman omawiał ogólne zmiany społeczne (emancypacja kobiet, większe usieciowienie społeczeństw, gwałtowne zwiększenie się liczby miękkich więzów, spadek znaczenia tradycyjnych ograniczeń w kontaktach międzyludzkich, takich jak etniczność, płeć, religia, orientacja seksualna). Kilkakrotnie powtórzył, że twierdzenie jakoby tradycyjne więzy międzyludzkie ulegały erozji w wyniku korzystania z Internetu (na pewno kojarzycie współczesne Kassandry rozpaczające nad tym że ludzie ze sobą nie rozmawiają bo wolą się „polubić” na Facebooku) jest kompletną bzdurą nie popartą żadnymi badaniami. Jest dokładnie odwrotnie, badania jednoznacznie wskazują że osoby aktywnie korzystające z internetu i udzielające się w sieciach społecznościowych zdecydowanie bardziej się socjalizują w świecie rzeczywistym. „The more is the more”.

Póżniej zaczęły się regularne sesje. John Lee z Uniwersytetu Filipin przedstawił ciekawą pracę pt. „Link Prediction in a Modified Heterogeneous Bibliographic Network„. Sama metoda nie jest może specjalnie odkrywcza, ale artykuł zawiera bardzo staranny przegląd wcześniejszych prac w obszarze predykcji odnośników. Rozczarowało mnie jednak to, że w pracy Lee rozważa jedynie grafy (tzn. jeśli kiedykolwiek osoby A i B napiszą wspólnie pracę, między A i B powstaje krawędź w grafie). Bardziej interesowałoby mnie gdyby graf był hipergrafem, tzn. żeby każda współpraca między A i B tworzyła nową krawędź. Taka niewielka zmiana niestety powoduje zdecydowany wzrost trudności w predykcji. Ciekawa była też praca prezentowana przez Marco Pellegriniego pt. „Fast exact computation of betweenness centrality in social networks„. To bardzo elegancki artykuł prezentujący metodę polepszenia algorytmu Brandesa wyznaczania miary pośrednictwa, która z kolei jest używana w wielu bardziej złożonych algorytmach, np. w algorytmie Girvan-Newmana partycjonowania grafu.

Ciekawą prezentację pokazał Yongli Ren z Deakin University. Praca zatytułowana „Learning Rating Patterns for Top-N Recommendations” dotyczyła drogiego memu sercu tematu odkrywania wzorców na potrzeby systemów rekomendacyjnych. Autorzy eksperymentowali na zbiorze danych Netflix i wyszukiwali konkretnych wzorców sekwencyjnych wskazujących na zmianę preferencji użytkownika w miarę upływu czasu. Muszę przeczytać cały artykuł żeby dobrze uchwycić ideę algorytmu, ale wyniki i opis wyglądały obiecująco. Bardzo ciekawie wypała prezentacja Onura Kucuktunca „Fast Recommendation on Bibliographic Networks„. Generalnie dużo było prac dotyczących badań nad sieciami naukowymi, co mnie szczególnie interesuje ze względu na to, nad czym aktualnie pracuję. Grupa Kucuktunca z Ohio State University przygotowała algorytm na sterydach, wykorzystujący specjalne struktury w pamięci operacyjnej oraz permutacje macierzy sąsiedztwa w celu maksymalnego przyspieszenia algorytmu typu RandomWalk na sieci bibliograficznej. Co ciekawe, ich artykuł został zaimplementowany w prototypie, któremu poświęcę osobną notkę.

ASONAM 2012, dzień 1 08/27/2012

Posted by Mikołaj Morzy in konferencja, nauka.
5 Komentarzy

Widok Istambułu znad Złotego RoguDziś zaczęła się konferencja ASONAM 2012. Konferencja odbywa się w przepięknym Istambule i potrwa trzy dni. Jest to kolejna edycja konferencji która wcześniej gościła na Tajwanie i w Danii. W niedzielę odbyło się parę warsztatów, dziś wystartowała główna konferencja. Poniżej umieszczam na gorąco swoje pierwsze wrażenia.

Gianni Costa i Riccardo Ortale prezentują artykuł „A Bayesian Hierarchical Approach for Exploratory Analysis of Communities and Roles in Social Networks„. W artykule prezentują model, który jest w stanie jednocześnie przypisywać aktorów sieci do wspólnot, a następnie przypisywać aktorom role na podstawie wspólnoty, do ktorej aktor należy. Metoda wykorzystuje wnioskowanie bayesowskie a do konstrukcji zbioru testowego przeprowadza próbkowanie Gibbsa w ramach LDA (Latent Dirichlet Allocation). Wyniki wyglądają obiecująco, mimo dużego obciążenia obliczeniowego narzuconego przez LDA (w szczególności LDA-G, metodę LDA przystosowaną specjalnie do grafów). Swoje wyniki weryfikują na dobrze znanych publicznych zbiorach danych Enron i Small World. Richard Oentaryo pokazuje jak można przewidzieć zjawisko porzucania usługodawcy przez klientów sieci społecznościowej w artykule „Collective Churn Prediction in Social Network„. Jak się okazuje, można z dość dużym prawdopodobieństwem (około 50%) przewidzieć, kiedy dana osoba rozważa porzucenie sieci społecznościowej (to akurat przykład sieci typu chat na Tajwanie). Bardzo ciekawą prezentację przedstawił James Lanagan. W pracy pt. „Knowing a Good Show When You See One” przedstawił wyniki analizy forów internetowych ze strony Television Without Pity w których sprawdził intensywność dyskusji po emisji odcinków popularnych seriali (Breaking Bad, Dexter, Office, itp.) Dzięki analize trendów pojawiajacych się w konwersacjach widzów James jest w stanie dokonać grupowania wypowiedzi (wykorzystuje algorytm k-średnich i indeks Hartigana do znalezienia właściwej liczby klastrów). Nie do końca wiem, jakie zastosowanie ma ta metoda, ale brzmi bardzo ciekawie.

Wykład zaproszony zaprezentował Ulrik Brandes z Universitaet Konstanz. Wykład był zatytułowany „A Network Science Manifesto” i był absolutnie fantastyczny. Brandes poddał w wątpliwość większość prawd objawionych w obszarze analizy sieci społecznościowych i zmasakrował nawet najbardziej podstawowe definicje podawane np. przez A-L. Barabasiego czy D. Wattsa. Główna teza Brandesa to konieczność zdefiniowania od nowa nauki o sieciach i oderwania się od ścisłego powiązania nauki o sieciach od teorii grafów. Jego definicja, z którą się całkowicie zgadzam, jest następująca:

Network science is the study of collecting, managing, analyzing, interpreting and presenting data on incidence structures.

Brandes twierdzi, że najważniejszymi, podstawowymi strukturami w naukach o sieciach są struktury incydencji (sąsiedztwa). Sprawa abstrakcji badanego zjawiska do postaci sieci jest najtrudniejszym i najważniejszym zadaniem (którego nie mogą podjąć się naukowcy od sieci, do tego potrzebna jest wiedza dziedzinowa). Posiadając sieciową abstrakcję zjawiska dopiero przystępujemy do wyboru reprezentacji i tu mamy do wyboru wiele sposobów: graf, wektor, algebra relacji, itp. W trakcie procesu abstrakcji zjawiska do sieci tracimy wiele informacji, które Brandes nazywa głęboką strukturą danych, której badanie powinno być podstawowym badaniem. W dodatku, jak twierdzi Brandes, nie istnieje jedna uniwersalna teoria sieci i jej poszukiwanie jest stratą czasu, a prezentowane w literaturze propozycje nazywa wsiami potiomkinowskimi. Głównym hasłem manifestu jest zatem powrót do podstaw i zdefiniowanie sposobów abstrakcji i reprezentacji zjawisk. Przyznaję szczerze, że te pomysły od dawna chodziły mi po głowie, nawet w zeszłym roku napisałem na ten temat artykuł z propozycją algebry dla sieci społecznościowych, ale artykuł był przygotowany na kolanie i został z hukiem odrzucony. Po dzisiejszym wykładzie mam zamiar do niego powrócić.

Po przerwie na lunch najbardziej podobała mi się prezentacja Davida Skillicorna pt. „Global Similarity in Social Network with Typed Edges„. Skillicorn przedstawił bardzo elegancką metodę łączenia informacji w sieciach wielomodalnych, w których niektórzy aktorzy funkcjonują jako łączniki między poszczególnymi poziomami sieci. Metoda została przetestowana na sławnym zbiorze Padgetta zawierającym informacje o rodzinach w renesansowej Florencji. W tej samej sesji miałem przyjemność prezentować artykuł napisany wspólnie z Pawłem Lubarskim pt. „Measuring the Importance of Users in a Social Network Based on Email Communication Patterns„. Zamieszczam też przygotowaną na tę okazję prezentację.

Teraz trwa panel dyskusyjny nt. przyszłości całej dziedziny analizy i eksploracji sieci społecznościowych. Prawdę powiedziawszy, niezbyt odkrywczy…

Jutro zamieszczę relację z kolejnego dnia. Gdy tylko artykuły z konferencji ukażą się online, mam zamiar zaktualizować notkę i dodać odnośniki do tych prac.

Poznań i Kraków, dwie ciekawe imprezy 03/09/2012

Posted by Mikołaj Morzy in konferencja, nauka.
add a comment

Reklama imprezy "Tydzień Mózgu"W najbliższym czasie czekają nas dwie ciekawe imprezy. Pierwsza odbędzie się w Poznaniu, w Ośrodku Nauki Polskiej Akademii Nauk przy ul.Wieniawskiego 17/19. Jest to już czwarta edycja tej imprezy, w tym roku impreza składa się z 10 wykładów tematycznie związanych z szarą masą pod naszymi czaszkami. Tematy poruszane w trakcie wykładów to m.in. kwestia istnienia lub nie wolnej woli (jeśli ktoś się zastanawia, jak racjonalnie można zaprzeczyć istnieniu wolnej woli to zapraszam do zapoznania się z podcastem Reasonable Doubts: Free Willy vs Determinator), nowotwory mózgu, sztuczna inteligencja, i inne. Zapraszam do zapoznania się ze streszczeniami wykładów.

Szczegółowe informacje znajdziecie na stronie imprezy.

Plakat konferencji "Nauka Ludzka Rzecz"Druga impreza którą chciałem zareklamować to krakowska konferencja pt. „Nauka Ludzka Rzecz„. Impreza jest organizowana przez studenckie koła naukowe Uniwersytetu Jagiellońskiego oraz Stowarzyszenie Naukowe Collegium Invisible. W programie konferencji sesje poświęcone roli nauki, granicom nauki, pozycji naukowców, popularyzacji nauki w społeczeństwie, a także dyskusja nt. kryzysu nauki i zaufania do nauki we współczesnym świecie. Program i zaproszeni goście dają podstawy sądzić, że impreza będzie wyśmienita.

BASNAM’2011: CFP 01/12/2011

Posted by Mikołaj Morzy in cfp, konferencja, nauka, sieci społeczne.
3 Komentarze

Jeszcze jedni znajomi i jeszcze jeden warsztat. Oprócz SNAA’2011, o którym pisałem wczoraj, a ramach tej samej konferencji ASONAM’2011 odbędzie się warsztat o nazwie International Workshop on Business Applications of Social Network Analysis and Mining BASNAM 2011. Warsztat organizują Jurek Surma z SGH oraz Mikołaj Jan Piskorski z Harvardu. Warsztat ma charakter troszkę mniej informatyczny i jest ukierunkowany bardziej na biznesowe zastosowania technik analizy sieci społecznych. Materiały z warsztatu zostaną wydrukowane (razem z pozostałymi warsztatami z ASONAM) przez IEEE Computer Science Press. Dodatkowo, wybrane artykuły zostaną zaproszone do książki wydawanej przez Springera w serii Intelligent Systems Reference Library. Termin zgłaszania artykułów to 1 marca.

SNAA’2011: CFP 01/11/2011

Posted by Mikołaj Morzy in cfp, konferencja, nauka, sieci społeczne.
1 comment so far

Przyjaciele z Wrocławia organizują warsztat przy okazji konferencji ASONAM’2011. Warsztat nosi nazwę SNAA’2011: First Workshop on Social Network Analysis in Applications i, jak sama nazwa wskazuje, jest poświęcony przede wszystkim praktycznym aspektom wykorzystania metod SNA w różnych domenach aplikacyjnych. Ponieważ byli tak mili i zaprosili mnie do komitetu programowego, więc lojalnie reklamuję warsztat. Sama konferencja jest fantastyczna, byłem na niej w zeszłym roku i w tym roku też się przygotowuję do zgłoszenia artykułu. Materiały z SNAA’2011 ukażą się w publikacji konferencyjnej wydawanej przez IEEE, natomiast rozszerzone wersje artykułów będą zaproszone do czasopisma z listy filadelfijskiej (będzie osobny specjalny numer wybranego czasopisma zawierający jedynie materiały z SNAA’2011).

%d blogerów lubi to: