jump to navigation

Big Data: fakty, mity, obietnice i zagrożenia 12/29/2014

Posted by Mikołaj Morzy in konferencja.
trackback

Pod koniec października miałem przyjemność występować na TEDx Bydgoszcz i prezentować swoją wizję internetu przyszłości. Moje wystąpienie nosiło tytuł „Big Data: fakty, mity, obietnice i zagrożenia” i miało zdecydowanie pesymistyczny wydźwięk. Całkiem niedawno powtórzyłem, w nieco rozszerzonej formie, te same tezy podczas konferencji Homo Informaticus 2.0 organizowanej przez Instytut Filozofii UAM. Postaram się poniżej pokrótce streścić główne tezy mojego wystąpienia.

Swoją prezentację zacząłem od prostego zegara, który odmierzył 15 sekund. Niby nic, a w świecie internetu upłynęła cała wieczność. W trakcie tych 15 sekund:

  • załadowano 1500 obrazów na Flickra
  • zarejestrowano 20 nowych domen
  • dokonano 170 000 aktualizacji statusu na Facebooku
  • na LinkedIn powstało 25 nowych profili
  • na YouTube załadowano 150 nowych filmów o łącznej długości 6 godzin
  • powstały 4000 nowych notek blogowych
  • na Skypie przegadano 90 000 minut
  • wydano 200 000 zapytań do Google, z czego 40 000 dotyczyło pornografii
  • wysłano 40 000 000 e-maili

Te statystyki zdają się potwierdzać tezę Alvina Tofflera o „szoku przyszłości”. W tak skonstruowanym świecie tysiące bytów próbują konkurować o najbardziej ograniczony zasób: mój czas. Przewrotną ilustracją tego pędu jest strona www.milliondollarhomepage.com, na której pomysłowy młodzieniec, Alex Tew, sprzedał dokładnie 1 milion pikseli po dolarze za piksel. Do dziś strona jest wypełniona złej jakości reklamami prowadzącymi do setek serwisów, z których wiele nie było odświeżanych od początku lat 90-tych (swoją drogą losowe klikanie w Million Dollar Homepage jest niezapomnianym przeżyciem, swoistą archeologią internetową, przenoszącą czasem do zamierzchłej przeszłości ręcznie tworzonych, brzydkich stron www). Dzisiejszy internet jest spełnieniem najczarniejszych snów dwóch wielkich myślicieli XX wieku: George’a Orwella i Aldousa Huxleya. Pierwszy bał się, że rozwój cywilizacji doprowadzi do powstania narzędzi, które umożliwią objęcie społeczeństwa pełną kontrolą i pozbawią ludzi elementarnej wolności. Drugi bardziej obawiał się trywializacji i sprowadzenia kultury do wspólnego mianownika, co w efekcie doprowadzić miało do zidiocenia społeczeństw. Można powiedzieć, że przeciwstawne wizje Orwella i Huxleya wieszczyły społeczeństwa zniewolone lub ogłupione (jak zgrabnie to ktoś ujął: „Albo Wielki Brat ogląda Ciebie, albo Ty oglądasz Wielkiego Brata„). Można jednak mieć obawy, że to nie jest „albo, albo”, lecz że raczej obserwujemy oba te zjawiska jednocześnie.

Trudno jest zdefiniować samo pojęcie big data. Wyszukałem w sieci paru definicji i wyglądają mniej więcej następująco:

Big data is nothing more than a tool for capturing reality. David Leonhard, NYT

Big data is a cultural movement by which we continue to discover how humanity interacts with the world. Drew Conway, Project Florida

big data represents the cultural shift in which more and more decisions are made by algorithms with transparent logic, operating on documented immutable evidence. Daniel Gillick, Google

Jak zwykle jednak najlepszej definicji dostarczył sam internet, twierdząc, że:

[…] data is big when data size becomes the part of the problem.

W odniesieniu do zjawiska big data często mówi się o tzw. trzech V: volume, velocity, variety. Pierwsze V odnosi się do ilości gromadzonych danych. Przykładowo, w trakcie jednego 6-godzinnego lotu samolot Boeing 737 produkuje 240 terabajtów danych. Drugie V podkreśla prędkość, z jaką dane są generowane. Dotyczy to przede wszystkim strumieni kliknięć w internecie, wyświetleń reklam, przesyłania informacji między zautomatyzowanymi agentami, sieci sensorycznych, itp. Dobrym przykładem tego zjawiska jest świat giełdy, który został w ponad 95% przejęty przez algorytmy handlujące. Tak zwani „racjonalni gracze”, podejmujący swoje decyzje inwestycyjne na podstawie analizy rynku, sytuacji polityczno-ekonomicznej, itp., stanowią, w zależności od szacunków, od 1% do 5% kupujących i sprzedających. W latach 60-tych średni czas posiadania jednej akcji wynosił nieco ponad 8 lat. W roku 1990 jedna akcja pozostawała w ręku jednego inwestora przez dwa lata. Na początku bieżącej dekady czas ten skrócił się do 4-5 miesięcy, dwa lata temu wynosił jeszcze 5 dni. W dniu dzisiejszym jedna akcja utrzymuje się w ręku jednego inwestora średnio przez 30 sekund. Jeśli kiedyś w telewizji zobaczycie „eksperta” od spraw gospodarczych wygadującego dyrdymały o inwestorach wycofujących się z rynku kraju X, Y lub Z, zapytajcie go o to, jakie decyzje inwestycyjne można podjąć w ciągu 30 sekund… Ostatnie V odnosi się do różnorodności danych, na jakie napotykamy. W rzeczywistości w niedługiej przyszłości każdy przedmiot, ożywiony i nieożywiony, będzie generował i konsumował dane przesyłane przez sieć. Już dziś statystyczny mieszkaniec rozwiniętego technologicznie kraju przetwarza dziennie więcej informacji niż jego przodek z XVIII wieku przetwarzał przez całe swoje życie.

Na ten obraz nakłada się także rewolucja spowodowana upowszechnieniem się urządzeń przenośnych. Mają one podstawową zaletę nad tradycyjnymi urządzeniami: umożliwiają natychmiastową akcję. Z jednego z niedawnych badań wynika, że ponad 50% akcji będących rezultatem wyszukania informacji przy użyciu telefonu lub tabletu wydarza się w przeciągu jednej godziny od wyszukiwania. Takie twarde ograniczenie czasowe na przydatność i użyteczność informacji nakłada dodatkowe wyzwania technologiczne i naukowe, ale też i otwiera zupełnie nowe możliwości. Poniższa tabelka dobrze obrazuje to zjawisko:

liczba ludności 6.3 6.8 7.2 7.6
liczba urządzeń 0.5 12.5 25 50
urządzenia/osoba 0.08 1.84 3.47 6.58
czas 2005 2010 2015 2020

W świecie nauki termin Internet of Things z każdym miesiącem staje się coraz gorętszym hasłem. Trzeba zdać sobie sprawę z tego, że człowiek stanowi (lub w bardzo niedługiej przyszłości będzie stanowił) absolutny margines jeśli chodzi o wykorzystanie internetu. To medium jest idealne do komunikacji między maszynami. Myślę, że IoT może spowodować prawdziwy renesans technologii semantycznych i umożliwić powstanie aplikacji tak zaawansowanych, że z dzisiejszej perspektywy wydają się co najwyżej odległą futurystyczną wizją.

Big Data przyszły z licznymi obietnicami. Zgodnie z predykcjami technologicznych guru dostępność ogromnych wolumenów danych miała zrewolucjonizować lingwistykę, socjologię, psychologię, wznieść inżynierię społeczną na nowe wyżyny, zautomatyzować dziesiątki obszarów ludzkiej działalności. Rzeczywistość, póki co, wygląda dużo szarzej. Pokazowy produkt Big Data, czyli Google Flu Trends, sprawował się doskonale do 2010 roku (chociaż kompletnie nie przewidział wybuchu epidemii H1N1 w 2009), ale już w sezonie 2012/13 przeszacował liczbę zachorowań dwukrotnie! Innymi słowy predykcje Google Flu Trends na ostatnie sezony grypy są bezużyteczne. Innym przykładem miały być automatyczne tłumaczenia. Google Translator, mając do dyspozycji praktycznie wszystkie teksty napisane w danym języku, miał być w stanie dokonywać translacji bez konieczności odwoływania się do skomplikowanych modeli języka, gramatyk, itp. Pozwoliłem sobie poddać próbie Google Translate i najpierw przetłumaczyłem pewną znaną strofę z polskiego na angielski, a później odwróciłem tłumaczenie i efekt był następujący:

Litwo mojej ojczyzny jesteś tak długo, jak doceniać potrzebę zdrowia jest po prostu dowiedzieć się, kto stracił…

Jednak powyższe to tylko dykteryjki, prawdziwe zagrożenie czai się gdzie indziej. Oczywiście wszyscy wiedzieli od dawna, że wszyscy wszystkich podsłuchują. Jednak dopiero ujawnienie przez Edwarda Snowdena skali inwigilacji uświadomiło ludziom, jak daleko zaszły sprawy. Jako przykład niech posłuży PRISM: Microsoft zaczął przekazywać swoje dane w 2007 roku, rok później Yahoo, Google i Facebook w 2009, później YouTube, AOL, Skype, Apple. Na usta ciśnie się pytanie, które zadali starożytni Rzymianie: Quis custodiet ipsos custodes? Jestem przekonany, że z każdego, absolutnie każdego, można w cyfrowym świecie zrobić złodzieja, pedofila lub terrorystę.

Swoje wystąpienie zakończyłem nieśmiałą nutką optymizmu. Mimo wszystko wydaje się, że sprawa nie jest zupełnie przegrana. Internet stał się zbyt istotnym medium aby można było nim zawładnąć całkowicie i poddać kontroli totalnej. W chwili obecnej trzeba usilnie bronić neutralności sieci z jednej strony, a z drugiej strony pozbyć się złudzeń związanych z zachowaniem prywatności w sieci. No i nieufnie podchodzić do wszystkiego, co jest „darmowe”. Jeśli nie płacisz za produkt, to z dużym prawdopodobieństwem produktem jesteś ty sam.

Komentarze»

1. Maestro - 12/29/2014

Jest też świat ponad albo obok tego. Internetowy underground żyjący cały czas wokół starych narzędzi. IRCnet… miejsce gdzie przesiaduje do dnia dzisiejszego elita komputerowych specjalistów(?). Stare kanały komunikacyjne są niedostępne dla obecnego pokolenia, a przez są wciąż hermetyczne i wolne. To właśnie w „SSH” upatrywałbym utrzymania niezależności myślenia „internetu”.

2. piotrbla - 12/31/2014

– dokonano 170 000 aktualizacji statusu na Facebooku
– wysłano 40 000 000 e-maili
Można prosić o źródło? Coś sporo tych maili.

3. rafalmaszkowski - 12/31/2014

Big Data to przede wszystkim podejście do przetwarzania danych. Modne, ale nie mam pewności czy dobre, zwłaszcza że w praktyce opiera się na kobylastych programach w Javie.
Z tym byciem produktem bywa różnie. Płacenie za produkt wcale nie zabezpieczenia przed zostaniem produktem, wręcz przeciwnie. Za to niektóre produkty bezpłatne nie kosztują więcej niż są warte, zwłaszcza jeżeli są całkowicie otwarte i na licencji zapewniającej możliwość modyfikacji.

4. Przemek - 01/02/2015

A czy wystąpieniena TEDxBydgoszcz jest dostępne gdzieś jako wideo?
W tej notce o dużych danych zabrakło mi przykładów pozytywnych. Poza nowymi sposobami docierania z reklamą do konsumentów (zły google, zły) czy profilowaniem każdego człowieka (zły facebook, zły) technologie pozwalające na analizę dużych danych wykorzystują też np. fizycy czy bioinformatycy.
I to w celach, którym warto kibicować. Lepsze poznanie procesu nowotworzenia, konstrukcja nowych leków itp.

5. Petrol z Maltretingu - 03/20/2016

Wydaje mi się, że coś jest nie tak z danymi dotyczącymi średniego czasu posiadania akcji – tak krótkie czasy oznaczałyby, że dzienne obroty setki razy przekraczają kapitalizację (łączną wartość notowanych spółek) rynków, tymczasem przykładowo dla NYSE, której kapitalizacja w lutym wyniosła ponad 18 trylionów dolarów, dzienne obroty na ostatniej sesji (18 marca) wyniosły 179 bilionów dolarów (a te z kolei liczone są bodajże „podwójnie”: łącznie sprzedaż i kupno), co oznaczałoby, że średnio akcja (ściślej: dolar zainwestowany w akcję) pozostaje w portfelu inwestora ok. 200 sesji, a więc z grubsza 9 miesięcy (lub 4-5 miesięcy, jeśli obroty nie są liczone podwójnie).

Podobnie wydaje mi się, że jest jakieś uproszczenie, jeśli chodzi o 95% rynków w „rękach” algorytmów – myślę, że rzeczywiście taka wielkość może być realna, ale z zastrzeżeniem, że nie jest to kompletnie odhumanizowany handel, ale jakaś forma automatyzacji lub wspomagania procesu zawierania transakcji, gdzie jednak człowiek w większości przypadków pełni zasadniczą rolę (np. określając kluczowe parametry transakcji: ceny maksymalne/minimalne i obroty), ewentualnie są to „głupie automaty”, takie jak fundusze ETF, których zadaniem jest odzwierciedlać zachowanie się wybranego indeksu giełdowego (a więc w praktyce, także jego strukturę, więc rola zarządzającego jest tu bardzo ograniczona). Produkty finansowe oparte w 100% na algorytmach to zdaje się wciąż jeszcze margines rynku, jeśli chodzi o środki, jakimi one zarządzają.


Skomentuj

Wprowadź swoje dane lub kliknij jedną z tych ikon, aby się zalogować:

Logo WordPress.com

Komentujesz korzystając z konta WordPress.com. Log Out / Zmień )

Zdjęcie z Twittera

Komentujesz korzystając z konta Twitter. Log Out / Zmień )

Facebook photo

Komentujesz korzystając z konta Facebook. Log Out / Zmień )

Google+ photo

Komentujesz korzystając z konta Google+. Log Out / Zmień )

Connecting to %s

%d bloggers like this: