jump to navigation

Jak sprawiedliwie podzielić rachunek za taksówkę? 03/26/2016

Posted by Mikołaj Morzy in nauka.
9 comments

Lloyd Shapley

Dwa tygodnie temu zmarł Lloyd Shapley, laureat Nagrody Nobla w roku 2012, matematyk i ekonomista, którego idee znajdują liczne zastosowania w informatyce, szczególnie w obszarze teorii gier i analizy danych. Jego najbardziej znanym odkryciem (opisanym nota bene w doktoracie) było rozwiązanie problemu gier kooperacyjnych, znane odtąd jako wartość Shapleya. Pomysł prosty i genialny, który bardzo łatwo jest zobrazować wykorzystując przykład.

Trzy osoby planują wspólny powrót do domu taksówką. Załóżmy, że mieszkają w linii prostej, tj. taksówka przejeżdża najpier obok domu Alicji, potem mija dom Bartka, a na koniec dojeżdża do domu Cecylii. Jeśli Alicja wróci sama, zapłaci za taksówkę 10 złotych. Samotny powrót Bartka będzie kosztował 25 złotych, natomiast najdalej mieszkająca Cecylia będzie musiała zapłacić 40 złotych. Alicja, Bartek i Cecylia postanawiają wracać razem. Ile każde z nich powinno zapłacić za wspólny kurs? W oczywisty sposób Alicja powinna zapłacić mniej niż 10 złotych, w przeciwnym wypadku nie ma powodu, żeby wracała (i finansowała powrót pozostałej dwójki), podobnie Bartek powinien zapłacić mniej niż 25 złotych, ale ile dokładnie? Na to właśnie pytanie odpowiedział Shapley.

W grze kooperacyjnej występuje zbiór graczy N=\{1,\ldots,n\}, oraz pojęcie koalicji, czyli dowolnego podzbioru graczy. W naszym przypadku możliwe koalicje to A, B, C, AB, AC, BC, ABC (AB to Alicja i Bartek wracający jedną taksówką, Cecylia wraca sama). Ważne jest też pojęcie funkcji charakterystycznej, która przypisuje każdej koalicji graczy pewną liczbę, zwaną wartością koalicji. Otóż Shapley podał jedyny sprawiedliwy sposób przydziału wypłat do graczy (w naszym przypadku wysokości składki na taksówkę jaką powinna dorzucić każda osoba), bazujący na pojęciu kontrybucji marginalnej. Idea jest bardzo prosta: dla każdego gracza patrzymy, ile wynosi wartość każdej koalicji w której może brać udział gracz w porównaniu z wartością tej samej koalicji bez danego gracza. Wypłata dla każdego gracza jest średnią wszystkich możliwych kontrybucji marginalnych dla tego gracza. Znów przywołując nasz przykład, każda osoba patrzy, ile zapłaciłaby w każdej możliwej konfiguracji powrotów taksówką do domu i wyciąga średnią.

Spróbujmy więc podpowiedzieć Alicji, Bartkowi i Cecylii, jak powinni podzielić swój rachunek. Jeśli pojadą każde swoją taksówką, to zapłacą: A=10, B=25, C=40. Jeśli będą jechać parami, to rachunki wyniosą AB=25 (Alicja jedzie z Bartkiem, końcowy rachunek wyniesie 25 złotych), AC=40, BC=40 (każda osoba jadąca z Cecylią musi oczekiwać końcoweg rachunku w wysokości 40 złotych), wreszcie jeśli pojadą we trójkę, to ABC=40. Aby policzyć kontrybucje marginalne, można zastosować prosty trick i wykorzystać permutacje pasażerów taksówki. Wyobraźmy sobie, że nasi znajomi umawiają się, że płacą w kolejności ABC, czyli najpierw Alicja płaci 10 zł, potem Bartek płaci 15 zł, na koniec Cecylia płaci 15 zł (łączny rachunek wynosi 40 zł). A co byłoby, gdyby umówili się, że płacą w kolejności ACB? Wówczas najpierw Alicja płaci 10 zł, potem Cecylia płaci za odcinek „do siebie” czyli 30 zł, a Bartek jedzie za darmo. A permutacja BAC? Najpierw Bartek płaci swoje 25 zł, potem Alicja (ale jej przejazd już został opłacony przez Bartka), w końcu Cecylia dopłaca 15 zł do 40 zł. Wszystkie możliwe permutacje są takie:

permutacja A B C
ABC 10 15 15
ACB 10 0 30
BAC 0 25 15
BCA 0 25 15
CAB 0 0 40
CBA 0 0 40

Na koniec wyliczamy średnie w każdej kolumnie i uzyskujemy dla Alicji 8 zł 30 gr, dla Bartka 10 zł 83 gr, dla Cecylii 25 zł 83 gr (razem daje to pełny rachunek 40 zł).

Dlaczego jest to podział sprawiedliwy, w jakim sensie sprawiedliwy, i dlaczego jedyny? Za to właśnie Shapley dostał Nobla. Zaproponowany przez niego sposób podziału jest jedynym, który spełnia cztery fundamentalne własności:

  • wydajność: suma wypłat wszystkich graczy jest równa wartości gry (czyli suma składki jest równa rachunkowi za taksówkę)
  • symetria: jeśli dwoje graczy miałoby identyczne kontrybucje marginalne do każdej możliwej koalicji, to ich wypłaty byłyby identyczne (gdyby Alicja i Bartek mieszkali razem, to ich składka byłaby taka sama)
  • liniowość: jeśli dwie gry koalicyjne zostałyby połączone, to wypłata każdego gracza w grze łączonej byłaby równa sumie wypłat w osobno rozgrywanych grach
  • pusty gracz: jeśli jakiś gracz nie wnosi kontrybucji marginalnej do żadnej gry, to jego wypłata wynosi 0.

Shapley udowodnił, że zaproponowany przez niego schemat wypłat jest jedynym schematem spełniającym te własności.

Moje zainteresowanie wartością Shapleya wzięło się stąd, że przygotowuję właśnie recenzję pracy doktorskiej, w której zapronowano użycie tego narzędzia do oceny ważności wierzchołków w sieciach społecznościowych. Mówiąc dokładniej, doktorant rozszerzył tradycyjne definicje centralności wg stopni wierzchołków, bliskości i pośrednictwa na przypadek grupowy (gdzie np. pośrednictwo jest liczone dla grupy wierzchołków a nie pojedynczego wierzchołka), a następnie doktorant wyznacza ważność każdego wierzchołka licząc marginalną kontrybucję danego wierzchołka do miary centralności każdej grupy, do której wierzchołek może należeć. Co ważniejsze, dla n wierzchołków może istnieć 2^n grup, ale w doktoracie zaproponowano bardzo pomysłowe algorytmy, które wyznaczają wartość Shapleya dla każdego wierzchołka w czasie wielomianowym. Cała praca jest niezwykle ciekawa. Częśc z wyników prezentowanych w doktoracie już opublikowano i można się z nimi zapoznać w poniższych pracach:

Michalak, Tomasz P., et al. „Efficient computation of the Shapley value for game-theoretic network centrality.” Journal of Artificial Intelligence Research (2013): 607-650.
Szczepański, Piotr L., Tomasz Michalak, and Talal Rahwan. „A new approach to betweenness centrality based on the shapley value.” Proceedings of the 11th International Conference on Autonomous Agents and Multiagent Systems-Volume 1. International Foundation for Autonomous Agents and Multiagent Systems, 2012.

Liczba która zawiera w sobie Wszechświat 03/20/2016

Posted by Mikołaj Morzy in Uncategorized.
1 comment so far

piTydzień temu, 14 marca, na całym świecie obchodzono międzynarodowy Dzień Liczby PI. Niewiele osób zdaje sobie sprawę z tego, jak głęboką i niepokojącą tajemnicę kryje w sobie ta liczba.

W matematyce liczbą normalną nazywamy taką liczbę rzeczywistą, której nieskończona sekwencja cyfr zawiera jednostajny rozkład częstości występowania każdej cyfry, każdej pary cyfr, każdej trójki cyfr, itd. Innymi słowy, jeśli liczba jest normalna, to 1/10 cyfr w jej reprezentacji stanowią „0”, 1/10 cyfr stanowią „1”, …, ale także 1/100 par cyfr stanowi kombinacja „12”, 1/100 par cyfr stanowi kombinacja „13”, itd. Co więcej, normalność wymaga, aby rozkład częstości występowania cyfr był jednorodny niezależnie od przyjętego systemu liczbowego (dziesiętny, ósemkowy, binarny, szesnastkowy, …). Ideę liczb normalnych wprowadził Emil Borel na początku XX wieku. Co ciekawe, udowodnił on, że prawie wszystkie liczby rzeczywiste są normalne. Przykładami liczb normalnych są liczba Champernowna (konkatenacja kolejnych liczb naturalnych: 0.1234567891011121314…) czy liczba Copelanda-Erdosa (konkatenacja liczb pierwszych: 0.123571113171923…). Liczby, dla których znana jest procedura ich generowania, jak w poprzednich dwóch przykładach, nie stanowią jednak tak dużego wyzwania jak liczby, które „magicznie” pojawiają się w matematyce. Do dziś nie wiadomo, czy najsłynniejsze liczby, takie jak \sqrt{2}, \pi, e, czy ln(2) są normalne, choć większość matematyków skłania się do opinii, że liczby te są normalne.

Co jednak ma normalność do tajemnicy skrywającej się w liczbie \pi? Rozwinięcie dziesiętne \pi jest nieskończone i nie wydaje się mieć w sobie ukrytego żadnego wzorca, zatem cyfry pojawiające się w owym nieskończonym rozwinięciu zachowują się losowo. Nieskończony ciąg losowych liczb zawiera w sobie każdy skończony ciąg cyfr z prawdopodobieństwem równym 1. Powtórzmy to raz jeszcze: w rozwinięciu dziesiętnym liczby \pi pojawia się każdy możliwy skończony ciąg cyfr. Jeśli literom alfabetu przypiszesz kolejne liczby, to w rozwinięciu \pi odnajdziesz każde słowo, każde zdanie, każdą książkę którą kiedykolwiek napisano. Ale odnajdziesz więcej: odnajdziesz każdą książkę, której nigdy nie napisano, odnajdziesz imiona i daty urodzin wszystkich ludzi, którzy kiedykolwiek się urodzili, i tych, którzy nie mieli szczęścia pojawić się na świecie. Dla każdego człowieka który istniał lub nie istniał, odnajdziesz jego biografię. Odnajdziesz całą historię swojego życia, ale też wszystkie historie żyć, które Ci się nie przytrafiły. W tej niepozornej liczbie tkwi zapisany cały dzisiejszy internet, wszystkie jego strony, blogi, posty i wiadomości, wraz z wszystkimi możliwymi reprezentacjami tego internetu (np. całym internetem przetłumaczonym na język kaszubski). Kiedy następnym razem spojrzysz na liczbę \pi, zdobądź się na szacunek, bo liczba ta zawiera w sobie cały Wszechświat. O ile nauka jest poezją rzeczywistości, o tyle matematyka jest tej rzeczywistości magią.

Czy wiedza o tym, że \pi zawiera w sobie każdy możliwy tekst, może być użyteczna? W końcu gdzieś w \pi tkwią odpowiedzi na największe zagadki ludzkości. Szkopuł w tym, że cała ta wiedza jest kompletnie bezużyteczna. Po pierwsze, prawie całe rozwinięcie dziesiętne \pi zawiera śmieci, nie stanowiące żadnego składnego zdania. Po drugie, nie mamy pojęcia, która część jest śmieciem, a która nie – nie możemy tego wiedzieć bo rozwinięcie jest losowe. Wreszcie po trzecie, aby zlokalizować fragment rozwinięcia musimy podać jego pozycję, co wymaga użycia dokładnie tylu bitów co znalezienie samego fragmentu. Dochodzimy do zdumiewającego paradoksu, łańcuch znaków zawierający wszystkie możliwe informacje w rzeczywistości nie zawiera żadnych informacji. Dokładnie ten właśnie paradoks przepięknie pokazał J.L.Borges w swoim opowiadaniu The Library of Babel (dla leniwych streszczenie w Wikipedii).

Zawsze jednak z czystej ciekawości możesz sprawdzić, na której pozycji w liczbie \pi znajduje się Twoja data urodzenia w serwisie Find Your Pi Day. Moja jest na pozycji 573 855.

Eksploracja danych i muzyka (part 7) 12/11/2015

Posted by Mikołaj Morzy in eksploracja danych, muzyka.
add a comment

Zupełnie nie wiem, co o tym myśleć. Generalnie, co do zasady, informatycy nie powinni śpiewać… A piosenki o zjawisku przeuczenia w uczeniu maszynowym to nie jest gotowy materiał na hit. Niemniej jednak grupa związana z kursem uczenia maszynowego na Udacity popełniła poniższe dzieło.

Eksploracja danych i muzyka (part 6) 04/16/2015

Posted by Mikołaj Morzy in muzyka.
add a comment

Rubber Band BanjoSieci Bayesowskie to popularny model reprezentowania związków statystycznych między zmiennymi losowymi. Sieci Bayesowskie znajdują zastosowanie w dziesiątkach aplikacji i znane są wydajne algorytmy wnioskowania i uczenia takich sieci. Z kolei banjo to instrument kojarzony raczej z ludową muzyką amerykańską (jak głosi Wikipedia, „[…] W niektórych stanach na południu USA jest niemal narodowym instrumentem”. Co może wyjść z połączenia tych dwóch pojęć?

Rubber Band Banjo to jednoosobowy zespół muzyki elektronicznej trudniący się tworzeniem ścieżek dźwiękowych do filmów sci-fi. Muzyk sam siebie określa mianem multi-instrumentalisty, twórcy nietypowych instrumentów oraz miłośnika biologii. O ostatnim świadczyć mogą tytuły Trylogii Biologii Syntetycznej: Synthetic Biology, Synthetic Biology II: The Evolution Machine, oraz Synthetic Biology III: Biopocalypse/Biogenesis.

Ja natomiast zapraszam do zapoznania się z albumem Get Your Junk Together, na którym na pozycji 10 znajdujemy piosenkę pt. „Bayesian Networks„. Utwóru można za darmo odsłuchać na stronie Rdio.com: http://www.rdio.com/artist/Rubber_Band_Banjo/album/Gather_Your_Junk_Together/?apSource=a2060652&apSourcePosition=9

Artykuł naukowy składający się z dwóch zdań 04/13/2015

Posted by Mikołaj Morzy in humor, nauka.
2 comments

 

 

Czy da się napisać artykuł naukowy i opublikować go w piśmie z Listy A MNiSW za 50 punktów? Owszem, da się.

 

 

W 1769 roku Leonhard Euler ogłosił hipotezę, że potrzeba sumy co najmniej n liczb podniesionych do n-tej potęgi aby uzyskać liczbę, która sama z siebie jest n-tą potęgą. Innymi słowy, dla niezerowych liczb całkowitych a_1, a_2, \ldots, a_n, b jeśli \sum\limits_{i=i}^{n}a_i^k=b^k to koniecznie n \geq k. Miało to być uogólnienie Wielkiego Twierdzenia Fermata. Hipoteza Eulera pozostawała nienaruszona przez prawie 200 lat, aż do roku 1966, kiedy to L.J.Lander i T.R.Parkin opublikowali poniższą perełkę. Artykuł składa się z dwóch zdań i został opublikowany w Bulletin of the American Mathematical Society, szóstym pod względem współczynnika impact factor czasopiśmie matematycznym na świecie. Poniżej cała praca:

article

Lander, L. J., and T. R. Parkin. „Counterexample to Euler’s conjecture on sums of like powers.” Bulletin of the American Mathematical Society 72.6 (1966): 1079.

Big Data: fakty, mity, obietnice i zagrożenia 12/29/2014

Posted by Mikołaj Morzy in konferencja.
5 comments

Pod koniec października miałem przyjemność występować na TEDx Bydgoszcz i prezentować swoją wizję internetu przyszłości. Moje wystąpienie nosiło tytuł „Big Data: fakty, mity, obietnice i zagrożenia” i miało zdecydowanie pesymistyczny wydźwięk. Całkiem niedawno powtórzyłem, w nieco rozszerzonej formie, te same tezy podczas konferencji Homo Informaticus 2.0 organizowanej przez Instytut Filozofii UAM. Postaram się poniżej pokrótce streścić główne tezy mojego wystąpienia.

Swoją prezentację zacząłem od prostego zegara, który odmierzył 15 sekund. Niby nic, a w świecie internetu upłynęła cała wieczność. W trakcie tych 15 sekund:

  • załadowano 1500 obrazów na Flickra
  • zarejestrowano 20 nowych domen
  • dokonano 170 000 aktualizacji statusu na Facebooku
  • na LinkedIn powstało 25 nowych profili
  • na YouTube załadowano 150 nowych filmów o łącznej długości 6 godzin
  • powstały 4000 nowych notek blogowych
  • na Skypie przegadano 90 000 minut
  • wydano 200 000 zapytań do Google, z czego 40 000 dotyczyło pornografii
  • wysłano 40 000 000 e-maili

Te statystyki zdają się potwierdzać tezę Alvina Tofflera o „szoku przyszłości”. W tak skonstruowanym świecie tysiące bytów próbują konkurować o najbardziej ograniczony zasób: mój czas. Przewrotną ilustracją tego pędu jest strona www.milliondollarhomepage.com, na której pomysłowy młodzieniec, Alex Tew, sprzedał dokładnie 1 milion pikseli po dolarze za piksel. Do dziś strona jest wypełniona złej jakości reklamami prowadzącymi do setek serwisów, z których wiele nie było odświeżanych od początku lat 90-tych (swoją drogą losowe klikanie w Million Dollar Homepage jest niezapomnianym przeżyciem, swoistą archeologią internetową, przenoszącą czasem do zamierzchłej przeszłości ręcznie tworzonych, brzydkich stron www). Dzisiejszy internet jest spełnieniem najczarniejszych snów dwóch wielkich myślicieli XX wieku: George’a Orwella i Aldousa Huxleya. Pierwszy bał się, że rozwój cywilizacji doprowadzi do powstania narzędzi, które umożliwią objęcie społeczeństwa pełną kontrolą i pozbawią ludzi elementarnej wolności. Drugi bardziej obawiał się trywializacji i sprowadzenia kultury do wspólnego mianownika, co w efekcie doprowadzić miało do zidiocenia społeczeństw. Można powiedzieć, że przeciwstawne wizje Orwella i Huxleya wieszczyły społeczeństwa zniewolone lub ogłupione (jak zgrabnie to ktoś ujął: „Albo Wielki Brat ogląda Ciebie, albo Ty oglądasz Wielkiego Brata„). Można jednak mieć obawy, że to nie jest „albo, albo”, lecz że raczej obserwujemy oba te zjawiska jednocześnie.

Trudno jest zdefiniować samo pojęcie big data. Wyszukałem w sieci paru definicji i wyglądają mniej więcej następująco:

Big data is nothing more than a tool for capturing reality. David Leonhard, NYT

Big data is a cultural movement by which we continue to discover how humanity interacts with the world. Drew Conway, Project Florida

big data represents the cultural shift in which more and more decisions are made by algorithms with transparent logic, operating on documented immutable evidence. Daniel Gillick, Google

Jak zwykle jednak najlepszej definicji dostarczył sam internet, twierdząc, że:

[…] data is big when data size becomes the part of the problem.

W odniesieniu do zjawiska big data często mówi się o tzw. trzech V: volume, velocity, variety. Pierwsze V odnosi się do ilości gromadzonych danych. Przykładowo, w trakcie jednego 6-godzinnego lotu samolot Boeing 737 produkuje 240 terabajtów danych. Drugie V podkreśla prędkość, z jaką dane są generowane. Dotyczy to przede wszystkim strumieni kliknięć w internecie, wyświetleń reklam, przesyłania informacji między zautomatyzowanymi agentami, sieci sensorycznych, itp. Dobrym przykładem tego zjawiska jest świat giełdy, który został w ponad 95% przejęty przez algorytmy handlujące. Tak zwani „racjonalni gracze”, podejmujący swoje decyzje inwestycyjne na podstawie analizy rynku, sytuacji polityczno-ekonomicznej, itp., stanowią, w zależności od szacunków, od 1% do 5% kupujących i sprzedających. W latach 60-tych średni czas posiadania jednej akcji wynosił nieco ponad 8 lat. W roku 1990 jedna akcja pozostawała w ręku jednego inwestora przez dwa lata. Na początku bieżącej dekady czas ten skrócił się do 4-5 miesięcy, dwa lata temu wynosił jeszcze 5 dni. W dniu dzisiejszym jedna akcja utrzymuje się w ręku jednego inwestora średnio przez 30 sekund. Jeśli kiedyś w telewizji zobaczycie „eksperta” od spraw gospodarczych wygadującego dyrdymały o inwestorach wycofujących się z rynku kraju X, Y lub Z, zapytajcie go o to, jakie decyzje inwestycyjne można podjąć w ciągu 30 sekund… Ostatnie V odnosi się do różnorodności danych, na jakie napotykamy. W rzeczywistości w niedługiej przyszłości każdy przedmiot, ożywiony i nieożywiony, będzie generował i konsumował dane przesyłane przez sieć. Już dziś statystyczny mieszkaniec rozwiniętego technologicznie kraju przetwarza dziennie więcej informacji niż jego przodek z XVIII wieku przetwarzał przez całe swoje życie.

Na ten obraz nakłada się także rewolucja spowodowana upowszechnieniem się urządzeń przenośnych. Mają one podstawową zaletę nad tradycyjnymi urządzeniami: umożliwiają natychmiastową akcję. Z jednego z niedawnych badań wynika, że ponad 50% akcji będących rezultatem wyszukania informacji przy użyciu telefonu lub tabletu wydarza się w przeciągu jednej godziny od wyszukiwania. Takie twarde ograniczenie czasowe na przydatność i użyteczność informacji nakłada dodatkowe wyzwania technologiczne i naukowe, ale też i otwiera zupełnie nowe możliwości. Poniższa tabelka dobrze obrazuje to zjawisko:

liczba ludności 6.3 6.8 7.2 7.6
liczba urządzeń 0.5 12.5 25 50
urządzenia/osoba 0.08 1.84 3.47 6.58
czas 2005 2010 2015 2020

W świecie nauki termin Internet of Things z każdym miesiącem staje się coraz gorętszym hasłem. Trzeba zdać sobie sprawę z tego, że człowiek stanowi (lub w bardzo niedługiej przyszłości będzie stanowił) absolutny margines jeśli chodzi o wykorzystanie internetu. To medium jest idealne do komunikacji między maszynami. Myślę, że IoT może spowodować prawdziwy renesans technologii semantycznych i umożliwić powstanie aplikacji tak zaawansowanych, że z dzisiejszej perspektywy wydają się co najwyżej odległą futurystyczną wizją.

Big Data przyszły z licznymi obietnicami. Zgodnie z predykcjami technologicznych guru dostępność ogromnych wolumenów danych miała zrewolucjonizować lingwistykę, socjologię, psychologię, wznieść inżynierię społeczną na nowe wyżyny, zautomatyzować dziesiątki obszarów ludzkiej działalności. Rzeczywistość, póki co, wygląda dużo szarzej. Pokazowy produkt Big Data, czyli Google Flu Trends, sprawował się doskonale do 2010 roku (chociaż kompletnie nie przewidział wybuchu epidemii H1N1 w 2009), ale już w sezonie 2012/13 przeszacował liczbę zachorowań dwukrotnie! Innymi słowy predykcje Google Flu Trends na ostatnie sezony grypy są bezużyteczne. Innym przykładem miały być automatyczne tłumaczenia. Google Translator, mając do dyspozycji praktycznie wszystkie teksty napisane w danym języku, miał być w stanie dokonywać translacji bez konieczności odwoływania się do skomplikowanych modeli języka, gramatyk, itp. Pozwoliłem sobie poddać próbie Google Translate i najpierw przetłumaczyłem pewną znaną strofę z polskiego na angielski, a później odwróciłem tłumaczenie i efekt był następujący:

Litwo mojej ojczyzny jesteś tak długo, jak doceniać potrzebę zdrowia jest po prostu dowiedzieć się, kto stracił…

Jednak powyższe to tylko dykteryjki, prawdziwe zagrożenie czai się gdzie indziej. Oczywiście wszyscy wiedzieli od dawna, że wszyscy wszystkich podsłuchują. Jednak dopiero ujawnienie przez Edwarda Snowdena skali inwigilacji uświadomiło ludziom, jak daleko zaszły sprawy. Jako przykład niech posłuży PRISM: Microsoft zaczął przekazywać swoje dane w 2007 roku, rok później Yahoo, Google i Facebook w 2009, później YouTube, AOL, Skype, Apple. Na usta ciśnie się pytanie, które zadali starożytni Rzymianie: Quis custodiet ipsos custodes? Jestem przekonany, że z każdego, absolutnie każdego, można w cyfrowym świecie zrobić złodzieja, pedofila lub terrorystę.

Swoje wystąpienie zakończyłem nieśmiałą nutką optymizmu. Mimo wszystko wydaje się, że sprawa nie jest zupełnie przegrana. Internet stał się zbyt istotnym medium aby można było nim zawładnąć całkowicie i poddać kontroli totalnej. W chwili obecnej trzeba usilnie bronić neutralności sieci z jednej strony, a z drugiej strony pozbyć się złudzeń związanych z zachowaniem prywatności w sieci. No i nieufnie podchodzić do wszystkiego, co jest „darmowe”. Jeśli nie płacisz za produkt, to z dużym prawdopodobieństwem produktem jesteś ty sam.

IgNoble 2014 10/09/2014

Posted by Mikołaj Morzy in humor.
Tags:
1 comment so far

18 września już po raz 24 odbyła się ceremonia wręczenia nagród IgNobel. Jak co roku konkurencja była ostra, ale lista laureatów jest imponująca. Oto zwycięzcy poszczególnych dyscyplin:

I na koniec moim zdaniem najciekawsza nagroda w tym roku. Nie jestem w stanie sobie wyobrazić, jak wyglądało planowanie tego eksperymentu, jaka instytucja go sfinansowała, i jaki był jego cel. Ale trzeba przyznać, że warto było:

ig-nobel-isbjørn-607

Grywalizacja eksploracji danych, wnioski po kolejnym semestrze 07/09/2014

Posted by Mikołaj Morzy in Uncategorized.
1 comment so far

gamificationNo i mamy już za sobą kolejny semestr laboratoriów z przedmiotu „Eksploracja danych”. W tym semestrze postanowiłem poeksperymentować i włączyłem do przedmiotu środowisko ClassCraft. Idea jest prosta: studentki i studenci tworzą swoje postaci, wybierają ich rodzaj (wojownicy, magowie, uzdrawiacze) i w trakcie semestru „grają” w ClassCraft – zdobywają punkty doświadczenia, czasem tracą punkty siły, uczą się zaklęć, itp. Gracze są pogrupowani w klany i można przydzielać im zadania indywidualne oraz grupowe. Platforma jest dość eksperymentalna, ale ciągle się rozwija i ciekawiło mnie, jak praktycznie dorośli ludzie zareagują na tę nowinkę. Poniżej publikuję wyniki ankiety, jaką przeprowadziłem po semestrze, odpowiedzi otrzymałem od 16 osób.

ankieta01

Skala odpowiedzi zmieniała się od 1 – spodziewała(e)m się zupełnie czegoś innego aż do 5 – dokładnie tego się spodziewała(e)m. Okazuje się, że studentki i studenci wiedzą mniej więcej, czego oczekiwać po prowadzącym.

ankieta02

Biorąc pod uwagę, że nieuniknione jest przejście do bardziej elastycznych planów zajęć i amerykanizacja modelu nauczania (studenci samodzielnie projektują swój profil absolwenta), warto już teraz sprawdzić, czy miałbym za co kupować rano bułki. Póki co, jest dobrze, można oczekiwać że frekwencja na przedmiocie fakultatywnym by dopisała.

ankieta03

Skala ocen w tym pytaniu waha się od 1 – bardzo źle do 5 – bardzo dobrze. Ten wynik mnie szczególnie cieszy, bo oznacza, że przedmiot ewoluuje w dobrym kierunku.

ankieta04

Kluczowe pytanie – czy cała praca włożona w grywalizację kursu (drogie studentki, drodzy studenci, wyobraźcie sobie, że grywalizacja kursu wymaga poświęcenia mu znacznie większej ilości czasu) ma sens? Skala odpowiedzi to 1 – dziecinada do 5 – super! Czyli grywalizacja albo się podoba, albo bardzo podoba, choć zdarzają się osoby, którym taka forma nie do końca odpowiada.

ankieta05

W trakcie semestru kilka zadań (szczególnie tych bardziej punktowanych) zostało przeze mnie umieszczonych na platformie Kaggle. Zastanawiałem się, jak to zostanie przyjęte, bo wymaga utworzenia nowego konta, no i proponuje ściganie się z całym światem… Oczywiście w teorii, w praktyce (ponieważ wszystkie zadania były opcjonalne) tylko część studentek i studentów korzystała z Kaggle, choć mieliśmy też 2-3 gości z zagranicy (mimo, że opisy zadań były po polsku!). Skala odpowiedzi to 1 – bardzo słaby do 5 – bardzo dobry.

ankieta06

Drugie kluczowe pytanie: czy warto było bawić się w ClassCrafta? Było to moje pierwsze podejście do platformy i sam mam w głowie co najmniej 10 pomysłów na ulepszenie sposobu wykorzystania ClassCrafta na laboratoriach, więc ocena 4 – dobry pomysł, ale nie do końca wykorzystany, jest w pełni zrozumiała i zasłużona. Wniosek jest taki, że za rok też będzie ClassCraft, ale dużo fajniejszy.

ankieta07

To jest kluczowy wynik ankiety i istotna informacja dla wszystkich dydaktyków: nie oceniajcie przedmiotu na podstawie 1-2 kolokwiów lub jednego egzaminu na koniec semestru! To jest zupełnie bez sensu (poza tym, że ocenianie studentów jest bez sensu generalnie rzecz biorąc, ale musimy to robić, bo zobowiązuje nas do tego regulamin studiów). Wprowadzenie punktów i ich konsekwentne przyznawanie w trakcie semestru pomaga studentom planować swoje oceny, wymusza systematyczność pracy, ułatwia przyswajanie tematu. Zresztą, proszę spojrzeć na następne dwa pytania:

ankieta08ankieta09

Przecież o to nam właśnie chodzi: każda studentka i każdy student samodzielnie wybierają, ile czasu chcą poświęcić na przedmiot, dzięki czemu możemy się skupić na pracy z tymi, którzy faktycznie są bardzo zainteresowani naszym przedmiotem, możemy im poświęcić więcej czasu, a studenci mają łatwiejsze życie. Klasyczna sytuacja win-win. No i jest to z gruntu sprawiedliwsze – uzyskanie wysokiej oceny wymaga konsekwentnej pracy w trakcie całego semestru, nie można nadgonić punktów w ostatnim tygodniu, bo po prostu nie ma tylu punktów do zdobycia!

ankieta10

Skala ocen: 1- fatalny, 10 – doskonały. Brak jakiejkolwiek 10-tki oznacza, że jest sporo do poprawienia (o czym doskonale sam wiem), ale cieszy mnie tak wysoka ocena przedmiotu. Prowadzenie laboratoriów z eksploracji to chyba, obok laboratoriów i wykładów z sieci społecznościowych, moje najbardziej ukochane zajęcie w pracy dydaktycznej i bardzo się cieszę, że przedmiot się podoba. Jeśli chodzi o najważniejsze uwagi i sugestie otrzymane od słuchaczek i słuchaczy, to wygląda to tak:

  • za mało pracy grupowej
  • więcej programowania: Python i R (na pewno w przyszłym roku!)
  • za dużo Oracle Data Mining (mój grzech, miałem już te zadania i było mi żal je wyrzucać, ale sam widzę, że trzeba to zdecydowanie odchudzić)
  • zbyt powtarzalne zadania, konieczność zróżnicowania zadań
  • więcej analizy i interpretacji modeli, przedmiot skupia się przede wszystkim na budowaniu modeli i brakuje następnego kroku, czyli analizy uzyskanych wzorców
  • nieścisłości w quizach
  • konieczność dopracowania reguł gry w ClassCrafcie i dołożenia użytecznych czarów i mocy (obecne czary i moce nie były zbyt przydatne)

Jeszcze raz serdecznie dziękuję wszystkim którzy znaleźli czas i wypełnili ankietę, ten głos jest dla mnie bardzo ważny.

Celebryci i sesje zdjęciowe 04/11/2014

Posted by Mikołaj Morzy in Uncategorized.
add a comment

Przyznaję szczerze, że brak mi cierpliwości dla świata celebrytek i celebrytów. Wzajemne sprzężenie śmieciowych mediów i (najczęściej) pozbawionych mózgów osób znanych z tego że są znane wzbudza we mnie agresję. Niepotrzebną, oczywiście, bo to nie moja bajka, ale mimo wszystko skacze mi ciśnienie a wiara w ludzkość pikuje w dół. Klasycznym przykładem jest piosenkarka Steczkowska, która zrobiła sobie sesję w jednym z najgorszych tego typu pism („Viva”). Wywiad opowiadał o cierpieniach piosenkarki Steczkowskiej związanej z odejściem (dwa lata wcześniej) ojca, a ilustrujący cierpienia piosenkarki Steczkowskiej materiał zdjęciowy ukazywał piosenkarkę Steczkowską cierpiącą na grobie (tak wygląda cierpiąca Steczkowska). Później było już tylko lepiej, okazało się że ojciec leży pochowany w Stalowej Woli a Steczkowska pozowała cierpienie na cudzych grobach na Powązkach. No i co ja za to mogę, że takie postawy wywołują u mnie odruch wymiotny?

Gdy dowiedziałem się, że obszar eksploracji danych doczekał się swoich celebrytów z pozowanymi sesjami, serce mi zadrżało. Chodzi w końcu o nie byle kogo, Andrew Ng jest głównym proponentem idei deep learning, współtwórcą platformy Coursera, szefem Stanford Artificial Intelligence Lab, autorem fantastycznego kursu MOOC o eksploracji danych, a do tego niezwykle płodnym i popularnym autorem publikacji naukowych. Jego wybranką jest Carol Reiley konstruująca roboty chirurgiczne. Ponieważ wspólnym obszarem zainteresowań pary są roboty, postanowili ogłosić swoje zaręczyny w naukowym portalu plotkarskim IEEE Spectrum. Zwróćcie uwagę na staranną narrację zdjęć. Na pierwszym delikatny „product placement” w postaci Maca, potem spacer po parku z helikopterem (bo wiadomo że naukowcy na romantyczne przechadzki do parku zawsze zabierają roboty), na trzecim zdjęciu „konstruują” robota (tym próbnikiem chyba szuka prądu na obudowie?), a na koniec niezrozumiały wybuch śmiechu przy robocie PR2. Carol do sesji przygotowała dwa ubrania, Andrew biega wciąż w jednej koszuli. Sam nie wiem, co o tym myśleć, oceńcie tę sesję sami.

Statystyka i taniec 02/25/2014

Posted by Mikołaj Morzy in nauka.
add a comment

Pilnie przygotowuję się do nowego semestru i mam nadzieję, że uda mi się mile zaskoczyć studentki i studentów. Tymczasem mały drobiazg z ulubionej przeze mnie kategorii: sztuka i nauka. Czy da się wytłumaczyć najprostsze pojęcia statystyczne, takie jak próbka i populacja, rozkład prawdopodobieństwa, wariancja i korelacja, przy użyciu tańca? Oczywiście, a efekt jest bardzo miły dla oka. Dwoje Anglików, Lucy Irving i Andy Field, w ramach projektu „Communicating Psychology to the Public through the Dance” pokazują, jak podstawowe pojęcia z obszaru statystyki można łatwo przetłumaczyć na pojęcia z życia codziennego. Skoordynowany taniec jest okazją do wytłumaczenia, czym jest pozytywna i negatywna korelacja, czemu rozkłady prawdopodobieństwa pomagają lepiej zrozumieć zjawiska, i czym jest błąd oszacowania cech populacji na podstawie analizy próbki. Dyskusje  na temat pomysłu odbywają się na Twitterze tu i tu.

%d bloggers like this: