Marzec | 2013 | data mining à la polonaise

Podcast junkie 03/30/2013

Posted by Mikołaj Morzy in Uncategorized.
12 Komentarzy

Podcast logo Przyznaję się bez bicia, jestem całkowitym podcast junkie. Do tego stopnia, że w zasadzie przestałem nawet słuchać muzyki w samochodzie czy w pociągu, poświęcając czas tylko i wyłącznie podcastom. Ma to swoje dobre strony, bo zdecydowanie zmalało mi uczucie marnowania czasu w korku – zamiast się denerwować po prostu słucham czegoś interesującego. A oferta jest, mówiąc najbardziej oględnie, nieskończenie fascynująca. Jestem przekonany, że każdy znajdzie dla siebie coś ciekawego. Z okazji nadchodzących świąt postanowiłem więc odejść od tematyki związanej z nauką i eksploracją danych w szczególności (choć, nieco okrężenie, wrócę do tego tematu jutro) i podzielić się z Wami tymi podcastami, które uważam za najśmieszniejsze, najbardziej wartościowe, najciekawsze. Poniżej przedstawiam zestawienie moich ulubionych audycji, z podziałem na kategorie odpowiadające moim pasjom i hobby (wyjątkiem jest sama informatyka, akurat o niej nie słucham żadnej audycji).

Historia

A History of Alexander to podcast wyprodukowany i opowiedziany przez Jamiego Redferna. Jamie zaczyna od przedstawienia sytuacji w Grecji i Persji w momencie panowania Filipa i płynnie przechodzi przez całą fascynującą i niezwykłą historię podbojów Aleksandra, od udziału w bitwie pod Cheroneą aż po brzegi Hydaspesu i powrót do Babilonu. Akcja podcastu szybko przenosi nas w czasie, pozwalając wczuć się w wydarzenia z zamierzchłej przeszłości. Podoba mi się też to, że Redfern, nie będąc zawodowym historykiem, nie unika rozważań o psychologii poszczególnych postaci, chętnie analizuje możliwe przyczyny podejmowania poszczególnych decyzji, itd.

historyofHannibal

Po ukończeniu pracy nad historią Aleksandra Wielkiego Redfern nie pozwolił swoim fanom długo czekać i stosunkowo szybko pojawił się kolejny serial: A History of Hannibal. Tytuł nieco mylący, bo pierwsze 12 odcinków jest poświęcone I wojnie punickiej i Redfern szczegółowo opisuje działania prowadzone przez Kartagińczyków i Rzymian. Pojawia się tam jedna z moich ulubionych anegdot historycznych o konsulu Klaudiuszu Pulcherze który obraził się na święte kurczaki (nie chciały jeść świętego ziarna, co wróżbici potraktowali jako zły omen przed bitwą) i wyrzucił je za burtę mówiąc „Skoro nie są głodne, to może im się chce pić?”. Z samym Hannibalem spotykamy się dopiero w okolicach 15 odcinka, ale od razu zaczyna się jazda niczym na rollercosterze: podbój Hiszpanii, marsz przez Galię i przekroczenie Alp, anihilacja kolejnych rzymskich legionów, aż po niewyobrażalną rzeź pod Kannami. Jamie opowiada niezwykle wciągająco, potrafi być momentami autentycznie zabawny, i podcast ma tylko jedną wadę: Jamie mówi z niezwykle silnym akcentem zManchesteru, co wymaga przyzwyczajenia uszu do języka znacznie odbiegającego od standardów BBC.

historyofRome Brakuje mi słów, żeby wyrazić, jak niesamowity i cudowny był podcast Mike’a Duncana, The History of Rome. Płakałem, gdy doszliśmy do ostatniego odcinka w którym Odoaker przegonił z tronu w Rawennie młodzika, jak na ironię noszącego imię Romulus Augustus. Mike w 179 pasjonujących odcinkach przeszedł od maleńkiej wioski założonej na wzgórzach nad Tybrem, poprzez całą Republikę i okres największej świetności Cesarstwa, aż po kryzys wieku II, próby naprawy sytuacji w wieku III i ostateczny upadek Zachodu. W swoim podkaście zawarł wszystko: są tam i fantastyczne opisy największych wojen i bitew, jest dogłębne przedstawienie ekonomii i socjologii Rzymu i Rzymian, jest miejsce na analizę psychologiczną głównych postaci, jest też mnóstwo humoru, a przede wszystkim jest ogromna pasja dla tematu. Jeśli choć trochę interesuje Was historia Rzymu, ten podcast to absolutna konieczność!

Gdy Mike Duncan skończył snuć swą wspaniałą opowieść w roku 476 n.e. tak samo jak wszyscy inni słuchacze miałem przede wszystkim ogromne poczucie niedosytu. Przecież Cesartwo Rzymskie upadnie dopiero za prawie 1000 lat gdy Mehmet Zdobywca wkroczy do Konstantynopola! Na szczęście znalazł się Robin Pierson, który postanowił kontynuować dzieło Duncana i opowiedzieć historię mniej znanego, a tak samo fascynującego, Cesarstwa Bizantyjskiego. I tak powstał podcast The History of Byzantium. W trakcie pierwszych paru odcinków Robin nieco za bardzo próbował wejść w buty Duncana i szło mu to niezdarnie: żarty nie śmieszyły, głos zdradzał brak pewności siebie a struktura każdego odcinka zbyt przypominała THoR. Na szczęście od 5-6 odcinka Robin nabrał dużo więcej wiary w siebie i znalazł swój unikalny styl. Od tego momentu słuchanie go jest czystą przyjemnością. W tej chwili (odcinek 22) jesteśmy w trakcie panowania Justyniana i Belizariusz właśnie podbija Italię (więc przed nami jeszcze 900 lat pasjonującej historii), ale już wyraźnie widać, że to będzie doskonały podcast.

12byzantinerulers Skoro już jesteśmy przy Konstantynopolu, nie mogę nie wspomnieć o dwóch niezwykłych podcastach Larsa Brownwortha. 12 Byzantine rulers to cykl niezwykłych portretów władczyń i władców zasiadających na purpurowym tronie. Brownworth maluje te portrety z niezwykłą starannością, ale też i z wyraźną melancholią i żalem za cesarstwem, którego tysiącletnia historia jest bardzo słabo znana na Zachodzie. Spotykamy w tej opowieści starożytnych: Konstantyna Wielkiego i Juliana Apostatę, spotykamy barbarzyńcę Zeno, patrzymy na chwałę Cesarstwa pod władzą Justyniana, poznajemy bezlitosną i twardą Irenę, wreszcie jesteśmy świadkami zdarzenia, dzięki któremu Bazyl II otrzymał przydomek Bułgarobójca. A całą historię spina klamrą Konstantyn XI Paleolog, umierający z mieczem w dłoni gdy wojska Mehmeda wdzierają się do Konstantynopola. Drugim podcastem realizowanym przez Brownwortha jest Norman Centuries, saga normandzkiego podboju Sycylii i południowych Włoch. Tu także Brownworth skupia się na najbardziej charakterystycznych postaciach: Williamie Zdobywcy, Robercie Guiscard, czy Tankredzie. Spokojny i kojący głos, przepełniony zadumą nad historią sprzed 1000 lat, Lars na pewno przypadnie do gustu tym, którzy do historii mają stosunek bardziej kontemplacyjny.

A to jest jeden z moich najnowszych nabytków jeśli chodzi o podcasty historyczne: The History of the Crusades. historyofCrusades Zabrzmi to straszliwie głupio, ale w pierwszej chwili nie do końca mi pasowało, że tak „męski” temat jak krucjaty jest opowiadany śpiewnym kobiecym głosem. Przez dłuższy czas nie byłem w stanie też zidentyfikować akcentu Autorki. Nic dziwnego, Sharyn Eastaugh mieszka na Tasmanii i stamtąd właśnie wysyła w świat niezwykłą i wciągającą historię wypraw krzyżowych. Na razie jesteśmy w roku 1001, Jerozolima dopiero co została zdobyta przez I Krucjatę, Antiochia znajduje się we władaniu Boemunda I-go a Europę coraz bardziej ogarnia religijna gorączka. Sharyn swoją opowieść prowadzi niespiesznie, starannie śledzi losy wszystkich bohaterów i co rusz przypomina, co się dzieje aktualnie z głównymi aktorami dramatu, popisując się przy tym nieprawdopodobną wiedzą i erudycją. Przyznaję szczerze, że ten okres w historii nie jest mi szczególnie znany i cieszę się, że znalazłem tak dobre źródło wiedzy.

Na koniec sekcji historycznej zostawiłem najbardziej niesamowity, przerażający i fascynujący ze wszystkich podcastów: Dan Carlin’s Hardcore History. Nie da się opisać uczucia, jakie wzbudza ten podcast, to trzeba usłyszeć. Dan Carlin ma tak osobisty stosunek do historii, i przedstawia każdy poruszany temat tak emocjonalnie, że faktycznie przenoszę się w czasie. Gdy opisuje bitwę pod Kannami, to nie ma tam genialnych strategicznych posunięć Hannibala, linii piechoty iberyjskiej starannie cofającej się by wciągnąć Rzymian w pułapkę. Zamiast tego mamy opisy ludzi dostających ataków biegunki i wymiotujących ze strachu, pył, kurz, zamieszanie, a w końcowej fazie bitwy ludzi brodzących po kolana we krwi i zarzynających się mieczami, dzidami i czym popadnie. Gdy słuchałem opisu zdobycia przez Rzymian Kartaginy pod koniec III wojny punickiej, fizycznie wbijałem palce w fotel ze strachu, tak sugestywnie Carlin przedstawił trzy dni mordowania, grabienia, gwałcenia i torturowania pokonanych. Równie przerażające są audycje o froncie wschodnim, o imperium Mongołów, o historii dzieci, o przekraczającym ludzkie pojęcie okrucieństwie Asyryjczyków, i wiele innych. Ze wszystkich wymienionych wyżej podcastów ten na pewno najbardziej zmieni Wasze spojrzenie na historię.

Sceptycyzm

Jeśli spośród wszystkich opisywanych przeze mnie podcastów mielibyście wybrać jeden, to chciałbym, żeby to był właśnie ten. Skeptics Guide to the Universe to bez wątpienia najważniejszy i najbardziej eksponowany z podcastów poświęconych sceptycyzmowi, racjonalizmowi i krytycznemu myśleniu. Bracia Novella, Rebecca Watson i Evan Bernstein co tydzień stają w szranki z pseudo-nauką, przesądami, głupotą i oszustwami prezentowanymi w popularnych mediach. SGU skupia się przede wszystkim na promocji zasad krytycznego myślenia i popieraniu światopoglądu racjonalistycznego, w myśl którego nauka jest najpewniejszym sposobem dochodzenia do prawdy jakim aktualnie dysponujemy. Z tego podcastu dowiecie się zarówno o najbardziej interesujących wydarzeniach ze świata naukowego, ale też usłyszycie o najbardziej absurdalnych, głupich i niebezpiecznych twierdzeniach podnoszonych przez miłośników magii. Akupunktura, homeopatia, reiki, bio-energia, irydiologia, leczenie raka mieszanką łąkowych ziół, każda pseudo-naukowa bzdura znajdzie swoje 5 minut w tym programie. SGU to najlepsze wprowadzenie do sceptycyzmu i do pełnego przeżywania prawdziwych cudów: niezwykłego skomplikowania rzeczywistości i wiedzy o tej rzeczywistości, jaką oferuje nam współczesna nauka. Podtytuł podcastu najlepiej to oddaje: your escape to reality.

Czy zastanawiacie się czasem, co jest zawarte w szczepionkach i czy te składniki są niebezpieczne dla ludzi? Na czym polega efekt placebo i jak wpływa na współczesną medycynę? Czy można dokonać detoksyfikacji organizmu? A może przekonują Was doniesienia o znalezieniu kości yeti lub zdjęć potwora z Loch Ness? Czy telepatia jest możliwa i co to są eksperymenty Ganzfelda? W takim razie musicie zacząć słuchać Skeptoidu. Ten cotygodniowy program Briana Dunninga za każdym razem bierze na warsztat jakiś popularny mit i rozprawia się z nim bezlitośnie. Spektrum tematów jest szerokie: medycyna alternatywna, kryptozoologia, teorie spiskowe, UFO, mity historyczne, nauka, religia, itp. Do każdego odcinka Brian dodaje transkrypt nagrania oraz bogatą dokumentację w postaci odnośników do artykułów naukowych. Jak się okazuje, nawet tak zatwardziały sceptyk i racjonalista jak ja dowiedziałem się, że wierzę w nieudokumentowany mit: przez lata byłem przekonany, że potrafię czytać dużo szybciej niż średnia populacji i szczyciłem się wynikami uzyskanymi w ramach ćwiczeń z szybkiego czytania. Niestety, okazuje się, że szybkie czytanie to mit. Brian przedstawia swój program w sposób bardzo przystępny i zabawny. Ucząc bawić, bawiąc uczyć, w wygodnym 15-minutowym formacie.

Ostatnim podcastem z tej kategorii jest Point of Inquiry produkowany przez Center for Inquiry. W tym przypadku bardzo mi odpowiada format podcastu: jest to po prostu zapis cotygodniowego wywiadu jaki przeprowadza Chris Mooney lub Indre Viskontas z jakąś znaną osobą ze świata nauki. Najczęściej okazją jest promocja jakiejś książki, chociaż zdarzają się też odcinki poświęcone bardzo konkretnym problemom. Lista gości programu jest imponująca, można posłuchać wywiadów ze Stevenem Pinkerem, Paulem Krugmanem, Carlem Zimmerem, Lawrencem Kraussem, Danielem Denettem, Neilem deGrasse Tysonem, i wieloma innymi znanymi nazwiskami. Wywiady trwają około 30-40 minut, więc rozmówcy mogą wejść w szczegóły omawianych kwestii i nie muszą się ślizgać tylko po powierzchni problemów. Poziom wywiadów bywa różny, czasem są ciekawsze, czasem ciut mniej, widać też bardzo wyraźną orientację polityczną podcastu (zdecydowanie liberalna i przeciwna konserwatystom), choć np. jeden z ostatnich odcinków był poświęcony grzechom lewicy w promowaniu postaw pozbawionych jakichkolwiek naukowych dowodów (chodzi oczywiście przede wszystkim o sprzeciw wobec GMO i energii atomowej).

Ateizm

W tej kategorii zaczynam od podcastu na który zawsze czekam z największą niecierpliwością: Reasonable Doubts. Czterech młodych dżentelmentów omawia wszystkie aspekty religii. Wszyscy czterej wywodzą się ze środowisk fundamentalistycznych (jeden nawet miał być pastorem) i co jak co, ale Biblię znają na wylot. RD to podcast dla osób myślących i niepozbawionych otwartej głowy. Z jednej strony, ateiści mogą się z tej audycji dowiedzieć bardzo dużo o różnych odłamach chrześcijaństwa (dla mnie absolutną nowością były odcinki o kalwiniźmie czy zielonoświątkowcach), z drugiej strony osoby wierzące mogą zapoznać się z pełną argumentacją świadomych ateistow. Bardzo dużo miejsca poświęcone jest psychologii wiary (jeden z prowadzących jest pracownikiem naukowym badającym psychologię religii), przedstawiane są liczne eksperymenty psychologiczne które pokazują, jakie uwarunkowania legły u podstaw wielu postaw i przekonań religijnych. Jest też miejsce na komentarz dotyczący najnowszych wydarzeń, jest parę arcyśmiesznych segmentów (np. Stranger than Fiction – absurdalne inicjatywy ludzi ogarniętych religijnym wigorem lub Polytheism – najbardziej niesamowite mity z zapomnianych religii). RD jest podcastem wyjątkowym w tym sensie, że mimo jednoznacznie ateistycznego wydźwięku i konsekwentnego krytykowania religii prowadzącym udaje się oddzielić wiarę od osób wierzących i nigdy nie przekraczają granicy, która mogłaby być obraźliwa. No i bywają czasami niewiarygodnie zabawni.

Kolejny podcast jest dokładnym przeciwieństwem Reasonable Doubt. I posiada bardzo mylącą nazwę: The Good Atheist. Wiele osób które są ateistami ma chyba tak, że raz na jakiś czas mają ochotę wykrzyczeć prosto w twarz wszystkim wierzącym (a szczególnie funkcyjnym wierzącym) co myślą o religii, instytucjach religii, moralności religijnej i narzucaniu religii wszystkim dookoła (szczególnie dzieciom). I w takich chwilach na usta cisną się słowa powszechnie uznawane za obraźliwe. Jeśli odczuwacie taką potrzebę, to Jacob Fortin i Ryan Harkness zrobią to za Was, bardzo głośno, wulgarnie, bez śladu sympatii lub szacunku do najstarszych tradycji religijnych świata. I użyją do tego celu wielu brzydkich słów. Tego podcastu nie powinny słuchać osoby wierzące bo na pewno prędzej czy później poczują się urażone. Ja traktuję ten podcast w kategoriach terapeutycznych. Kiedy nie mogę już znieść religijności lejącej się na mnie z radio, gazet i telewizji, włączam dwóch bezrobotnych Kanadyjczyków którzy siarczyście przeklinając podsumowują pontyfikat Benedykta XVI w kontekście skandalu pedofilskiego, i czuję że równowaga została przywrócona.

Ostatni podcast jest zupełnie niesamowity. Dr Robert M. Price występuje jako The Bible Geek. Dr Price jest autorem całej masy książek o tematyce biblijnej. Były pastor i fundamentalistyczny protestant, całkowicie odszedł od wiary. O sobie mówi: „jestem ateistą zakochanym w Biblii”. O Biblii wie praktycznie wszystko. Nie wierzy w ani jedno słowo (jako prawdę objawioną), ale docenia rolę i znaczenie tej niesamowitej książki na przestrzeni dziejów. W swojej audycji dr Price odpowiada na pytania słuchaczy dotyczące Biblii, i to jak odpowiada! Większość odpowiedzi szybko przeradza się w długie opowieści z których wyłania się świat antyczny który zrodził Stary i Nowy Testament. Dr Price pokazuje, które fragmenty pism, listów i ewangelii zostały zapożyczone z wcześniejszych tradycji (greckiej, żydowskiej), tłumaczy różnice w ewangeliach rozłamami we wczesnym kościele i napięciami pomiędzy sektami, odkrywa politeistyczne ślady wczesnej religii żydowskiej w Starym Testamencie, stawia na głowie praktycznie wszystko czego się dowiedziałem o Biblii w katechetycznej salce. I robi to wszystko wiedziony ogromną fascynacją tekstem. Ten podcast jest obowiązkowy i dla wierzących, i dla ateistów. Ateiści przestaną postrzegać Biblię jak Richard Dawkins (zbiór absurdalnych bajek z głównym bohaterem w postaci żądnego krwi okrutnego psychopaty Jehowy), wierzący przestaną „kupować” tanią wersję interpretacji Biblii i dostrzegą niesamowite bogactwo i skomplikowanie tekstu oraz zrozumieją przyczyny tego skomplikowania. Jestem jednak winien słowo ostrzeżenia: słuchanie dr. Price’a może zachwiać podstawami wiary! Jeśli zaczniecie słuchać podcastu i usłyszycie dziwaczne głosy i akcenty, nie obawiajcie się. Bible Geek uwielbia bawić sie akcentami i czyta pytania wykorzystując kilkanaście różnych akcentów (szkocki, japoński, rosyjski, południowy, bostoński), a czytając fragmenty Biblii poszczególnym postaciom nadaje indywidualne głosy: Bóg zawsze mówi głosem Charltona Hestona, Jezus zawsze mówi głosem Willema Dafoe, często też pojawia się głos Michaela Palina jako Poncjusza Piłata.

Parę użytecznych rzeczy na temat eksploracji danych 03/17/2013

Posted by Mikołaj Morzy in eksploracja danych, teoria.
2 Komentarze

Na ubiegłorocznej konferencji CACM’2012 opublikowany został bardzo ciekawy artykuł Pedro Domingosa z University of Washington. Artykuł nosi tytuł „A Few Useful Things to Know about Machine Learning” i postaram się go pokrótce streścić, żeby zachęcić do lektury.
Domingos zaczyna od zdefiniowania dziedziny uczenia maszynowego jako *uczenia programów na podstawie danych*. Nie jest to definicja wzbudzająca jakieś kontrowersje, choć interesujące jest przeniesienie nacisku z poszukiwania wzorców na znajdowanie programów. W swoim artykule koncentruje się przede wszystkim na problemie klasyfikacji i regresji, pomijając inne obszary (poszukiwanie asocjacji, analiza skupień, poszukiwanie wartości odstających). Dla niego proces uczenia się jest kombinacją trzech czynników: reprezentacji, oceny i optymalizacji. Reprezentacja to wybór sposobu, w jaki model będzie opisywany. Jest to o tyle istotne, że wybor konkretnej reprezentacji pośrednio definiuje zbiór wszystkich klasyfikatorów których dany model może się nauczyć. Jeśli dany klasyfikator nie mieści się w przestrzeni hipotez konkretnego modelu, taki klasyfikator po prostu nie może zostać wygenerowany. Oprócz wyboru reprezentacji dla modelu krok ten obejmuje sobą także wybór cech danych jakie będą podlegały uczeniu. Drugim czynnikiem jest ocena, czyli wybór funkcji wykorzystywanej do porównywania nauczonych klasyfikatorów. Trzeci czynnik, optymalizacja, to proces wyszukania w przestrzeni dostępnych klasyfikatorów tego klasyfikatora, który maksymalizuje funkcję wykorzystywaną do oceny. Taki podział algorytmów uczących na trzy niezależne czynniki jest o tyle interesujący, że pozwala dostrzec możliwości użycia kombinacji które nie są typowe.

reprezentacja: kNN, SVM, naiwny klasyfikator Bayesa, regresja logistyczna, drzewa decyzyjne, klasyfikator regułowy, sieć neuronowa, sieć Bayesowska
ocena: dokładność, precyzja i zwrot, błąd kwadratowy, prawdopodobieństwo a posteriori, Information Gain, Dywergencja KL
optymalizacja: algorytm zachłanny, beam search, B&B, metody gradientowe, Quasi-Newton, programowanie liniowe, programowanie kwadratowe

Jak się okazuje, można powiązać większość z wyżej przedstawionych konkretyzacji i uzyskać nowy model uczenia. Przykładowo, wybieramy kNN z miarą błędu kwadratowego i zachłannym poszukiwaniem najlepszej wartości parametru k. Nie każde połączenie ma tyle samo sensu, ale wiele z nich generuje egzotyczne algorytmy uczące.

Domingos kładzie bardzo duży nacisk na kwestię generalizacji. Przypomina o fundamentalnych zasadach testowania modeli i przestrzega przed nadmiernym optymizmem przy testowaniu na zbiorze uczącym. Zwraca też uwagę na interesujący aspekt uczenia maszynowego: w przeciwieństwie do innych problemów optymalizacyjnych w przypadku uczenia klasyfikatora nie dysponujemy funkcją którą próbujemy optymalizować, w związku z czym posługujemy się wyznaczonym błędem na zbiorze uczącym jako zastępstem rzeczywistego błędu.

Interesujące jest też nawiązanie do słynnego twierdzenia Davida Wolperta o braku darmowego lunchu w wyszukiwaniu i optymalizacji. Domingos pokazuje to na prostym przykładzie: niech zbiór danych jest opisany za pomocą 100 zmiennych binarnych. Dysponuję w moim zbiorze uczącym milionem etykietowanych przypadków. Milion to przecież bardzo dużo, w zupełności wystarczy żeby generalizować nauczony model, prawda? Niestety, nie… Przy 100 zmiennych i 1 000 000 rekordów przestrzeń wyszukiwania nadal zawiera $2^{100} - 10^{6}$ przypadków, dla których nie znam wartości zmiennej zależnej! Jeśli nie posiadam dodatkowej wiedzy eksperckiej, wówczas żaden algorytm eksploracji danych nie jest w stanie przebić zwykłego losowego rzucania monetą. Oczywiście powyższe to najgorszy z możliwych scenariuszy, w rzeczywistości funkcje których próbujemy się nauczyć nie są rozłożone jednostajnie w przestrzeni wszystkich możliwych $2^{100}$ funkcji. Korzystając z założenia o tym, że podobne przypadki należą do podobnych klas lub dodatkowej wiedzy o zależnościach między atrybutami możemy bardzo znacząco ograniczyć przestrzeń wyszukiwania. Ten indukcyjny proces uzyskiwana użytecznej wiedzy z niewielkiej ilości wiedzy początkowej stanowi sedno całej dziedziny uczenia maszynowego. Jak pisze Domingos:

[…] induction is a knowledge lever: it turns a small amount of input knowledge into a large amount of output knowledge. Induction is a vastly more powerful leveer than decuction, requiring much less input knowledge to produce useful results, but it still needs more than zero input knowledge to work.

Bardzo podobało mi się także proste i czytelne wytłumaczenie zjawiska przetrenowania modelu (ang. overfitting) zarówno pod kątem wariancji, jak i systematycznej tendencyjności (ang. bias) za pomocą jednego rysunku:

Domingos sporo miejsca poświęca też przekleństwu wymiarowości (ang. curse of dimensionality). Nawet, jeśli jesteśmy świadomi problemu, umyka on naszemu intuicyjnemu rozumieniu. Przykładowo, jeśli funkcja której próbujemy się nauczyć to $f(x)=x_1 \wedge x_2$ , to zadanie jest proste. Teraz dodajmy 98 niezwiązanych z funkcją celu zmiennych $x_3, \ldots, x_{100}$ i okaże się, że szum informacyjny dodatkowych wymiarów całkowicie przykrywa funkcję celu. Może rozwiązaniem jest zwiększenie zbioru danych? Próżne nadzieje, w przypadku 100 wymiarów binarnych (a przecież trudno jeszcze tu mówić o wielkiej liczbie wymiarów) i monstrualnym zbiorze danych liczącym bilion rekordów, nadal pokrywamy zaledwie $10^{-18}$ część przestrzeni… Ogromna liczba wymiarów fatalnie też wpływa na wszystkie metody bazujące na odległości między przypadkami, ponieważ każdy kolejny wymiar zwiększa liczbę przypadków położonych w tej samej odległości od danego przypadku, sprowadzając metody najbliższych sąsiadów do losowego wyboru sąsiadów.
Pozostałe problemy opisywane przez Domingosa dotyczą użyteczności teoretycznych granic błędów, znaczenia metod ekstrakcji atrybutów, przydatności ogromnych wolumenów danych (mimo wszystko), oraz dominacji metod wykorzystujących łączenie wielu modeli (ang. ensembles). Cały artykuł jest napisany bardzo czytelnie i przystępnie, dla początkujących adeptek i adeptów eksploracji danych będzie to dobre wprowadzenie i zbudowanie solidnych podstaw „filozoficznych”, ale i osoby doświadczone mogą ze zdumieniem odkryć dla siebie nowe aspekty eksploracji danych.

Na koniec, jako zachęta, lista tytułów sekcji:

Learning = Representation+Evaluation+Optimization
It’s Generalization That Counts
Data Alone Is Not Enough
Overfitting Has Many Faces
Intuition Fails in High Dimensions
Theoretical Guarantees Are Not What They Seem
Feature Engineering Is the Key
More Data Beats a Cleverer Algorithm
Learn Many Models, Not Just One
Simplicity Does Not Imply Accuracy
Representable Does Not Imply Learnable
Correlation Does Not Imply Causation

Domingos, P. (2012). A few useful things to know about machine learning Communications of the ACM, 55 (10) DOI: 10.1145/2347736.2347755

Darmowy dostęp do Tableau 03/17/2013

Posted by Mikołaj Morzy in software.
Tags: tableau software, wizualizacja
add a comment

Tableau to bardzo atrakcyjne oprogramowanie do wizualizacji danych. Umożliwia szybkie tworzenie interaktywnych wykresów wielu rodzajów, osadzanie wykresów na stronach WWW, publikowanie ich przy pomocy usługi Tableau Public, czy też tworzenie paneli (ang. dashboard) do wizualnej analizy danych.Projektowane panele mogą być wyposażone w dodatkowe kontrolki do filtrowania danych, wgłębiania się w dane, czy łączenia danych z wielu źródeł na jednym wykresie w celu znalezienia ukrytych wzorców. Środowisko do projektowania wykresów i paneli jest bardzo przyjazne i intuicyjne. Przykład wykorzystania takiej interaktywnej wizualizacji możecie obejrzeć np. na stronach „Wall Street Journal”.

Okazuje się, że Tableau Software postanowiło otworzyć się na akademię i to jest fantastyczna wiadomość. Nie znam co prawda szczegółów zasad udzielania licencji uczelniom (dopiero wysłałem w tej sprawie list do tft@tableausoftware.com), ale ogólne reguły wykorzystania tego oprogramowania w kursach akademickich są opisane na stronie producenta. Jednak jeszcze ciekawszą inicjatywą jest umożliwienie studentkom i studentom uzyskania bezpłatnej rocznej licencji indywidualnie. To z jednej strony dość ryzykowny ruch, a z drugiej strony na zatłoczonym do nieprzyzwoitości rynku oprogramowania do wizualizacji danych być może strzał w dziesiątkę. Osoby zainteresowane muszą wejść na stronę Tableau for Students i wypełnić formularz.

data mining à la polonaise

Podcast junkie 03/30/2013

Historia

Sceptycyzm

Ateizm

Parę użytecznych rzeczy na temat eksploracji danych 03/17/2013

Darmowy dostęp do Tableau 03/17/2013

Admin Controls

Najnowsze wpisy

Kategorie

Archiwum

Meta

Feeds

data mining à la polonaise

Podcast junkie 03/30/2013

Historia

Sceptycyzm

Ateizm

Podziel się:

Parę użytecznych rzeczy na temat eksploracji danych 03/17/2013

Podziel się:

Darmowy dostęp do Tableau 03/17/2013

Podziel się:

Admin Controls

Najnowsze wpisy

Kategorie

Archiwum

Blogroll

data mining

Meta

Feeds