jump to navigation

Wszystkie najlepsze rzeczy w życiu są za darmo 10/31/2009

Posted by Mikołaj Morzy in eksploracja danych, nauka, teoria, zbiór danych.
2 Komentarze

eslNa przykład książka „The Elements of Statistical Learning” autorstwa Trevora Hastie, Roberta Tibshirani i Jerome Friedmana. To już druga edycja książki wydanej przez Springera w serii „Springer Series on Statistics„. Na ponad 700 stronach książka opisuje m.in.: uczenie nadzorowane, regresję liniową, klasyfikację liniową i regresję logitową, metody wygładzania, metody oceny modeli, wnioskowanie bayesowskie, metody bootstrap, algorytm EM, różne algorytmy indukcji drzew, techniki boosting, sieci neuronowe, rodzinę algorytmów SVM, metody k-najbliższych sąsiadów, odkrywanie reguł asocjacyjnych, metody analizy skupień, wybór cech przy użyciu metod PCA i ICA, algorytmy Random Forest, metody uczenia Ensemble oraz eksplorację danych wielowymiarowych. A najlepsze jest to, że książkę tę można (legalnie, bez targania z osiołka) mieć za darmo.

Książka jest dostępna na stronie domowej Roberta Tibshirani na Stanfordzie. Ale to nie wszystko! Wraz z książką można pobrać:

Chapeaux bas dla wydawcy, że pozwolił umieścić tę książkę w sieci. Książka już trafiła na moją listę lektur polecanych studentom.

Reklamy

Jak skutecznie bronić się przed debilami 10/26/2009

Posted by Mikołaj Morzy in Uncategorized.
add a comment

greasemonkeyRichard Feynman był absolutnym geniuszem, co do tego nie ma wątpliwości. Laureat Nagrody Nobla w dziedzinie fizyki, jeden z twórców bomby atomowej, żongler, profesjonalny gracz na bongosach, który w Los Alamos miał irytujący zwyczaj włamywania się do wszystkich sejfów, jakie napotkał, popularyzator nauki, malarz, biolog-amator, lista jest długa. Jeśłi ktoś nie zna tej niezwykle barwnej postaci, niech koniecznie kupuje jego autobiografię „Pan raczy żartować, panie Feynman„. Ucząc bawi, bawiąc uczy.

Większość użytkowników umieszczających komentarze w serwisie YouTube to kompletni debile, co do tego także nie ma wątpliwości. Dotychczas można było się bronić przed zalewem debilizmu wylewającego się z komentarzy za pomocą różnych rozszerzeń do FireFoxa, np. z YouTube Comment Snob. Ale wczoraj trafiłem na coś znacznie lepszego. FeynTube to skrypt Greasemonkey, który zamienia wszystkie komentarze na YouTube na cytaty Feynmana! Nie tylko nie skacze mi ciśnienie w odpowiedzi na czyjść jawny brak mózgu, ale mogę przy okazji poznać coś wartościowego. A trzeba przyznać, że źródło cytatów zostało wybrane doskonale, dość wspomnieć, że ostatnie słowa Feynmana zarejestrowane moment przed jego śmiercią brzmiały: „I’d hate to die twice. It’s so boring

XV Konferencja PLOUG 10/18/2009

Posted by Mikołaj Morzy in Uncategorized.
17 Komentarzy

15_konfOd wtorku rusza w Zakopanem-Kościelisku XV Konferencja Użytkowników i Deweloperów Oracle organizowanana przez Stowarzyszenie Polskiej Grupy Użytkowników Systemu Oracle PLOUG. Jak co roku, program konferencji jest wypełniony dość szczelnie. Przygotowałem dwa warsztaty i dwa referaty:

[WP ODM] Oracle Data Mining 11g

wtorek, 20.10, 8:00-12:00

Abstrakt:

Celem warsztatu jest przedstawienie funkcjonalności opcji Oracle Data Mining serwera Oracle 11g. Oracle Data Mining (ODM) to zbiór narzędzi umożliwiających uruchamianie zaawansowanych algorytmów analizy i eksploracji danych bezpośrednio po stronie serwera bazy danych, bez konieczności wykorzystywania narzędzi zewnętrznych. Na opcję Oracle Data Mining składają się: zbiór specjalizowanych pakietów PL/SQL zawierających procedury i funkcje eksploracji danych, biblioteki języka Java stanowiące implementację standardu Java for Data Mining (JDM), oraz zbiór funkcji języka SQL umożliwiających łatwy dostęp do modeli zapisanych w repozytorium ODM. Funkcjonalność ODM obejmuje między innymi: asocjacje, algorytmy klasyfikacji, algorytmy analizy skupień, regresję, odkrywanie anomalii, eksplorację danych tekstowych i odkrywanie cech.

W trakcie warsztatu zostaną pokrótce omówione wybrane techniki eksploracji danych, a także zostaną szczegółowo zaprezentowane pakiety PL/SQL oraz rozszerzenia języka SQL umożliwiające eksplorację danych. Zaprezentowane zostaną również przykładowe aplikacje Java wykorzystujące Oracle Data Mining. Uczestnicy otrzymają różne zbiory danych, które poddadzą samodzielnej analizie i eksploracji.

Profil uczestnika: osoby zajmujące się analizą danych i business intelligence.

Poziom wiedzy uczestnika: brak wymagań.

Forma zajęć: demonstracja z samodzielnymi ćwiczeniami praktycznymi.

Cel uczestnictwa: zapoznanie się z funkcjonalnością Oracle Data Mining 11g.

Czas trwania: 4 godziny.

[WP TimesTen] Oracle TimesTen 11.2

czwartek, 22.10, 15:00-19:00

Abstrakt:

Oracle TimesTen to technologia przetwarzania danych w pamięci ulotnej, zaprojektowana w celu zapewnienia minimalnych czasów odpowiedzi, ogromnej przepustowości, oraz transakcyjnego przetwarzania dużych wolumenów danych i zarządzania zdarzeniami. Technologia ta jest wykorzystywana w dwóch produktach: Oracle TimesTen In-Memory Database oraz Oracle In-Memory Database Cache. Utrzymywanie danych w pamięci operacyjnej z pominięciem pamięci dyskowej, wprowadza istotne zmiany w architekturze systemu baz danych, technikach indeksowania i wykonywania zapytań, oraz wymusza opracowanie mechanizmów zachowania spójności i odtwarzania po awarii. W szczególności, przeniesienie przetwarzania transakcyjnego do warstwy aplikacyjnej wprowadza duże zmiany w ogólnej architekturze systemu informatycznego. Celem warsztatu jest zapoznanie uczestników z podstawami technologii Oracle TimesTen. W ramach warsztatu zostaną zaprezentowane: architektura bazy danych TimesTen, rozszerzenia języka SQL specyficzne dla bazy danych TimesTen, instalacja i zarządzanie bazą danych TimesTen oraz możliwości wykorzystania bazy danych TimesTen jako pamięci podręcznej dla tradycyjnej bazy danych w ramach opcji Oracle In-Memory Database Cache serwera Oracle 11g Enterprise Edition.

Profil uczestnika: osoby zajmujące się projektowaniem i implementacją systemów informatycznych, administratorzy bazy danych.

Poziom wiedzy uczestnika: brak wymagań.

Forma zajęć: demonstracja z samodzielnymi ćwiczeniami praktycznymi.

Cel uczestnictwa: zapoznanie się z funkcjonalnością i architekturą bazy danych Oracle TimesTen.

Czas trwania: 4 godziny.

Oprócz tego na popołudniowej sesji plenarnej we wtorek wygłoszę dwa referaty:

„Oracle TimesTen 11.2 – baza danych w pamięci RAM”

wtorek, 20.10, 17:00-18:45

PLOUG Oracle TimesTen.pdf

Oracle TimesTen to rodzina technologii przetwarzania danych w pamięci ulotnej. Główną cechą technologii TimesTen jest przeniesienie przetwarzania danych do warstwy aplikacyjnej i całkowita rezygnacja z wykorzystania pamięci dyskowej. Struktury danych, indeksy, czy algorytmy optymalizacji zapytań są specjalnie zaprojektowane z założeniem, że wszystkie wymagane dane znajdują się w pamięci ulotnej o dostępie swobodnym. Taka architektura zapewnia minimalne czasy odpowiedzi, niespotykaną wcześniej przepustowość, oraz możliwość zarządzania transakcjami i zdarzeniami w bazach danych składających się z ogromnych wolumenów danych. Z drugiej strony, architektura bazy danych w pamięci operacyjnej wymusza opracowanie nowych mechanizmów zachowania spójności i odtwarzania po awarii.

Technologia TimesTen jest wykorzystywana w dwóch produktach: Oracle TimesTen In-Memory Database oraz Oracle In-Memory Database Cache. Pierwszy produkt to samodzielny system zarządzania bazą danych, wykorzystujący przechowywanie danych w pamięci ulotnej i okresową nieblokującą synchronizację bazy danych z obrazem dyskowym oraz replikację danych do innych systemów. Drugi produkt umożliwia wykorzystanie bazy danych TimesTen jako pamięci podręcznej dla tradycyjnej relacyjnej bazy danych. W tym przypadku baza danych TimesTen zawiera kopię wybranych krytycznych podzbiorów danych i oferuje płynną synchronizację danych między TimesTen a bazą relacyjną, zapewniając jednocześnie bardzo efektywny dostęp do danych przechowywanych w tak skonfigurowanej pamięci podręcznej. W wykładzie zaprezentowano ogólną architekturę bazy danych TimesTen, przedstawiono charakterystyczne elementy bazy danych TimesTen (specjalizowane struktury danych, rozszerzenie języka SQL dla Times-Ten) oraz pokrótce opisano proces instalacji i konfiguracji bazy danych TimesTen.

„Semantic Technologies, czyli Oracle i Web 3.0”

wtorek, 20.10, 15:00-16:45

PLOUG Oracle Semantic Technologies.pdf

Sieć semantyczna (ang. Semantic Web), zwana także modelem Web 3.0, to wizja Internetu, w którym dane są przechowywane, opisane i powiązane w taki sposób, że mogą być wykorzystane przez maszyny (programy, pająki sieciowe, inteligentnych agentów) nie tylko do wyświetlania, ale także do integracji, negocjacji, czy manipulacji w różnych aplikacjach. Na tę wizję składa się wiele technologii, służących przede wszystkim do semantycznego wzbogacania danych – między innymi XML, jako wspólna składnia opisu danych; XML Schema, jako język opisu typów danych i ich struktury; RDF, jako sposób zapisywania meta danych o związkach między danymi; OWL do definicji wspólnych słowników, czy wreszcie SPARQL, jako język zapytań.

Opcja Oracle Spatial 11g serwera bazy danych Oracle 11g Enterprise Edition zawiera zaawansowane mechanizmy zarządzania danymi semantycznymi. Umożliwia ona, między innymi, wykorzystanie języków RDF, RDFS i OWL bezpośrednio w bazie danych, wzbogacanie danych relacyjnych o warstwę semantyki, wydawanie zapytań do danych relacyjnych przy wsparciu ontologii zdefiniowanych w OWL, pełen wachlarz operacji DML dla danych przechowywanych w RDF i OWL, wnioskowa-nie za pomocą silników RDF i OWL, a także wydawanie zapytań w języku zbliżonym do standardu SPARQL.

W referacie zaprezentowano wprowadzenie do wybranych technologii sieci semantycznej oraz szczegółowo opisano rozwiązania wchodzące w skład pakietu Oracle Semantic Technologies.

Trzy Złote Zasady udanych badań naukowych 10/13/2009

Posted by Mikołaj Morzy in Uncategorized.
add a comment

dijkstraEdsger W. Dijkstra był bez wątpienia jednym z najsłynniejszych i najbardziej wpływowych informatyków w całej historii tej dziedziny. Był też niespotykanym oryginałem. Mimo, że jego prace stanowią fundament współczesnej informatyki, do końca życia konsekwentnie odmawiał wykorzystywania komputera do pracy. W ostatnich latach dał się namówić na zakup Maca, ale wykorzystywał go tylko do poczty elektronicznej i przeglądania www.

Jednym z najsłynniejszych dziwactw Dijkstry było przygotowywanie manuskryptów, które następnie „puszczał w obieg”. Manuskrypty te, zwane EDWxx (ponieważ Dijkstra używał prefiksu EWD do ich oznaczania) były następnie kopiowane i rozsyłane między uniwersytetami. Bardzo wiele z nich zaginęło, ale na szczęście Uniwersytet Teksaski przygotował i prowadzi publicznie dostępne archiwum E.W.Dijkstry, które umożliwia przeglądanie i wyszukiwanie wśród tysięcy zdigitalizowanych manuskryptów. Wszechstronność i intelektualna płodność Dijkstry są niebywałe, niesamowite i trochę przerażające (nie wspominając o wpędzaniu w chorobliwe kompleksy). Warto poświęcić trochę czasu i zapoznać się z tymi notatkami, można w nich znaleźć wiele ciekawostek.

Jako przykład niech nam posłuży manuskrypt EWD637, „The Three Golden Rules for Successful Scientific Research„,  w którym Dijkstra formułuje następujące zasady:

  1. Podnieś swoje standardy jakości najwyżej, jak to tylko możliwe, unikaj marnowania czasu na rozwiązywanie rutynowych problemów, i zawsze staraj się pracować najbliżej jak się da granicy swoich możliwości. Postępuj tak, ponieważ jest to jedyny sposób, aby sprawdzić, czy da się tę granicę przesunąć.
  2. Wszyscy lubimy, gdy nasza praca jest społecznie pożyteczna i naukowo solidna. Jeśli możemy znaleźć temat, który spełnia oba te cele,  jesteśmy szczęściarzami. Jeśli jednak oba cele znajdują się w konflikcie, niechaj naukowa solidność bierze górę.
  3. Nigdy nie zajmuj się problemem, co do którego jesteś pewien, że (teraz lub w bliskiej przyszłości) zajmą się nim osoby, które w stosunku do problemu są co najmniej tak samo wykwalifikowane i wyposażone jak ty.

Dijkstra nie byl skory do optymizmu i udzielania wspracia. Konkluzja manuskryptu EWD637 jest następująca:

I have check the Three Golden Rules with a number of my colleagues from very different parts of the world, living and working under very different circumstances. They all agreed. And were not shocked either. The rules may strike you as a bit cruel… If so, they should, for the sooner you have discovered that the scientific world is not a soft place but –like most other worlds, for that matter– a fairly ruthless one, the better. My blessings are with you.

Czy można udowodnić, że P != NP? 10/09/2009

Posted by Mikołaj Morzy in nauka, teoria.
1 comment so far

acm_logoW najnowszym numerze Communications of the ACM Lance Fortnow z Northwestern University McCormick School of Engineering prezentuje artykuł pt. „The Status of the P Versus NP Problem„. Pokazuje w nim sposoby, na jakie informatycy i matematycy próbowali „ugryźć” najsłynniejszy problem informatyki. Artykuł jest świetnie napisany i stanowi doskonałe wprowadzenie do tego fascynującego tematu. Najbardziej spodobał mi się fragment, w którym autor przedstawia potencjalne konsekwencje dowodu na to, że P=NP. Oczywiście, przestałaby natychmiast działać współczesna kryptografia, oparta głównie na infrastrukturze klucza publicznego i założeniu, że faktoryzacja ogromnych liczb na jest bardzo trudna. Ale oprócz tego czekałby nas nowy wspaniały świat:

Since all the NP-complete optimization problems become easy, everything will be much more efficient. Transportation of all forms will be scheduled optimally to move people and goods around quicker and cheaper. Manufacturers can improve their production to increase speed and create less waste. And I’m just scratching the surface. Learning becomes easy by using the principle of Occam’s razor—we simply find the smallest program consistent with the data. Near perfect vision recognition, language comprehension and translation and all other learning tasks become trivial. We will also have much better predictions of  eather and earthquakes and other natural phenomenon.

I jeszcze jedno zdanie na zachętę:

A person who proves P = NP would walk home from the Clay Institute not with $1 million  check but with seven (actually six since the Poincaré Conjecture appears solved).  Don’t get your hopes up. Complexity theorists generally believe P ≠ NP and such a beautiful world cannot exist.

Artykuł jest też dostępny jako plik pdf. A jeśli artykuł Wam się podoba, koniecznie odwiedzcie blog Lance’a Fortnowa: Computational Complexity.

Zakopane Zakopane (XV Konferencja PLOUG) 10/05/2009

Posted by Mikołaj Morzy in bazy danych, nauka.
7 Komentarzy

zakopanesłońce, góry i bazy danych. W dniach 20-23 października odbędzie się w Zakopanem XV Konferencja użytkowników i deweloperów Oracle PLOUG’2009. Jak co roku, konferencja odbywa się w WDW „Kościelisko” i gromadzi bardzo duże grono uczestników. Na stronach Stowarzyszenia PLOUG można znaleźć szczegółowy program konferencji. W tym roku będę miał przyjemność zaprezentować dwa referaty:

  • Semantic Technologies, czyli Oracle i Web 3.0
  • Oracle TimesTen 11g – baza danych w pamięci RAM

Treść obu referatów zostanie umieszczona na mojej stronie domowej natychmiast po zakończeniu konferencji. Oprócz referatów przygotowałem także dla uczestników konferencji dwa warsztaty, w trakcie których będzie można nabyć dużo praktycznej wiedzy, i na które bardzo serdecznie zapraszam. Prowadzone przeze mnie warsztaty to:

  • [WP TimesTen]: Oracle TimesTen 11g, czwartek, 22.10, godz. 15:00-19:00
  • [WP ODM]: Oracle Data Mining 11g, wtorek, 20.10, godz. 8:00-12:00 oraz piątek, 23.10, godz. 15:00-19:00

Na stronach konferencji dostępny jest pełny harmonogram warsztatów i tutoriali oraz szczegółowy opis warsztatów i tutoriali.

Poza warsztatami, tutorialami i referatami podczas konferencji panuje zawsze wyśmienita atmosfera, wieczory spędzamy miło w barze, chodzimy na wycieczki, czasem organizujemy góralskie ognisko, a przede wszystkim nieustannie rozmawiamy i wymieniamy się doświadczeniem, uwagami i problemami. Jeśli zastanawiacie się, czy warto jechać na PLOUG, od razu odpowiem: warto! Porozmawiajcie z szefową lub szefem, może sfinansują Wam wyjazd, na pewno nie pożałujecie.

%d blogerów lubi to: