jump to navigation

Mapa eksploracji danych 11/27/2010

Posted by Mikołaj Morzy in eksploracja danych, nauka, teoria.
5 komentarzy

Doskonała sprawa! Na AnalyticBridge dr Sayad opublikował doskonałe wprowadzenie do eksploracji danych. Jest to bardzo czytelna mapa całej domeny z podziałem na poszczególne etapy procesu odkrywania wiedzy (przygotowanie danych, eksploracja danych, modelowanie, ocena, wdrożenie), przy czym każdy fragment mapy jest „klikalny” i prowadzi do krótkiego, prostego opisu fragmentu dyscypliny. Absolutny hit dla osób rozpoczynających swoją przygodę z eksploracją danych i próbujących się połapać w gąszczu nazw metod, algorytmów i pojęć.

 

Mapa eksploracji danych z wyjaśnieniami

Mapa eksploracji danych

 

 

Kaggle w klasie 11/23/2010

Posted by Mikołaj Morzy in eksploracja danych, konkurs, nauka.
1 comment so far

Choroba, ubiegli mnie. Dokładnie to chciałem zrobić w przyszłym semestrze na zajęciach z eksploracji danych. W ramach kursu Statistics 202 na Stanfordzie studenci mogą uniknąć konieczności przystępowania do egzaminu końcowego jeśli dobrze poradzą sobie w konkursie. Konkurs dotyczy wyuczenia modelu regresji do przewidywania ceny wina na podstawie atrybutów jakościowych (rocznik, gatunek winogron, winnica, itp.) oraz ilościowych (oceny z różnych czasopism winiarskich).

Cały konkurs został przygotowany na platformie Kaggle In Class. Kiedy pierwszy raz pisałem o Kaggle, serwis był siermiężnym serwisem z paroma zbiorami danych. Od tego czasu przeszedł istotny facelifting i dziś jest nowoczesną platformą umożliwiającą hostowanie konkursów z przeróżnych dziedzin: informatyki, ekonomii, biologii obliczeniowej, itp. Serwis jest darmowy i umożliwia: formułowanie konkursu, ładowanie danych, walidację wyników, utrzymywanie tablicy aktualnych liderów, udostępnia całość usług związanych z utrzymywaniem kont studentów oraz dostarcza platformy forów internetowych do dyskutowania zagadnień związanych z konkursem.

Dla przyzwoitości trzeba też dodać, że bezpośrednim konkurentem Kaggle’a jest nasz rodzimy produkt, TunedIt, który powstał na Uniwersytecie Warszawskim w zespole prof.Skowrona.

Tim Berners-Lee na 20-lecie Sieci 11/20/2010

Posted by Mikołaj Morzy in Uncategorized.
add a comment

Scientific American coverW najnowszym numerze „Scientifc AmericanTim Berners-Lee zamieszcza ciekawy artykuł na temat zagrożeń, jakie stoją przed Siecią, oraz obietnic, które Sieć ma do spełnienia. W grudniu bieżącego roku przypada dwudziesta rocznica narodzin WWW. Berners-Lee patrzy na historię jej rozwoju i wymienia największe zagrożenia, przed jakimi dziś staje Sieć. Co zastanawiające, według Bernersa-Lee największym zagrożeniem dla wolności i swobody przepływu danych w Sieci nie są wcale totalitarne reżimy, ale sieci społecznościowe i gigantyczni dostawcy łączy (ISP). Ponieważ wg. Bernersa-Lee Sieć jest równie istotna dla naszej wolności w cyfrowym wieku jak konstytucja Stanów Zjednoczonych lub Magna Carta, jesteśmy zobowiązani bronić wolności i niezależności tego medium przed czającymi się zagrożeniami. Jeśli chodzi o główne zagrożenie, to są nim zakusy związane z ograniczaniem neutralności sieci przez dostawców internetowych (np. jak w przypadku ostatniej propozycji Google i Verizon), których konsekwencje mogłyby być bardzo poważne. Inne przykłady naruszania podstawowych wolności to np. prawo HADOPI przyjęte we Francji i pozwalające na odłączanie dostępu do Sieci jako karę za naruszanie DRM lub angielski Digital Economy Act przyjęty w tym roku.

Z mojego punku widzenia najciekawsze i najbardziej kontrowersyjne są poglądy Bernersa-Lee na współczesne sieci społecznościowe. Pisze on:

Facebook, LinkedIn, Friendster and others typically provide value by capturing information as you enter it: your birthday, your e-mail address, your likes, and links indicating who is friends with whom and who is in which photograph. The sites assemble these bits of data into brilliant databases and reuse the information to provide value-added service—but only within their sites. Once you enter your data into one of these services, you cannot easily use them on another site. Each site is a silo, walled off from the others. Yes, your site’s pages are on the Web, but your data are not. You can access a Web page about a list of people you have created in one site, but you cannot send that list, or items from it, to another site.

Artykuł (jak zwykle u TBL) kończy się peanem na cześć technologii semantycznych i koncepcji powiązanych danych. Zdecydowanie godna polecenia lektura.

Cały artykuł jest dostępny na stronach „Scientific American”: Long Live the Web.

Program „Juventus Plus” 11/18/2010

Posted by Mikołaj Morzy in konkurs, nauka.
4 komentarze

Właśnie dotarł do mnie mejl z Ministerstwa Nauki i Szkolnictwa Wyższego o ustanowieniu nowych programów finansowego wsparcia dla „Naukowców na Plus”: Ideas Plus, Index Plus i Juventus Plus, przy czym ten ostatni wygląda najbardziej interesująco. Program ma na celu wsparcie kontynuacji badań, których wyniki ukazały się w najbardziej renomowanych czasopismach, tj. czasopismach indeksowanych przez Journal Citation Reports (czyli tzw. listę filadelfijską) oraz European Reference Index for the Humanities (o ile dobrze rozumiem, jest to swego rodzaju odpowiednik listy filadelfijskiej dla nauk humanistycznych).

W komunikacie Ministra jest mowa o „młodych naukowcach”, natomiast w mejlu informacyjnym pada konkretna wartość „do 35 roku życia”. Oczywiście obowiązuje zakaz podwójnego finansowania, czyli do programu nie będą mogły być zgłaszane programy badawcze aktualnie wykonywane i finansowane z innych źródeł w jednostkach. Szczegółowe informacje o konkursie (przedmiot, termin i miejsce zgłaszania wniosków, warunki udziału, podmioty uprawnione do składania wniosku, itp.) zostaną ogłoszone w Biuletynie Informacji Publicznej MNiSW.

Szczegółowe informacje nt. programu Juventus Plus wraz z wnioskiem i ogłoszeniem konkursu (przedmiot, termin i miejsce zgłaszania, procedura, warunki udziału) są też dostępne na stronach Ministerstwa. Termin składania wniosków w wersji elektronicznej to 29 listopada 2010, natomiast wersje papierowe muszą być wysłane nie później niż 6 grudnia 2010. Wnioski zgłoszone po terminie nie będą rozpatrywane.

Journal Citation Reports

Na okrągło 11/08/2010

Posted by Mikołaj Morzy in zagadki.
3 komentarze

Ależ mi się ta zagadka podoba! Powtarzam ją za „Omnibusem Wakacyjnym”, dodatkiem specjalnym do „Polityki” z lipca tego roku. Istnieją słowa, które można napisać „na okrągło”, tj. takie słowa, których pierwsza i ostatnia sylaba jest taka sama. Najczęściej nie mamy najmniejszego problemu, żeby takie słowa błyskawicznie rozszyfrować, np.

Zagadka "Na okrągło"Problem zaczyna się, gdy usuniemy ze słowa litery. Poniżej pięć zagadek, przyjemności.

%d blogerów lubi to: