jump to navigation

Zbliża się kolejna konferencja PLOUG 09/26/2010

Posted by Mikołaj Morzy in bazy danych, biznes.
add a comment

Już za miesiąc rozpoczyna się w Zakopanem kolejna, XVI Konferencja Użytkowników i Deweloperów Oracle organizowana przez Stowarzyszenie Polskiej Grupy Użytkowników Systemu Oracle (PLOUG). Jak zawsze, będzie mnóstwo referatów, warsztatów i tutoriali dotyczących technologii bazodanowych i aplikacyjnych, zgłoszono 32 referatów i 29 tematów warsztatów i tutoriali, do tego imprezy towarzyszące i okazja, żeby podzielić się w gronie praktyków i ekspertów swoimi doświadczeniami, problemami i pytaniami. Konferencja odbywa się w terminie 19-22.10.2010 w WDW Kościelisko, szczegóły konferencji i formularz rejestracyjny znajdziecie Państwo na stronach konferencji.

W tym roku będę miał przyjemność zaprezentować dwa referaty plenarne, ich tytuły i streszczenia poniżej:

Oracle 11g Statistical Functions: statystyka dla dużych i małych

Baza danych Oracle 11g posiada wbudowany bardzo szeroki wachlarz narzędzi statystycznych. W połączeniu z narzędziami Oracle OLAP i Oracle Data Mining zbiór narzędzi statystycznych, w które wyposażona jest baza danych Oracle 11g tworzy potężne środowisko analityczne. W zależności od potrzeb użytkownicy mogą wykorzystywać tylko najprostsze funkcje, np. statystykę opisową lub testowanie hipotez, funkcje analityczne lub funkcje regresji liniowej, ale mogą także sięgnąć po mocniejsze narzędzia: testowanie dopasowania rozkładów, analizę wariancji (ANOVA), analizę Pareto, parametryczne i bezparemetryczne modele korelacji czy testy Chi-kwadrat. W niniejszym artykule przedstawiono pełny przegląd narzędzi statystycznych oferowanych przez bazę danych Oracle 11g, ilustrując poszczególne narzędzia przykładami zastosowań biznesowych.

Oracle WebCenter 11g czyli Przedsiębiorstwo 2.0

Oracle WebCenter 11g to środowisko służące do wdrażania produktów Web 2.0 w przedsiębiorstwach komercyjnych. W skład WebCenter 11g wchodzą narzędzia do tworzenia aplikacji społecznościowych, portali biznesowych, czy serwisów inter- i intra-netowych opartych na ideach Web 2.0, takich jak: komunikatory internetowe, blogi, serwisy wiki, fora dyskusyjne, kanały RSS, tagi i folksonomie, sieci społecznościowe czy komunikacja za pomocą VoIP. Platforma Oracle WebCenter 11g umożliwia szybkie wdrożenie takiej architektury do systemu informatycznego przedsiębiorstwa i organizacji, zarówno w formie gotowego pakietu, jak i zestawu narzędzi umożliwiającego samodzielne stworzenie rozwiązania najlepiej dopasowanego do danej rzeczywistości biznesowej. W artykule przedstawiono ogólną koncepcję Oracle WebCenter 11g, opisano główne składowe tej platformy: WebCenter Framework, WebCenter Services, WebCenter Spaces, oraz WebCenter Interactions.

Oprócz referatów plenarnych przygotowałem także dwa warsztaty, informacje o liczbie wolnych miejsc są dostępne na stronach „z ostatniej chwili”

[WP Semantic] Oracle Semantic Technologies: Web 3.0 w działaniu

Sieć semantyczna, zwana także modelem Web 3.0, to wizja Internetu jutra, w którym dane są przechowywane, opisywane i powiązane w taki sposób, aby mogły być wykorzystane nie tylko przez ludzi, ale także przez maszyny (programy, pająki sieciowe czy inteligentnych agentów). Format danych powinien umożliwiać maszynom „rozumienie” danych w stopniu wystarczającym do tego, aby dane mogły podlegać automatycznej integracji, negocjacji, czy manipulacji. Opcja Oracle Spatial 11g serwera bazy danych Oracle 11g Enterprise Edition zawiera zaawansowane mechanizmy zarządzania danymi semantycznymi. Umożliwia ona, między innymi, wykorzystanie języków RDF, RDFS i OWL bezpośrednio w bazie danych, wzbogacanie danych relacyjnych o warstwę semantyki, wydawanie zapytań do danych relacyjnych przy wsparciu ontologii zdefiniowanych w OWL, pełny wachlarz operacji DML dla danych przechowywanych w RDF i OWL, wnioskowanie za pomocą silników RDF i OWL, a także wydawanie zapytań w języku zbliżonym do standardu SPARQL. Celem warsztatu jest popularyzacja technologii semantycznych oraz zaznajomienie uczestników z możliwościami narzędzi oferowanych w ramach pakietu Oracle Semantic Technologies.

  • Profil uczestnika: osoby projektujące i implementujące aplikacje bazodanowe.
  • Poziom wiedzy uczestnika: brak wymagań.
  • Forma zajęć: demonstracja z samodzielnymi ćwiczeniami praktycznymi.
  • Cel uczestnictwa: zapoznanie się z funkcjonalnością Oracle Semantic Technologies.
  • Czas trwania: 4 godz.

[WP Stat] Oracle Statistical Functions: statystyka dla dużych i małych

Wiele współcześnie projektowanych i implementowanych aplikacji wymaga efektywnych narzędzi statystycznych. Baza danych Oracle 11g oferuje bogaty zestaw takich narzędzi, począwszy od narzędzi podstawowych (funkcje analityczne, funkcje rankingu hipotetycznego, funkcje regresji liniowej) aż po zaawansowane (testowanie hipotez, dopasowywanie rozkładów, analiza wariancji, analiza Pareto, modele korelacji, testy Chi-kwadrat, itp.) Celem warsztatu jest zaprezentowanie uczestnikom szerokiego przeglądu wszystkich narzędzi statystycznych oferowanych przez bazę danych Oracle 11g, oraz przedstawienie hipotetycznych scenariuszy wykorzystania wybranych narzędzi.

  • Profil uczestnika: osoby projektujące i implementujące aplikacje bazodanowe.
  • Poziom wiedzy uczestnika: elementarna wiedza z dziedziny statystyki.
  • Forma zajęć: demonstracja z samodzielnymi ćwiczeniami praktycznymi.
  • Cel uczestnictwa: zapoznanie się z wszystkimi narzędziami Oracle Statistical Functions.
  • Czas trwania: 4 godz.

Parę słów o otwartej nauce 09/25/2010

Posted by Mikołaj Morzy in bazy danych, nauka, teoria.
4 komentarze

Wiele psów powieszono na współczesnym modelu uprawiania nauki. Takie sformułowania jak „wieża z kości słoniowej”, „korporacyjna sterylność”, „oderwanie od praktyki”, nie należą do rzadkości. Faktycznie, pomysł że będziemy na wzajem recenzować sobie prace, niektóre przyjmować, a inne odrzucać, a potem będziemy się parę razy do roku spotykać w najprzeróżniejszych miejscach na całym świecie i przez parę dni rozmawiać, słuchać się nawzajem, smacznie jeść, i za to wszystko zapłacą podatnicy, taki pomysł może wydawać się dziwny. A jeszcze dziwniejsze jest to, że znakomita większość napisanej przez nas treści jest praktycznie niedostępna, ponieważ zostaje umieszczona w płatnych, drogich czasopismach i można się do niej dostać jedynie przez specjalizowane portale, takie jak IEEE Computer Science Digital Library, SpringerLink lub ACM Digital Library. Sam fakt ograniczenia dostępności publikacji końcowej nie jest jeszcze taki straszny, bo w końcu można sobie pozwolić wydać parę dolarów na zakup artykułu. Ale jeśli zamknięte są dane, na których przeprowadzono eksperymenty, lub narzędzia potrzebne do powielenia tych eksperymentów, to podważamy najważniejszy komponent metody naukowej: możliwość niezależnego potwierdzenia lub obalenia doniesień naukowych. A bez tego komponentu nie ma mowy o prawdziwej nauce.

Od jakiegoś czasu wielką karierę robi pojęcie otwartej nauki (ang. open science) lub otwartych badań (ang. open research). Przykładowa inicjatywa promująca ideę otwartej nauki to Science Commons. Science Commons zajmuje się trzema najważniejszymi aspektami: (a) adnotacją danych i badań w taki sposób, aby w łatwy sposób mogły być ponownie wykorzystane przez innych naukowców, (b) ułatwieniem dostępu do materiałów badawczych poprzez opracowanie nowego typu licencji prawnej, oraz (c) opracowaniem specjalnego języka ułatwiającego integrację wyników badawczych osiąganych w przeszłości. W ramach inicjatywy Science Commons zdefiniowano główne cechy otwartej nauki w następujący sposób:

  • otwarty dostęp do literatury powstałej w ramach badań dofinansowanych: wszystkie wyniki badawcze, nawet w przypadku gdy badania były finansowane ze środków niepublicznych, powinny być całkowicie dostępne w Internecie, a licencja powinna umożliwiać swobodne pobieranie, wykorzystywanie, drukowanie, kopiowanie, cytowanie, linkowanie, indeksowanie i przetwarzanie wyników bez żadnych ograniczeń prawnych, technologicznych czy finansowych
  • otwarty dostęp do narzędzi wykorzystywanych w ramach badań dofinansowanych: jeśli w trakcie badań wykorzystano specjalne narzędzia, to narzędzia te powinny być dostępne w formie szczegółowych opisów (w formie cyfrowej) umożliwiających replikację przeprowadzonych badań, to samo dotyczy np. linii komórek wykorzystywanych w badaniach, narzędzi do analizy DNA, itp.
  • dane w domenie publicznej: wszystkie dane, bazy danych, zbiory i protokoły użyte w badaniach, także badaniach finansowanych ze środków niepublicznych, muszą znaleźć się w domenie publicznej, z możliwością kopiowania, reformatowania, dystrybuowania i włączania danych do nowych badań lub wykorzystania danych do weryfikacji poprawności przeprowadzonych eksperymentów
  • inwestycje w otwartą cyber-przestrzeń: infrastruktura umożliwiająca współwykorzystywanie i współdzielenie danych naukowych powinna być traktowana jako wspólne dobro, infrastruktura powinna być otwarta, darmowa, rozszerzalna i dostępna zarówno dla środwiska naukowego, jak i podatników

Innym przykładem inicjatywy promującej koncepcje otwartej nauki jest Public Library of Science. PLoS to inicjatywa utworzenia nowego modelu publikowania wyników naukowych. W chwili obecnej jest to siedem czasopism (PLoS One, PLoS Biology, PLoS Medicine, PLoS Genetics, PLoS Computational Biology, PLoS Neglected Tropical Diseases, PLoS Pathogens), do których dostęp jest całkowicie otwarty i darmowy (publikowanie w tych czasopismach jest płatne). Wszystkie czasopisma PLoS są recenzowane i mają wysokie współczynniki impact factor, przykładowo, na liście MNiSW PLoS Biology ma 30 punktów, PLoS Medicine ma 24 punkty, a PLoS Genetics i PLoS Computational Biology mają po 10 punktów.

Zasady działania Public Library of Science są sformułowane w postaci listy obejmującej: otwartość dostępu, doskonałość, naukowa uczciwość, uniwersalność publikacji, kooperacja, dostępność finansowa, zaangażowanie społeczności naukowej, międzynarodowość i udostępnienie nauki jako powszechnego i dostępnego zasobu publicznego. Warto się zaznajomić ze szczegółowym opisem tych zasad.

A wszystkie te dywagacje są wynikiem mejla, który dostałem. Zakończyła się 36 konferencja International Conference on Very Large Data Bases (VLDB’2010) i wszystkie artykuły prezentowane w trakcie tej konferencji są publicznie dostępne. Jeśli ktoś się zajmuje zawodowo bazami danych, to powinien natychmiast przejrzeć zawartość materiałów konferencyjnych.

Kto chce do Szwajcarii? 09/15/2010

Posted by Mikołaj Morzy in nauka.
1 comment so far

Flaga SzwajcariiJeśli ktoś ma ochotę wyjechać na rok do Zurychu, to nadarza się bardzo dobra okazja. Functional Genomics Center Zurich poszukuje osoby do przejęcia, na rok, trwającego już projektu dotyczącego analizy transkryptomu (ekspresji RNA). Osoba, która podjęłaby się tego zadania, ubiegałaby się również o grant ze szwajcarskiego Programu Wymiany Naukowej sciex.ch Po zakończeniu rocznego stażu doktorantka/doktorant może kończyć rozprawę doktorską w Polsce. W ramach stażu przewidziana jest także wizyta promotorki/promotora w FGCZ w Zurychu.

FGCZ stanowi „core lab” dla laboratoriów biologicznych i medycznych obu uniwersytetów w Zurichu (Uni i ETH). Posiada wiele urządzeń do pomiarów genomowych i proteomowych oraz zespoły badawcze do analizy danych z tych urządzeń. Temat pracy związany byłby ze statystyczną analiza i eksploracją danych z nowej generacji sekwencerów DNA/RNA (np ABI SOLID v4 – 800M odczytow fragmentow DNA/RNA w jednym cyklu, dokładny temat jest do uzgodnienia). Sciex oferuje jedno z najwyższych w Europie stypendiow doktoranckich – ok 2800 CHF netto miesięcznie plus budżet na wyjazdy konferencyjne.

Wymagania stawiane przed kandydatką/kandydatem są następujące:

  • swobodne programowanie (np C, Java, Python)
  • komunikatywna znajomość języka angielskiego
  • odpowiedzialność i kultura
  • aktualnie odbywane studia doktoranckie w Polsce w dziedzinie informatyki, statystyki, bioinformatyki lub zbliżonej (uwaga: propozycja skierowana jest także do osób zatrudnionych jako asystentki/asystenci oraz do postdoców)

Mile widziane są także następujące umiejętności (nie wszystkie są konieczne, część można zdobyć już na miejscu w Zurychu):

  • programowanie w R
  • znajomość statystyki (regresyjne modele liniowe, anova, enrichment algorithms, testy statystyczne) 
  • znajomość eksploracji danych (analiza skupień, klasyfikacja) 
  • programowanie w SQL (i dialektach typu PL-SQL) 
  • znajomość biologii transkryptomu (struktura genomu, alternatywny splicing) 
  • znajomość systemów bioinformatycznych (bazy typu Ensembl czy Refseq, biomaRt, analiza ekspresji genów)

Jeśli ktoś jest zainteresowany, to proszę o jak najszybszy kontakt, sprawa jest pilna.

%d blogerów lubi to: