jump to navigation

Zbliża się kolejna konferencja PLOUG 09/26/2010

Posted by Mikołaj Morzy in bazy danych, biznes.
add a comment

Już za miesiąc rozpoczyna się w Zakopanem kolejna, XVI Konferencja Użytkowników i Deweloperów Oracle organizowana przez Stowarzyszenie Polskiej Grupy Użytkowników Systemu Oracle (PLOUG). Jak zawsze, będzie mnóstwo referatów, warsztatów i tutoriali dotyczących technologii bazodanowych i aplikacyjnych, zgłoszono 32 referatów i 29 tematów warsztatów i tutoriali, do tego imprezy towarzyszące i okazja, żeby podzielić się w gronie praktyków i ekspertów swoimi doświadczeniami, problemami i pytaniami. Konferencja odbywa się w terminie 19-22.10.2010 w WDW Kościelisko, szczegóły konferencji i formularz rejestracyjny znajdziecie Państwo na stronach konferencji.

W tym roku będę miał przyjemność zaprezentować dwa referaty plenarne, ich tytuły i streszczenia poniżej:

Oracle 11g Statistical Functions: statystyka dla dużych i małych

Baza danych Oracle 11g posiada wbudowany bardzo szeroki wachlarz narzędzi statystycznych. W połączeniu z narzędziami Oracle OLAP i Oracle Data Mining zbiór narzędzi statystycznych, w które wyposażona jest baza danych Oracle 11g tworzy potężne środowisko analityczne. W zależności od potrzeb użytkownicy mogą wykorzystywać tylko najprostsze funkcje, np. statystykę opisową lub testowanie hipotez, funkcje analityczne lub funkcje regresji liniowej, ale mogą także sięgnąć po mocniejsze narzędzia: testowanie dopasowania rozkładów, analizę wariancji (ANOVA), analizę Pareto, parametryczne i bezparemetryczne modele korelacji czy testy Chi-kwadrat. W niniejszym artykule przedstawiono pełny przegląd narzędzi statystycznych oferowanych przez bazę danych Oracle 11g, ilustrując poszczególne narzędzia przykładami zastosowań biznesowych.

Oracle WebCenter 11g czyli Przedsiębiorstwo 2.0

Oracle WebCenter 11g to środowisko służące do wdrażania produktów Web 2.0 w przedsiębiorstwach komercyjnych. W skład WebCenter 11g wchodzą narzędzia do tworzenia aplikacji społecznościowych, portali biznesowych, czy serwisów inter- i intra-netowych opartych na ideach Web 2.0, takich jak: komunikatory internetowe, blogi, serwisy wiki, fora dyskusyjne, kanały RSS, tagi i folksonomie, sieci społecznościowe czy komunikacja za pomocą VoIP. Platforma Oracle WebCenter 11g umożliwia szybkie wdrożenie takiej architektury do systemu informatycznego przedsiębiorstwa i organizacji, zarówno w formie gotowego pakietu, jak i zestawu narzędzi umożliwiającego samodzielne stworzenie rozwiązania najlepiej dopasowanego do danej rzeczywistości biznesowej. W artykule przedstawiono ogólną koncepcję Oracle WebCenter 11g, opisano główne składowe tej platformy: WebCenter Framework, WebCenter Services, WebCenter Spaces, oraz WebCenter Interactions.

Oprócz referatów plenarnych przygotowałem także dwa warsztaty, informacje o liczbie wolnych miejsc są dostępne na stronach „z ostatniej chwili”

[WP Semantic] Oracle Semantic Technologies: Web 3.0 w działaniu

Sieć semantyczna, zwana także modelem Web 3.0, to wizja Internetu jutra, w którym dane są przechowywane, opisywane i powiązane w taki sposób, aby mogły być wykorzystane nie tylko przez ludzi, ale także przez maszyny (programy, pająki sieciowe czy inteligentnych agentów). Format danych powinien umożliwiać maszynom „rozumienie” danych w stopniu wystarczającym do tego, aby dane mogły podlegać automatycznej integracji, negocjacji, czy manipulacji. Opcja Oracle Spatial 11g serwera bazy danych Oracle 11g Enterprise Edition zawiera zaawansowane mechanizmy zarządzania danymi semantycznymi. Umożliwia ona, między innymi, wykorzystanie języków RDF, RDFS i OWL bezpośrednio w bazie danych, wzbogacanie danych relacyjnych o warstwę semantyki, wydawanie zapytań do danych relacyjnych przy wsparciu ontologii zdefiniowanych w OWL, pełny wachlarz operacji DML dla danych przechowywanych w RDF i OWL, wnioskowanie za pomocą silników RDF i OWL, a także wydawanie zapytań w języku zbliżonym do standardu SPARQL. Celem warsztatu jest popularyzacja technologii semantycznych oraz zaznajomienie uczestników z możliwościami narzędzi oferowanych w ramach pakietu Oracle Semantic Technologies.

  • Profil uczestnika: osoby projektujące i implementujące aplikacje bazodanowe.
  • Poziom wiedzy uczestnika: brak wymagań.
  • Forma zajęć: demonstracja z samodzielnymi ćwiczeniami praktycznymi.
  • Cel uczestnictwa: zapoznanie się z funkcjonalnością Oracle Semantic Technologies.
  • Czas trwania: 4 godz.

[WP Stat] Oracle Statistical Functions: statystyka dla dużych i małych

Wiele współcześnie projektowanych i implementowanych aplikacji wymaga efektywnych narzędzi statystycznych. Baza danych Oracle 11g oferuje bogaty zestaw takich narzędzi, począwszy od narzędzi podstawowych (funkcje analityczne, funkcje rankingu hipotetycznego, funkcje regresji liniowej) aż po zaawansowane (testowanie hipotez, dopasowywanie rozkładów, analiza wariancji, analiza Pareto, modele korelacji, testy Chi-kwadrat, itp.) Celem warsztatu jest zaprezentowanie uczestnikom szerokiego przeglądu wszystkich narzędzi statystycznych oferowanych przez bazę danych Oracle 11g, oraz przedstawienie hipotetycznych scenariuszy wykorzystania wybranych narzędzi.

  • Profil uczestnika: osoby projektujące i implementujące aplikacje bazodanowe.
  • Poziom wiedzy uczestnika: elementarna wiedza z dziedziny statystyki.
  • Forma zajęć: demonstracja z samodzielnymi ćwiczeniami praktycznymi.
  • Cel uczestnictwa: zapoznanie się z wszystkimi narzędziami Oracle Statistical Functions.
  • Czas trwania: 4 godz.
Reklamy

Parę słów o otwartej nauce 09/25/2010

Posted by Mikołaj Morzy in bazy danych, nauka, teoria.
9 Komentarzy

Wiele psów powieszono na współczesnym modelu uprawiania nauki. Takie sformułowania jak „wieża z kości słoniowej”, „korporacyjna sterylność”, „oderwanie od praktyki”, nie należą do rzadkości. Faktycznie, pomysł że będziemy na wzajem recenzować sobie prace, niektóre przyjmować, a inne odrzucać, a potem będziemy się parę razy do roku spotykać w najprzeróżniejszych miejscach na całym świecie i przez parę dni rozmawiać, słuchać się nawzajem, smacznie jeść, i za to wszystko zapłacą podatnicy, taki pomysł może wydawać się dziwny. A jeszcze dziwniejsze jest to, że znakomita większość napisanej przez nas treści jest praktycznie niedostępna, ponieważ zostaje umieszczona w płatnych, drogich czasopismach i można się do niej dostać jedynie przez specjalizowane portale, takie jak IEEE Computer Science Digital Library, SpringerLink lub ACM Digital Library. Sam fakt ograniczenia dostępności publikacji końcowej nie jest jeszcze taki straszny, bo w końcu można sobie pozwolić wydać parę dolarów na zakup artykułu. Ale jeśli zamknięte są dane, na których przeprowadzono eksperymenty, lub narzędzia potrzebne do powielenia tych eksperymentów, to podważamy najważniejszy komponent metody naukowej: możliwość niezależnego potwierdzenia lub obalenia doniesień naukowych. A bez tego komponentu nie ma mowy o prawdziwej nauce.

Od jakiegoś czasu wielką karierę robi pojęcie otwartej nauki (ang. open science) lub otwartych badań (ang. open research). Przykładowa inicjatywa promująca ideę otwartej nauki to Science Commons. Science Commons zajmuje się trzema najważniejszymi aspektami: (a) adnotacją danych i badań w taki sposób, aby w łatwy sposób mogły być ponownie wykorzystane przez innych naukowców, (b) ułatwieniem dostępu do materiałów badawczych poprzez opracowanie nowego typu licencji prawnej, oraz (c) opracowaniem specjalnego języka ułatwiającego integrację wyników badawczych osiąganych w przeszłości. W ramach inicjatywy Science Commons zdefiniowano główne cechy otwartej nauki w następujący sposób:

  • otwarty dostęp do literatury powstałej w ramach badań dofinansowanych: wszystkie wyniki badawcze, nawet w przypadku gdy badania były finansowane ze środków niepublicznych, powinny być całkowicie dostępne w Internecie, a licencja powinna umożliwiać swobodne pobieranie, wykorzystywanie, drukowanie, kopiowanie, cytowanie, linkowanie, indeksowanie i przetwarzanie wyników bez żadnych ograniczeń prawnych, technologicznych czy finansowych
  • otwarty dostęp do narzędzi wykorzystywanych w ramach badań dofinansowanych: jeśli w trakcie badań wykorzystano specjalne narzędzia, to narzędzia te powinny być dostępne w formie szczegółowych opisów (w formie cyfrowej) umożliwiających replikację przeprowadzonych badań, to samo dotyczy np. linii komórek wykorzystywanych w badaniach, narzędzi do analizy DNA, itp.
  • dane w domenie publicznej: wszystkie dane, bazy danych, zbiory i protokoły użyte w badaniach, także badaniach finansowanych ze środków niepublicznych, muszą znaleźć się w domenie publicznej, z możliwością kopiowania, reformatowania, dystrybuowania i włączania danych do nowych badań lub wykorzystania danych do weryfikacji poprawności przeprowadzonych eksperymentów
  • inwestycje w otwartą cyber-przestrzeń: infrastruktura umożliwiająca współwykorzystywanie i współdzielenie danych naukowych powinna być traktowana jako wspólne dobro, infrastruktura powinna być otwarta, darmowa, rozszerzalna i dostępna zarówno dla środwiska naukowego, jak i podatników

Innym przykładem inicjatywy promującej koncepcje otwartej nauki jest Public Library of Science. PLoS to inicjatywa utworzenia nowego modelu publikowania wyników naukowych. W chwili obecnej jest to siedem czasopism (PLoS One, PLoS Biology, PLoS Medicine, PLoS Genetics, PLoS Computational Biology, PLoS Neglected Tropical Diseases, PLoS Pathogens), do których dostęp jest całkowicie otwarty i darmowy (publikowanie w tych czasopismach jest płatne). Wszystkie czasopisma PLoS są recenzowane i mają wysokie współczynniki impact factor, przykładowo, na liście MNiSW PLoS Biology ma 30 punktów, PLoS Medicine ma 24 punkty, a PLoS Genetics i PLoS Computational Biology mają po 10 punktów.

Zasady działania Public Library of Science są sformułowane w postaci listy obejmującej: otwartość dostępu, doskonałość, naukowa uczciwość, uniwersalność publikacji, kooperacja, dostępność finansowa, zaangażowanie społeczności naukowej, międzynarodowość i udostępnienie nauki jako powszechnego i dostępnego zasobu publicznego. Warto się zaznajomić ze szczegółowym opisem tych zasad.

A wszystkie te dywagacje są wynikiem mejla, który dostałem. Zakończyła się 36 konferencja International Conference on Very Large Data Bases (VLDB’2010) i wszystkie artykuły prezentowane w trakcie tej konferencji są publicznie dostępne. Jeśli ktoś się zajmuje zawodowo bazami danych, to powinien natychmiast przejrzeć zawartość materiałów konferencyjnych.

Jeszcze więcej danych 03/10/2010

Posted by Mikołaj Morzy in bazy danych, dataset, zbiór danych.
2 Komentarze

Google Public Data Explorer logoGoogle Public Data Explorer to nowy członek rodziny produktów Google Labs. Jest to narzędzie do wizualizacji publicznych zbiorów danych. Umożliwia tworzenie wykresów (kołowych, słupkowych, liniowych, bąbelkowych) animowanych w czasie, osadzanie tych wykresów na stronach www oraz automatyczną aktualizację wykresów. Przykładowo, ten wykres porównuje stopę bezrobocia w Polsce, Czechach i Norwegii na przestrzeni ostatnich 15 lat:

Example of Google Public Data Explorer(niestety, WordPress.com wycina znaczniki <IFRAME> więc nie mogę osadzić animowanej wersji wykresu).

W chwili obecnej nie można załadować i zwizualizować swojego zbioru danych (do tego celu można się posłużyć serwisami Swivel, Many Eyes, iCharts, Trendrr, Verifiable czy Timetric), a dostępny zbiór danych obejmuje m.in.:

  • dane EuroStatu o bezrobociu, inflacji i płacy minimalnej w Unii
  • dane o bezrobociu w Stanach (US Bureau of Labor)
  • dane o GDP i podatkach w Stanach (US Bureau of Economic Analysis)
  • dane z amerykańskiego spisu powszechnego (US Census Bureau)
  • dane OECD (fact book)

Wywiad z Jennifer Widom 02/04/2010

Posted by Mikołaj Morzy in bazy danych, nauka.
1 comment so far

Jennifer WidomOstatnio natknąłem się na wywiad z Jennifer Widom. Wywiad ukazał się w SIGMOD Record vol.35 no.3 we wrześniu 2006, więc już trochę trąci myszką, ale przeczytałem go z dużym zainteresowaniem. Dla tych, którzy nie wiedzą, Jennifer Widom jest jedną z najbardziej znanych i rozpoznawalnych postaci w świecie baz danych, jej lista publikacji jest imponująca, a sama Jennifer jest motorem działania Stanford InfoLab.

W wywiadzie Jennifer Widom porusza całą masę spraw. Mówi o kierunkach swoich badań (semistrukturalne bazy danych i projekt LORE, strumieniowe bazy danych, zarządzanie niepewnością w danych), o organizacji swojej pracy, o sposobach znajdowania czasu, o godzeniu pracy zawodowej i życia rodzinnego, w szczególności wychowywania dzieci, o egzotycznych podróżach, o tym, dlaczego nigdy nie założyła żadnego start-upu i dlaczego nie chce być dziekanem. Mówi też ciekawie o tym, jak ważne jest poprawne pisanie artykułów naukowych i ich prezentowanie, o tym, w jaki sposób wybiera sobie przyszłe tematy badawcze i jak studenci wymuszają na niej okresowe zmiany obszarów pracy naukowej. Wreszcie, część wywiadu jest poświęcona grze na trąbce i temu, dlaczego zrezygnowała z kariery profesjonalnej trębaczki na rzecz informatyki (i o tym, dlaczego myśli o powrocie do trąbienia).

W latach 2007-2008 Jennifer z mężem i dwójką dzieci urządzili sobie 14-miesięczną podróż dookoła świata. Szczegółowe sprawozdanie z tej wyprawy oraz zdjęcia są dostępne na jej stronie domowej.

To bardzo ciekawy wywiad, zdecydowanie warty polecenia i poświęcenia 10 minut czasu. Wywiad jest dostępny na stronach SIGMOD Record.

Kaggle – nowy serwis internetowy związany z eksploracją danych 02/03/2010

Posted by Mikołaj Morzy in bazy danych, dataset, eksploracja danych, nauka, zbiór danych.
1 comment so far

Kaggle logoGąski, gąski do domu! czyli nowy serwis poświęcony eksploracji danych. Właśnie stałem się świadomy istnienia serwisu Kaggle, oferującego możliwość przygotowywania konkursów eksploracyjnych. Posiłkując się cytatem z Hala Variana, odpowiedzialnego za finanse Google („ciągle powtarzam, że w przeciągu najbliższych dziesięciu lat najbardziej seksownym zawodem będą statystycy„), twórcy serwisu postawili sobie za cel przygotowanie otwartej platformy umożliwiającej zorganizowanie dowolnego konkursu związanego z eksploracją danych, analizą statystyczną czy uczeniem maszynowym.

Koncepcja jest prosta. Serwis jest całkowicie darmowy i automatyzuje całą procedurę przygotowywania konkursu: rejestrację uczestników, specyfikację zbioru uczącego i testującego, opis nagrody, rejestrację i sprawdzanie rozwiązań, utrzymywanie listy najlepszych wyników, itd. Można wskazać preferowany sposób oceny nadsyłanych rozwiązań, wyspecyfikować warunki poprawności rozwiązania (Kaggle może np. sprawdzać, czy nadsyłane rozwiązania mają wystarczającą liczbę wierszy i czy wartości w poszczególnych kolumnach są właściwego typu). Cały proces budowania konkursu odbywa się przy użyciu edytorów WYSIWYG, nie ma ograniczenia na wielkość danych wejściowych.

Po co taki serwis? Autorzy twierdzą (słusznie), że otwarte konkursy stanowią fantastyczne pole innowacji i rozwoju. Klasycznym przykładem jest konkurs Netflix, w którym główna nagroda wynosiła okrągły milion dolarów. Ale nagrody wcale nie muszą być wysokie. Sam fakt udziału w takim wyścigu, możliwość porównania się z najlepszymi, duch rywalizacji i synergia pojawiająca się dzięki zderzeniu różnych technik, modeli, podejść i szkół, stanowi wystarczającą gratyfikację. Wiele firm może traktować otwarte konkursy jako doskonały sposób rozwoju swoich aplikacji i technologii czy pozyskiwać zdolnych pracowników.

W chwili obecnej serwis jest w stanie beta, czyli jego funkcjonalność i stabilność mogą odbiegać od powszechnie przyjętych standardów. Serwis jest dostępny pod adresem http://demo.kaggle.com Aktualnie dostępne są trzy konkursy: konkurs organizowany przez Orange w ramach KDD Cup 2009, konkurs dotyczący danych z australijskiej ligi futbolu AFL, oraz konkurs AusDM Analytic Challenge zorganizowany w zeszłym roku razem z konferencją AusDM’09 Australian Conference on Data Mining.

Poważnie rozważam możliwość zorganizowania konkursu eksploracyjnego jako formy zaliczenia przedmiotu „Eksploracja danych”, który będę prowadził w semestrze letnim dla specjalizacji Technologie Przetwarzania Danych…

Bazy danych bez SQL 11/25/2009

Posted by Mikołaj Morzy in bazy danych, nauka.
2 Komentarze

Gdy się pracuje w bazach danych, warto słuchać, co ma do powiedzenia Michael Stonebraker. Szczególnie, gdy bierze się za obronę systemów zarządzania bazami danych przed różnymi zakusami, np. przed powrotem do pre-relacyjnej ery pod postacią MapReduce. Tym razem na łamach blogu Communications of the ACM Stonebraker ostro atakuje zwolenników porzucenia tradycyjnych systemów zarządzania bazami danych na rzecz baz danych „NoSQL”, czyli różnego rodzaju składnic danych w stylu rozproszonych tablic haszowych lub składnic dokumentów. Stonebraker twierdzi, że nie istnieją żadne racjonalne przesłanki aby rezygnować z dobrodziejstw oferowanych przez tradycyjne bazy danych (przetwarzanie transakcyjne, zorientowany na zbiory język zapytań, zarządzanie współbieżnością, wielowersyjność, spójność i odtwarzanie po awarii) w celu niewielkiego przyspieszenia działania bazy danych. Opierając się na pracy „OLTP Through the Looking Glass, and What We Found Theretwierdzi, że głównymi powodami opóźnień we współczesnych bazach danych są: zapis logu (dziennika), zakładanie blokad, zakładanie blokad na obiektach współdzielonych w pamięci (ang. latches) oraz zarządzanie buforem danych. W efekcie, nie można znacząco przyspieszyć działania bazy danych bez usunięcia jednego z tych mechanizmów, a co za tym idzie, bez poświęcenia jednej z fundamentalnych usług systemu zarządzania bazą danych (np. usunięcie zapisu logu uniemożliwi odtwarzanie po awarii i zapewnianie trwałości transakcji, usunięcie blokad uniemożliwi implementację pesymistycznych algorytmów zarządzania współbieżnością, itd.)

Cały wpis (autor zapowiada, że pojawi się jeszcze druga część) jest bardzo ciekawy i wart lektury.

Terroryzm w Rudzie-Gwizdanowie 11/07/2009

Posted by Mikołaj Morzy in bazy danych, dataset, zbiór danych.
1 comment so far

terroristKto z Was wie, gdzie mieści się Ruda-Gwizdanów? Do dzisiaj też nie miałem pojęcia. W 1997 roku miał tam miejsce atak terrorystyczny, polegający na odpaleniu ładunków wybuchowych podczas spotkania weteranów. Niestety, Wikipedia milczy o ataku, podobnie jak Google. Więc skąd wiem, że terroryści zawitali do Gwizdanowa?

Od 2001 roku Uniwersytet Stanu Maryland gromadzi informacje o aktach terroryzmu na całym świecie. Niedawno baza danych o szumnej nazwie „Global Terrorism Database” została udostępniona publicznie. Baza zawiera informacje o ponad 80 000 aktach terroryzmu i oferuje możliwość wyszukiwania według regionu, kraju, typu ataku, czasu czy liczby ofiar. Serwis oferuje także kalendarium i proste narzędzia do wizualizacji. Wszystkie dane można uzyskać w surowej postaci po skontaktowaniu się z autorami. Baza danych może być swobodnie wykorzystywana do badań naukowych pod warunkiem zacytowania źródła danych. Wszystkie szczegóły znajdują się na głównej stronie projektu.

A tutaj można sprawdzić akty terroryzmu popełnione w Polsce na przestrzeni ostatnich 30 lat.

Zakopane Zakopane (XV Konferencja PLOUG) 10/05/2009

Posted by Mikołaj Morzy in bazy danych, nauka.
7 Komentarzy

zakopanesłońce, góry i bazy danych. W dniach 20-23 października odbędzie się w Zakopanem XV Konferencja użytkowników i deweloperów Oracle PLOUG’2009. Jak co roku, konferencja odbywa się w WDW „Kościelisko” i gromadzi bardzo duże grono uczestników. Na stronach Stowarzyszenia PLOUG można znaleźć szczegółowy program konferencji. W tym roku będę miał przyjemność zaprezentować dwa referaty:

  • Semantic Technologies, czyli Oracle i Web 3.0
  • Oracle TimesTen 11g – baza danych w pamięci RAM

Treść obu referatów zostanie umieszczona na mojej stronie domowej natychmiast po zakończeniu konferencji. Oprócz referatów przygotowałem także dla uczestników konferencji dwa warsztaty, w trakcie których będzie można nabyć dużo praktycznej wiedzy, i na które bardzo serdecznie zapraszam. Prowadzone przeze mnie warsztaty to:

  • [WP TimesTen]: Oracle TimesTen 11g, czwartek, 22.10, godz. 15:00-19:00
  • [WP ODM]: Oracle Data Mining 11g, wtorek, 20.10, godz. 8:00-12:00 oraz piątek, 23.10, godz. 15:00-19:00

Na stronach konferencji dostępny jest pełny harmonogram warsztatów i tutoriali oraz szczegółowy opis warsztatów i tutoriali.

Poza warsztatami, tutorialami i referatami podczas konferencji panuje zawsze wyśmienita atmosfera, wieczory spędzamy miło w barze, chodzimy na wycieczki, czasem organizujemy góralskie ognisko, a przede wszystkim nieustannie rozmawiamy i wymieniamy się doświadczeniem, uwagami i problemami. Jeśli zastanawiacie się, czy warto jechać na PLOUG, od razu odpowiem: warto! Porozmawiajcie z szefową lub szefem, może sfinansują Wam wyjazd, na pewno nie pożałujecie.

Dane miasta i hrabstwa San Francisco dostępne publicznie 08/20/2009

Posted by Mikołaj Morzy in bazy danych, eksploracja danych, nauka.
add a comment

datasfMam wrażenie, że w nauce jednym z kluczowych problemów jest znalezienie właściwego pytania, na które próbujemy później znaleźć odpowiedź. W przypadku eksploracji danych przekłada się to często na problem znalezienia danych (informacji), dla których poszukujemy nowych algorytmów przetwarzania, modelowania, znajdowania wzorców, itp. Dodatkowo, żeby nasze badania miały sens, przetwarzane dane powinny być możliwie często rzeczywiste, bo w końcu kto ma jeszcze siłę czytać o setnym z kolei algorytmie odkrywania reguł asocjacyjnych, który jest testowany na syntetycznych danych?

W najbliższym czasie przygotuję post z odnośnikami do repozytoriów danych, z których korzystam w dydaktyce i badaniach. Dzisiaj chciałbym zwrócić uwagę na nowo utworzone repozytorium. DataSF to serwis udostępniający kilkadziesiąt zbiorów danych dotyczących miasta i hrabstwa San Francisco.  Wszystkie zbiory danych są dostępne po rejestracji użytkownika. Dane są bardzo zróżnicowane i dotyczą takich zagadnień, jak: wybory lokalne i federalne, środowisko naturalne, geografia, ochrona zdrowia, budownictwo mieszkaniowe, transport publiczny, bezpieczeństwo, czy prace publiczne. Można znaleźć zbiory zawierające lokalizację, nazwę i datę zasadzenia wszystkich przydrożnych drzew w San Francisco, listę wezwań policji do miejsc przestępstw, czy też szczegółową listę wydanych zezwoleń na budowę.

Nic tylko brać i eksplorować, płacząc przy tym nad tym, że wieki upłyną, zanim rodzima administracja publiczna zrozumie, że ujawnianie informacji gromadzonej o obywatelach nie stanowi zagrożenia, tylko obowiązek (jeśli na poważnie chcemy myśleć o budowie społeczeństwa otwartego).

Jak zapewnić unikalność kluczy w tabeli 03/19/2009

Posted by Mikołaj Morzy in bazy danych.
add a comment

To jest niewiarygodne. TheDailyWTF donosi o oryginalnym pomyśle zapewniania unikalnych wartości klucza podstawowego tabeli. Czegoś takiego w życiu bym nie wymyślił.

Przypominam sobie natomiast swojego studenta, który miał podobnie oryginalny pomysł na rozwiązanie prostego zadania: napisz skrypt PHP, który przyjmie jako parametr nazwisko pracownika, a następnie wyszuka tego pracownika w bazie danych i wyświetli dodatkowe informacje o pracowniku. Poniżej zamieszczam pseudokod rozwiązania, które zobaczyłem:

$user = "...";
$pass = "...";
$db = "...";
$name = $_GET['empname'];
$conn = oci_connect($user,$pass,$db);
$sql = "SELECT * FROM PRACOWNICY";
$stmt = oci_parse($conn,$sql);
oci_execute($stmt, OCI_DEFAULT);

while ($result = oci_fetch_array($stmt)) {
    if ($name == $result['NAZWISKO'])
        echo "Pracownik ". $result['NAZWISKO']) . 
             " pracuje jako " . $result['ETAT']) . 
             " i zarabia " . $result['PLACA']);
    }

Co gorsza, student nie rozumiał, czemu się czepiam, bo przecież działa…

%d blogerów lubi to: