jump to navigation

Ngram Viewer: eksploracja ewolucji języka w czasie 01/06/2011

Posted by Mikołaj Morzy in dataset, eksploracja danych, nauka, Uncategorized, zbiór danych.
trackback

Google Labs logoGoogle nie przestaje zadziwiać. Właśnie natknąłem się na Google Ngram Viewer, aplikację umożliwiającą śledzenie częstotliwości występowania zlepków słów we wszystkich książkach dostępnych przez Google Books. Na wstępie uwaga: przyzwyczailiśmy się (przynajmniej w eksploracji danych) używać terminu n-gram do określania sekwencji następujących po sobie n znaków, np. słowo eksploracja może być podzielona na bi-gramy: ek-ks-kp-pl-lo-or-ra-ac-cj-ja. Moje pierwsze wrażenie było takie, że Google używa tego terminu niepoprawnie (wg. nich jest to sekwencja n słów występujących w tekście). Jednak krótki rzut oka do Wikipedii pokazuje, że ich użycie jest prawidłowe:

An n-gram is a subsequence of n items from a given sequence. The items in question can be phonemes, syllables, letters, words or base pairs according to the application.

Do dyspozycji są zbiory danych z książek opublikowanych w Anglii, Stanach Zjednoczonych, można też ograniczyć analizę do książek w językach: chińskim, niemieckim, hiszpańskim, francuskim, hebrajskim i rosyjskim. Dane są dostępne zarówno przez interfejs Google’a, jak i w formacie do pobrania i samodzielnego przetwarzania (dane są dostępne na licencji Creative Commons 3.0). Jeśli zechcecie wykorzystać ten korpus danych, to powinniście w referencjach umieścić pracę

Jean-Baptiste Michel*, Yuan Kui Shen, Aviva Presser Aiden, Adrian Veres, Matthew K. Gray, William Brockman, The Google Books Team, Joseph P. Pickett, Dale Hoiberg, Dan Clancy, Peter Norvig, Jon Orwant, Steven Pinker, Martin A. Nowak, and Erez Lieberman Aiden. Quantitative Analysis of Culture Using Millions of Digitized Books. Science (ta publikacja nie jest dostępna za darmo ze strony czasopisma Science, ale jeśli ktoś przez przypadek kliknie tutaj…)

I zupełnie na marginesie: oto jak można połączyć naukę z marketingiem. Przy okazji pracy nad Ngram Viewer ekipa z Google (przy współpracy z młodymi ludźmi z Harvardu i MIT) ukuła nowy termin: culturomics. Prawda, że zgrabne i chwytliwe?

Komentarze»

1. mw - 05/31/2011

Pomysł jest rzeczywiście niezwykły, ale problemów masa. Od braków w bazach (jedynie 4 proc. ogólnej liczby publikacji) na kłopotach technicznych kończąc (jakość OCRu i metadane). Pozwolę sobie wkleić link http://historiaimedia.org/2011/05/31/kulturomia-i-google-ngram-viewer/


Skomentuj

Wprowadź swoje dane lub kliknij jedną z tych ikon, aby się zalogować:

Logo WordPress.com

Komentujesz korzystając z konta WordPress.com. Log Out / Zmień )

Zdjęcie z Twittera

Komentujesz korzystając z konta Twitter. Log Out / Zmień )

Facebook photo

Komentujesz korzystając z konta Facebook. Log Out / Zmień )

Google+ photo

Komentujesz korzystając z konta Google+. Log Out / Zmień )

Connecting to %s

%d bloggers like this: