jump to navigation

Prawo Benforda 01/06/2010

Posted by Mikołaj Morzy in nauka, teoria.
trackback

Prawo Benforda, zwane także prawem pierwszej cyfry (choć istnieje także alternatywne sformułowanie dotyczące drugiej najbardziej znaczącej cyfry), dotyczy rozkładu częstości występowania poszczególnych cyfr na najbardziej znaczącej pozycji w dużej kolekcji danych. Okazuje się, że cyfry nie są rozłożone jednostajnie, lecz zgodnie z rozkładem

P(d)=\log_{10}(1+\frac{1}{d})

gdzie d oznacza cyfrę z przedziału <1,9>. Prawo działa także dla liczb innych niż wyrażonych w systemie dziesiętnym, zmienia się tylko podstawa logarytmu.

Najciekawsze jest to, że prawo Benforda działa tylko wówczas, jeśli kolekcja danych jest generowana przez rzeczywisty proces, którym rządzi rozkład wykładniczy potęgowy (patrz komentarze).  Dotyczy to np. wielkości miast, długości rzek, rozmiarów populacji miast, cen w sklepach, itp. Dzieje się tak dlatego, że w przypadku rozkładów potęgowych otrzymujemy jednostajny rozkład cyfr po zlogarytmowaniu oryginalnych wartości, tzn. jest takie samo prawdopodobieństwo, że rzeka ma od 10 do 100 km długości, jak to, że rzeka ma od 100 do 1000 km długości. Rozkłady potęgowe są bardzo często spotykane w przyrodzie i naukach społecznych, toteż pole do stosowania prawa Benforda jest szerokie. Innym ważnym czynnikiem jest aby rozkład wartości był niezależny od skali, na jakiej jest mierzony (tzw. scale invariance). Tak się akurat składa, że tylko rozkłady potęgowe posiadają tę cechę, ponieważ mając dany rozkład potęgowy f(x)=ax^k jeśli przeskalujemy x o stałą c, otrzymamy f(cx)=a(cx)^k=c^kf(x)\propto f(x).

Prawo Benforda nie działa, jeśli kolekcja danych została spreparowana przy użyciu rozkładów losowych i pseudo-losowych, ponieważ rozkład najbardziej znaczącej cyfry staje się wówczas jednostajny. Okazuje się, że można ten fakt wykorzystać do zidentyfikowania, czy zbiór danych został sfałszowany. Zaproponowano wykorzystanie prawa Benforda do audytu sprawozdań finansowych, księgowości, wyników wyborów, itp. Dziś dowody na podstawie prawa Benforda są akceptowane jako dowody sądach amerykańskich. Całkiem niedawno prawo Benforda zostało wykorzystane do nadzorowania uczciwości przeprowadzania wyborów. W szczególności, dużo kontrowersji wzbudziły ostatnie wybory prezydenckie w Iranie. Walter Mebane wykorzystuje prawo Benforda do stwierdzenia, że prawdopodobnie wyniki zostały sfałszowane.

Z czystej ciekawości postanowiłem sprawdzić, czy prawo Benforda stosuje się do cen przedmiotów wystawianych w serwisie Allegro. Poniżej przedstawiam rozkład najbardziej znaczącej cyfry cen produktów wyliczony na podstawie próbki liczącej ponad 300 tysięcy przedmiotów (na osi odciętych najbardziej znacząca cyfra ceny, na osi rzędnych procent aukcji z daną ceną), zgodność jest uderzająca:

Dla uczciwości dodać należy, że Frank Benford sprawdził poprawność tego  prawa dla dużej liczby różnych zbiorów danych i opublikował wyniki swoich prac w 1935 roku, natomiast oryginalnym odkrywcą prawa był astronom Simon Newcomb w 1881 roku. Podobno odkrył je czytając tablice logarytmów i zauważając, że początkowe strony tablic (z logarytmami zaczynającymi się od cyfry 1) były dużo bardziej zużyte, niż inne strony. Swoją drogą, czytanie tablic logarytmów wygląda na dziwaczne hobby.

Komentarze»

1. PiotrM - 04/04/2011

Ktoś tu się chyba myli (ja?) f(x) = a x^ k NIE jest rozkładem wykładniczym !!! Rozumowanie o scale invariance
jest OK, ale więcej odpowiedzialności w redakcji, która
pretenduje do uczenia innych!

Mikołaj Morzy - 06/03/2011

O rany, to jest totalnie zawstydzające. Oczywiście chodzi o rozkład potęgowy, a nie wykładniczy. Na swoje usprawiedliwienie mogę tylko powiedzieć, że musiałem się jakoś tajemniczo „zafiksować” na tłumaczeniu „power”->”wykładnik” przez analogię z „X to the power of Y”. Ze strachu sprawdziłem szybko wykłady z sieci społecznych, ale tam jakoś wszędzie na slajdach mówię o prawach potęgowych. Wstyd i nauczka, żeby *zawsze* przeczytać to, co się samemu napisało. Dziękuję za zwrócenie uwagi na tę wtopę.


Dodaj komentarz