Co można wyczytać z 500 miliardów słów?
Zdigitalizowane miliony książek są tym dla nauk humanistycznych, czym badania genomu dla biologii i medycyny - piszą naukowcy w najnowszym "Science". Przez cztery lata prowadzili oni ilościowe badania korpusu ponad pięciu milionów książek.
Od kilku lat na świecie coraz intensywniej digitalizuje się książki i artykuły. Przoduje w tym Google Books, która ma zamiar przenieść do internetu wielomilionowe zbiory światowych bibliotek.
W najnowszym numerze tygodnika "Science" naukowcy prezentują wyniki badań oparte na analizie słów zawartych w części książek opublikowanych dotąd w internecie. Poprzez obliczenie częstotliwości występowania pewnych słów na przestrzeni wieków, zespół usiłuje pokazać, jak wyglądały pewne trendy kulturowe. Czteroletni projekt prowadzony był przez naukowców z Harvard University przy udziale technologicznym i finansowym Google.
Naukowcy wzięli pod uwagę korpus tekstów zgromadzony w zbiorach Uniwersytetu Harwardzkiego, Google Books, Encyclopaedia Britannica i American Heritage Dictionary. W sumie około 5,2 mln książek z 500 mld słów. Około 72 proc. tekstów korpusu jest w języku angielskim, reszta to francuski, hiszpański, niemiecki, chiński, rosyjski i hebrajski.
Na jego podstawie okazało się, że co roku język angielski wzbogaca się o 8,5 tys. słów. Oznacza to, że pomiędzy rokiem 1950 a 2000 zasób słownictwa zwiększył się o 70 proc. Co ciekawe, wielu z tych słów nie ma w słownikach. - Oceniamy, że 52 proc. angielskiego zasobu słów to rodzaj leksykalnej "ciemnej materii" - napisali naukowcy.
Dalsze analizy dowodzą, że z każdym rokiem maleje w korpusie tekstów liczba odniesień do przeszłości. Na przykład współcześni celebryci są młodsi i sławniejsi niż ich XIX-wieczni poprzednicy, ich sława za to trwa krócej. Celebryci urodzeni w 1950 r. osiągnęli sławę średnio w wieku 29 lat, natomiast urodzeni w 1900 r. - dopiero w wieku 43 lat. Za to innowacje z roku na rok rozprzestrzeniają się szybciej.
Okazuje się, że kluczowe dla zrozumienia danej epoki może być nie tylko występowanie pewnych słów, ale też ich przemilczenie, jak w czasach totalitarnej propagandy. Dla przykładu, żydowski malarz Marc Chagall wymieniany był w korpusie niemieckich tekstów z lat 1936-1944 tylko raz, mimo że w tym czasie dużo częściej pojawia się w publikacjach angielskojęzycznych. Podobnie było w tym czasie z nazwiskiem Lwa Trockiego w Rosji, a obecnie w Chinach z nazwą Tiananmen.
To tylko niektóre z uzyskanych wyników. Naukowcy postulują utworzenie nowej dziedziny badań - kulturonomiki, na wzór genomiki, gdzie "kodem genetycznym" będą teksty stworzone przez ludzkość.
- Zainteresowanie podejściem ilościowym do nauk humanistycznych i społecznych datuje się na lata 50. XX w. - wyjaśnia Jean-Baptiste Michel z Harvard University. - Niestety, próby zastosowania metody ilościowej do badań kultury były hamowane przez brak odpowiednich danych. Mamy teraz olbrzymie zbiory danych, dostępne w sposób przyjazny dla każdego użytkownika.
Skomentuj artykuł