Przejdź do treści

Biblioteka Kongresu digitalizuje miliony stron gazet

Powstaje gigantyczna baza interesujących treści.

Amerykańska Biblioteka Kongresu wpadła na pomysł, by zdigitalizować katalog starych gazet oraz stworzonych z nich mikrofilmów. Są one cennym źródłem wiedzy o wydarzeniach z dawnych lat, a zestawione ze sobą pozwalają zobaczyć, w jaki sposób ludzie do tych wydarzeń się odnosili.

Obrazek

Łącznie udało się zebrać 16 mln stron dotyczących całej historii Stanów Zjednoczonych. Przy digitalizacji wykorzystano technikę uczenia maszynowego.

Naukowcy uczyli sztuczną inteligencję rozpoznawania poszczególnych składowych tekstów, takich jak nagłówki, wyimki, tytuły czy ilustracje, obrysowując je na początku ramkami, a potem pozwalając działać maszynie.

System potrafi także porządkować treści wizualne i odróżniać np. zdjęcia, ilustracje, mapy, komiksy, kreskówki i reklamy. Pozwoliło to na wyodrębnienie poszczególnych składowych, a w efekcie prostszą nawigację po całej kolekcji. Można wyszukać np. mapy z czasu wybranych wojen.

Dzięki efektom pracy naukowców, trwającej nieprzerwanie przez 19 dni, już teraz można podziwiać pisma pochodzące z lat 1789–1963. Oczywiście z całym dobrodziejstwem inwentarza: w gazetach z tamtego okresu można odnaleźć też sporo treści rasistowskich.

Projekt zakłada stworzenie kolejnych tego typu kolekcji. Naukowcy udostępnili też nieodpłatnie wykorzystane podczas prac narzędzie Newspaper Navigator pod tym adresem.

0 komentarzy

Zostaw komentarz