Internetowa archeologia
Poszukujesz strony z dawno zakończoną aukcją? A może chcesz odnaleźć skasowany już profil przyjaciela w serwisie społecznościowym? Wypróbuj proponowane przez nas metody wyszukiwania.
Jak znaleźć informacje w sieci, których najpopularniejsza wyszukiwarka – Google – nie wyświetla po przeprowadzeniu standardowego wyszukiwania? Czy można znaleźć strony, które kiedyś istniały w sieci, a dziś już zostały zastąpione innymi? Jest to możliwe. Zastrzegamy jednak, że opisywany przez nas serwis przechowujący archiwum internetu nie zawiera każdej możliwej strony. Ale szansa na odnalezienie interesującej cię witryny z przeszłości jest spora.
Korzystanie z internetowej machiny czasu
Najpotężniejsze archiwum stron internetowych jest dostępne w serwisie Archive.org pod adresem www.archive.org. Zindeksowano w nim materiały, które kiedyś znajdowały się w internecie, ale dziś pozostało już po nich tylko wspomnienie. Czy na pewno? Niezupełnie – oto jak dotrzeć do pozornie „już niedostępnych” stron WWW. Wystarczy odrobina determinacji.
Krok 1
Uruchom swoją ulubioną przeglądarkę WWW i w pasku adresowym wpisz adres www.archive.org. Po chwili zobaczysz główną stronę serwisu przechowującego archiwum internetu. Jest podzielona na kilka ramek. Każda ramka pozwala na wyszukiwanie innego typu treści.
Moving Images wyszuka filmy opublikowane w internecie (a raczej ich garstkę – w momencie opracowywania artykułu w serwisie było zindeksowanych nieco ponad 160 tysięcy filmów.
Live Music Archive to archiwum opublikowanych w internecie transmisji „na żywo” z koncertów (prawie 60 tysięcy pozycji). Ramka Audio pozwala dotrzeć do ponad 305 tysięcy archiwalnych nagrań dźwiękowych, a Texts udostępnia bazę ponad miliona tekstów. Jednak najbardziej interesującym fragmentem strony powitalnej serwisu Archive.org jest umieszczona centralnie niepozorna, przypominająca pole większości wyszukiwarek, ramka Web. Umożliwia ona dostęp do ponad 85 miliardów archiwalnych stron WWW.
Krok 2
Możesz przeszukiwać archiwum stron WWW, wpisując w pole wyszukiwawcze ramki Web adres witryny, na której interesują cię archiwalne treści. Przykładowo wpisz adres naszej strony głównej http://www.pcformat.pl i kliknij przycisk Take Me Back.
Krok 3
Na kolejnej stronie zostanie wyświetlona tabela z wynikami wystąpień wpisanej przez ciebie strony (czyli w tym przypadku głównej strony naszego serwisu internetowego) w czasie od 1 stycznia 1996 roku (kiedy to rozpoczęto gromadzenie danych archiwalnych w serwisie), aż do sześciu miesięcy sprzed aktualnej daty. Wyniki są wyświetlane w formie tabelarycznego zestawienia odnośników, będących jednocześnie datami zarchiwizowania danej strony. W kolumnach są wypisane kolejne lata, a wiersze to po prostu kolejne wystąpienia wybranej strony w danym roku.
Krok 4
Kliknięcie wybranego odnośnika (z datą) otworzy w przeglądarce stronę taką, jak wyglądała na naszym serwisie internetowym w danym czasie w przeszłości. O tym, że odwiedzasz archiwalne wydanie strony, informuje pasek adresu. Adres zaczyna się od zwrotu web.archive.org. Bardzo możliwe, że archiwalne wydanie danej strony, przechowywane przez serwis Archive.org będzie pozbawione niektórych ilustracji, możliwe są także błędy w formatowaniu tekstu. Jest to wynikiem tego, że mechanizm archiwum działającego w ramach serwisu stara się przede wszystkim zachować treści tekstowe z archiwalnych stron. Pamiętaj o jeszcze jednym ograniczeniu internetowego archiwum. Poszukując treści umieszczonych na konkretnej stronie w przeszłości, najlepiej wpisać dokładny adres danej strony, a nie adres strony głównej danego serwisu.
Krok 5
Wracając do naszego przykładu: uzyskałeś co prawda dostęp do archiwalnych treści zamieszczanych na głównej stronie naszego serwisu, ale klikanie odnośników umieszczonych w zarchiwizowanej wersji może, ale nie musi prowadzić do zarchiwizowanych podstron.
Zaawansowane opcje wyszukiwania archiwalnych stron WWW
Korzystając z przedstawionych powyżej uproszczonych opcji przeszukiwania internetowego archiwum, liczba wyników może się niekiedy okazać zbyt duża. Jeżeli wiesz, czego szukasz (np. profilu znajomej z serwisu społecznościowego z konkretnego dnia), wypróbuj zaawansowane opcje przeszukiwania archiwum.
Krok 1
Na stronie głównej serwisu Archive.org w ramce oznaczonej Web kliknij odnośnik Advanced Search.
Krok 2
W przeglądarce otworzy się strona z zaawansowanymi parametrami przeszukiwania archiwum. W polu tekstowym find this URL wpisujesz adres strony, której archiwalne wydanie jest ci potrzebne. Możesz wyszukiwać także strony, o których wiesz, że kiedyś były na pewno dostępne, a dziś zostały już usunięte. Poniżej pola tekstowego przeznaczonego na adres wyszukiwanej strony możesz określić okres, w jakim dana strona ma być poszukiwana. Kliknięcie przycisku Go Wayback uruchamia wyszukiwanie. Wyniki wyszukiwania są zaprezentowane – podobnie jak w przypadku szukania prostego – w postaci listy odnośników. Jednak dzięki opcjom dodatkowym możesz wpływać na sposób wyszukiwania.
Krok 3
Obok napisu URL Matching jest domyślnie zaznaczona opcja: Retrieve page that most closely matches search criteria, która oznacza, że mechanizm wyszukiwawczy w wynikach wyświetli tylko strony najlepiej pasujące do kryteriów wyszukiwań. Zaznaczenie opcji List all pages that match search criteria z pewnością zwiększy liczbę wyników, choć będą one mniej dokładne. Ta druga opcja może się przydać, gdy niezbyt dokładnie pamiętasz adres strony.
Krok 4
Opcje Aliases dotyczą tzw. aliasów, czyli wirtualnych adresów prowadzących do tej samej strony. Domyślnie zaznaczona opcja: Merge aliases, spowoduje, że różne aliasy tej samej strony będą wyświetlane jako jeden wynik (oczywiście dotyczy to aliasów z tej samej daty). Z kolei zaznaczenie: Show aliases separately spowoduje wyświetlanie niezależnego odnośnika dla każdego przechowywanego w bazie aliasu. Trzecia z dostępnych tu opcji: Don't show aliases w ogóle wyłączy aliasy z listy wyników.
Krok 5
Kolejna grupa opcji Redirectes dotyczy odsyłaczy wyświetlanych na archiwalnych stronach. Domyślnie zaznaczona opcja: Hide redirects oznacza, że na liście wyników nie będą wyświetlane linki do stron, które automatycznie przekierowują do innych stron. Możesz to zmienić. Po zaznaczeniu opcji: Flag redirects strony przekierowujące będą wyświetlane na liście wyników, ale będą oznaczone literą r. Ostatnia opcja: Show redirects spowoduje wyświetlanie stron przekierowujących tak jak pozostałych wyników. Ze względów bezpieczeństwa zalecamy, byś pozostawił domyślne ustawienie, chyba że właśnie poszukujesz strony, której adresu nie znasz, ale za to znasz adres strony, która przekierowała cię na tę szukaną.
Krok 6
Jeżeli poszukujesz plików określonego typu, które znajdowały się kiedyś na jakiejś stronie, spróbuj zawęzić wyniki poszukiwań, wybierając od razu z rozwijanej listy File Types interesujący cię typ pliku. Pozycja All types (wszystkie typy plików) jest wyborem domyślnym.
Krok 7
Ostatnimi parametrami przeszukiwania są trzy pola wyboru. Zaznaczenie pola wyboru Duplicates spowoduje, że na liście wyników pojawią się duplikaty danej strony z tego samego okresu (o ile tylko zostały one zapisane w bazie archiwum). Gdy zaznaczysz pole wyboru Comparison, będziesz mógł porównać dwie wersje tej samej strony. Zaznaczenie pola wyboru Convert to PDF spowoduje, że oprócz listy wyników zostaną wyświetlone linki do usługi online konwertującej zarchiwizowaną wersję strony WWW do pliku PDF.
Wykorzystanie specyficznych zapytań do Google
Zakładamy, że doskonale wiesz, jak korzystać z największej internetowej wyszukiwarki świata – Google. Warto jednak wiedzieć, że dzięki precyzyjnie zadanym i odpowiednio sformułowanym zapytaniom do bazy Google’a, uzyskasz w wynikach dostęp do danych, które w normalnym trybie pracy pozostałyby dla ciebie ukryte. Takie specyficzne zapytania do Google’a określa się terminem googledorks. Poniżej przykład prostego w użyciu googledorksa.
Krok 1
Uruchom swoją ulubioną przeglądarkę WWW, odwiedź główną stronę Google’a i w polu wyszukiwawczym wpisz intitle: "Index of" finanse.xls.
Krok 2
Na liście wyników pojawią się odnośniki do stron prezentujących listy plików należących do kogoś, kto nieopatrznie umieścił pliki z dokumentami na serwerze WWW. Wśród tych plików znajduje się oczywiście plik arkusza kalkulacyjnego Excel o nazwie finanse.xls. Zamiast takiej nazwy pliku możesz próbować z innymi nazwami plików, np. notatki.doc, ważne.doc, prezentacja.ppt. Tą metodą możesz dotrzeć często do interesujących dokumentów, których twórcy nigdy by nie podejrzewali, że będą dostępne dla szerszego audytorium, przecież nie umieścili tego na stronie WWW, tylko przekopiowali na serwer dostępny w internecie. Robotom wyszukującym Google’a to w zupełności wystarczy.
Krok 3
Krótkie wyjaśnienie wcześniejszego zapytania. Zwrot intitle: informuje wyszukiwarkę, żeby poszukiwała stron, które w pasku tytułowym mają zwrot Index of. Większość automatycznie tworzonych list plików ma właśnie taki zapis w pasku tytułowym. Dalsza część zapytania (czyli w naszym przykładzie finanse.xls) to po prostu nazwa pliku, która ma się znaleźć na wyszukiwanej liście plików.
Krok 4
Nasz przykład to tylko jeden z wielu opracowanych przez internautów specyficznych zapytań do wyszukiwarki Google. Zajrzyj do internetowej bazy Google Hacking Database, zawierającej tysiące gotowych do użycia googledorksów. Bazę znajdziesz pod adresem http://johnny.ihackstuff.com/ghdb.php.
W poszukiwaniu zapomnianych treści
W artykule prezentujemy mechanizmy wyszukiwawcze umożliwiające dostęp do stron wydawałoby się już dawno zapomnianych. Poniżej zamieszczamy jeszcze krótkie wskazówki dotyczące poszukiwań. Jeżeli poszukujesz dawno już zakończonej aukcji, ogłoszenia, wpisu na blogu, który został skasowany itp., a nie pamiętasz dokładnie adresu strony, zacznij od wyszukania w przeglądarce Google stron zawierających określone słowa, np. przedmiot wystawiany na aukcji, nazwa użytkownika, cecha przedmiotu (np. model samochodu) itp.
Jest duża szansa, że w wynikach odnajdziesz np. nazwę użytkownika wystawiającego już niedostępny przedmiot, a co za tym idzie, numery wszystkich aukcji, które dana osoba wystawiła. Na podstawie takich informacji łatwo możesz odtworzyć adres strony z interesującym cię przedmiotem. Kolejny etap to wyszukanie archiwalnego wystąpienia danej strony. W tym przypadku możesz posłużyć się proponowanym przez nas w głównej części artykułu serwisem Archive.org.
W Polsce warto skorzystać także z niezależnego serwisu udostępniającego bazę archiwalną aukcji popularnego serwisu Allegro. Bazę tę znajdziesz pod adresem internetowym: http://www.allegro.archiver.pl/