A A A

Przeszukując przestrzeń

PC Format 9/2013
Choć Google stał się synonimem wyszukiwania, warto pamiętać, że nie jest jedyny. Wiele serwisów, takich jak Wolfram Alpha czy DuckDuckGo, oferuje funkcje, których próżno szukać u giganta. Dlatego warto poznać możliwości alternatywnych wyszukiwarek i zacząć ich używać w codziennej pracy. BARTŁOMIEJ MROŻEWSKI

Google oraz alternatywne wyszukiwarki docierają do najdalszych zakątków internetu. Tam, dokąd nie dotarł jeszcze nikt, poza autorem danej strony.

Roboty indeksujące

Analizą internetu i wydobywaniem treści zajmują się wyspecjalizowane programy – roboty indeksujące, nazywane niekiedy pająkami. Po wejściu na stronę pobierają jej treści, potem wyszukują wszystkie linki i otwierają je. Powtarzając tę procedurę na każdej napotkanej stronie, są w stanie dotrzeć do najdalszych zakątków internetu, oczywiście tak długo, dopóki znajdujące się w nich strony są choć raz zlinkowane. Współczesne roboty indeksujące są inteligentne. Wiedzą na przykład, które strony są aktualizowane często, i te odwiedzają co kilka minut. Dzięki temu treść najnowszych artykułów jest dostępna w wyszukiwarce.

Czy zatem wszystko, co jest w sieci, jest dostępne w wyszukiwarce? Otóż nie. Każdy właściciel strony może utworzyć plik robots.txt, w którym określa, jakie obszary witryny mają być pominięte przez mechanizm indeksujący, a tym samym, co ma nie być dostępne w wyszukiwarce. Niektóre serwisy, takie jak Facebook czy Twitter, zazdrośnie strzegą swoich zasobów i nie są dostępne w wyszukiwarce. To samo dotyczy zawartości rozmaitych baz danych, które są dostępne za pośrednictwem interfejsu WWW, w którym można formułować kwerendy. Dotyczy to np. katalogów bibliotek czy baz z połączeniami lotniczymi i kolejowymi, które można przeszukiwać tylko za pomocą specjalnych wyszukiwarek.

Analiza treści

Gdy robot „przeczyta” stronę, od razu analizuje jej treść. Nie tylko wydobywa wszystkie słowa, ale także stara się odnaleźć ich kontekst. Sprawdza, czy tekst jest w tytule, nazwie linku, czy jest wyróżniony w inny sposób. Ważnym elementem analizy jest sprawdzanie metainformacji, czyli treści przeznaczonej tylko dla robotów oraz innych programów, ale niewidocznej dla użytkownika. Oprócz słów kluczowych umieszczonych w początkowej sekcji strony HTML, są to np. znaczniki semantyczne. W specyfikacji HTML 5 jest cały zbiór tagów semantycznych, takich jak

,
,

Ocena:
Oceń:
Komentarze (2)

Redakcja nie ponosi odpowiedzialności za treść komentarzy. Komentarze wyświetlane są od najnowszych.
EUROPA
EUROPA
3 września 2014, 12:24
Serdeczne dzięki za artykuł o WinOptimizerze 11 !!! I nieśmiale pytanko- będą kiedyś konkursy??? Please...!!!
EUROPA
EUROPA
5 maja 2014, 14:21
W numerze PC Format 6/2014 jest plyta z której chciałem zainstalować program Ashampoo Winoptimizer 2014. Po włożeniu płyty pokazał mi sie napis " brak tego pliku". Dobrze, ze udalo mi sie zainstalować starszy program z 2013 roku - ale czy o to chodzi, kuzwa??? Do tej pory nie miałem żadnych kłopotów z plytami PC Format, a tu taka wtopa!!! Wstyd, wstyd i nic więcej!!!Zawsze PC Format byl u mnie Nr 1, ale teraz...
Najnowsze aktualności


Nie zapomnij o haśle!
21 czerwca 2022
Choć mogą się wydawać mało nowoczesne, hasła to nadal nie tylko jeden z najpopularniejszych sposobów zabezpieczania swoich kont, ale także...


Artykuły z wydań

  • 2024
  • 2023
  • 2022
  • 2021
  • 2020
  • 2019
  • 2018
  • 2017
  • 2016
  • 2015
  • 2014
  • 2013
  • 2012
  • 2011
  • 2010
  • 2009
  • 2008
  • 2007
Zawartość aktualnego numeru

aktualny numer powiększ okładkę Wybrane artykuły z PC Format 1/2022
Przejdź do innych artykułów
płyta powiększ płytę
Załóż konto
Co daje konto w serwisie pcformat.pl?

Po założeniu konta otrzymujesz możliwość oceniania materiałów, uczestnictwa w życiu forum oraz komentowania artykułów i aktualności przy użyciu indywidualnego identyfikatora.

Załóż konto