1.1 Web Crawler Suchmaschinen

Arten von Suchmaschinen: Robot Suchmaschinen (Crawler)


Crawler Suchmaschinen sind auf Hochleistung optimierte Programme die laufend das Internet und andere Elemente des World Wide Web durchforsten. Der Unterschied zwischen Robot Suchmaschinen und Webkatalogen (diese werden im nächsten Unterkapitel genauer erklärt) besteht darin das die Aufnahme (sowie die Bewertung) von Dokumenten in den Datenbestand der Suchmaschinen im Gegensatz zu Webkatalogen voll automatisch erfolgt.


Suchmaschinen verfügen über einen Webrobot (eine Softwarekomponente die auch Crawler genannt wird), der eigenständig das Internet durchsucht und aktiv neue Webseiten einliest die dann mit in den Suchergebnissen angezeigt werden können. Der Crawler einer Suchmaschine kann Links in einer Homepage finden und weiterverfolgen. Auf diese Weise sollte es einer Suchmaschine theoretisch möglich sein das gesamte Internet in Ihren Datenbestand aufzunehmen.

Bedenkt man wie schnell das Internet und damit auch die Anzahl an Webseiten wächst, wird deutlich das Suchmaschinen diesen Vorgang irgendwann abrechen müssen. Der Hintergrund hierbei ist das Suchmaschinen mit Ihren Ressourcen sparen bzw. auskommen müssen. Alle Links von den angemeldeten und bereits erfassten Web Dokumenten in der Suchmaschine weiter verfolgen zu können ist nicht möglich.

Wenn man bedenkt das jede Webseite wieder auf ein neue verlinken kann wäre diese Durchforstung des Web theoretisch unendlich lange. Somit wird jeder Webrobot nach einer vorgegebenen Anzahl besuchter und verfolgter Links abrechen (wobei die maximale Anzahl der verfolgten Links je nach Suchmaschinen Crawler stark schwanken kann).

Die durch die verfolgten Links gefundenen Webseiten müssen natürlich auch Inhaltlich von einer Suchmaschinen verarbeitet werden und im Datenbestand abgespeichert werden. Denn schliesslich möchten Suchmaschinen Links zu hochwertigen Informationen anbieten. Dies ist natürlich nur möglich wenn auch der Inhalt aller eingelesenen Webseiten bekannt ist und bewertet wird. Für diese Inhaltliche Bewertung eines Dokuments setzen Suchmaschinen ein automatisches Softwaretool ein.

Die Bewertung des Inhalts einer Webseite erfolgt somit voll automatisch ohne das zutun von Menschen. Das Eingreifen von Menschen (also z.B. das löschen einer Webseite durch eine Person) erfolgt in der Regel nur bei groben Verstößen gegen die Regeln der jeweiligen Suchmaschine.

Das abspeichern im Datenbestand erfolgt nicht in dem Format in dem die Dokumente im Internet vorliegen. Um Speicher und Rechenkapazität zu sparen benutzen Suchmaschinen Information Retrieval Systeme um Dokumente zu speichern und an Hand von Keywords entsprechende Suchergebnisse zu liefern.

Die Verwaltung der aufgenommenen Webseiten und Dokumente in den Suchmaschinen wird ebenfalls automatisch (also durch eine Software) verwaltet.



Weiterführende Links:


Zumnächsten Thema: 1.2 Webkataloge / Verzeichnissdienste Stichwortverzeichnis
Inhaltsverzeichnis




Zur Startseite: Suchmaschinen-Positionierung