5.6 Crawler mit Robots.txt steuern


Wie man mit Robots.txt Dateien den Suchmaschinen crawler steuern kann und so die Suchmaschinen Positionierung verbessern kann.

Um einem Web Crawler das einlesen von Dokumenten zu erleichtern und um Fehler bei dem indexieren von Websites zu vermeiden hat man als Betreiber einer Homepage die Möglichkeit den Suchmaschinen Web Crawler mit Robots.txt Dateien zu steuern.

Robots.txt dienen dazu Suchmaschinen Webcrawler aus bestimmten Verzeichnissen des Onlineangebots herauszuhalten.
Man kann mit Robots.txt Dateien Suchmaschinen verbieten bestimmte Verzeichnisse zu durchforsten.

Der Vorteil für Website Betreiber liegt hierbei darin das man verhindern kann das für die Suchmaschinen Positionierung schlechte Dateien vom Web Crawler indexiert werden.

Eine Robots.txt Datei ist eine kleine Textdatei in der man anweisungen für den Suchmaschinen Web Crawler notieren kann. Alle Web Crawler suchen beim indexieren einer Website zuerst nach der Robots.txt Datei im Stammverzeichniss des Webservers/Webspaces.
Das Stammverzeichniss ist das Verzeichniss welches man direkt nach der Eingabe der URL einer Webseite erreicht (also das Verzeichniss wo auch die Startseite/index.html abgelegt wird).

Eine Robots.txt besteht aus zwei grundlegenden Teilen:

die Angabe des User Agents (name des web Crawlers)

die Angabe der Verzeichnisse die nicht indexiert werden dürfen

Nachfolgend sehen sie das Beispiel einer Robots.txt Datei mit Erklärungen

user-agent:*
disallow:/images
disallow:/cgi-bin
disallow:/private

user-agent:* bedeutet das damit alle Web Crawler angesprochen werden. Alternativ zu * können Sie auch den Web Crawler direkt beim Namen nennen und so gezielt einer Suchmaschine verbieten die aufgelisteten Verzeichnisse zu durchforsten. Jeder Web Crawler hat eine eigene Bezeichnung die Sie direkt in die Robots.txt übernehmen können wenn Sie möchten. In den meisten fällen reicht allerdings eine Robots.txt Datei die für alle Web Crawler allgemein gültig ist wie in unserem Beipiel. Hier finden Sie eine Liste der aktuellen Namen von Web Crawlern.

Suchmaschiene  Name des Robots 
Abacho  AbachoBOT 
Acoon  Acoon Robot v1.50.00 
Altavista  Scooter/1.0 scooter@pa.dec.com
Scooter-3.0.g12-23
Mercator-1.2
Mercator-1.1  
Aladin  Aladin/3.324 
Euroseek  Freecrawl 
Eule  Eule-RobotEule-Robot 
Excite  ArchitextSpider 
Fireball  KIT-Fireball/2.0 
Google  Googlebot/2.1d
BackRub/2.1  
Hotbot  Slurp/si
Slurp/2.0  
Lycos  Lycos_Spider_(T-Rex) 
Nathan  Tarantula 
Northernlight  Gulliver/1.3
Gulliver/1.1  
Search Schweiz  search.ch 
disallow:/images, disallow:/cgi-bin, disallow:/private verbietet den Zugriff für Webcrawler für die Verzeichnisse mit den Namen cgi-bin, images und private.

Weiterführende Links:

Nächstes Thema: Spam in Suchmaschinen
Inhaltsverzeichnis
Stichwortverzeichnis




Zur Startseite: Positionierung und Web Crawler