Robots Tag und XML Sitemap: Zeigen dem Crawler, wo’s langgeht

Onpage Friday Sitemap & robots.txt Blmpht! Warum haben wir nicht schon früher darüber geschrieben? Macht man hier gravierende Fehler, sehen die Suchmaschinen gar nichts von der schönen Onpage-Optimierung! Heute geht es um zwei wichtige Dateien und ein TAG, das sich gewaschen hat. Also: Ans Eingemachte! Rauf auf den FTP-Server und los geht’s!

robots.txt

Diese Datei ist öffentlich, die Suchmaschinen-Crawler müssen sie jederzeit lesen können. Ob eure Homepage eine solche Datei besitzt testet ihr ganz einfach, indem ihr folgendes eingebt:

http://www.meinedomain.de/robots.txt

Ihr müsst natürlich www.meinedomain.de mit eurer Homepage-Adresse ersetzen. Falls ihr keine Homepage habt und einfach mal sehen wollt, wie so etwas aussieht, geht auf: http://de.wordpress.com/robots.txt Diese Robots-Datei ist ein kurzes Exemplar. Schaut doch mal auf euren Lieblingsseiten nach, wie dort die robots.txt aussieht! Ihr werdet feststellen, dass diese häufig sehr lang sind.

Brauch ick ditte?

Jein. Falls ihr keine robots.txt im Hauptverzeichnis eurer Webseite habt, bedeutet das im Zweifel für die Suchmaschinen: Nur zu, schaut euch ruhig alles an! Im Zweifel also besser, als eine falsche robots.txt. Aber: Nicht immer will man, dass alle Seiten bei Google auftauchen bzw. indexiert werden. Also legt euch eine Neue Datei (z.B. bei Windows – Rechtsklick auf den Desktop, Neu, Textdokument) an und benennt sie in „robots.txt“ um (unbedingt kleinschreiben!). Dann öffnet sie und gebt folgendes ein:

User-agent: *
Disallow:

Die erste Zeile definiert für welchen Crawler die zweite Zeile gilt. Verwirrend? Also: Der Stern bedeutet, dass für alle Suchmaschinen-Crawler freier Zugriff herrscht. Das verdeutlicht die zweite Zeile: Das nichts hinter „Disallow:“ steht bedeutet für den Crawler, dass ihm nichts verboten (disallowed) ist.

User-agent: Googlebot
User-agent: WebSpider
Disallow: /

Die Zeilen bedeuten, dass die Crawler von Google und Webspider nichts auf deiner Webseite crawlen dürfen. Der Schrägstrich nach dem „Disallow:“ bedeutet einfach: Alle Verzeichnisse. Eure robots.txt kann aus vielen solchen „Text-Paketen“ bestehen, in denen ihr bestimmten Crawlern bestimmte Seiten eurer Homepage verbieten könnt. Es gibt eine lange Liste von 302 Crawlern (oder auch Bots), also welchem verweigert man den Zugriff? Unsere praktikable Lösung sieht so aus:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Wir finden, es ergibt Sinn, für alle Crawler gleichzeitig festzulegen, welche Seiten sie nicht sehen dürfen. In unserem Beispiel sind das Unterverzeichnisse einer WordPress-Installation, also Seiten, die der Administration von WordPress dienen und den Crawler nichts angehen. Abgesehen davon, dass man diese Seiten nicht öffentlich bei Google finden möchte gibt es noch einen anderen Aspekt der robots.txt-Datei und ihren Verboten: Vielleicht sind manche Seiten schlicht irrelevant und leiten Google in die Irre, z.B. Seiten ohne Inhalt oder veraltete Inhalte. Das könnte natürlich eure Rankings für eure bevorzugten Keywords verschlechtern. Zum Schluss fügen wir noch eine weitere wichtige Zeile hinzu:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Sitemap: http://www.meinedomain.de/sitemap.xml

Die letzte Zeile zeigt dem Crawler, wo die XML Sitemap liegt. Nicht lebensnotwendig, dennoch ein kleiner Wink zu einer sehr wichtigen Datei, um die es im nächsten Abschnitt gehen soll. Wenn ihr mit euren Eintragungen fertig seit, überprüft mit einem Robots Checker, ob eure robots.txt die richtige Form hat.

sitemap.xml

Der Begriff „Sitemap“ sagt euch bestimmt was. Eine Sitemap ist auf vielen Internetseiten eine Übersicht der Unterseiten und der allgemeinen Struktur einer Webseite. Je nach Größe und Tiefe der Verschachtelung eures Internetauftritts kann diese sehr nützlich für den Benutzer sein. Das gleiche gilt für die XML Sitemap, die im Prinzip eine Orientierung für den Suchmaschinen-Crawler darstellt. Deshalb empfiehlt Google Sitemaps!

Wann brauche ich eine XML Sitemap?

Zwei Gründe habe ich ja bereits genannt: Eure Seite hat viele Unterseiten und ist komplex untereinander verlinkt. Damit Google oder andere Suchmaschinen auch garantiert alle Seiten sehen können, geben wir ihnen eine Art Inhaltsverzeichnis unserer Webseite. Sehr positiv kann sich das erstellen einer Sitemap besonders bei neuen, noch unbekannten Webseiten, auswirken, auf die wenige Links verweisen. So dauert es natürlich länger, bis Google alle Seiten sieht. Schaden kann eine Sitemap eigentlich nur, es sei denn es stehen Seiten drin die z.B.: Duplikate, fehlerhaft oder nicht erreichbar sind.

Wie erstelle ich eine Sitemap?

Natürlich mühselig von Hand, Zeile für Zeile. Quatsch! Viel einfacher und zuverlässiger sind Online-Tools, die nicht nur eine fertige Sitemap zum herunterladen erstellen, sondern gleich Seiten aussortieren, die nicht erreichbar sind. Ein zu Recht beliebtes Tool ist der Sitemap Generator, der bei Standardeinstellungen gute Ergebnisse liefert. Einfach bei „Starting URL“ eure Homepage-Adresse (falls ihr mehrere Domains habt, unbedingt die nehmen, auf die alle eure Domains weiterleiten) eingeben und unten auf „Start“ drücken. Je nach Größe eurer Internetseite dauert das eine Weile. Danach könnt ihr die „sitemap.xml“ downloaden und im Hauptverzeichnis eures Webservers (wo auch die index und die robots.txt liegt) speichern. Wenn die Datei hochgeladen ist, überprüft nochmal die Erreichbarkeit eurer Sitemap indem ihr folgendes eingebt:

http://www.meinedomain.de/sitemap.xml

Schaut unbedingt, dass die Sitemap nicht leer ist, und die Internetseiten die sie enthält, erreichbar sind. Also kopiert eine URL aus der Liste und fügt sie im Adressfeld eures Browsers ein und drückt Enter. Falls eine Seite eures Webauftritts auftaucht, super! So checke ich übrigens auch die robots.txt – einfach die Adresse der Sitemap kopieren und ins Adressfeld einfügen. Falls dann die richtige Sitemap auftaucht, super! Überprüft das unbedingt, denn: Eine falsche Sitemap macht mehr Schaden als keine!

Dynamische Sitemaps für Blogs und Shops

Seiten, bei denen sich Inhalte oft ändern (wie z.B. Blogs) oder die viele Unterseiten haben (wie z.B. Shops mit Artikelseiten), sollten eine dynamische Sitemap haben. D.h. eine Sitemap, die automatisch und bei Änderungen angepasst wird. Die meisten Shopsysteme haben eine solche Funktion an Bord, ihr müsst nur noch herausfinden, wo die Sitemap liegt (falls nicht im Hauptverzeichnis). Für CMS-Systeme für z.B. WordPress gibt es zuverlässige Plugins, die die Sitemap aktualisieren, sobald sich auf dem Blog etwas ändert. Gute Erfahrungen haben wir mit dem Plugin XML Sitemaps gemacht.

Video Sitemaps und Bilder Sitemaps

Für Webseiten, die viele Bilder oder Videos enthalten, ist es sinnvoll separate Video- und Bilder Sitemaps zu erstellen, weil Google „blind“ ist, was diese Art von Inhalten angeht. Eine Sitemap kann helfen, Google zu zeigen, worum es in euren Videos oder Bildern geht. Diese Maßnahme ist nur besonders fleißigen Bienchen ans Herz zu legen – mit guten Dateinamen und Alt-Tags seid ihr zumindest bei Bildern ausreichend vorbereitet. Bei Videos ergibt eine Sitemap schon eher Sinn, es sei denn ihr habt eure Videos mit einem speziellen Markup versehen (wie z.B. nach schema.org). Dafür benötigt ihr einen speziellen Video Sitemap-Generator. Oft müsst ihr hier aber selbst Hand anlegen und eine Video-Sitemap zusammenbauen, die ihr dann unter dem Dateinamen „video-sitemap.xml“ speichert und auch in die robots.txt eintragt. Google hilft euch beim Erstellen einer Video-Sitemap.

Google und Bing Bescheid sagen

Nun gilt es den Turbo einzulegen: Die Suchmaschinen erfahren früher oder später von eurer Sitemap, wenn sie im Hauptverzeichnis eurer Webseite liegt und die Datei öffentlich zugänglich ist. Dieser Vorgang kann eine Weile dauern, aber mal ehrlich: So viel Mühe und dann warten und Däumchen drehen? Nö! Sagt lieber den Suchmaschinen Bescheid, dass ihr jetzt eine Sitemap habt. Das geht ganz einfach in den Google oder Bing Webmaster Tools. Loggt euch ein und sucht nach dem punkt Sitemap hochladen. Überprüft nochmal eure Sitemap, indem ihr sie in einem Browserfenster öffnet. Ist alles okay, kopiert die URL und fügt sie in das erforderliche Feld ein – und hochladen!

Das Wichtigste zum Schluss:
Das Robots Meta Tag

Wir wollen ja nicht das Meta Robots Tag im <head> Bereich eurer Webseite vergessen. Dieses Tag ist so etwas wie der strenge Bruder der robots.txt Datei. Im Klartext: Verzeichnisse die in der robots.txt verboten werden, werden nicht gecrawlt. Diese Seiten sind also beinahe unmöglich über Google zu finden, weil Google keine Informationen über den Seiteninhalt erhält. Nur beinahe: Gebt ihr die URL direkt bei Google ein (oder die Seite ist sehr gut verlinkt), findet Google die Seite doch. Außerdem kann die Liste der verbotenen Seiten in der robots.txt auch Hinweise auf Seiten geben, die Ihr eigentlich komplett verstecken wolltet (für sensitive Daten solltet ihr ohnehin einen Passwortschutz verwenden). Für Unterseiten, die die Suchmaschinen nicht crawlen UND indexieren sollen (also über Google NICHT zu finden sind) ist die Verwendung des Robots Meta Tag unausweichlich. Damit versehen, kann eine Unterseite nur schwer auffindbar gemacht werden – praktisch z.B. für Webseiten, an denen noch gearbeitet wird oder Mitarbeiter-Login-Bereiche. Im Kopfbereich eurer Seite, zwischen den zwei <head> Tags fügt ihr diese Zeile ein:

 

Die Webseite, auf der sich dieser Code befindet, wird nicht indexiert – also von allen Suchmaschinen links liegen gelassen. Auch wenn Links auf diese Seite verweisen oder ihr die URL direkt bei Google eingebt – die Seite taucht in den Suchergebnissen nicht auf. Die Krux: Ihr müsst den Code auf jede Unterseite einzeln einfügen. Plugins für WordPress (z.B. All in One SEO) können helfen, einzelne Seiten per Knopfdruck zu sperren.

Fazit

Habt ihr nichts zu verstecken, sondern wollt einfach nur den Google Index eurer Seite von Müll befreien, benutzt die robots.txt. Im anderen Fall, stattet die betroffene Seite mit dem Robots Meta Tag aus. Eine Sitemap zu erstellen ist immer sinnvoll, besonders aber bei Blogs, Shops und Seiten die noch neu sind und wenig Backlinks haben. Seit ihr euch ganz unsicher, verzichtet lieber auf robots.txt, sitemap.xml und Robots Meta Tag – aber dann: Seid geduldig und ärgert euch nicht über Seiten, die ungewollt im Index von Google auftauchen!

2 Gedanken zu „Robots Tag und XML Sitemap: Zeigen dem Crawler, wo’s langgeht“

  1. ONPAGE FRIDAY #10: GOOD BYE, META: VON GOOGLE KOMPLETT IGNORIERT? - SEO sagt: 2. Mai 2014 at 12:21

    […] Wer nicht weiß, was es tut, lässt dieses Tag lieber ganz weg. Im schlimmsten Fall wird eure Webseite gar nicht erst bei Suchmaschinen indexiert und wird so niemals gefunden. Für die Mutigen: Lest unseren Blog-Post zum Thema Robots-Tag. […]

  2. ppc: Casinos mit hohem Bonus sagt: 15. Mai 2014 at 16:37

    Schöner Text. Ich komme ganz bestimmt wieder.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert