Start KnowHow Seo SEO für Onlineshops - Teil 6: Crawl-Budget steuern und optimieren

SEO für Onlineshops - Teil 6: Crawl-Budget steuern und optimieren

Von
Lucas Haiduck

Aktualisiert am 06.01.2020
Lesedauer: 6 min
SEO für Onlineshops - Teil 6: Crawl-Budget steuern und optimieren

Eines der wichtigsten Themen für Onlineshops, wenn es um Suchmaschinenoptimierung geht, ist nach wie vor Crawling und Indexierung. Vor allem: Dem Googlebot durch gezielte Steuerung des Crawlings alle Produkte und Unterseiten des Onlineshops zugänglich machen, sodass diese heruntergeladen und in die Suchergebnisse aufgenommen werden können.

Crawl-Budget im Onlineshop steuern und optimieren

Crawl-Budget ist essentiell und begrenzt

Damit Ihr Webshop für User über Google optimal erreichbar ist, wollen Sie vermutlich so viele Seiten wie möglich im Google Index haben. Doch damit Google auch alle Seiten in den Index aufnehmen kann, müssen diese zuerst vom Googlebot gecrawlt werden. Das bedeutet, der Googlebot "besucht" jede einzelne Unterseite und lädt sie als HTML herunter.

Mehr grundlegende Informationen zum Thema Crawling und Indexierung können Sie in unserem Artikel Google Crawler und Indexierung: Wie Webseiten in die Suche kommen nachlesen.

Gerade bei Onlineshops kann das Crawling schnell zum Problem werden, wenn Sie einen größeren Shop mit vielen Produkten und Kategorien haben. Denn: Der Googlebot crawlt nur eine begrenzte Anzahl an Seiten Ihrer Domain. Die Menge an Unterseiten, die gecrawlt werden und deren Crawl-Frequenz, bezeichnet man als Crawl-Budget. Jetzt fragen Sie sich natürlich:

Wie viel Crawl-Budget hat mein Onlineshop?

Das ist von mehreren Faktoren abhängig: Zum einen von der generellen Größe und organischen Sichtbarkeit Ihres Onlineshops und zum anderen auch von der allgemeinen technischen Gesundheit. Die Menge an 404-Fehlern und Serververbindungsproblemen, die Tiefe der Webseitenstruktur, interne Verlinkungen, etc. sind hierbei wichtige Aspekte. Ebenfalls relevant für das heruntergeladene Datenvolumen ist der Pagespeed Ihres Shops - insbesondere die Serverantwortzeit und Time to First Byte (TTFB). Denn: Je länger Ihre Seite braucht, um zu antworten, desto weniger wird der Googlebot auf Dauer herunterladen.

Wie Ihr Crawl-Budget konkret aussieht und wann wie viele Seiten gecrawlt werden, können Sie in der Google Search Console unter Crawling-Statistiken überprüfen. Den Bericht finden Sie unter den "Vorherigen Tools und Berichten", da er aktuell nur in der alten Version der Search Console vorliegt: 

Crawlingaktivität des Google Bots in der Search Console prüfen

Hierbei wird generell zwischen gecrawlten Seiten und heruntergeladenem Datenvolumen unterschieden. Wie hier im Beispiel angeführt, kann das Crawlvolumen in beiden Dimensionen starken zeitlichen Schwankungen unterliegen. Der Peak zwischen September und Oktober im Beispiel war eine Folge großer technischer Veränderungen auf der Domain. Hier kann man sehr genau sehen, dass der Googlebot starke Veränderungen registriert hat und infolgedessen das Crawlvolumen deutlich erhöht hat. Ihr Crawlvolumen muss also keinesfalls immer gleich bleiben. Da Crawl-Ressourcen Google faktisch Geld kosten, wird Ihr Budget so minimal wie möglich gehalten. Für die richtige Nutzung des zur Verfügung gestellten Volumens sind folglich Sie verantwortlich.

Budget optimieren - Diese Fehler verschwenden wertvolles Crawl-Budget

Wie maximieren Sie also den Ertrag, den Sie durch das von Google zur Verfügung gestellte Budget generieren können? In erster Linie, indem Sie optimale technische Bedingungen garantieren. Das bedeutet, Sie sollten vermeiden, dass der Googlebot jede Menge Unterseiten crawlt, die wenig relevant sind oder gar nicht in den Index gehören. Entsprechend entstehen Probleme durch eine extrem hohe Anzahlen an URLs auf Ihrer Domain. Im Folgenden die häufigsten Gründe dafür:

Parameter in den URLs

Unkontrollierte Parameter in den URLs Ihres Shops können schnell dazu führen, dass der Bot die Orientierung verliert. Wenn Parameter nötig sind, behalten Sie den Überblick über deren Variationen und konfigurieren Sie diese in der Google Search Console. Eine weitere Möglichkeit ist, das Crawling der Parameter über die robots.txt auszuschließen. Diese Variante ist allerdings etwas fehleranfälliger und – sind wir ehrlich – damit macht man es sich ein bisschen zu einfach!

Durch Filtermöglichkeiten erzeugte URLs

Wenn Ihr Shop Filtermöglichkeiten nutzt, die eigene URLs erzeugen, kann das zu einer unkontrollierbaren Menge an URLs führen. Allerdings können eigene URLs durch Filtermöglichkeiten als SEO-Strategie genutzt werden. Wenn Sie diese Technik verwenden, empfehlen wir Ihnen nur aus wenigen ausgewählten, speziell keywordoptimierten Filtermöglichkeiten URLs generieren zu lassen. So halten Sie die Menge an zusätzlichen URLs gering und schonen Ihr Crawl-Budget.

Dynamisch generierte URLs

Wenn auf Ihrer Domain Dokumente dynamisch erstellt werden, sollten Sie unbedingt das Ausmaß im Auge behalten. Das gilt ebenso für User-generierten Content, wenn Sie Probleme mit Ihrem Crawl-Budget haben.

Duplicate Content

Das Kryptonit guter organischer Rankings! Duplikate sind nicht nur schlecht für die Rankings Ihres Webshops, sondern verbrauchen auch noch jede Menge Crawl-Budget. Sie über das Meta Noindex zu deindexieren ist auch nur eine vorübergehende Lösung, denn: Dadurch werden Duplikate zwar nicht mehr indexiert, aber weiterhin gecrawlt. Und auch ein Ausschluss über die robots.txt ist kein Garant dafür, dass der Googlebot nicht doch mal vorbeischaut. Deshalb ist ein wichtiger Punkt hierbei die Vermeidung von Duplicate Content.

Wenn Sie Ihren eigenen Shop auf die oben genannten Punkte überprüfen möchten, empfehlen wir das Tool „Screaming Frog", welches es für ein Limit von 500 URLs auch in einer kostenlosen Version gibt. Damit können Sie Ihren Shop wie Google crawlen und bekommen einen Überblick über alle URLs.

Den Indexierungsstatus der wichtigsten Produkte einfach in Google checken

Sie können ganz einfach prüfen, ob Ihre Produkte oder Unterseiten bereits im Google Index angekommen sind oder nicht. Nehmen Sie einfach die URL der Seite, die Sie überprüfen wollen, setzen Sie "site:" davor, und suchen Sie danach. Ein Beispiel:

site:https://www.heartrockshop.de/winterroecke/fashion-winterrock-petrol.html

Ist die Seite indexiert, sollte sie in den Suchergebnissen auftauchen. Tut sie das nicht, wurde sie eventuell nicht gecrawlt und indexiert.

Achtung: Crawling und Indexierung sind zwei separate Prozesse. Zunächst crawlt der Googlebot die Seite, um sie dann in einem zweiten Schritt ggf. zu indexieren. Wollen Sie die heruntergeladene (gecachte) Version Ihrer Seite abrufen, verwenden Sie cache:ihre-url

Den Googlebot durch den Webshop leiten - 4 Tipps

Um Ihr verfügbares Crawl-Budget optimal nutzen zu können, sollten Sie alle vorhandenen Möglichkeiten nutzen, um dem Googlebot den Weg durch das Unterholz Ihres Produktdschungels zu ebnen. Und das können Sie mithilfe dieser vier Punkte:

1. Interne Verlinkung

Der Googlebot kann nur Seiten crawlen, die er auch über Verlinkungen erreicht. Dafür nutzt der Bot in erster Linie zwei Quellen: Externe Links von anderen Domains und interne Links innerhalb der eigenen Domain. Da Sie insbesondere über letztere Autorität haben, sollten Sie eine starke interne Verlinkung der Produkte gewährleisten, die Sie gerne im Index wiederfinden möchten. Je tiefer in der URL-Struktur ein Produkt liegt, umso wichtiger ist es, dass der Crawler es über Linkketten von der Startseite aus erreichen kann. Hier spielt natürlich eine gut konzipierte Webseitenstruktur eine große Rolle. Achten Sie auch bei neuen Produkten stets auf eine konsistente interne Verlinkung. Gleichzeitig sollten Sie aber die Zahl der Links nicht ins Unübersichtliche wachsen lassen. Bleiben Sie bei "maximal einigen Tausend" (Google Richtlinien für Webmaster).

2. Konzentriertes Angebot

Je mehr Seiten Sie von der Indexierung ausschließen, umso mehr Ressourcen hat der Googlebot, die wichtigen Produkte und Kategorien regelmäßig zu crawlen. Also gilt es sich Gedanken zu machen, welche Seiten Sie im Index brauchen und welche eher Ihr Crawl-Budget verschwenden. Das betrifft allerdings nicht nur Duplikate, sondern auch bestimmte Seitentypen oder für die organische Suche irrelevante Kategorien. So sind z.B. Suchergebnisseiten (interner Site-Search) laut den Google Richtlinien von der Indexierung auszuschließen, da sie Seiten mit geringem Nutzerwert darstellen.

Dafür ist es oft nötig, Seiten von der Indexierung auszuschließen. Wie Sie Produkte, Kategorien oder Unterseiten von der Indexierung ausschließen, wurde in Teil 3 von SEO für Onlineshops bereits ausführlich behandelt. Generell haben Sie die Möglichkeit, Produkte durch Meta-Noindex aus dem Index auszuschließen oder durch die robots.txt das Crawlen zu verhindern. Aber achten Sie darauf, dass Sie nicht beide Lösungen gleichzeitig anwenden: Sie negieren sich gegenseitig.

3. Sitemap

Eine Sitemap ist eine XML-Datei, die ein "Inhaltsverzeichnis" aller URLs auf Ihrer Domain ist. Diese Datei erleichtert so dem Crawlbot das Verständnis und Erfassen der Struktur Ihrer Webseite. Weitere Informationen über eine sauber strukturierte Website finden Sie in SEO für Onlineshops - Teil 2.  

4. Die robots.txt

Die robots.txt ist ein einfaches Textdokument, an dem sich Crawler orientieren können. Hier können Sie Regeln zum Crawling Ihrer Domain bestimmen und ggf. Seiten oder Verzeichnisse ausschließen

 

https://www.trafficdesign.de/sites/default/files/styles/twittercard/public/Twittercards%20Know-How-Artikel.jpg?itok=5fCtTcCf
Fanden Sie den Artikel hilfreich?
Durchschnitt: 3.8 (201 votes)
Bild des Benutzers Lucas
Lucas Haiduck
Als Teamlead des SEO Teams sind meine Aufgaben die Steuerung des Teams, die Verbesserung von Prozessen, Projektarbeit und das leidenschaftliche Reißen schlechter Wortwitze.

Brauchen Sie Unterstützung bei diesem Thema?

Sprechen Sie uns unverbindlich an und lassen Sie sich von uns beraten.

Anfrage schicken »


Kommentieren Sie diesen Artikel!

Schreiben Sie einen Kommentar und Sie bekommen zeitnah eine Rückmeldung von uns.

Kommentar verfassen