SEO Für Onlineshops - Teil 6: Crawling Und Indexierung

SEO für Onlineshops - Teil 6: Crawling und Indexierung

Von
Bild des Benutzers Lucas
Lucas Haiduck
verfasst am 01.12.2016
SEO für Onlineshops - Teil 6: Crawling und Indexierung
TrafficDesign
https://www.trafficdesign.de/sites/all/themes/trafficdesign/images/trafficdesign-250.png

Eines der wichtigesten Themen für Onlineshops, wenn es um Suchmaschinenoptimierung geht, ist nach wie vor Crawling und Indexierung. Sprich: Dem Googlebot alle Produkte und Unterseiten des Onlineshops zugänglich machen, sodass diese heruntergeladen und in die Suchergebnisse aufgenommen werden können.

Crawling und Indexierung im Onlineshop steuern

Crawlbudget ist essentiell und begrenzt

Damit Ihr Webshop für User über Google optimal erreichbar ist, wollen Sie vermutlich so viele Seiten wie möglich im Google Index haben. Doch damit Google auch alle Seiten in den Index aufnehmen kann, müssen diese zuerst vom Googlebot gecrawlt werden. Das bedeutet, der Googlebot "besucht" jede einzelne Unterseite und lädt sie als HTML herunter. Das kann schnell zum Problem werden, wenn Sie einen größeren Shop mit vielen Produkten und Kategorien haben. Denn: Der Googlebot crawlt nur eine begrenzte Anzahl an Seiten Ihrer Domain. Die Menge an Unterseiten, die gecrawlt werden und deren Crawl-Frequenz, bezeichnet man als Crawlbudget. Jetzt fragen Sie sich natürlich:

Wie viel Crawlbudget hat mein Onlineshop?

Das ist von mehreren Faktoren abhängig: Zum einen von der generellen Größe und organischen Sichtbarkeit Ihres Onlineshops und zum anderen auch von der allgemeinen technischen Gesundheit. Die Menge an 404-Fehlern und Serververbindungsproblemen, die Tiefe der Webseitenstruktur, interne Verlinkungen, etc. sind hierbei wichtige Aspekte. Ebenfalls relevant für das heruntergeladene Datenvolumen ist der Pagespeed Ihres Shops - insbesondere die Serverantwortzeit und Time to First Byte (TTFB). Denn: Je länger Ihre Seite braucht, um zu antworten, desto weniger wird der Googlebot auf Dauer herunterladen.

Wie Ihr Crawlbudget konkret aussieht und wann wie viele Seiten gecrawlt werden, können Sie in der Google Search Console unter Crawling-Statistiken überprüfen:

Crawlingaktivität des Google Bots in der Search Console prüfen

Hierbei wird generell zwischen gecrawlten Seiten und heruntergeladenem Datenvolumen unterschieden. Wie hier im Beispiel angeführt, kann das Crawlvolumen in beiden Dimensionen starken zeitlichen Schwankungen unterliegen. Der Peak zwischen September und Oktober im Beispiel war eine Folge großer technischer Veränderungen auf der Domain. Hier kann man sehr genau sehen, dass der Googlebot starke Veränderungen registriert hat und infolgedessen das Crawlvolumen deutlich erhöht hat. Ihr Crawlvolumen muss also keinesfalls immer gleich bleiben. Da Crawl-Ressourcen Google faktisch Geld kosten, wird Ihr Budget so minimal wie möglich gehalten. Für die richtige Nutzung des zur Verfügung gestellten Volumens sind folglich Sie verantwortlich.

Budget optimieren - Diese Fehler verschwenden wertvolles Crawlbudget

Wie maximieren Sie also den Ertrag, den Sie durch das von Google zur Verfügung gestellte Budget generieren können? In erster Linie indem Sie optimale technische Bedingungen garantieren. Das bedeutet, Sie sollten vermeiden, dass der Googlebot jede Menge Unterseiten crawlt, die wenig relevant sind oder gar nicht in den Index gehören. Entsprechend entstehen Probleme durch eine extrem hohe Anzahlen an URLs auf Ihrer Domain. Im Folgenden die häufigsten Gründe dafür:

Parameter in den URLs

Unkontrollierte Parameter in den URLs Ihres Shops können schnell dazu führen, dass der Bot die Orientierung verliert. Wenn Parameter nötig sind, behalten Sie den Überblick über deren Variationen und konfigurieren Sie diese in der Google Search Console. Eine weitere Möglichkeit ist, das Crawling der Parameter über die robots.txt auszuschließen. Diese Variante ist allerdings etwas fehleranfälliger und – sind wir ehrlich – damit macht man es sich ein bisschen zu einfach!

Durch Filtermöglichkeiten erzeugte URLs

Wenn Ihr Shop Filtermöglichkeiten nutzt, die eigene URLs erzeugen, kann das zu einer unkontrollierbaren Menge an URLs führen. Allerdings können eigene URLs durch Filtermöglichkeiten als SEO-Strategie genutzt werden. Wenn Sie diese Technik verwenden, empfehlen wir Ihnen nur aus wenigen ausgewählten, speziell keywordoptimierten Filtermöglichkeiten URLs generieren zu lassen. So halten Sie die Menge an zusätzlichen URLs gering und schonen Ihr Crawlbudget.

Dynamisch generierte URLs

Wenn auf Ihrer Domain Dokumente dynamisch erstellt werden, sollten Sie unbedingt das Ausmaß im Auge behalten. Das gilt ebenso für User-generierten Content, wenn Sie Probleme mit Ihrem Crawlbudget haben.

Duplicate Content

Das Kryptonit guter organischer Rankings! Duplikate sind nicht nur schlecht für die Rankings Ihres Webshops, sondern verbrauchen auch noch jede Menge Crawlbudget. Sie über das Meta Noindex zu deindexieren ist auch nur eine vorübergehende Lösung, denn: Dadurch werden Duplikate zwar nicht mehr indexiert, aber weiterhin gecrawlt. Und auch ein Ausschluss über die robots.txt ist kein Garant dafür, dass der Googlebot nicht doch mal vorbeischaut. Deshalb ist ein wichtiger Punkt hierbei die Vermeidung von Duplicate Content.

Den Indexierungsstatus der wichtigsten Produkte einfach in Google checken

Sie können ganz einfach prüfen, ob Ihre Produkte oder Unterseiten bereits im Google Index angekommen sind oder nicht. Nehmen Sie einfach die URL der Seite, die Sie überprüfen wollen, setzen Sie "site:" davor, und suchen Sie danach. Ein Beispiel:

site:https://www.heartrockshop.de/winterroecke/fashion-winterrock-petrol.html

Ist die Seite indexiert, sollte sie in den Suchergebnissen auftauchen. Taucht sie nicht auf, wurde sie eventuell nicht gecrawlt und indexiert.

Achtung: Crawling und Indexierung sind zwei separate Prozesse. Zunächst crawlt der Googlebot die Seite, um sie dann in einem zweiten Schritt ggf. zu indexieren. Wollen Sie die heruntergeladene (gecachte) Version Ihrer Seite abrufen, verwenden Sie cache:ihre-url

Den Googlebot durch den Webshop leiten - 4 Tipps

Um Ihr verfügbares Crawlbudget optimal nutzen zu können, sollten Sie alle vorhandenen Möglichkeiten nutzen, um dem Googlebot den Weg durch das Unterholz Ihres Produktdschungels zu ebnen. Und das können Sie mithilfe dieser vier Punkte:

1. Interne Verlinkung

Der Googlebot kann nur Seiten crawlen, die er auch über Verlinkungen erreicht. Dafür nutzt der Bot in erster Linie zwei Quellen: Externe Links von anderen Domains und interne Links innerhalb der eigenen Domain. Da Sie insbesondere über letztere Autorität haben, sollten Sie eine starke interne Verlinkung der Produkte gewährleisten, die Sie gerne im Index wiederfinden möchten. Je tiefer in der URL-Struktur ein Produkt liegt, umso wichtiger ist es, dass der Crawler es über Linkketten von der Startseite aus erreichen kann. Hier spielt natürlich eine gut konzipierte Webseitenstruktur eine große Rolle. Achten Sie auch bei neuen Produkten stets auf eine konsistente interne Verlinkung. Gleichzeitig sollten Sie aber die Zahl der Links nicht ins Unübersichtliche wachsen lassen. Bleiben Sie bei "maximal einigen Tausend" (Google Richtlinien für Webmaster).

2. Konzentriertes Angebot

Je mehr Seiten Sie von der Indexierung ausschließen, umso mehr Ressourcen hat der Googlebot, die wichtigen Produkte und Kategorien regelmäßig zu crawlen. Also gilt es sich Gedanken zu machen, welche Seiten Sie im Index brauchen und welche eher Ihr Crawlbudget verschwenden. Das betrifft allerdings nicht nur Duplikate, sondern auch bestimmte Seitentypen oder für die organische Suche irrelevante Kategorien. So sind z.B. Suchergebnisseiten (interner Site-Search) laut den Google Richtlinien von der Indexierung auszuschließen, da sie Seiten mit geringem Nutzerwert darstellen.

Dafür ist es oft nötig, Seiten von der Indexierung auszuschließen. Wie Sie Produkte, Kategorien oder Unterseiten von der Indexierung ausschließen, wurde in Teil 3 von SEO für Onlineshops bereits ausführlich behandelt. Generell haben Sie die Möglichkeit, Produkte durch Meta-Noindex aus dem Index auszuschließen oder durch die robots.txt das Crawlen zu verhindern. Aber achten Sie darauf, dass Sie nicht beide Lösungen gleichzeitig anwenden: Sie negieren sich gegenseitig.

3. Sitemap

Eine Sitemap ist eine XML-Datei, die ein "Inhaltsverzeichnis" aller URLs auf Ihrer Domain ist. Diese Datei erleichtert so dem Crawlbot das Verständnis und Erfassen der Struktur Ihrer Webseite. Weitere Informationen über eine sauber strukturierte Website finden Sie in SEO für Onlineshops - Teil 2.  

4. Die robots.txt

Die robots.txt ist ein einfaches Textdokument, an dem sich Crawler orientieren können. Hier können Sie Regeln zum Crawling Ihrer Domain bestimmen und ggf. Seiten oder Verzeichnisse ausschließen

 

https://www.trafficdesign.de/sites/default/files/styles/twittercard/public/twitter-cart-teil-6-4_1.png?itok=TM1UybVd
Fanden Sie den Artikel hilfreich?
Durchschnitt: 4.8 (8 votes)
Bild des Benutzers Lucas
Lucas Haiduck
Als Teil des Teams von TrafficDesign bin ich der Hauptverantwortliche für den Bereich SEO. Ich mag sowohl die großen Herausforderungen als auch die kleinen Projekte. Und... Pizza!

Brauchen Sie Unterstützung bei diesem Thema?

Sprechen Sie uns unverbindlich an und lassen Sie sich von uns beraten.

Anfrage schicken »


Kommentieren Sie diesen Artikel!

Schreiben Sie einen Kommentar und Sie bekommen zeitnah eine Rückmeldung von uns.

Kommentar verfassen