Warmup: Crawling und Indexierung

Wir machen Dich und Deine Website fit fĂŒr 2021. Unsere SEO-Workout-Serie startet mit einem AufwĂ€rmtraining. Wie bei einem regulĂ€ren Workout fĂŒr den Körper, braucht Deine Website ein leichtes Warmup um gut vorbereitet in das eigentliche Training zu starten. Schritt 1 auf dem Weg zur fitten Website sind Crawling und Indexierung. Wir legen los!

Was bringt Dir das Warmup?

Was eine Suchmaschine nicht lesen kann, kann sie nicht verstehen. Und was sie nicht verstehen kann, zeigt sie nicht an. Crawling bezeichnet den Vorgang, dass Google alle Websiteninhalte durchsucht und permanent analysiert. Die Analyse der Website ist die Grundvoraussetzung, dass Inhalte bei einer Suchanfrage ĂŒberhaupt gefunden werden können. FĂŒr uns ist die Steuerung des Crawlings und der Indexierung also die absolute Basis der Suchmaschinenoptimierung. Ohne Crawling und Indexierung keine Rankings. Ohne Warmup kein Training.

Schaubild: Crawling, Indexierung, Rankings
SEO-Prozess im Überblick: Das Crawling und die Indexierung ist die Grundlage fĂŒr Dein Ranking

Was brauchst Du dafĂŒr?

Über die robots.txt kannst Du das Crawling steuern und einzelne Seitenbereiche vom Crawling ausschließen. Der Googlebot hat nur eine beschrĂ€nkte Ausdauer, da er tagtĂ€glich eine lange Strecke an Verlinkungen zurĂŒcklegen muss, um sich alle Inhalte anzusehen. Deshalb sollten wir Seitenbereiche, die nicht relevant sind, vom Crawling ausschließen, um so Kraft (= Crawlingbudget) zu sparen.

Über die Steuerung der Indexierung stellen wir sicher, dass eine unpassende oder unwichtige Seite nicht fĂŒr den Nutzer bei einer Suchanfrage ausgegeben wird. Ein bisschen so, wie wenn man sich beim Training regelmĂ€ĂŸig die Hose hochziehen muss, damit keine unerwĂŒnschten Dinge im Blickfeld der anderen landen.

So geht’s

ROBOTS NOINDEX

So heißt die HTML-Anweisung, die im Head-Bereich der Website stehen muss. Mit dieser Anweisung wird den Suchmaschinen-Bots gesagt, dass diese Unterseite nicht im Index landen soll. Dabei ist es egal, ob diese Seite von intern oder extern verlinkt wird.

So sieht das Code-Snippet fĂŒr deinen HTML-Befehl aus, den du auf der Website in deinem Head-Bereich hinzufĂŒgst:

Code-Ausschnitt: Angabe fĂŒr noindex einer URL
So sieht die Code-Angabe fĂŒr noindex in Action im System aus.

Wenn Du mit WordPress arbeitest, lĂ€dst Du dir am besten das Yoast PlugIn herunter. Dort kannst du fĂŒr jede Seite angeben, ob sie im Index erscheinen soll oder nicht – und das ohne Code-Schnipsel.

Der hauptsĂ€chliche Verwendungszweck dafĂŒr ist der Ausschluss von Seiten, die keinen Mehrwert fĂŒr den Nutzer haben: das Impressum etwa oder Fehlerseiten, wie die „404-Seite“, die auf fast allen Websites zu finden ist. Eine weitere wichtige Funktion ist, zu verhindern, dass Seiten auftauchen, die der Nutzer nicht sehen soll, wie beispielsweise die Log-in-Seite fĂŒr Admins oder die Bilder der letzten Weihnachtsfeier.

ROBOTS.TXT DISALLOW

Mit dieser Anweisung in der robots.txt gibst Du einem Bot die Anweisung „Crawle diese Seite nicht“. So kannst Du das erwĂ€hnte Crawling-Budget steuern und auf die wichtigen Seiten lenken. Seiten, die so ausgeschlossen werden verbrauchen das Crawl-Budget nicht, da der Bot sie gar nicht erst ansteuert.

Die Angabe fĂŒr deine robots.txt sieht wie folgt aus:
User-agent: *
Disallow: /platzhalter/

Die Angabe des User-Agents in Verbindung mit dem Stern bedeutet, dass die folgende Anweisung fĂŒr alle Crawler gilt. Der Anweisung Disallow folgt die URL oder die Verzeichnisangabe, die nicht gecrawlt werden soll.

Aber Achtung, diese Seiten können trotzdem im Index landen und bei Google gefunden werden, wenn Google auf anderem Wege ĂŒber diese gesperrte Seite stolpert.

Idealerweise setzt Du das daher immer in Kombination mit „noindex“ ein. So stellst Du sicher, dass eine unpassende oder unwichtige Seite wirklich nicht fĂŒr den Nutzer bei einer Suchanfrage ausgegeben wird. Andernfalls kann es sein, dass diese unwichtige Seite noch einen externen Link von einer anderen Website erhĂ€lt. Durch diesen Link könnte der Crawler die Seite immer noch finden und die URL indexieren.

Hierbei auch bitte die richtige Reihenfolge einhalten: erst auf noindex setzen, dann in der robots.txt vom Crawling ausschließen. Sonst verhindert der Parameter disallow dass Google auf der Seite selbst einen noindex-Parameter finden kann. Logisch, oder?

Geschafft!

Das Warmup ist geschafft. NĂ€chste Woche geht weiter mit einem Ausdauer-Workout, das es in sich hat. In diesem Workout kĂŒmmern wir uns um den Body Deiner Website und um die wichtigsten Hygienefaktoren von Google.
Wenn Du in der Zwischenzeit noch mehr trainieren möchtest, kannst Du dir unser SEO Glossar kostenlos herunterladen. Mit diesem Spickzickel hast du alle Fachbegriffe auf einen Blick und jederzeit griffbereit.

Alle BeitrÀge von Anna

Unsere meistgelesenen BeitrÀge

Vier Jahre Chromebook: Ein Erfahrungsbericht

Google Chromebook
|
Gute 25 Jahre PC-Nutzung - von Anfang an mit Windows. Dann raucht im wahrsten Sinne des Wortes mein teures und gar nicht so altes Lenovo-Notebook ab. Und ich bestelle mir einfach ein Chromebook und bin schneller weg aus der Windows-Welt, als ich es fĂŒr möglich gehalten hĂ€tte. VierJahre ist das nun her - und ich habe zwischendurch immer wieder ĂŒber meine Erfahrungen mit dem Chromebook berichtet.