Was sind Web Crawler?
Damit Ihre Website in den Suchergebnissen erscheint, nutzen Google (sowie andere Suchmaschinen wie Bing, Yandex, Baidu, Naver, Yahoo oder DuckDuckGo) Web Crawler, um die Website zu durchsuchen und Webseiten zu entdecken.
Verschiedene Suchmaschinen haben unterschiedliche Marktanteile in jedem Land.
In diesem Leitfaden behandeln wir Google, das in den meisten Ländern die größte Suchmaschine ist. Dennoch sollten Sie andere Suchmaschinen und deren Richtlinien überprüfen, insbesondere wenn Ihre Zielkunden in China, Russland, Japan oder Südkorea sitzen.
Obwohl es einige Unterschiede beim Ranking und Rendering gibt, funktionieren die meisten Suchmaschinen beim Crawling und Indexierung sehr ähnlich.
Web Crawler sind eine Art von Bot, die Nutzer emulieren und über Links auf Websites navigieren, um Seiten zu indexieren. Web Crawler identifizieren sich mit benutzerdefinierten User-Agents. Google verwendet mehrere Web Crawler, aber die am häufigsten verwendeten sind Googlebot Desktop und Googlebot Smartphone.
Wie funktioniert Googlebot?
Der Weg, den Googlebot zur Indexierung von Webseiten geht
Ein allgemeiner Überblick über den Prozess kann wie folgt aussehen:
- URLs finden: Google bezieht URLs aus vielen Quellen, einschließlich Google Search Console, Links zwischen Websites oder XML-Sitemaps.
- Zum Crawl-Queue hinzufügen: Diese URLs werden der Crawl-Queue hinzugefügt, damit Googlebot sie verarbeiten kann. URLs in der Crawl-Queue verbleiben dort normalerweise nur Sekunden, aber es kann je nach Fall bis zu einigen Tagen dauern, insbesondere wenn die Seiten gerendert, indexiert oder – falls die URL bereits indexiert ist – aktualisiert werden müssen. Die Seiten gelangen dann in die Render-Queue.
- HTTP-Anfrage: Der Crawler stellt eine HTTP-Anfrage, um die Header zu erhalten, und handelt entsprechend des zurückgegebenen Statuscodes:
- 200: Er crawlt und parst das HTML.
- 30X: Er folgt den Weiterleitungen.
- 40X: Er notiert den Fehler und lädt das HTML nicht.
- 50X: Er kommt möglicherweise später zurück, um zu prüfen, ob sich der Statuscode geändert hat.
- Render-Queue: Die verschiedenen Dienste und Komponenten des Suchsystems verarbeiten das HTML und parsen den Inhalt. Wenn die Seite JavaScript-basierten Client-seitigen Inhalt hat, können die URLs zur Render-Queue hinzugefügt werden. Die Render-Queue ist für Google aufwändiger, da mehr Ressourcen benötigt werden, um JavaScript zu rendern. Daher ist der Anteil der gerenderten URLs im Vergleich zur Gesamtzahl der Seiten im Internet geringer. Einige andere Suchmaschinen haben möglicherweise nicht die gleiche Rendering-Kapazität wie Google, und hier kann Next.js mit Ihrer Rendering-Strategie helfen.
- Bereit zur Indexierung: Wenn alle Kriterien erfüllt sind, können die Seiten für die Indexierung geeignet sein und in den Suchergebnissen angezeigt werden.
In den nächsten Abschnitten werden wir uns intensiv mit den Hauptkomponenten der Prozesse eines Suchsystems befassen: Crawling und Indexierung sowie Rendering und Ranking.
Weiterführende Literatur
- Google: SEO Starter Guide
- MDN: MDN: User-Agents