Was ist eine robots.txt-Datei?

Eine robots.txt-Datei teilt Suchmaschinen-Crawlern mit, welche Seiten oder Dateien sie von Ihrer Website anfordern dürfen oder nicht. Die robots.txt-Datei ist eine Webstandard-Datei, die die meisten guten Bots konsumieren, bevor sie etwas von einer bestimmten Domain anfordern.

Möglicherweise möchten Sie bestimmte Bereiche Ihrer Website vor dem Crawlen und damit vor der Indexierung schützen, wie z.B. Ihr CMS oder Admin-Bereich, Benutzerkonten in Ihrem E-Commerce oder einige API-Routen, um nur einige zu nennen. Diese Dateien müssen im Stammverzeichnis jedes Hosts bereitgestellt werden, alternativ können Sie den Pfad /robots.txt auf eine Ziel-URL umleiten, und die meisten Bots werden diesem folgen.

Hinzufügen einer robots.txt-Datei zu einem Next.js-Projekt

Dank der statischen Dateibereitstellung (Static File Serving) in Next.js können wir leicht eine robots.txt-Datei hinzufügen. Dazu erstellen wir eine neue Datei namens robots.txt im public-Ordner des Stammverzeichnisses. Ein Beispiel für den Inhalt dieser Datei wäre:

//robots.txt
 
# Blockiere alle Crawler für /accounts
User-agent: *
Disallow: /accounts
 
# Erlaube alle Crawler
User-agent: *
Allow: /

Wenn Sie Ihre Anwendung mit yarn dev starten, ist die Datei nun unter http://localhost:3000/robots.txt verfügbar. Beachten Sie, dass der public-Ordnername nicht Teil der URL ist.

Benennen Sie das public-Verzeichnis nicht um. Der Name kann nicht geändert werden und es ist das einzige Verzeichnis, das für die Bereitstellung statischer Assets verwendet wird.

Weiterführende Literatur

On this page