Beim ruft ein automatisierter Bot (zum Beispiel der ) eine URL ab und lädt das sowie weitere Ressourcen wie Bilder, und JavaScript herunter. Crawling ist die Voraussetzung dafür, dass Inhalte überhaupt verarbeitet und werden können.

Welche URLs ein Crawler abrufen darf, lässt sich über die Datei robots.txt steuern. Sie dient vor allem dazu, Crawler-Traffic zu lenken und Server nicht unnötig zu belasten.

Wichtig ist die Abgrenzung zur Indexierung: Crawling bedeutet nur das Abrufen einer Seite, nicht ihre Aufnahme in den Suchindex. Damit Suchmaschinen Anweisungen wie noindex oder einen lesen können, muss eine Seite crawlbar sein. Ist sie per robots.txt blockiert, können diese Signale nicht zuverlässig erkannt werden.

  • Crawling = Abrufen einer URL
  • gesteuert über die robots.txt
  • Voraussetzung für Indexierung und das Lesen von Robots-Anweisungen