(englisch AI Crawler) sind Bots, die Webseiten automatisiert besuchen und auslesen. Sie werden über die Datei robots.txt gesteuert, wobei seriöse Crawler die Vorgaben meist respektieren.
Für die Steuerung sind drei Anwendungsfälle wichtig:
- Trainings-Bots rufen Inhalte zur Verbesserung künftiger Modelle ab,
- Such- und Retrieval-Bots stellen Inhalte für KI-Suche und Quellenabruf bereit,
- nutzerinitiierte Bots rufen eine Seite ab, wenn ein Nutzer eine konkrete URL oder Anfrage eingibt.
Wer pauschal alle KI-Crawler blockiert, schützt Inhalte vor bestimmter Nutzung, kann aber verlieren. Sinnvoll ist meist eine differenzierte Strategie: Training bewusst erlauben oder blockieren, Live-Abruf und KI-Suche möglichst zulassen.
Blockaden entstehen nicht nur über , sondern auch über Firewalls, ein oder Bot-Management. robots.txt ist kein Sicherheitsmechanismus; für echten Schutz braucht es Login-, Server- oder WAF-Regeln.