Deine Inhalte können fachlich stark, aktuell und für die aufbereitet sein – und trotzdem in ChatGPT, Perplexity oder anderen Suchsystemen mit Künstlicher Intelligenz (KI) kaum auftauchen.

Der Grund liegt oft nicht im Content, sondern in der Technik: werden durch robots.txt, Firewalls, Regeln eines , eines Netzwerks verteilter Server zur schnelleren Auslieferung, oder Bot-Management blockiert. Manchmal ist das bewusst gewollt. Häufig passiert es aber unbeabsichtigt.

Genau deshalb sind die beiden RankScan-Insights „Blockierte KI-Crawler“ und „Fehlende llms.txt so wichtig:

  • „Blockierte KI-Crawler“ prüft, ob relevante KI-Crawler deine Website oder wichtige Inhalte erreichen können.
  • „Fehlende llms.txt weist darauf hin, dass keine kompakte, freiwillige Orientierungshilfe für Sprachmodelle gefunden wurde. Das ist ein optionales Optimierungspotenzial, kein kritischer Standardfehler.

Wichtig ist die Gewichtung:
Blockierte KI-Crawler sind ein kritisches technisches Problem. Eine fehlende llms.txt ist eher ein strategisches Optimierungspotenzial.

Die beste Lösung ist deshalb nicht „alles erlauben“ oder „alles sperren“, sondern eine bewusste Strategie: Welche KI-Bots dürfen ? Welche sollen für Training blockiert werden? Welche sollen für Live-Abruf und KI-Suche zugelassen bleiben? Und welche Inhalte sollen Sprachmodelle besonders einfach verstehen?


  • steuert, welche Crawler auf welche Bereiche deiner Website zugreifen dürfen.
  • ist eine freiwillige Markdown-Datei, die Sprachmodellen wichtige Inhalte einer Website erklärt; sie ist kein offizieller Webstandard wie robots.txt.
  • .txt ist aktuell ein Vorschlag bzw. De-facto-Format, aber kein verbindlicher offizieller Webstandard.
  • , und sind unterschiedliche OpenAI-User-Agents mit unterschiedlichen Zwecken.
  • Wer alle KI-Crawler pauschal blockiert, schützt Inhalte vor bestimmter Nutzung, kann aber verlieren.
  • Wer Training blockieren, aber Live-Abruf erlauben will, muss User-Agents differenziert steuern.
  • und dürfen nicht verwechselt werden.
  • robots.txt ist kein Sicherheitsmechanismus. Für echte Sperren braucht es Server-, CDN-, Login- oder Regeln einer Web Application Firewall (WAF).
  • Die llms.txt ersetzt weder robots.txt noch . Sie ergänzt sie optional und sollte nicht als Pflichtsignal verkauft werden.

Warum KI-Crawler ein Website-Health-Thema sind #

KI-Suchsysteme nutzen Webinhalte auf unterschiedliche Weise: für Training, Suche, Zusammenfassungen, Quellenlinks oder nutzerinitiierte Abrufe. Für Unternehmen entsteht dadurch eine neue technische Abhängigkeit.

Wenn ein relevanter Crawler deine Website nicht erreicht, kann das mehrere Folgen haben:

  • Inhalte werden in KI-Suchsystemen nicht oder schlechter berücksichtigt.
  • Deine Marke wird in Antworten nicht genannt.
  • Wettbewerber erscheinen als Quelle, obwohl deine Inhalte fachlich besser wären.
  • Produkt-, Leistungs- oder Ratgeberseiten werden von KI-Systemen nicht korrekt eingeordnet.
  • Monitoring und Optimierung werden erschwert, weil unklar ist, wo die Blockade entsteht.

Das Problem ist oft unsichtbar. Eine Seite kann in Google sein und trotzdem für bestimmte KI-Crawler nicht erreichbar sein.

Typische Ursachen:

  • restriktive robots.txt,
  • Web Application Firewall,
  • Cloudflare- oder CDN-Bot-Management,
  • Rate-Limiting,
  • blockierte User-Agents,
  • blockierte IP-Bereiche,
  • Staging-Regeln, die versehentlich live geblieben sind,
  • Sicherheitsplugins mit pauschalen Bot-Sperren.

Deshalb ist „Blockierte KI-Crawler“ als kritisch einzustufen: Es geht nicht um eine kosmetische SEO-Optimierung, sondern um technische Erreichbarkeit.


Was sind KI-Crawler? #

KI-Crawler oder AI Crawler – mit Artificial Intelligence (AI), englisch für Künstliche Intelligenz – sind automatisierte Bots, die Webseiten abrufen. Sie werden von KI-Anbietern genutzt, um Inhalte zu finden, für Suchfunktionen bereitzustellen, für Antworten abzurufen oder – je nach Anbieter und Bot – für Modelltraining zu verwenden.

OpenAI unterscheidet in der eigenen Dokumentation mehrere User-Agents, darunter GPTBot, OAI-SearchBot und ChatGPT-User. Diese erfüllen unterschiedliche Aufgaben und können über robots.txt getrennt gesteuert werden.
Quelle: OpenAI Platform – Overview of OpenAI Crawlers

Für Website-Betreiber ist diese Unterscheidung zentral. Wer pauschal alle OpenAI-Bots blockiert, blockiert nicht nur Training, sondern möglicherweise auch Such- und Abruffunktionen, die für Sichtbarkeit in ChatGPT relevant sind.


Training, KI-Suche und Nutzer-Abruf: Der entscheidende Unterschied #

Nicht jeder KI-Bot macht dasselbe. Für eine sinnvolle robots.txt-Strategie musst du drei Anwendungsfälle unterscheiden.

1. Modelltraining #

Beim Training werden Inhalte verwendet, um zukünftige KI-Modelle zu verbessern. Dafür stehen Crawler wie GPTBot oder je nach Anbieter andere Trainingscrawler.

Wenn du nicht möchtest, dass deine Inhalte für Training genutzt werden, kannst du solche Crawler in der robots.txt blockieren.

Beispiel:

text
User-agent: GPTBot
Disallow: /

Das kann aus rechtlichen, strategischen oder publizistischen Gründen sinnvoll sein.


2. KI-Suche und Quellenabruf #

Einige Crawler dienen dazu, Inhalte für KI-Suchfunktionen zu finden, zu indexieren oder als Quelle in Antworten bereitzustellen. Dazu gehören zum Beispiel OAI-SearchBot von OpenAI oder von Perplexity.

OpenAI weist darauf hin, dass öffentliche Websites in ChatGPT Search erscheinen können und dass Website-Betreiber sicherstellen sollten, OAI-SearchBot nicht zu blockieren, wenn Inhalte in ChatGPT-Zusammenfassungen, und Quellen erscheinen sollen.
Quelle: OpenAI Help – Publishers and Developers FAQ

Perplexity beschreibt den eigenen PerplexityBot als Crawler, der Websites in Perplexity-Suchergebnissen sichtbar machen und verlinken soll. Laut Perplexity wird dieser Bot nicht für das Training von Foundation Models genutzt.
Quelle: Perplexity Docs – Perplexity Crawlers


3. Nutzerinitiierter Abruf #

Einige Bots rufen Seiten ab, wenn Nutzer eine konkrete URL oder Anfrage eingeben. Bei OpenAI ist dafür ChatGPT-User relevant.

Dieser Unterschied ist wichtig, weil ein Nutzer deine URL in ChatGPT eingeben und eine Zusammenfassung erwarten kann. Wenn der Abruf blockiert wird, kann ChatGPT die Seite nicht direkt auslesen.


robots.txt: Was sie kann – und was nicht #

Die robots.txt liegt im Root-Verzeichnis deiner Website:

text
https://example.ch/robots.txt

Sie gibt Crawlern Hinweise, welche Bereiche sie abrufen dürfen und welche nicht. Google beschreibt robots.txt als Werkzeug zur Steuerung von Crawler-Traffic, nicht als Methode, um Webseiten sicher aus Google oder aus dem Web herauszuhalten.
Quelle: Google Search Central – robots.txt Introduction and Guide

Ein einfaches Beispiel:

text
User-agent: *
Disallow: /intern/

Sitemap: https://example.ch/sitemap.xml

Das bedeutet: Kooperierende Crawler sollen /intern/ nicht abrufen. Die Sitemap zeigt zusätzlich, wo wichtige indexierbare URLs zu finden sind.

Wichtig:

  • robots.txt basiert auf Kooperation.
  • Seriöse Crawler respektieren sie meist.
  • Nicht alle Bots halten sich zuverlässig daran.
  • Vertrauliche Inhalte dürfen nicht nur über robots.txt geschützt werden.
  • Server-, Login-, CDN- und WAF-Regeln sind für echten Schutz wichtiger.

Eine Studie von 2025 untersuchte die robots.txt-Compliance verschiedener Scraper und kam zum Schluss, dass sich nicht alle Bot-Kategorien zuverlässig an robots.txt halten. Besonders bei AI- und Scraping-Kontexten sollte robots.txt deshalb nicht als alleiniger Schutzmechanismus verstanden werden.
Quelle: arXiv – Scrapers selectively respect robots.txt directives


Die wichtigsten KI-Crawler und User-Agents #

Diese User-Agents solltest du bei der Steuerung von KI-Crawlern kennen:

User-AgentAnbieterTypischer ZweckEmpfehlung
GPTBotOpenAIModelltrainingJe nach Datenstrategie erlauben oder blockieren
OAI-SearchBotOpenAIChatGPT Search / SuchabrufFür ChatGPT-Sichtbarkeit meist erlauben
ChatGPT-UserOpenAINutzerinitiierter AbrufFür direkte URL-Abrufe meist erlauben
ClaudeBotAnthropicCrawling durch AnthropicJe nach Datenstrategie prüfen
PerplexityBotPerplexityPerplexity-Suche und QuellenlinksFür Sichtbarkeit in Perplexity meist erlauben
Google-ExtendedGoogleSteuerung bestimmter KI-Nutzung durch GoogleNicht mit Googlebot verwechseln
GooglebotGoogleKlassische Google-SucheNicht blockieren, wenn SEO-Sichtbarkeit erhalten bleiben soll

Anthropic beschreibt für Website-Betreiber ebenfalls die Möglichkeit, den Zugriff von über robots.txt zu blockieren.
Quelle: Anthropic Support – Does Anthropic crawl data from the web?


Googlebot vs. Google-Extended: Der häufigste Fehler #

Ein besonders wichtiger Punkt ist die Unterscheidung zwischen Googlebot und Google-Extended.

  • Googlebot ist für die klassische Google-Suche relevant.
  • Google-Extended ist ein Steuerungstoken für bestimmte KI-Nutzungen durch Google.

Google erklärt, dass Google-Extended kein separater User-Agent des (HTTP) ist. Crawling erfolgt über bestehende Google-User-Agents; Google-Extended wird in robots.txt als Produkt-Token verwendet.
Quelle: Google Crawling Infrastructure – Google-Extended

Beispiel:

text
User-agent: Google-Extended
Disallow: /

Diese Regel ist etwas anderes als:

text
User-agent: Googlebot
Disallow: /

Die zweite Regel würde deine klassische Google-Sichtbarkeit gefährden. Deshalb gilt:

Wenn du Google-KI-Nutzung einschränken willst, blockiere nicht versehentlich den Googlebot.


GPTBot robots.txt: OpenAI richtig steuern #

OpenAI-Crawler sollten differenziert behandelt werden.

GPTBot blockieren #

Wenn du nicht möchtest, dass GPTBot deine Inhalte crawlt:

text
User-agent: GPTBot
Disallow: /

OAI-SearchBot erlauben #

Wenn du möchtest, dass deine Inhalte für ChatGPT Search erreichbar bleiben:

text
User-agent: OAI-SearchBot
Allow: /

ChatGPT-User erlauben #

Wenn Nutzer deine Seiten in ChatGPT abrufen können sollen:

text
User-agent: ChatGPT-User
Allow: /

Kombinierte Strategie #

Viele Unternehmen wollen Training einschränken, aber Sichtbarkeit in KI-Suche erhalten:

text
User-agent: GPTBot
Disallow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

Das ist oft sinnvoller als eine pauschale Sperre aller OpenAI-Crawler.


Drei Strategien für robots.txt und KI-Crawler #

Es gibt keine universell richtige Einstellung. Die passende Strategie hängt davon ab, wie offen deine Inhalte genutzt werden dürfen.


Strategie A: Maximale KI-Sichtbarkeit #

Diese Strategie eignet sich für Websites, die möglichst offen für KI-Suchsysteme sein möchten.

text
User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

Sitemap: https://example.ch/sitemap.xml

Geeignet für:

  • Ratgeberportale,
  • SaaS-Websites,
  • öffentliche Dokumentationen,
  • Unternehmen mit starkem Thought Leadership-Fokus,
  • Marken, die maximale Auffindbarkeit wollen.

Risiko: Inhalte können je nach Anbieter auch für Zwecke genutzt werden, die du nicht kontrollierst.


Strategie B: Training blockieren, KI-Suche erlauben #

Diese Strategie eignet sich für Unternehmen, die Inhalte nicht für Modelltraining freigeben möchten, aber in KI-Suchsystemen sichtbar bleiben wollen.

text
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

Sitemap: https://example.ch/sitemap.xml

Geeignet für:

  • B2B-Unternehmen,
  • Publisher mit differenzierter Datenstrategie,
  • Marken mit hohem Content-Wert,
  • Unternehmen, die KI-Suche nutzen, aber Training begrenzen möchten.

Risiko: Die genaue Trennung zwischen Training, Suche und Abruf hängt vom jeweiligen Anbieter ab und kann sich ändern.


Strategie C: Sensible Bereiche schützen #

Diese Strategie eignet sich für Websites, bei denen öffentliche Inhalte sichtbar bleiben sollen, aber einzelne Bereiche nicht gecrawlt werden dürfen.

text
User-agent: *
Disallow: /intern/
Disallow: /staging/
Disallow: /downloads/vertraulich/

User-agent: OAI-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

Sitemap: https://example.ch/sitemap.xml

Wichtig: Vertrauliche Inhalte dürfen nicht nur über robots.txt geschützt werden. Wenn Inhalte wirklich privat sind, braucht es Login-Schutz, serverseitige Regeln oder WAF-Konfigurationen.


Was ist eine llms.txt? #

Die llms.txt ist eine Markdown-Datei im Root-Verzeichnis einer Website:

text
https://example.ch/llms.txt

Sie soll Sprachmodellen eine kompakte Übersicht über wichtige Inhalte geben. Die Idee wurde 2024 von Jeremy Howard und Answer.AI vorgeschlagen. Die Datei ist als menschen- und maschinenlesbares Markdown gedacht und soll großen Sprachmodellen (Large Language Models, LLMs) helfen, relevante Inhalte einer Website schneller zu erfassen.
Quellen: llms.txt – The /llms.txt file, Answer.AI – /llms.txt proposal

Wichtig ist die realistische Einordnung:

llms.txt ist aktuell ein Vorschlag bzw. ein freiwilliges De-facto-Format. Es ist kein verbindlicher offizieller Webstandard und keine Garantie für bessere Rankings oder KI-Zitationen.

Trotzdem kann eine llms.txt sinnvoll sein, weil sie komplexe Websites für LLMs strukturierter erklärt.


llms.txt vs. robots.txt: Der Unterschied #

Merkmalrobots.txtllms.txt
ZweckZugriff steuernInhalte erklären
FrageDarf ein Bot crawlen?Welche Inhalte sind wichtig?
FormatText-DirektivenMarkdown
StatusEtablierter StandardFreiwilliger Vorschlag
SicherheitswirkungBegrenzt, kooperationsbasiertKeine Schutzwirkung
Typischer EinsatzCrawler erlauben oder sperrenLLMs Orientierung geben
Speicherort/robots.txt/llms.txt

Kurz gesagt:

  • robots.txt entscheidet, ob kooperierende Bots crawlen dürfen.
  • llms.txt erklärt, welche Inhalte wichtig sind.

Warum eine fehlende llms.txt ein Optimierungspotenzial ist #

Der Insight „Fehlende llms.txt bedeutet nicht, dass deine Website technisch defekt ist. Klassische Suchmaschinen brauchen keine llms.txt, um deine Website zu crawlen.

Trotzdem kann eine fehlende llms.txt ein Nachteil sein, wenn deine Website viele wichtige Inhalte hat, die für Sprachmodelle sauber eingeordnet werden sollen.

Besonders sinnvoll ist eine llms.txt für:

  • SaaS-Websites,
  • Dokumentationen,
  • Ratgeberportale,
  • Shops mit komplexen Kategorien,
  • Hochschulen und Institutionen,
  • B2B-Unternehmen mit erklärungsbedürftigen Leistungen,
  • Websites mit vielen ähnlichen Inhaltsbereichen.

Eine gute llms.txt kann wichtige Seiten hervorheben:

  • zentrale Leistungsseiten,
  • Produkt- und Featureseiten,
  • Ratgeber,
  • Dokumentation,
  • Preis- und Kontaktseiten,
  • Über-uns-Seiten,
  • Autoren- oder Expertenprofile,
  • Dokumentation der , der Programmierschnittstelle,
  • wichtige Hilfeseiten.

llms.txt erstellen: Aufbau und Beispiel #

Eine llms.txt sollte keine vollständige Sitemap sein. Sie ist eine kuratierte Orientierungshilfe.

Ein sinnvoller Aufbau:

  1. Website-Name
  2. kurze Beschreibung
  3. wichtigste Themen
  4. zentrale Seiten
  5. Dokumentation oder Ratgeber
  6. optional: Hinweise zur Einordnung

Beispiel:

text
# Example AG

> Example AG ist ein Schweizer Anbieter für B2B-Software im Bereich Projektplanung, Ressourcenmanagement und Forecasting.

## Wichtige Seiten

- [Startseite](https://example.ch/) - Überblick über Angebot und Zielgruppen.
- [Funktionen](https://example.ch/funktionen) - Beschreibung der wichtigsten Produktfunktionen.
- [Preise](https://example.ch/preise) - Aktuelle Pakete und Konditionen.
- [Kontakt](https://example.ch/kontakt) - Anfrage und Beratung.

## Ratgeber

- [Projektplanung verbessern](https://example.ch/blog/projektplanung) - Grundlagen und Best Practices.
- [Ressourcenplanung im Team](https://example.ch/blog/ressourcenplanung) - Tipps für Agenturen und Dienstleister.

## Hinweise

Diese Website richtet sich an Schweizer KMU, Agenturen und Dienstleistungsunternehmen. Bitte verwende bevorzugt die verlinkten Seiten als Quelle für aktuelle Informationen.

Best Practices für eine gute llms.txt #

1. Kuratieren statt alles verlinken #

Die llms.txt ist keine zweite Sitemap. Verlinke nur Seiten, die für Verständnis, Autorität oder Conversion wichtig sind.

2. Jede URL kurz erklären #

Jeder Link sollte eine kurze Beschreibung erhalten. So können Sprachmodelle besser einordnen, warum die Seite relevant ist.

3. Öffentliche und aktuelle Inhalte verwenden #

Verlinke nur Inhalte, die öffentlich zugänglich, aktuell und gewollt maschinenlesbar sind.

4. Keine vertraulichen Informationen nennen #

Die llms.txt ist öffentlich abrufbar. Sie darf keine internen Hinweise, privaten URLs oder sensiblen Informationen enthalten.

5. Mit robots.txt und Sitemap abstimmen #

Die llms.txt sollte nicht auf Seiten verweisen, die in robots.txt blockiert, per [noindex](https://rankscanpage.ddev.site/de/blog/indexierung-noindex-robots-txt) ausgeschlossen oder nicht kanonisch sind.

6. Regelmässig pflegen #

Eine veraltete llms.txt kann falsche Signale senden. Sie sollte Teil des normalen Website-Maintenance-Prozesses sein.


Worauf ein guter KI-Crawler-Check achtet #

Dieses Thema ist nicht nur ein Content-Thema, sondern ein technischer Website-Health-Check.

Ein guter Check umfasst:

  • Ist /robots.txt erreichbar?
  • Ist /llms.txt vorhanden?
  • Gibt es pauschale Sperren für alle Bots?
  • Werden bekannte KI-Crawler explizit blockiert?
  • Ist Googlebot versehentlich von KI-Regeln betroffen?
  • Wird Google-Extended korrekt verwendet?
  • Sind GPTBot, OAI-SearchBot und ChatGPT-User getrennt geregelt?
  • Ist die Sitemap in robots.txt referenziert?
  • Enthält die llms.txt nur öffentliche, wichtige und aktuelle URLs?
  • Verlinkt die llms.txt auf URLs, die blockiert oder sind?
  • Gibt es Hinweise auf 401-, 403-, 429- oder 5xx-Probleme für AI Crawler?
  • Blockiert eine Firewall relevante Bots trotz erlaubender robots.txt?

Damit wird klar: „Fehlende llms.txt“ ist nur ein Teil des Problems. Entscheidend ist die Kombination aus Crawler-Zugriff, technischer Erreichbarkeit und strukturierter Orientierung.


So prüfst du, ob KI-Crawler blockiert werden #

1. robots.txt direkt aufrufen #

Rufe im Browser auf:

text
https://deine-domain.ch/robots.txt

Suche nach Regeln wie:

text
User-agent: GPTBot
Disallow: /

oder:

text
User-agent: *
Disallow: /

Solche Regeln können KI-Crawler einschränken oder komplett blockieren.


2. Server-Logs prüfen #

In den Server-Logs siehst du, welche Bots deine Website besuchen und welche Statuscodes sie erhalten.

Wichtige Statuscodes:

StatuscodeBedeutung
200Zugriff erfolgreich
301/302Weiterleitung
401Authentifizierung nötig
403Zugriff verboten
404URL nicht gefunden
429Zu viele Anfragen
5xxServerfehler

Wenn OAI-SearchBot, PerplexityBot oder andere relevante Crawler wiederholt 403 erhalten, ist das ein klares Warnsignal.


3. Firewall, CDN und Bot-Management prüfen #

Viele Sperren entstehen nicht in der robots.txt, sondern auf Infrastruktur-Ebene.

Typische Systeme:

  • Cloudflare,
  • Akamai,
  • Fastly,
  • WordPress-Security-Plugins,
  • Bot-Management-Regeln,
  • Rate-Limiting,
  • Länder- oder Sperren nach Autonomous System Number (ASN), der Kennung eines Netzbereichs.

Cloudflare weist im Zusammenhang mit Bot-Management und Managed robots.txt ebenfalls darauf hin, dass AI-Crawler heute für Training, Suchantworten und andere Zwecke eingesetzt werden und dass Website-Betreiber zunehmend technische Steuerungsmöglichkeiten brauchen.
Quelle: Cloudflare Docs – Managed robots.txt


Häufige Fehler bei robots.txt, KI-Crawlern und llms.txt #

Fehler 1: Alle Bots blockieren #

text
User-agent: *
Disallow: /

Diese Regel ist für Staging-Websites sinnvoll. Auf einer Live-Website kann sie klassische SEO- und KI-Sichtbarkeit verhindern.


Fehler 2: Googlebot statt Google-Extended blockieren #

Wer Googlebot blockiert, gefährdet die klassische Google-Suche. Wer bestimmte Google-KI-Nutzung steuern will, muss Google-Extended verstehen und korrekt einsetzen.


Fehler 3: Nur GPTBot prüfen #

Viele Teams prüfen nur GPTBot. Für ChatGPT-Sichtbarkeit sind aber auch OAI-SearchBot und ChatGPT-User relevant.


Fehler 4: robots.txt als Sicherheitssystem betrachten #

robots.txt ist kein Schutz für vertrauliche Inhalte. Wer sensible Daten schützen will, braucht serverseitige Zugriffskontrolle.


Fehler 5: llms.txt als Rankinghebel verkaufen #

Eine llms.txt ist hilfreich zur Orientierung, aber keine Garantie für bessere Platzierungen oder Erwähnungen in KI-Antworten.


Fehler 6: Blockierte Seiten in llms.txt verlinken #

Wenn eine llms.txt auf Seiten verweist, die blockiert, nicht indexierbar oder veraltet sind, entstehen widersprüchliche Signale.


Fehler 7: Keine Logfile-Prüfung machen #

Eine robots.txt kann korrekt aussehen, während eine WAF trotzdem blockiert. Ohne Server-Logs bleibt das Problem oft unsichtbar.


Beispiel: Wenn die Firewall KI-Sichtbarkeit verhindert #

Ein B2B-Unternehmen rankt in Google gut, wird aber in ChatGPT und Perplexity kaum als Quelle genannt.

Die robots.txt sieht sauber aus:

text
User-agent: OAI-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

Trotzdem zeigen die Server-Logs:

text
OAI-SearchBot    403 Forbidden
PerplexityBot    403 Forbidden

Die Ursache liegt nicht in der robots.txt, sondern in der Web Application Firewall. Sie blockiert unbekannte Bots automatisch.

Die Lösung:

  1. Relevante KI-Crawler identifizieren.
  2. Offizielle Dokumentation der Anbieter prüfen.
  3. WAF-Regeln anpassen.
  4. Bot-Zugriffe erneut testen.
  5. Monitoring einrichten.
  6. llms.txt ergänzen, um zentrale Inhalte besser auffindbar zu machen.

Das Beispiel zeigt: KI-Sichtbarkeit ist nicht nur Content-Optimierung. Sie beginnt bei technischer Erreichbarkeit.


Checkliste: KI-Crawler bewusst steuern #

Prüfe für deine Website:

  • Ist /robots.txt erreichbar?
  • Ist /llms.txt vorhanden?
  • Ist die Sitemap in robots.txt verlinkt?
  • Gibt es eine pauschale Sperre über User-agent: *?
  • Wird der normale Googlebot blockiert?
  • Wird Google-Extended bewusst eingesetzt?
  • Sind OpenAI-Crawler getrennt geregelt?
  • Ist OAI-SearchBot erlaubt, wenn ChatGPT-Sichtbarkeit gewünscht ist?
  • Ist PerplexityBot erlaubt, wenn Perplexity-Sichtbarkeit gewünscht ist?
  • Gibt es WAF-, CDN- oder Security-Regeln, die KI-Bots blockieren?
  • Erhalten relevante Bots 200-Statuscodes?
  • Gibt es 401-, 403-, 429- oder 5xx-Probleme?
  • Verweist die llms.txt nur auf öffentliche, aktuelle Seiten?
  • Stimmen robots.txt, llms.txt, Sitemap, Canonicals und noindex-Regeln zusammen?

Ergänzend dazu helfen AI Readiness Score und JavaScript-SEO, um die Ursache sauber einzugrenzen und die nächsten SEO-Massnahmen zu priorisieren.

Häufig gestellte Fragen (FAQ) zu llms.txt, robots.txt und KI-Crawlern #

Was ist eine llms.txt? #

Eine llms.txt ist eine Markdown-Datei im Root-Verzeichnis einer Website. Sie soll Sprachmodellen eine kurze Übersicht über wichtige Inhalte, Themen und Links geben.

Ist llms.txt ein offizieller Standard? #

Nein. llms.txt ist aktuell ein freiwilliger Vorschlag bzw. ein De-facto-Format. Es kann hilfreich sein, ist aber keine Garantie für bessere KI-Sichtbarkeit.

Was ist der Unterschied zwischen robots.txt und llms.txt? #

robots.txt steuert den Zugriff von Crawlern. llms.txt erklärt Sprachmodellen, welche Inhalte wichtig sind. Die eine Datei kontrolliert, die andere orientiert.

Kann ich mit robots.txt KI-Crawler blockieren? #

Ja, kooperierende Crawler können über robots.txt blockiert werden. Für echte Zugriffssicherheit reichen robots.txt-Regeln aber nicht aus.

Sollte ich GPTBot blockieren? #

Das hängt von deiner Strategie ab. Wenn du Training verhindern willst, kannst du GPTBot blockieren. Wenn du maximale Offenheit möchtest, erlaubst du ihn. Wichtig ist, GPTBot nicht mit OAI-SearchBot oder ChatGPT-User zu verwechseln.

Verliere ich Google-Rankings, wenn ich Google-Extended blockiere? #

Nicht automatisch. Google-Extended ist nicht dasselbe wie Googlebot. Googlebot bleibt für die klassische Google-Suche relevant. Deshalb darfst du Googlebot nicht versehentlich blockieren, wenn du nur Google-KI-Nutzung steuern willst.

Muss jede Website eine llms.txt haben? #

Technisch nein. Für Websites mit vielen Inhalten, Ratgeberbereichen, Dokumentationen oder strategischem Interesse an KI-Sichtbarkeit ist eine llms.txt aber sinnvoll.

Wie finde ich heraus, ob KI-Crawler meine Website besuchen? #

Am zuverlässigsten über Server-Logs. Dort siehst du User-Agent, URL, Zeitpunkt und Statuscode.

Was bedeutet „Blockierte KI-Crawler“? #

Der Insight bedeutet, dass relevante KI-Crawler deine Website oder wichtige Bereiche nicht abrufen können. Das kann durch robots.txt, Firewalls, Serverregeln oder CDN-Bot-Management passieren.

Was bedeutet „Fehlende llms.txt“? #

Der Insight bedeutet, dass keine /llms.txt gefunden wurde. Das ist kein klassischer SEO-Fehler, aber ein Hinweis auf ungenutztes Potenzial für KI-lesbare Inhaltsstruktur.

Reicht eine llms.txt für ChatGPT SEO? #

Nein. Für ChatGPT SEO oder KI-Sichtbarkeit brauchst du vor allem gute, zugängliche, aktuelle und vertrauenswürdige Inhalte. Die llms.txt kann zusätzlich helfen, wichtige Seiten strukturiert sichtbar zu machen.


Fazit: KI-Crawler bewusst steuern statt zufällig blockieren #

KI-Sichtbarkeit entsteht nicht nur durch gute Inhalte. Sie setzt voraus, dass KI-Systeme deine Inhalte technisch erreichen und korrekt einordnen können.

Die wichtigste Massnahme ist deshalb zuerst die technische Prüfung:

  • Können relevante KI-Crawler deine Website abrufen?
  • Werden sie durch robots.txt blockiert?
  • Werden sie durch Firewall, CDN oder Bot-Management blockiert?
  • Sind Training, KI-Suche und Nutzer-Abruf sauber getrennt?
  • Gibt es eine llms.txt, die zentrale Inhalte verständlich zusammenfasst?

robots.txt ist die Zugriffskontrolle.
llms.txt ist die Orientierungshilfe.
Server-Logs und WAF-Regeln zeigen, was wirklich passiert.

Für viele Unternehmen ist die beste Strategie eine differenzierte Steuerung:

  • Training bewusst erlauben oder blockieren,
  • Live-Abruf und KI-Suche möglichst ermöglichen,
  • sensible Bereiche technisch schützen,
  • llms.txt als Orientierungshilfe bereitstellen,
  • Server-Logs und WAF-Regeln regelmässig prüfen.

So verhinderst du, dass deine Website unbeabsichtigt für KI-Systeme unsichtbar wird – und schaffst bessere Voraussetzungen, um in KI-Antworten, KI-Suchen und modernen Sucherlebnissen berücksichtigt zu werden.


Quellen und weiterführende Informationen #