noindex & robots.txt: Indexierung richtig steuern

Q: Was bedeutet noindex?

noindex bedeutet, dass eine Seite nicht in den Suchindex aufgenommen oder daraus entfernt werden soll.

Q: Was ist der Unterschied zwischen noindex und robots.txt?

robots.txt steuert Crawling. noindex steuert Indexierung. Eine Seite muss crawlbar sein, damit Google noindex sehen kann.

Q: Wie schütze ich Staging-Seiten?

Am besten per Login, HTTP Auth, IP-Schutz oder VPN. noindex allein ist für Staging nicht robust genug.

Ein einzelnes noindex an der falschen Stelle kann wichtige Seiten aus Google entfernen. Eine zu restriktive robots.txt kann verhindern, dass Google wichtige Inhalte überhaupt crawlt. Und besonders kritisch: Wenn eine Seite per robots.txt blockiert ist, kann Google ein dort gesetztes noindex nicht zuverlässig sehen.

Genau deshalb bündelt RankScan die Insights „-Seiten“ und „Durch blockierte Inhalte“ in der Kategorie Website Health mit Priorität Hoch.

Diese beiden Signale betreffen die technische Grundlage deiner Sichtbarkeit:

„Noindex-Seiten“: Seiten sind für die gesperrt.
„Durch robots.txt blockierte Inhalte“: Wichtige Inhalte oder Ressourcen werden durch robots.txt vom ausgeschlossen.

Beides kann gewollt sein. Beides kann aber auch versehentlich passieren – besonders nach Relaunches, Staging-Freigaben, Updates des Content-Management-Systems () oder Plugin-Änderungen.

In diesem Artikel erfährst du, wie noindex und robots.txt funktionieren, worin der Unterschied liegt, welche Fehler besonders gefährlich sind und wie du nach einem RankScan-Fund richtig vorgehst.

robots.txt steuert, welche URLs Crawler abrufen dürfen.
noindex steuert, ob eine gecrawlte Seite im Suchindex erscheinen darf.
Disallow in der robots.txt ist kein zuverlässiger Indexierungsschutz.
Damit Google noindex sieht, muss die Seite crawlbar sein.
noindex kann als oder gesetzt werden.
ist nicht dasselbe wie noindex.
Sensible Inhalte sollten nicht mit robots.txt geschützt werden, sondern mit Login, Passwortschutz oder serverseitiger Zugriffskontrolle.
Staging-Seiten sollten nicht nur per noindex, sondern idealerweise per Authentifizierung geschützt werden.
Ein guter Check prüft, ob wichtige Seiten versehentlich auf noindex stehen oder durch robots.txt blockiert werden.
Besonders kritisch sind Fehler auf indexierbaren Seiten, in der , in Hauptnavigation, Produktkategorien, Leistungsseiten und Ratgeberartikeln.

Crawling vs. Indexierung: Der wichtigste Unterschied #

Um noindex und robots.txt richtig einzusetzen, musst du zwei Prozesse unterscheiden.

Crawling #

Beim Crawling ruft ein Bot eine URL ab. Der Bot lädt (Hypertext Markup Language, die Auszeichnungssprache für Webseiten), Bilder, (Cascading Style Sheets, die Sprache für das Layout von Webseiten), JavaScript oder andere Ressourcen herunter.

Die robots.txt kann steuern, welche URLs ein Crawler abrufen darf.

Google beschreibt robots.txt als Datei, die Suchmaschinen-Crawlern mitteilt, welche URLs auf einer Website sie abrufen dürfen. Sie wird vor allem genutzt, um Crawler-Traffic zu steuern und Server nicht unnötig zu belasten.
Quelle: Google Search Central – robots.txt Introduction and Guide

Indexierung #

Bei der Indexierung verarbeitet Google gecrawlte Inhalte und entscheidet, ob eine URL in den Suchindex aufgenommen wird.

noindex steuert genau diesen Schritt: Die Seite darf gecrawlt werden, soll aber nicht im Suchindex erscheinen.

Google erklärt, dass noindex als Meta-Tag oder -Header (Hypertext Transfer Protocol, das Übertragungsprotokoll des Webs) eingesetzt werden kann, um die Indexierung zu verhindern. Wichtig ist: Die Seite darf nicht per robots.txt blockiert sein, sonst kann Google die noindex-Anweisung nicht sehen.
Quelle: Google Search Central – Block Search indexing with noindex

Was bedeutet noindex? #

noindex ist eine Robots-Anweisung, die Suchmaschinen mitteilt:

Diese Seite soll nicht in den Suchergebnissen erscheinen.

Typische HTML-Umsetzung im <head>:

html

<meta name="robots" content="noindex, follow">

Das bedeutet:

noindex: Seite nicht indexieren.
follow: Links auf der Seite dürfen verfolgt werden.

follow ist dabei meist nicht zwingend nötig, wird aber häufig verwendet, um die Absicht klar zu machen.

Google dokumentiert, dass Robots-Meta-Tags und X-Robots-Tags nur gelesen werden können, wenn Crawler Zugriff auf die Seite haben.
Quelle: Google Search Central – Robots Meta Tags

Meta noindex vs. X-Robots-Tag #

Es gibt zwei wichtige Möglichkeiten, noindex zu setzen.

1. Meta-Robots-Tag im HTML #

Für normale HTML-Seiten:

html

<meta name="robots" content="noindex">

oder:

html

<meta name="robots" content="noindex, follow">

Der Tag gehört in den <head> der Seite.

2. X-Robots-Tag im HTTP-Header #

Für PDFs, Bilder, Dateien oder serverseitige Regeln kann noindex im HTTP-Header gesetzt werden:

http

X-Robots-Tag: noindex

Das ist besonders nützlich für:

PDFs,
Word-Dokumente,
Bilder,
Download-Dateien,
automatisch erzeugte Dateien,
ganze Dateitypen.

Google weist darauf hin, dass der X-Robots-Tag besonders nützlich ist, um die Indexierung von Nicht-HTML-Dateien zu steuern.
Quelle: Google Search Central – Meta tags and attributes that Google supports

Was bedeutet „Noindex-Seiten“? #

Der RankScan-Insight „Noindex-Seiten“ bedeutet: RankScan hat Seiten gefunden, die per noindex von der Indexierung ausgeschlossen sind.

Das kann korrekt sein.

Beispiele für bewusst gesetztes noindex:

interne Suchergebnisse,
Warenkorb,
Checkout,
Login,
Dankesseiten,
Filterseiten ohne Suchwert,
dünne Archivseiten,
Staging- oder Testseiten,
interne Dokumentation,
doppelte oder wenig hilfreiche Seiten.

Problematisch wird es, wenn wichtige Seiten betroffen sind:

Startseite,
Leistungsseiten,
Produktseiten,
Kategorieseiten,
Ratgeberartikel,
Standortseiten,
Landingpages,
Seiten in der Sitemap,
Seiten mit organischen Rankings,
Seiten mit Backlinks,
Seiten mit interner Verlinkung.

Ein guter Check meldet deshalb nicht nur, dass noindex vorhanden ist, sondern bewertet, ob das für den Seitentyp sinnvoll ist.

Was bedeutet „Durch robots.txt blockierte Inhalte“? #

Der RankScan-Insight „Durch robots.txt blockierte Inhalte“ bedeutet: Die robots.txt blockiert Inhalte oder Ressourcen, die für Crawling, Rendering oder Sichtbarkeit relevant sein könnten.

Typische Beispiele:

text

User-agent: *
Disallow: /

oder:

text

User-agent: *
Disallow: /blog/

oder:

text

User-agent: *
Disallow: /assets/

Das kann zu Problemen führen, wenn dadurch wichtige Seiten, CSS, JavaScript, Bilder oder andere Ressourcen nicht gecrawlt werden können.

Google erklärt in den technischen Anforderungen, dass eine blockierte URL weiterhin in Suchergebnissen erscheinen kann, wenn Google sie über Links findet. Um eine Seite nicht indexieren zu lassen, soll noindex verwendet werden – und Google muss die URL crawlen können.
Quelle: Google Search Central – Technical requirements

Der kritische Fehler: robots.txt blockiert noindex #

Das häufigste Missverständnis:

text

User-agent: *
Disallow: /alte-seite/

und gleichzeitig auf der Seite:

html

<meta name="robots" content="noindex">

Das wirkt auf den ersten Blick doppelt sicher. Tatsächlich ist es widersprüchlich.

Wenn Google die Seite wegen robots.txt nicht crawlen darf, kann Google den noindex-Tag auf der Seite nicht sehen. Die URL kann trotzdem in den Suchergebnissen erscheinen, etwa wenn andere Seiten darauf verlinken.

Google sagt ausdrücklich: Damit noindex wirksam wird, darf die Seite nicht durch robots.txt blockiert sein und muss für den Crawler zugänglich sein.
Quelle: Google Search Central – Block Search indexing with noindex

Die Regel lautet:

Wenn eine Seite aus dem Index soll: crawlbar lassen und noindex setzen.

robots.txt ist kein Sicherheitsschutz #

Die robots.txt ist öffentlich abrufbar:

text

https://example.ch/robots.txt

Sie ist kein Passwortschutz und keine Zugriffskontrolle.

Nicht geeignet für:

vertrauliche Dokumente,
Kundendaten,
interne Dateien,
Staging-Inhalte,
private PDFs,
Admin-Bereiche mit sensiblen Informationen.

Für sensible Inhalte brauchst du:

Login,
Passwortschutz,
HTTP Auth,
serverseitige Zugriffskontrolle,
VPN (Virtual Private Network),
IP-Beschränkung,
sichere Rollen- und Rechteverwaltung.

Robots.txt basiert auf Kooperation. Seriöse Crawler halten sich daran, aber sie schützt Inhalte nicht vor direktem Zugriff.

noindex, nofollow, index follow: Was bedeutet was? #

Die Begriffe werden oft verwechselt.

Anweisung	Bedeutung
`index`	Seite darf indexiert werden
`noindex`	Seite soll nicht indexiert werden
`follow`	Links auf der Seite dürfen verfolgt werden
`nofollow`	Links auf der Seite sollen nicht verfolgt werden
`noindex, follow`	Seite nicht indexieren, Links trotzdem folgen
`noindex, nofollow`	Seite nicht indexieren, Links nicht folgen
`index, nofollow`	Seite indexieren, Links nicht folgen

In der Praxis ist noindex, follow häufig sinnvoller als noindex, nofollow, wenn die Seite zwar nicht indexiert werden soll, aber weiterhin für Crawling und Orientierung nützlich sind.

Google weist in einem älteren Blogbeitrag darauf hin, mehrere Robots-Werte möglichst in einem Meta-Tag zu kombinieren, um Konflikte zu vermeiden.
Quelle: Google Search Central Blog – Using the robots meta tag

noindex in robots.txt? Nicht verwenden #

Manchmal sieht man Regeln wie:

text

User-agent: *
Noindex: /intern/

Das ist keine zuverlässige Google-Regel.

Google hat 2019 klargestellt, dass nicht unterstützte robots.txt-Regeln wie noindex, nofollow und crawl-delay nicht weiter als inoffizielle Regeln unterstützt werden.
Quelle: Google Search Central Blog – A note on unsupported rules in robots.txt

Wenn du Indexierung verhindern willst, nutze:

html

<meta name="robots" content="noindex">

oder:

http

X-Robots-Tag: noindex

Nicht:

text

Noindex: /pfad/

robots.txt richtig einsetzen #

Die robots.txt ist sinnvoll, wenn du Crawling steuern willst.

Beispiel:

text

User-agent: *
Disallow: /admin/
Disallow: /warenkorb/
Disallow: /checkout/
Disallow: /suche/

Sitemap: https://example.ch/sitemap.xml

Typische sinnvolle Einsätze:

technische Bereiche vom Crawling ausschliessen,
interne Suchergebnisse reduzieren,
unwichtige Parameterbereiche steuern,
Serverlast reduzieren,
bestimmte Bots steuern,
Crawler für Künstliche Intelligenz (KI) gezielt erlauben oder blockieren,
Sitemaps referenzieren.

Wichtig: Blockiere nicht pauschal CSS- oder JavaScript-Dateien, wenn Google sie zum braucht.

Wann noindex, robots.txt, Canonical oder Redirect? #

Diese Werkzeuge haben unterschiedliche Aufgaben.

Ziel	Beste Methode
Seite soll nicht in Google erscheinen, aber erreichbar bleiben	noindex
Crawler sollen URL nicht abrufen	robots.txt
ähnliche URLs sollen auf Hauptversion bündeln
alte URL soll dauerhaft auf neue URL zeigen	301-
Inhalt ist dauerhaft gelöscht	404 oder 410
sensible Inhalte schützen	Login / Passwortschutz
PDF soll nicht indexiert werden	X-Robots-Tag: noindex

Priorisierung: Welche Fälle sind wirklich kritisch? #

Nicht jeder noindex- oder robots.txt-Fund hat dieselbe Relevanz.

Situation	Priorität	Warum
Startseite auf noindex	Hoch	gesamte Sichtbarkeit gefährdet
wichtige Leistungsseite auf noindex	Hoch	kommerzielle Seite verschwindet aus Google
Produkt-/Kategorieseiten auf noindex	Hoch	Umsatzrelevanz
Blog oder Ratgeber-Verzeichnis per robots.txt blockiert	Hoch	Inhalte können nicht gecrawlt werden
wichtige URLs in Sitemap, aber noindex	Hoch	widersprüchliche Signale
robots.txt blockiert CSS/JS (JavaScript) für Rendering	Hoch	Google sieht Seite evtl. unvollständig
Staging-Disallow auf Live-Site	Hoch	gesamte Website kann unsichtbar werden
interne Suche noindex	Niedrig bis mittel	oft korrekt
Warenkorb/Checkout noindex oder disallow	Niedrig	meist gewollt
irrelevante Filter noindex	Mittel	abhängig von Suchpotenzial
blockiert	abhängig von Strategie	relevant für (Artificial Intelligence, englisch für Künstliche Intelligenz), nicht zwingend klassische Suche

Die wichtigste Regel:

Zuerst prüfen, ob indexierbare, wichtige, intern verlinkte oder sitemap-relevante Seiten betroffen sind.

Content-Fehler oder Template-Fehler? #

Ein guter Check unterscheidet, ob ein Fehler einzelne Seiten oder ganze Seitentypen betrifft.

Einzelproblem #

Beispiele:

eine Landingpage wurde versehentlich auf noindex gesetzt,
ein einzelner Artikel hat eine falsche Einstellung in der ,
eine alte Kampagnenseite ist blockiert,
ein einzelnes PDF hat falschen Header.

Lösung: Seite oder Datei korrigieren.

Template- oder Systemproblem #

Beispiele:

alle Blogartikel sind noindex,
Kategorieseiten erben Staging-Einstellung,
robots.txt blockiert ganzes Verzeichnis,
SEO-Plugin setzt global noindex,
Shop-Filter sind pauschal falsch blockiert,
Head-Template gibt falsche Meta-Robots aus,
(Content Delivery Network, ein Netzwerk verteilter Server zur schnelleren Auslieferung) oder WAF (Web Application Firewall) blockiert relevante Bots.

Lösung: Template, CMS-Konfiguration, Plugin, Deployment-Prozess oder Infrastruktur korrigieren.

Systemfehler haben meist höhere Priorität, weil sie viele URLs betreffen.

Typische Ursachen für noindex-Fehler #

1. Staging-Einstellungen wurden übernommen #

Während der Entwicklung ist noindex korrekt. Auf der Live-Site ist es fatal.

Häufige Ursache:

WordPress-Schalter „Suchmaschinen davon abhalten“,
Umgebungsvariable falsch gesetzt,
SEO-Plugin aus Staging übernommen,
Robots-Regeln nicht angepasst.

2. CMS- oder SEO-Plugin falsch konfiguriert #

Ein Plugin kann ganze Inhaltstypen auf noindex setzen:

Kategorien,
Tags,
Autorenseiten,
Produktarchive,
Custom Post Types,
Suchseiten.

3. Template gibt falsche Robots-Meta-Tags aus #

Beispiel:

html

<meta name="robots" content="noindex">

steht im globalen Head und wird dadurch auf allen Seiten ausgegeben.

4. Canonical/noindex-Konflikte #

Eine Seite wird per Canonical als Hauptversion genannt, ist aber gleichzeitig noindex. Das ist widersprüchlich.

5. JavaScript oder Tag Manager setzt Meta-Robots #

Meta-Robots sollten nicht unkontrolliert clientseitig erzeugt oder verändert werden. Für Suchmaschinen muss die Anweisung zuverlässig erkennbar sein.

Typische Ursachen für robots.txt-Fehler #

1. Pauschales Disallow aus Staging #

text

User-agent: *
Disallow: /

Auf Staging sinnvoll. Auf Produktion kritisch.

2. Falsches Verzeichnis blockiert #

text

Disallow: /blog/

wenn der Blog indexiert werden soll.

3. Assets blockiert #

text

Disallow: /assets/
Disallow: /js/
Disallow: /css/

Das kann Rendering und Qualitätsbewertung erschweren.

4. Parameter zu grob blockiert #

Manchmal werden Filter- oder Parameterseiten so breit blockiert, dass wichtige Landingpages betroffen sind.

5. Crawler-spezifische Regeln falsch gesetzt #

Beispiel:

text

User-agent: Googlebot
Disallow: /

Das blockiert Google direkt und ist auf einer Live-Site meistens fatal.

noindex und robots.txt bei KI-Crawlern #

Die robots.txt steuert nicht nur , sondern kann auch KI-Crawler betreffen.

Beispiele für KI-User-Agents:

Wenn du KI-Crawler pauschal blockierst, kann das Auswirkungen auf AI Visibility haben. Gleichzeitig kann es strategisch sinnvoll sein, Training zu begrenzen und Live-Abruf zu erlauben.

Das Thema gehört eng zum Artikel KI-Crawler steuern: robots.txt & .

Wichtig für diesen Artikel:

robots.txt steuert Crawling.
noindex steuert klassische Suchindexierung.
KI-Crawler können durch robots.txt blockiert werden.
Eine Blockade von KI-Crawlern ist nicht automatisch schlecht, sollte aber bewusst erfolgen.
Der normale Googlebot sollte nicht versehentlich blockiert werden, wenn klassische Google-Sichtbarkeit erhalten bleiben soll.

Was tun nach einem RankScan-Fund? #

Wenn RankScan „Noindex-Seiten“ oder „Durch robots.txt blockierte Inhalte“ meldet, solltest du strukturiert vorgehen.

Schritt 1: Betroffene URLs gruppieren #

Prüfe:

einzelne URLs,
Seitentypen,
Verzeichnisse,
Templates,
Sitemaps,
Produktbereiche,
Blogbereiche,
Staging-/Testpfade,
Assets.

Schritt 2: Indexierungsziel bestimmen #

Für jede Gruppe fragen:

Soll diese URL in Google erscheinen?
Soll diese URL gecrawlt werden?
Soll diese URL nur für Nutzer erreichbar sein?
Soll diese URL geschützt werden?

Erst danach entscheidest du über noindex, robots.txt, Canonical, Redirect oder Login.

Schritt 3: Widersprüche erkennen #

Achte auf Kombinationen wie:

Kombination	Problem
noindex + in Sitemap	widersprüchlich
noindex + Canonical auf sich selbst	je nach Ziel unklar
Canonical auf noindex-Ziel	problematisch
robots.txt blockiert Seite mit noindex	Google sieht noindex nicht
robots.txt blockiert CSS/JS	Rendering kann leiden
noindex auf wichtiger Landingpage	Sichtbarkeitsverlust
Disallow auf gesamtem Blog	Inhalte werden nicht gecrawlt

Schritt 4: Ursache beheben #

Typische Massnahmen:

noindex von wichtigen Seiten entfernen,
robots.txt-Regeln präzisieren,
Staging-Regeln aus Produktion entfernen,
Sitemap bereinigen,
noindex-Seiten aus Sitemap entfernen,
CSS/JS wieder crawlbar machen,
Canonical/noindex-Konflikte lösen,
SEO-Plugin-Konfiguration prüfen,
Template korrigieren,
WAF/CDN-Bot-Regeln prüfen.

Schritt 5: In Google Search Console prüfen #

Nutze:

URL-Prüftool,
Seitenindexierung,
Crawling-Statistiken,
robots.txt-Test,
Live-Test,
Sitemap-Bericht.

Google Search Console zeigt unter anderem, ob eine URL durch noindex ausgeschlossen ist oder ob Crawling durch robots.txt blockiert wird.

Schritt 6: Nach dem Fix erneut crawlen #

Prüfe nach der Korrektur:

Ist noindex auf wichtigen Seiten entfernt?
Sind noindex-Seiten aus der Sitemap entfernt?
Ist robots.txt nicht mehr zu restriktiv?
Sind CSS/JS erreichbar?
Sind wichtige URLs indexierbar?
Gibt es weiterhin blockierte Inhalte?
Wurde Google zur erneuten Prüfung angestossen?

Worauf ein guter Indexierungs-Check achtet #

Ein guter Indexierungscheck sollte mehr leisten als nur „noindex gefunden“.

Ein guter Check prüft:

Seiten mit noindex,
wichtige Seiten mit noindex,
noindex-Seiten in Sitemap,
noindex auf kanonischen URLs,
Canonical auf noindex-Ziel,
robots.txt blockiert wichtige Inhalte,
robots.txt blockiert ganze Verzeichnisse,
robots.txt blockiert CSS/JS,
Disallow: / auf Live-Site,
Googlebot-spezifische Blockaden,
KI-Crawler-Blockaden,
noindex im Meta-Tag,
noindex im X-Robots-Tag,
widersprüchliche Robots-Meta-Tags,
robots.txt + noindex-Konflikte,
Statuscode und Indexierbarkeit,
mobile/desktop Unterschiede,
Template- oder CMS-Muster.

So werden „Noindex-Seiten“ und „Durch robots.txt blockierte Inhalte“ zu konkreten Website-Health-Aufgaben.

Beispiel: Unsichtbarer Relaunch durch noindex #

Ausgangslage #

Eine Website wird auf einem Staging-System vorbereitet. Dort ist korrekt gesetzt:

html

<meta name="robots" content="noindex, nofollow">

Nach dem Livegang bleibt diese Einstellung aktiv.

RankScan meldet:

„Noindex-Seiten“
„Durch robots.txt blockierte Inhalte“
„Sinkende Rankings“

Analyse #

wichtige Leistungsseiten sind noindex,
mehrere URLs stehen trotzdem in der Sitemap,
die robots.txt enthält noch Disallow: /staging-assets/,
einige JS-Dateien sind blockiert.

Lösung #

noindex von produktiven Seiten entfernen.
SEO-Plugin-Konfiguration korrigieren.
Sitemap neu generieren.
robots.txt bereinigen.
CSS/JS freigeben.
Staging künftig per HTTP Auth schützen.
Google Search Console URL-Prüfung nutzen.
RankScan erneut crawlen.

Ergebnis #

Die Seiten sind wieder crawlbar und indexierbar. Der Fehler war kein Content-Problem, sondern ein technischer Deployment-Fehler.

Häufige Fehler #

Fehler 1: robots.txt als Indexierungsschutz verwenden #

Disallow verhindert Crawling, nicht zuverlässig Indexierung.

Fehler 2: noindex und robots.txt kombinieren #

Wenn Google eine Seite nicht crawlen darf, kann Google noindex nicht sehen.

Fehler 3: Live-Site mit Staging-Regeln veröffentlichen #

Disallow: / oder globales noindex gehören nicht auf die produktive Website.

Fehler 4: noindex-Seiten in der Sitemap lassen #

Die Sitemap sollte nur URLs enthalten, die indexiert werden sollen.

Fehler 5: CSS und JavaScript blockieren #

Google muss Seiten rendern können. Wichtige Ressourcen sollten crawlbar sein.

Fehler 6: nofollow unnötig verwenden #

nofollow auf internen Seiten kann interne Linksignale und Crawling unnötig schwächen.

Fehler 7: robots.txt für sensible Daten nutzen #

Robots.txt ist öffentlich. Schutz braucht Authentifizierung oder serverseitige Sperren.

Checkliste: noindex und robots.txt prüfen #

Nutze diese Checkliste:

Gibt es wichtige Seiten mit noindex?
Gibt es noindex-Seiten in der Sitemap?
Gibt es Disallow: / auf der Live-Site?
Blockiert robots.txt wichtige Verzeichnisse?
Blockiert robots.txt CSS, JS oder Bilder?
Sind wichtige Seiten crawlbar?
Sind Seiten, die aus dem Index sollen, crawlbar und noindex?
Gibt es Canonical/noindex-Konflikte?
Gibt es mehrere widersprüchliche Robots-Meta-Tags?
Werden X-Robots-Tags auf PDFs korrekt gesetzt?
Sind Staging-Seiten per Auth geschützt?
Wurden SEO-Plugin- und CMS-Einstellungen geprüft?
Wurde in der Google Search Console getestet?
Wurde nach dem Fix erneut gecrawlt?

Ergänzend dazu helfen 404-Fehler, um die Ursache sauber einzugrenzen und die nächsten SEO-Massnahmen zu priorisieren.

FAQ (Frequently Asked Questions, häufig gestellte Fragen) zu noindex und robots.txt #

Was bedeutet noindex?

noindex bedeutet, dass eine Seite nicht in den Suchindex aufgenommen oder daraus entfernt werden soll.

Was ist der Unterschied zwischen noindex und robots.txt?

robots.txt steuert Crawling. noindex steuert Indexierung. Eine Seite muss crawlbar sein, damit Google noindex sehen kann.

Kann ich mit robots.txt Seiten aus Google entfernen?

Nicht zuverlässig. robots.txt verhindert Crawling, nicht zwingend Indexierung. Für Indexierungsausschluss solltest du noindex verwenden und Crawling erlauben.

Was bedeutet noindex, follow?

Die Seite soll nicht indexiert werden, aber die Links auf der Seite dürfen verfolgt werden.

Was bedeutet noindex, nofollow?

Die Seite soll nicht indexiert werden, und Links auf der Seite sollen nicht verfolgt werden.

Sollte ich interne Suchergebnisse auf noindex setzen?

Oft ja. Interne Suchergebnisse erzeugen häufig dünne oder redundante Seiten ohne Suchwert.

Sollte ich Filterseiten per robots.txt blockieren?

Das hängt vom Setup ab. Manche Filter sollten noindex oder canonicalisiert werden, andere können crawlbar bleiben. Wenn Google Canonical oder noindex sehen soll, darf die URL nicht durch robots.txt blockiert sein.

Wie schütze ich Staging-Seiten?

Am besten per Login, HTTP Auth, IP-Schutz oder VPN. noindex allein ist für Staging nicht robust genug.

Warum zeigt Google eine robots-blockierte Seite trotzdem an?

Wenn andere Seiten darauf verlinken, kann Google die URL kennen und eventuell anzeigen, auch wenn der Inhalt nicht gecrawlt werden darf.

Was bedeutet „Durch robots.txt blockierte Inhalte“ in RankScan?

Der Insight bedeutet, dass die robots.txt Inhalte oder Ressourcen blockiert, die für Crawling, Rendering oder Sichtbarkeit relevant sein könnten.

Was bedeutet „Noindex-Seiten“ in RankScan?

Der Insight bedeutet, dass Seiten per noindex von der Indexierung ausgeschlossen sind. Danach muss geprüft werden, ob das gewollt oder versehentlich ist.

Fazit: Crawling und Indexierung sauber trennen #

noindex und robots.txt sind keine austauschbaren Werkzeuge. Wer sie verwechselt, riskiert, wichtige Seiten aus Google zu entfernen oder Google daran zu hindern, entscheidende Signale überhaupt zu lesen.

Die wichtigste Regel lautet:

robots.txt steuert Crawling. noindex steuert Indexierung.

Für RankScan sind die Insights „Noindex-Seiten“ und „Durch robots.txt blockierte Inhalte“ deshalb High-Priority-Signale. Nicht, weil jede noindex-Seite falsch ist. Sondern weil versehentliche Sperren sofort Sichtbarkeit kosten können.

Die beste Vorgehensweise lautet:

betroffene URLs gruppieren,
Indexierungsziel bestimmen,
noindex- und robots.txt-Regeln prüfen,
Widersprüche erkennen,
wichtige Seiten freigeben,
unwichtige Seiten bewusst steuern,
Sitemaps, Canonicals und interne Links abgleichen,
in der Google Search Console testen,
nach dem Fix erneut crawlen.

So wird Indexierungssteuerung nicht zum Risiko, sondern zu einem kontrollierten Teil deiner Website-Health-Strategie.

Crawling vs. Indexierung: Der wichtigste Unterschied #

Crawling #

Indexierung #

Was bedeutet noindex? #

Meta noindex vs. X-Robots-Tag #

1. Meta-Robots-Tag im HTML #

2. X-Robots-Tag im HTTP-Header #

Was bedeutet „Noindex-Seiten“? #

Was bedeutet „Durch robots.txt blockierte Inhalte“? #

Der kritische Fehler: robots.txt blockiert noindex #

robots.txt ist kein Sicherheitsschutz #

noindex, nofollow, index follow: Was bedeutet was? #

noindex in robots.txt? Nicht verwenden #

robots.txt richtig einsetzen #

Wann noindex, robots.txt, Canonical oder Redirect? #

Priorisierung: Welche Fälle sind wirklich kritisch? #

Content-Fehler oder Template-Fehler? #

Einzelproblem #

Template- oder Systemproblem #

Typische Ursachen für noindex-Fehler #

1. Staging-Einstellungen wurden übernommen #

2. CMS- oder SEO-Plugin falsch konfiguriert #

3. Template gibt falsche Robots-Meta-Tags aus #

4. Canonical/noindex-Konflikte #

5. JavaScript oder Tag Manager setzt Meta-Robots #

Typische Ursachen für robots.txt-Fehler #

1. Pauschales Disallow aus Staging #

2. Falsches Verzeichnis blockiert #

3. Assets blockiert #

4. Parameter zu grob blockiert #

5. Crawler-spezifische Regeln falsch gesetzt #

noindex und robots.txt bei KI-Crawlern #

Was tun nach einem RankScan-Fund? #

Schritt 1: Betroffene URLs gruppieren #

Schritt 2: Indexierungsziel bestimmen #

Schritt 3: Widersprüche erkennen #

Schritt 4: Ursache beheben #

Schritt 5: In Google Search Console prüfen #

Schritt 6: Nach dem Fix erneut crawlen #

Worauf ein guter Indexierungs-Check achtet #

Beispiel: Unsichtbarer Relaunch durch noindex #

Ausgangslage #

Analyse #

Lösung #

Ergebnis #

Häufige Fehler #

Fehler 1: robots.txt als Indexierungsschutz verwenden #

Fehler 2: noindex und robots.txt kombinieren #

Fehler 3: Live-Site mit Staging-Regeln veröffentlichen #

Fehler 4: noindex-Seiten in der Sitemap lassen #

Fehler 5: CSS und JavaScript blockieren #

Fehler 6: nofollow unnötig verwenden #

Fehler 7: robots.txt für sensible Daten nutzen #

Checkliste: noindex und robots.txt prüfen #

FAQ (Frequently Asked Questions, häufig gestellte Fragen) zu noindex und robots.txt #

Fazit: Crawling und Indexierung sauber trennen #

Quellen und weiterführende Informationen #

Verwandte Beiträge

Verwaiste Seiten finden und interne Verlinkung optimieren

XML-Sitemap erstellen: Wegweiser für Suchmaschinen

Semantisches HTML: Struktur für Mensch und Maschine