Im Webinar haben wir vier Bereiche systematisch durchgearbeitet. Jeder Schritt beantwortet eine konkrete Frage, die Sie sich für Ihre eigene Website stellen sollten.
Schritt 1: Sind Ihre Inhalte in den Trainingsdaten der KI-Modelle vorhanden?
Wenn ein KI-Modell eine Frage beantwortet, greift es zuerst auf sein angelerntes Wissen zurück. Dieses Wissen stammt aus den Daten, mit denen das Modell trainiert wurde. Eine der größten Quellen dabei ist Common Crawl, ein öffentlicher, regelmäßig aktualisierter Snapshot großer Teile des Internets. GPT-4, LLaMA, Gemini und viele andere Modelle werden auf Basis dieses Datensatzes trainiert.
Common Crawl funktioniert ähnlich wie ein Suchmaschinenindex, wird aber nicht täglich aktualisiert, sondern in monatlichen bis quartalsweisen Snapshots veröffentlicht. Wer darin nicht oder kaum vertreten ist, hat deutlich geringere Chancen, im Grundwissen eines KI-Modells aufzutauchen, unabhängig davon, wie hochwertig die eigenen Inhalte sind.
Im Webinar hat René Dhemant live gezeigt, wie sich prüfen lässt, ob eine Domain in aktuellen Common-Crawl-Snapshots vorkommt und welche URLs dabei als besonders autoritativ eingestuft werden. Dafür hat er ein eigenes, kostenfreies Tool entwickelt, das die Prüfung in wenigen Sekunden erledigt.
Für Ihr Unternehmen bedeutet das, wenn Ihre Domain im Common Crawl schwach oder gar nicht vertreten ist, ist das ein starkes Indiz dafür, dass KI-Modelle Ihre Inhalte im angelernten Wissen nicht haben. Kein Training mit Ihren Daten bedeutet keine Grundlage dafür, dass das Modell Sie überhaupt kennt.
Wichtig ist auch, dass Modellanbieter den Common Crawl nochmals nach Qualitätskriterien filtern. Die Präsenz im Index ist kein Garant für die Aufnahme ins Training, sie ist allerdings eine der wenigen Stellschrauben, die Unternehmen selbst beeinflussen können.
Schritt 2: Dürfen KI-Crawler Ihre Website überhaupt betreten?
Parallel zum angelernten Wissen bauen viele KI-Anbieter eigene Live-Indizes auf. OpenAI betreibt dafür einen eigenen Crawler namens GPTBot. Claude von Anthropic nutzt unter anderem den Brave-Search-Index. Google Gemini greift auf den Google-Index zu. Diese Crawler verhalten sich ähnlich wie Suchmaschinen-Bots, werden aber in vielen Robots.txt-Dateien noch immer blockiert, häufig aus veralteten Konfigurationen heraus oder schlicht, weil niemand diese Datei seit Jahren angefasst hat.
Wer KI-Crawler blockiert, sperrt sich selbst aus dem Live-Abruf dieser Systeme aus. Das Modell kann dann keine aktuellen Informationen von Ihrer Website holen, wenn es diese für die Antwortgenerierung benötigt.
Im Webinar hat René Dhemant gezeigt, wie sich eine Robots.txt automatisiert gegen alle relevanten KI- und Suchmaschinen-Crawler prüfen lässt. Er hat dafür ein Online-Tool sowie eine Browser-Extension entwickelt, die im Hintergrund läuft und beim Browsen jeder Domain anzeigt, welche Bots zugelassen oder blockiert sind. Bei einer unserer eigenen Seiten war das Ergebnis eindeutig: Mehrere relevante KI-Crawler wurden aktiv blockiert, ohne dass das jemandem aufgefallen wäre.
Prüfen Sie also Ihre Robots.txt. Diese Prüfung dauert wenige Minuten. Falls relevante Crawler blockiert sind, ist das kein großes technisches Problem, sondern ein kleiner Konfigurationseingriff mit potenziell großer Wirkung.
Schritt 3: Welche Fragen stellt die KI zu Ihren Themen – und sind Sie die Antwort?
KI-Systeme beantworten komplexe Anfragen nicht als ein einziges Thema. Sie zerlegen einen Prompt in viele Unterfragen, sogenannte Fan-Out Queries, und recherchieren diese parallel. Für jede dieser Unterfragen greifen die Systeme auf Suchmaschinendaten zurück. Google Gemini nutzt Google Search, ChatGPT nutzt Bing. Das Ergebnis dieser verteilten Recherche wird dann zu einer synthetisierten Antwort zusammengeführt.
Wenn jemand fragt „Welches CMS ist für ein mittelständisches Unternehmen mit komplexen Anforderungen geeignet?", stellt das Modell dahinter unter anderem Fragen wie „TYPO3 Vorteile Nachteile Unternehmen", „TYPO3 versus Drupal Vergleich Mittelstand" oder „Enterprise CMS Open Source Funktionen 2024". Für jede dieser Unterfragen wird geprüft, welche Websites aktuell ranken, und genau diese URLs fließen als Quellen in die Antwort ein.
Im Webinar hat René Dhemant diesen Prozess live nachgebaut. Er hat ein eigenes Tool verwendet, das zu einem selbst gewählten Thema alle Fan-Out Queries sichtbar macht, die ein KI-Modell generieren würde, zusammen mit den aktuell dafür rankenden URLs. Am Beispiel „Wichtigste Content-Management-Systeme am Markt" kamen dabei Unterfragen heraus wie „Joomla versus Drupal versus TYPO3 Vergleich" oder „Shopify für E-Commerce Stärken und Schwächen". Wer zu diesen Teilfragen nicht rankt, taucht in der Antwort nicht auf, egal wie bekannt die eigene Marke ist.
Sie können also erstmals sehen, in welchen semantischen Teilbereichen Ihres Themenfelds Sie sichtbar sind und wo nicht. Daraus lässt sich eine gezielte Content-Strategie ableiten, bestehende Inhalte stärken, gezielt fehlende Themencluster ergänzen oder Seiten, die bereits ranken, enger miteinander verlinken.
Ein wichtiger Hinweis aus dem Webinar ist, dass man nicht auf einzelne Keywords optimieren sollte. Die Fragen, die Nutzer in KI-Systeme eingeben, variieren stark. Der Fokus sollte auf dem semantischen Kontext liegen, also dem Themenumfeld insgesamt, nicht auf einer einzelnen Formulierung.
Schritt 4: Sind Ihre Inhalte so aufbereitet, dass KI-Systeme sie verwerten können?
Dieser Schritt ist der operativste Teil des Systems, und gleichzeitig derjenige, der kurzfristig die größten Hebel bietet.
Content Chunking – Struktur schlägt Prosa
KI-Systeme verarbeiten Inhalte in sogenannten Chunks, also klar abgegrenzten, in sich vollständigen Informationseinheiten. Lange Textblöcke ohne Struktur, vage Überschriften und werbliche Formulierungen werden schlecht ausgewertet. Was das Modell nicht klar zuordnen kann, nutzt es nicht.
Im Webinar hat René Dhemant live eine unserer eigenen Produktseiten, den Magento-2-Widerrufsbutton, mit einem kostenlosen Onpage-Analyse-Tool geprüft.
Die Überschrift „Handeln Sie jetzt, bevor es der Gesetzgeber tut" mit dem darunter stehenden Absatz wurde als ungeeignet bewertet, weil der Text keine klare, objektive Antwort auf die Handlungsaufforderung der Überschrift gibt, sondern nur Vorteile hervorhebt. Das KI-Tool formulierte als Verbesserungsvorschlag: „Die Implementierung einer professionellen Lösung erfordert Planung. Ein fristgerechter Beginn ermöglicht eine pünktliche Integration und schützt vor potenziellen Bußgeldern." Sachlicher, klarer, maschinenlesbar und für den Nutzer letztlich auch verständlicher.
Gut strukturierter Content ist die Grundlage zu guter Markenkommunikation, dafür, dass überhaupt jemand versteht, was Sie anbieten, ob Mensch oder Maschine.