JSON-LD ist tot? Lang lebe JSON-LD!

Stephan Waltl
vor 3 Tagen
3 Min. Lesezeit

Schon weit vor dem 30.11.2022 habe ich damit begonnen gebetsmühlenartig die Wichtigkeit von Annotationen Webseiten zu predigen. Nach meiner Vorstellung lieben Bots jenen Code, den sie leichter und schneller verarbeiten können, ohne groß "nachdenken" zu müssen. Muss sich eine Maschine also durch kompliziertes HTML und JavaScript kämpfen, dann bedeutet das Aufwand für die Maschine, den es zu verhindern gilt. Ohne ein Programmierer zu sein, wird man relativ schnell dieses Konzept verstehen.

Warum auch immer kursiert gerade eine These durchs Netz: JSON-LD sei für KI-Bots irrelevant, weil moderne Crawler das strukturierte Markup einfach rausfiltern und wegwerfen. Wer das glaubt, hat verstanden, wie eine Waschmaschine Wäsche wäscht, aber nicht, warum man überhaupt Wäsche wäscht.

Die Aussage ist technisch nicht falsch und trotzdem führt sie zu den falschen Schlüssen!

Standard-RAG-Pipelines, also jene Systeme, mit denen KI-Anwendungen Webinhalte abrufen und verarbeiten, nutzen sogenannte HTML-to-Text-Parser. Bekannte Bibliotheken wie Readability.js oder BeautifulSoup extrahieren den sichtbaren Hauptinhalt einer Seite und wandeln ihn in sauberes Markdown um. Dabei fliegen <script>-Tags konsequent raus, und damit auch JSON-LD, das immer über <script type="application/ld+json"> eingebunden wird.

Der Grund ist nicht Böswilligkeit, sondern Token-Ökonomie. Ein LLM arbeitet mit einem begrenzten Kontextfenster. Verschachteltes JSON mit @type, @context, eckigen Klammern und Anführungszeichen frisst Token, ohne dem Sprachmodell semantisch viel zu geben. Ein LLM liest JSON-LD, wenn es denn ankäme, als flache Zeichenkette, nicht als strukturierte Datenbank.

Das ist auch der fundamentale Unterschied zu Googlebots Arbeitsweise. Der Googlebot parst JSON-LD deterministisch: Er sieht "cookTime": "PT1H", ordnet das exakt einem Datenbankfeld zu und legt es ab. Ein LLM tut das nicht und kann es auch nicht, weil es kein regelbasierter Parser ist, sondern ein auf "Wahrscheinlichkeiten" agierender Textgenerator. Soweit so richtig!

Warum "KI-Bots ignorieren JSON-LD" trotzdem eine Pauschalbehauptung ist!

Der entscheidende Denkfehler liegt in der Gleichsetzung von "RAG-Pipeline verarbeitet JSON-LD nicht direkt" mit "JSON-LD hat für KI-Sichtbarkeit keine Relevanz."

Der Prozess, wie KI-Systeme auf Webinhalte zugreifen, ist zweistufig:

Stufe: Retrieval ChatGPT Search, Perplexity, Microsoft Copilot und ähnliche Systeme crawlen das gesamte Web nicht eigenständig. Sie fragen klassische Suchindizes ab, konkret die Bing Search API oder den Google-Index, um relevante URLs zu finden. Diese Suchmaschinen nutzen JSON-LD sehr wohl, für Rich Snippets, Entity-Linking, Knowledge-Graph-Einträge. Wer im Google-Index schlecht dasteht, weil ihm Structured Data fehlt, wird von der Such-API gar nicht erst als Quelle empfohlen.
Stufe: Synthesis Erst wenn eine URL als potenzielle Quelle identifiziert ist, schickt der KI-Crawler einen Request. Jetzt extrahiert er den sichtbaren Text, wirft das JSON-LD weg und übergibt das Markdown dem LLM zur Antwortgenerierung.

Das heißt: JSON-LD entscheidet mit, ob eine Seite überhaupt in Stufe 2 landet. Wer an Stufe 1 scheitert, kommt in Stufe 2 nie an! Ich sehe das inzwischen bei meinen Kunden in unterschiedlichen Branchen. Hotels, lokale Dienstleister, Tourismusbetriebe, die strukturiertes Markup sauber eingebunden haben, tauchen in KI-generierten Empfehlungen auf. Betriebe ohne JSON-LD, mit schlechten Rich-Snippet-Signalen und mageren Knowledge-Graph-Einträgen, sucht man in den Antworten von ChatGPT oder Gemini oft vergeblich, selbst wenn die Webseite inhaltlich besser ist.

Man kann das natürlich auch andersrum formulieren: KI-Antworten zitieren Quellen, die Google für vertrauenswürdig hält. Und Google lernt Vertrauenswürdigkeit auch über strukturierte Daten.

Die Frage ist daher nicht "JSON-LD: ja oder nein?" Die Frage ist, was man mit JSON-LD macht und warum. Structured Data als Selbstzweck, eingefügt nach Schema-Vorlage ohne Strategie, ohne konsistente Entitätsdefinition, ohne Abgleich mit den tatsächlichen Inhalten der Seite, bringt wenig. Das ist wie ein Türschild, das einen Namen trägt, den drinnen niemand kennt.

JSON-LD als Teil einer durchdachten Entity-Strategie, kombiniert mit sauberem semantischem HTML, strukturierten Inhalten und konsistenter Außendarstellung im Netz, ist nach wie vor eine der effektivsten Maßnahmen, um in KI-generierten Antworten überhaupt vorzukommen. Wer jetzt Structured Data aus seinen Projekten wirft, weil "KI-Bots das eh ignorieren", spart sich vielleicht eine halbe Stunde Arbeit und verliert dafür langfristig Sichtbarkeit!

JSON-LD ist tot? Lang lebe JSON-LD!

Warum "KI-Bots ignorieren JSON-LD" trotzdem eine Pauschalbehauptung ist!

Aktuelle Beiträge

Kommentare