Jeder spricht von Chunking,aber kaum jemand meint dasselbe

Wer sich derzeit mit KI-Suche, GEO oder LLMs beschäftigt, stößt früher oder später auf einen Begriff: Chunking.

Auf LinkedIn, in Blogartikeln und auf Konferenzen lese ich immer wieder Empfehlungen wie: „Schreibe chunkbar“, „Optimiere deine Chunks“ oder „Nur gute Chunks werden von KI-Systemen zitiert.“ Ich habe dabei allerdings oft den Eindruck, dass viele über völlig unterschiedliche Dinge sprechen. Denn technisch gesehen ist Chunking etwas ganz anderes als das, was in vielen Diskussionen darunter verstanden wird.

Für uns Redakteure ist das eine verdammt gute Nachricht. Denn wir müssen das Schreiben nicht neu lernen.

Was bedeutet Chunking eigentlich?

Stell dir einen Fachartikel mit 2.000 Wörtern vor. Ein Mensch liest ihn im besten Fall von Anfang bis Ende. Ein KI-System arbeitet völlig anders. Damit ein langer Text leichter verarbeitet werden kann, wird er in kleinere Informationseinheiten aufgeteilt. Diese Abschnitte nennt man Chunks.

Je nach System können das einzelne Absätze, mehrere zusammengehörige Abschnitte oder feste Zeichenketten sein. Moderne KI-Systeme gehen dabei unterschiedlich vor: Manche zerlegen Dokumente bereits beim Indexieren, andere erst später oder sogar abhängig von der jeweiligen Suchanfrage.

Der Grundgedanke bleibt aber derselbe: Aus einem langen Dokument entstehen kleinere Einheiten, die sich mathematisch leichter verarbeiten lassen. Mehr bedeutet Chunking zunächst nicht.

Chunking ist nur ein Schritt

An dieser Stelle entsteht häufig ein Missverständnis. Oft wird so getan, als würde ein KI-System nach dem Chunking einfach den besten Abschnitt auswählen und eins zu eins zitieren. So funktioniert die Verarbeitung aber nicht.

Vereinfacht sieht die Pipeline eher so aus:

Artikel → Chunking → Embeddings → Retrieval → Re-Ranking → Antwort des Sprachmodells

Chunking ist also nur der erste, rein technische Schritt. Anschließend werden die Abschnitte in sogenannte Embeddings umgewandelt – mathematische Repräsentationen ihres Inhalts (Vektoren). Erst dadurch kann das System die semantische Bedeutung einer Suchanfrage mit der Bedeutung deines Textabschnitts abgleichen.

Danach sucht das Retrieval passende Kandidaten, das Re-Ranking bewertet, welche davon wirklich relevant sind, und erst am Ende entscheidet das Sprachmodell, was in die Antwort einfließt.

Die Konsequenz: Ein hervorragend geschriebener Absatz kann trotzdem komplett leer ausgehen. Nicht weil er schlecht formuliert ist, sondern weil andere Passagen zur konkreten Suchanfrage mathematisch besser passen.

Was bedeutet das für Redakteure?

Aus meiner Sicht lautet die eigentliche Frage deshalb nicht: Wie schreibe ich perfekte Chunks? Sondern: Wie schreibe ich Absätze, die auch für sich allein verständlich sind?

Genau hier verändert sich das Schreiben für KI-Systeme kaum. Ein guter Absatz sollte möglichst eigenständig funktionieren. Er darf nicht darauf angewiesen sein, dass der Leser die drei vorherigen Absätze im Kopf hat.

In der Forschung wird dafür inzwischen häufig der Begriff Self-Containment verwendet. Gemeint ist nichts anderes, als dass eine Informationseinheit möglichst vollständig und verständlich bleibt – auch dann, wenn sie aus dem Gesamtkontext herausgelöst wird. Eigentlich genau das, was guter Fachjournalismus schon immer leisten sollte.

Ein Beispiel aus dem Redaktionsalltag

Nehmen wir diesen klassischen Brückensatz:

„Er arbeitet mit einer Spannung von bis zu 1.000 Volt.“

Innerhalb eines fließenden Artikels mag sofort klar sein, dass damit der neue Elektroantrieb aus dem vorherigen Absatz gemeint ist. Betrachtet ein KI-System diesen Satz jedoch isoliert im Chunk, fehlen die entscheidenden Daten. Wer oder was arbeitet mit 1.000 Volt? Ein Motor? Eine Batterie? Ein Wechselrichter?

Deutlich besser:

„Der neue Elektroantrieb arbeitet mit einer Bordspannung von bis zu 1.000 Volt.“

Noch besser ist es, den Hersteller oder das konkrete Produkt direkt mitzunennen. Der Absatz funktioniert dann als autarke Informationseinheit – auch außerhalb des Artikels. Genau darum geht es.

Das ist kein Trick für die KI

Manche SEO-Empfehlungen klingen derzeit so, als müssten wir Texte primär für Sprachmodelle verbiegen. Das halte ich für den völlig falschen Ansatz.

Ein guter Fachtext zeichnet sich seit jeher dadurch aus, dass er präzise formuliert ist, wichtige Entitäten (Begriffe) nennt und Zusammenhänge klar erklärt. Davon profitieren heute nicht nur menschliche Leser. Auch moderne Suchsysteme und LLMs können solche strukturierten Inhalte leichter einordnen, wiederfinden und sinnvoll nutzen.

Die Anforderungen an gutes Schreiben haben sich nicht grundlegend verändert. Sichtbarer geworden ist lediglich, warum diese handwerkliche Qualität inzwischen auch technisch messbar und erfolgskritisch ist.

Meine 5 Fragen für jeden Absatz

Wenn ich heute einen Text schreibe oder redigiere, denke ich weniger über Algorithmen nach als über den einzelnen Absatz. Ich frage mich:

Nennt der Absatz die wichtigste Entität beim Namen?
Ist absolut klar, worauf sich Pronomen (er, sie, es) beziehen?
Beantwortet der Absatz eine konkrete Frage des Nutzers?
Enthält er genügend Kontext, um allein zu stehen?
Funktioniert er auch dann noch, wenn man ihn isoliert liest?

Wenn ich diese Fragen mit Ja beantworten kann, entsteht fast automatisch eine Informationseinheit, mit der sowohl Menschen als auch moderne KI-Systeme hervorragend arbeiten können.

Mein Fazit

Ich glaube, dass der Begriff Chunking derzeit zu stark als Buzzword verheizt wird. Denn das technische Zerlegen erledigt in den meisten Fällen ohnehin die Software im Hintergrund.

Unsere Aufgabe als Redakteure bleibt eine andere: Wir strukturieren Informationen, ordnen sie ein und formulieren sie so klar wie möglich. Deshalb schreibe ich nicht für Chunks. Ich schreibe so, dass gute Informationseinheiten entstehen. Wenn jeder Absatz verständlich, vollständig und präzise formuliert ist, gewinnen am Ende beide: der Mensch, der den Artikel liest – und die KI, die ihn verarbeiten muss.