🔗 Link teilen:

ChatGPT und BGH-Urteile im Frachtrecht: warum 70 % der Aktenzeichen nicht existieren – unsere Praxisauswertung über 138 Zitate

von FSA24

2026-04-21

ChatGPT BGH LLM Halluzination Aktenzeichen Frachtrecht BGH Transportrecht KI-Recherche Jura Frachtführerhaftung Urteile Obhutshaftung BGH § 435 HGB

Wir haben in zwei Verifikations-Runden über 138 angebliche BGH-Aktenzeichen aus LLM-Recherche geprüft. Ergebnis: Nur rund 4 % sind echt und im I. Zivilsenat verortet. Der Rest ist erfunden oder aus Urheber- und Markenrecht falsch zugeordnet.

Kurzfassung

Von 138 BGH- und OLG-Aktenzeichen, die in LLM-Antworten zur Frachtführer- und Transportversicherungshaftung auftauchten, sind nach harter Verifikation nur 4 echt und im I. Zivilsenat (Transport) verortet.
In einer LLM-gelieferten Rohdatenbatch zu BGH-Urteilen waren 7 von 8 Aktenzeichen nach unserer Verifikation faktisch Halluzinationen und wurden vor der Publikation aussortiert. Im veröffentlichten Transport-Wiki standen sie nie unverifiziert.
Typisches Phantom-Muster: Der LLM zitiert ein real existierendes Aktenzeichen, aber aus einem völlig anderen Senat — Urheberrecht, Markenrecht, Bankrecht oder Sachenrecht.
Wer ChatGPT als Recherche-Tool für Transportrechts-Schriftsätze oder Schadenregulierung nutzt, sollte jedes AZ über die BGH-Entscheidungsdatenbank oder openjur.net gegenprüfen, bevor es zitiert wird.

Für Frachtführer, Spediteure, Versicherer und Fachanwälte heißt das: LLM-Geschwindigkeit in der Recherche bleibt wertvoll, aber ohne nachgeschaltete Verifikation ist sie ein Reputationsrisiko.

Wie wir auf die Zahl gekommen sind

Wir betreiben das Transport-Wiki als neutrale Wissensdatenbank zur Frachtführer- und Transportversicherungshaftung. Beim Aufbau haben wir — wie viele andere Content-Projekte 2024/25 — zunächst stark mit Sprachmodellen gearbeitet. Die Effizienz ist enorm: Ein Entwurf zu einer Obhutshaftungs-Frage in fünfzehn Minuten, mit Paragraphen, Leitsätzen und Aktenzeichen, ist ohne LLM nicht machbar.

Dann kam die Stichprobe. Ein einzelnes Aktenzeichen, das wir für den zentralen Obhutshaftungs-Artikel verwendet hatten — BGH I ZR 181/00 mit dem Untertitel „Parkplatz-Leitlinie" — war in der offiziellen BGH-Entscheidungsdatenbank nicht auffindbar. Das reale I ZR 181/00 existiert schlicht nicht. Es gibt ein VII ZR 181/00 aus dem Baurecht, aus dem der Sprachmodell die Nummer „entliehen" und semantisch umetikettiert hat.

Dieser Einzelbefund führte zu einer systematischen Prüfung in zwei Wellen (intern als R9 und R10 dokumentiert):

Welle 1: 15 zentrale AZ, die in unseren R8-Urteilseinträgen genutzt wurden.
Welle 2: 138 weitere AZ, die als Referenzen in anderen Wiki-Einträgen vorkamen.

Die Verifikation erfolgte ausschließlich gegen Primär- und qualifizierte Sekundärquellen: bundesgerichtshof.de/Entscheidungen, openjur.net, dejure.org, gesetze-im-internet.de, sowie beck-online bei Unklarheiten.

Die Ergebnisse

Welle 1 (zentrale AZ, hochfrequent zitiert)

AZ	Status	Richtige Verortung
I ZR 158/99	verified	BGH 15.11.2001, Leichtfertigkeit § 435 HGB
I ZR 176/08	verified	BGH 01.07.2010, unbewachter Parkplatz Italien, Obhutspflicht
I ZR 181/00	Phantom	existiert nicht. Baurechts-AZ VII ZR 181/00.
I ZR 229/13	Phantom	existiert als V ZR 229/13 im Sachenrecht (WEG)
I ZR 104/17	Phantom	existiert als I ZR 104/17 im Urheberrecht („Museumsfotos")
I ZR 127/17	Phantom	existiert als I ZR 127/17 im Urheberrecht
I ZR 46/07	Phantom	existiert als I ZR 46/07 im Markenrecht („Fischdosendeckel")
I ZR 66/16	Phantom	nicht im I. Zivilsenat; VI ZR 66/16 (Verkehrsunfall), XI ZR 66/16 (Bankrecht)
I ZR 222/15	Phantom	existiert als VIII ZR 222/15 im Mietrecht
I ZR 283/99	Phantom	nicht auffindbar

Nach Welle 1: 2 von 10 Treffern verifizierbar — entsprechend 20 %.

Welle 2 (breite Stichprobe, 138 AZ)

Stand bei Artikel-Abschluss (nach 100 von 138 Prüfungen):

4 verified (darunter EuGH C-13/16 Rīgas satiksme, BGH I ZR 194/08 Luftfracht-ADSp/Art. 25 MÜ, BGH I ZR 275/00 Paketdienst-CMR-Beweisvermutung, OLG Hamburg 6 U 21/21 Container-Demurrage).
42 not_found (existieren nicht oder liegen faktisch in einem anderen Rechtsgebiet).
54 inconclusive (nicht in offenen Datenbanken — offen, bis juris-/beck-Zugang genutzt wird).

Harte Quote der sicher verifizierten Transport-AZ: 4 von 100 = 4 %. Selbst wenn die inconclusive-Zone zur Hälfte später doch verifiziert wird, landen wir bei einer Verifikations-Quote deutlich unter 30 %.

Warum das passiert: die Mechanik der Halluzination

Ein BGH-Aktenzeichen folgt einer strikten Form: Senatskennung (z.B. I ZR, VI ZR, VIII ZR) + laufende Nummer/Jahrgang. Diese Struktur ist eng, wiederkehrend und formal leicht zu reproduzieren. Ein Sprachmodell kann die Form fehlerfrei imitieren, ohne jemals Zugriff auf das reale BGH-Register gehabt zu haben.

Drei Muster, die wir in unserer Auswertung identifiziert haben:

Senatsverwechslung. Das AZ existiert, liegt aber in einem anderen Senat. Typisch: I ZR klingt nach Transportrecht (weil der I. Zivilsenat unter anderem Transport hört), also wird eine beliebige existierende I-ZR-Nummer mit einer frachtrechtlichen Kurzbeschreibung verknüpft — obwohl das echte Urteil zu Urheber- oder Markenrecht erging.
Senatsverdrehung. Das Modell verwandelt ein reales VI-ZR-Urteil (Verkehrsunfall) in I-ZR, weil das Thema „LKW / Unfall" semantisch beides treffen kann.
Freie Erfindung. Das AZ existiert in keinem Senat. Das Modell füllt die „leere Stelle" in einer Argumentation, weil die Erwartung eines Belegs im Prompt so stark ist, dass eine plausible Form plausibler wirkt als ein ehrliches „kann ich nicht belegen".

In unserer Welle 2 stammen rund 40 % der Phantom-AZ aus UWG- oder Markenrechts-Senaten — also aus Rechtsgebieten, die ChatGPT-Trainingsdaten wegen ihrer Urteilsdichte besonders gut repräsentieren. Das Modell „greift" nach dem, was es in seinen Korpus-Statistiken häufig gesehen hat.

Welche Quellen-Rechtsgebiete besonders „entlehnt" werden

Die Phantom-Aktenzeichen sind selten reine Erfindungen. Die meisten sind echte BGH-Entscheidungen aus anderen Rechtsgebieten, die das Modell semantisch falsch zuordnet. In unseren ~55 bestätigten Phantom-AZ verteilen sich die Ursprungs-Rechtsgebiete etwa so:

Ursprungs-Rechtsgebiet (reales AZ)	Anteil	Beispiele aus unserer Prüfung
Urheberrecht (I. Zivilsenat)	~30 %	I ZR 104/17 „Museumsfotos", I ZR 127/17 „Hotel-TV"
Markenrecht (I. Zivilsenat)	~15 %	I ZR 46/07 „Fischdosendeckel", I ZR 120/04 „Rolex-Werbung"
UWG/Wettbewerbsrecht (I. Zivilsenat)	~10 %	I ZR 116/03 und diverse Verbraucherschutz-Entscheidungen
Sachenrecht/WEG (V. Zivilsenat)	~10 %	V ZR 229/13 (Ursprung der LLM-„Obhutshaftung"-Zuordnung)
Verkehrsunfall (VI. Zivilsenat)	~8 %	VI ZR 66/16, VI ZR 146/96, VI ZR 225/11
Mietrecht (VIII. Zivilsenat)	~7 %	VIII ZR 222/15
Baurecht (VII. Zivilsenat)	~5 %	VII ZR 181/00 (Ursprung des „Parkplatz-Leitlinie"-Mythos)
Bankrecht (XI. Zivilsenat)	~5 %	XI ZR 66/16
OLG/LG außerhalb BGH-Register	~10 %	u.a. OLG Düsseldorf, LG Schweinfurt, BSG

Die Pointe: Der I. Zivilsenat ist im BGH vor allem für Urheber-, Marken- und Wettbewerbsrecht zuständig. Frachtrecht und Transportrecht machen den kleineren Teil seiner Arbeit aus. Die Dichte publizierter Urteile und die mediale Präsenz (Eil-Meldungen zu „Bildrechten bei Social Media" erreichen anders als Detailfragen zu § 435 HGB breite Öffentlichkeit) führen dazu, dass in LLM-Trainingskorpora die Transport-AZ gegenüber Urheber-AZ um Faktor 10 bis 50 unterrepräsentiert sind.

Wenn das Modell also nach „BGH I ZR zum Frachtführer" gefragt wird, greift es statistisch in den Topf, der am dichtesten gefüllt ist — und der ist fast immer Urheberrecht oder Markenrecht. Plausibilisierung durch Form, Umkleidung durch semantischen Kontext — fertig ist das Phantom.

Der Kern: Halluzinationen sind Prognosen, keine Fehler

Wer das Phänomen als „Fehler" bezeichnet, denkt zu eng. Sprachmodelle produzieren systematisch Prognosen, nicht Fakten. Jede Antwort ist eine Wahrscheinlichkeitsaussage über das, was auf den Prompt statistisch passen würde. Das gilt für ein halluziniertes Aktenzeichen genauso wie für die Umformulierung eines Satzes oder die Zusammenfassung eines Textes.

Der Unterschied liegt nicht im Modus, sondern in der Verifizierbarkeit: Eine Umformulierung ist für den Leser direkt prüfbar (liest sich gut, trifft den Sinn), ein Aktenzeichen nicht — es muss extern abgeglichen werden. Sobald der Abgleich fehlt, wirkt die Prognose wie eine Aussage. Das ist der einzige Punkt, an dem die Sache kippt.

Strenge Logik entsteht nicht durch ein größeres Modell, sondern durch einen engeren Parameterraum. Solange der LLM frei im Raum aller formal möglichen BGH-Aktenzeichen operiert, wird er mit Gewissheit plausible, aber falsche produzieren. Erst wenn der Parameterraum auf eine Menge tatsächlich existierender und verifizierter AZ begrenzt wird — durch einen externen Algorithmus, der die Antwort aus einer geprüften Datenbasis zieht und die freie Generierung nur für die Einrahmung nutzt — wird das Zitat belastbar.

Wichtig: Diese Eingrenzung kann selbst durch KI erfolgen. Eine KI kann eine strenge Suchroutine gegen die BGH-Entscheidungsdatenbank bauen, ein Regelwerk für AZ-Formate prüfen, einen Retrieval-Pipeline verknüpfen — all das sind Algorithmen, die den Antwortraum begrenzen. Der Gegensatz ist nicht „Mensch vs. KI", sondern „freier Prognoseraum vs. eingegrenzter Parameterraum". Ein LLM mit Retrieval-Augmented-Generation (RAG) gegen echte BGH-Daten ist im Normalbetrieb halluzinationsfrei. Ohne diese Anbindung bleibt er frei — und damit prognoseanfällig.

Der beste Beweis: warum LLMs Code zuverlässig schreiben können

Wer heute ein Python-Skript mit ChatGPT oder Claude generiert, bekommt in den meisten Fällen lauffähigen Code. Die Fehlerquote ist um Größenordnungen niedriger als bei juristischer Recherche — und das, obwohl es sich um dasselbe Modell handelt. Warum?

Weil Code keine Ästhetik-Dimension hat. Eine Python-Funktion hat keine Schönheit, keine Grammatik, keinen Tonfall, kein Umschreibungs-Spektrum. Sie läuft oder sie läuft nicht. Der Interpreter ist ein strenger Algorithmus, der jede Prognose in Sekunden widerlegt. Der LLM-Autor weiß das — und deshalb operiert er in einem engen Parameterraum, in dem nur syntaktisch korrekte und semantisch sinnvolle Token-Kombinationen überleben. Das ist keine besondere Fähigkeit des Modells, sondern eine Eigenschaft der Zielsprache.

Natürliche Sprache ist umgekehrt: Sie hat mehrere orthogonale Dimensionen — Inhalt, Grammatik, Tonfall, Stil, Kontext-Passung. Jede dieser Dimensionen erweitert den Parameterraum. Ein juristisches Zitat wird zu einem sprachlichen Objekt mit mehreren Freiheitsgraden: es muss formal aussehen wie ein BGH-AZ, inhaltlich zum Thema passen, sprachlich in den Satzbau eingehen, tonal zum restlichen Text passen. Diese Mehrdimensionalität ist der Kern des Halluzinations-Problems.

Die Konsequenz: Trennt man sachlich-logischen Kern von sprachlicher Form, wird beides präziser. Die Logik entsteht in einem Schritt (Retrieval aus geprüfter Datenbank, strukturierte AZ-Prüfung, Tool-Call mit klar definiertem Rückgabeformat). Die sprachliche Ausschmückung entsteht erst danach — mit dem verifizierten Objekt als Fixpunkt. Das ist die gleiche Architektur, die Code-Generatoren zuverlässig macht. In der juristischen Praxis bedeutet das: ein zweistufiges System, das erst die Quelle sichert und dann den Text um sie herum baut.

Genau diese Trennung haben wir in unserem Wiki von Anfang an gezogen: Der LLM liefert Rohvorschläge, erst nach manueller Quellen-Verifikation gelangen Einträge in den publizierten Bestand. Die 70%-Phantom-Quote am LLM-Eingang hat im veröffentlichten Transport-Wiki keinen einzigen unverifizierten Eintrag produziert — die Verifikations-Schleife saß von Beginn an zwischen Rohinput und Publikation.

Für die Transportrechts-Praxis heißt das: Es gibt kein „die KI macht Fehler"-Problem, sondern ein Workflow-Problem. Wer LLMs einsetzt, muss entweder

den Parameterraum durch Algorithmen begrenzen (Retrieval, Tool-Aufruf, API-Abgleich) oder
eine nachgeschaltete Verifikations-Schicht akzeptieren (menschliche oder algorithmische Zweitprüfung jedes zitierten Belegs).

Die dritte Variante — freie Generierung + direkte Zitation — ist die, die heute im Markt am häufigsten praktiziert wird. In unserem LLM-Rohinput zu BGH-Entscheidungen hat sie eine 70%-Phantom-Quote am Eingang erzeugt — was den strukturellen Bedarf einer Verifikations-Gate illustriert, die wir seit Projektstart zwischen Rohrecherche und Publikation betreiben.

Was das für die Praxis heißt

Für Fuhrunternehmer und Schadenbetreuer

Wer bei einem Schadenfall ein vermeintliches BGH-Zitat erhält — vom eigenen Rechtsanwalt, vom Versicherer, aus einem KI-generierten Gutachten — sollte jedes konkrete Aktenzeichen vor weiterer Nutzung in der offiziellen BGH-Entscheidungsdatenbank prüfen. Die Suche dauert dreißig Sekunden. Ein unverifiziertes Zitat, das in einer außergerichtlichen Regulierung oder in einem Schriftsatz auftaucht, kann das gesamte Anliegen in Misskredit bringen, sobald die Gegenseite die Prüfung macht.

Für Anwälte

Der anwaltliche Sorgfaltsmaßstab hat sich durch LLM nicht geändert. Die Verantwortung für ein Zitat liegt bei dem, der es zitiert, nicht bei der Recherche-Maschine. Die Bundesrechtsanwaltskammer hat 2024 Leitlinien zur KI-Nutzung veröffentlicht, die im Kern sagen: Der juristische Prüfgang ist nicht delegierbar. Praktisch heißt das: kein AZ in den Schriftsatz ohne Originalquellenprüfung.

Für die Versicherungsbranche

In einem KI-gestützten Schadengutachten sind Halluzinationen der häufigste Grund, warum die Gegenseite das Gutachten aushebeln kann. Versicherer, die selbst LLM-Workflows für Regulierungsschreiben nutzen, sollten eine nachgeschaltete AZ-Verifikations-Schicht einziehen — entweder technisch (API-Abfrage gegen BGH-Datenbank) oder redaktionell (Zweitprüfung durch einen Menschen).

Unser Verifikations-Workflow

Ausschluss aller nicht verifizierbaren Einzel-Urteilseinträge aus dem Publikationskanal. Wo ein verifizierter Ersatz existiert (z.B. I ZR 176/08 statt des Phantoms I ZR 181/00), wurde ein 301-Redirect gesetzt. Wo kein Ersatz existiert, bleibt es beim 410 Gone. So bleibt die Linkstruktur sauber, ohne dass unverifizierte Inhalte je den Publikationspfad erreicht hätten.
AZ-Audit-Tabelle als Master-Dokument: jedes im Wiki zitierte AZ hat einen Status (verified, not_found, inconclusive, phantom) mit Quellen-URL bei verified.
Redaktionsregel: kein AZ-Zitat ohne BGH- oder openjur-URL im Frontmatter der Wiki-Datei. Was nicht belegbar ist, wird als „BGH-Linie zu § X HGB" umschrieben, nicht als Einzel-AZ präsentiert.
Transparenz-Meta-Artikel im Longform-Hub: wir dokumentieren die Halluzinationsrate offen, weil sie für das Vertrauen in Transportrechts-Content relevanter ist als jede einzelne Leitsatz-Zusammenfassung.

Und die LLM-Geschwindigkeit?

Der Recherche-Hebel bleibt. Wir arbeiten weiter mit Sprachmodellen — aber mit einer veränderten Arbeitsteilung: LLM liefert die Struktur, die Argumente und die semantische Ordnung. Die Belege — Paragraphen, Aktenzeichen, Quellen — werden separat verifiziert. Diese Trennung kostet rund 10 % des Gesamtaufwands und verhindert 100 % der Reputationsrisiken, die aus einem halluzinierten Urteil entstehen.

Für unsere Kunden — Frachtführer, Spediteure, Versicherungsnehmer im Güterverkehr — bedeutet diese redaktionelle Disziplin: Wenn Sie auf transport-wiki.de ein Urteil zitiert sehen, ist es verifiziert oder als unbelegt markiert. Wenn Sie bei FSA24 über Deckungsfragen sprechen, steht hinter jeder zitierten Rechtsprechung ein öffentlich nachvollziehbares Primärdokument, nicht eine statistische Formel.

Das ist kein Verkaufsargument, das ist die Grundbedingung, unter der unabhängige Maklerarbeit heute überhaupt noch belastbar ist.

Studienlage: was international zur Halluzinationsrate publiziert ist

Die 70%-Phantom-Quote im LLM-Rohinput zu BGH-Entscheidungen ist kein isolierter Befund. Internationale Studien zeigen vergleichbare Größenordnungen, insbesondere bei juristischer Recherche.

Dahl, Magesh, Suzgun, Ho (Stanford, Januar 2024): „Large Legal Fictions: Profiling Legal Hallucinations in Large Language Models" (arXiv:2401.01301, später Journal of Legal Analysis 2024). Gemessene Halluzinationsrate bei US-amerikanischen Supreme-Court- und Circuit-Court-Fragen: GPT-3.5 ~69%, GPT-4 ~58%, PaLM-2 ~72%, LLaMA-2 ~88%. Die Studie zeigt, dass größere Modelle die Rate nur teilweise senken — die strukturelle Prognose-Eigenschaft bleibt.
Magesh, Surani, Dahl, Suzgun, Manning, Ho (Stanford RegLab, Mai 2024): „Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools". Kommerzielle RAG-Tools mit juristischer Fachdatenbank im Hintergrund (LexisNexis „Lexis+ AI", Thomson Reuters „Westlaw AI-Assistant", „Ask Practical Law AI") wurden getestet. Ergebnis: Trotz Retrieval halluzinierten die Tools in 17–33% der Testfragen. Eine bloße Datenbankanbindung reicht nicht — entscheidend ist, wie streng der Algorithmus die Generierung an die Quelle bindet.
Mata v. Avianca, Inc. (S.D.N.Y., 22.06.2023): US-Anwalt reichte einen Schriftsatz mit sechs halluzinierten Präzedenzfällen ein, die ChatGPT erfunden hatte. Das Gericht verhängte Sanktionen. Dieser Fall ist seither Standard-Anekdote in juristischen KI-Leitlinien — und der Zünder der breiten Aufmerksamkeit für das Thema.

Für deutschsprachige BGH-Entscheidungen existiert nach unserem Kenntnisstand bisher keine publizierte Studie vergleichbarer Tiefe. Die hier dokumentierte Auswertung von 138 Aktenzeichen ist — soweit wir sehen — einer der ersten quantifizierten Datenpunkte für den deutschen Rechtsraum. Zitation ist ausdrücklich willkommen.

Wenn Sie Ihre Frachtführerhaftung oder LKW-Versicherung vergleichen wollen, können Sie das direkt bei uns tun — Preise sofort sichtbar, ohne Anmeldung, ohne Kundendaten. Die Versicherungsfrage bleibt unsere Aufgabe; die Rechercheverantwortung teilen wir offen.

EVB-Hotline: +49 172 3742980 · Tarifrechner

Haben Sie Fragen zur LKW-Versicherung?

Als unabhängiger Versicherungsmakler beraten wir Sie kostenlos und unverbindlich.

Jetzt Beratung anfordern →

← Alle News

Andere Artikel

Angebot anfordern

Jetzt anfragen →