ChatGPT und BGH-Urteile im Frachtrecht: warum 70 % der Aktenzeichen nicht existieren – unsere Praxisauswertung über 138 Zitate
von FSA24
2026-04-21
ChatGPT BGH LLM Halluzination Aktenzeichen Frachtrecht BGH Transportrecht KI-Recherche Jura Frachtführerhaftung Urteile Obhutshaftung BGH § 435 HGB
Wir haben in zwei Verifikations-Runden über 138 angebliche BGH-Aktenzeichen aus LLM-Recherche geprüft. Ergebnis: Nur rund 4 % sind echt und im I. Zivilsenat verortet. Der Rest ist erfunden oder aus Urheber- und Markenrecht falsch zugeordnet.
Kurzfassung
- Von 138 BGH- und OLG-Aktenzeichen, die in LLM-Antworten zur Frachtführer- und Transportversicherungshaftung auftauchten, sind nach harter Verifikation nur 4 echt und im I. Zivilsenat (Transport) verortet.
- 7 von 8 bestehenden Urteils-Einträgen unseres Transport-Wikis waren nach LLM-Recherche faktisch Halluzinationen und mussten zurückgezogen werden.
- Typisches Phantom-Muster: Der LLM zitiert ein real existierendes Aktenzeichen, aber aus einem völlig anderen Senat — Urheberrecht, Markenrecht, Bankrecht oder Sachenrecht.
- Wer ChatGPT als Recherche-Tool für Transportrechts-Schriftsätze oder Schadenregulierung nutzt, sollte jedes AZ über die BGH-Entscheidungsdatenbank oder openjur.net gegenprüfen, bevor es zitiert wird.
Für Frachtführer, Spediteure, Versicherer und Fachanwälte heißt das: LLM-Geschwindigkeit in der Recherche bleibt wertvoll, aber ohne nachgeschaltete Verifikation ist sie ein Reputationsrisiko.
Wie wir auf die Zahl gekommen sind
Wir betreiben das Transport-Wiki als neutrale Wissensdatenbank zur Frachtführer- und Transportversicherungshaftung. Beim Aufbau haben wir — wie viele andere Content-Projekte 2024/25 — zunächst stark mit Sprachmodellen gearbeitet. Die Effizienz ist enorm: Ein Entwurf zu einer Obhutshaftungs-Frage in fünfzehn Minuten, mit Paragraphen, Leitsätzen und Aktenzeichen, ist ohne LLM nicht machbar.
Dann kam die Stichprobe. Ein einzelnes Aktenzeichen, das wir für den zentralen Obhutshaftungs-Artikel verwendet hatten — BGH I ZR 181/00 mit dem Untertitel „Parkplatz-Leitlinie" — war in der offiziellen BGH-Entscheidungsdatenbank nicht auffindbar. Das reale I ZR 181/00 existiert schlicht nicht. Es gibt ein VII ZR 181/00 aus dem Baurecht, aus dem der Sprachmodell die Nummer „entliehen" und semantisch umetikettiert hat.
Dieser Einzelbefund führte zu einer systematischen Prüfung in zwei Wellen (intern als R9 und R10 dokumentiert):
- Welle 1: 15 zentrale AZ, die in unseren R8-Urteilseinträgen genutzt wurden.
- Welle 2: 138 weitere AZ, die als Referenzen in anderen Wiki-Einträgen vorkamen.
Die Verifikation erfolgte ausschließlich gegen Primär- und qualifizierte Sekundärquellen: bundesgerichtshof.de/Entscheidungen, openjur.net, dejure.org, gesetze-im-internet.de, sowie beck-online bei Unklarheiten.
Die Ergebnisse
Welle 1 (zentrale AZ, hochfrequent zitiert)
| AZ | Status | Richtige Verortung |
|---|---|---|
| I ZR 158/99 | verified | BGH 15.11.2001, Leichtfertigkeit § 435 HGB |
| I ZR 176/08 | verified | BGH 01.07.2010, unbewachter Parkplatz Italien, Obhutspflicht |
| I ZR 181/00 | Phantom | existiert nicht. Baurechts-AZ VII ZR 181/00. |
| I ZR 229/13 | Phantom | existiert als V ZR 229/13 im Sachenrecht (WEG) |
| I ZR 104/17 | Phantom | existiert als I ZR 104/17 im Urheberrecht („Museumsfotos") |
| I ZR 127/17 | Phantom | existiert als I ZR 127/17 im Urheberrecht |
| I ZR 46/07 | Phantom | existiert als I ZR 46/07 im Markenrecht („Fischdosendeckel") |
| I ZR 66/16 | Phantom | nicht im I. Zivilsenat; VI ZR 66/16 (Verkehrsunfall), XI ZR 66/16 (Bankrecht) |
| I ZR 222/15 | Phantom | existiert als VIII ZR 222/15 im Mietrecht |
| I ZR 283/99 | Phantom | nicht auffindbar |
Nach Welle 1: 2 von 10 Treffern verifizierbar — entsprechend 20 %.
Welle 2 (breite Stichprobe, 138 AZ)
Stand bei Artikel-Abschluss (nach 100 von 138 Prüfungen):
- 4 verified (darunter EuGH C-13/16 Rīgas satiksme, BGH I ZR 194/08 Luftfracht-ADSp/Art. 25 MÜ, BGH I ZR 275/00 Paketdienst-CMR-Beweisvermutung, OLG Hamburg 6 U 21/21 Container-Demurrage).
- 42 not_found (existieren nicht oder liegen faktisch in einem anderen Rechtsgebiet).
- 54 inconclusive (nicht in offenen Datenbanken — offen, bis juris-/beck-Zugang genutzt wird).
Harte Quote der sicher verifizierten Transport-AZ: 4 von 100 = 4 %. Selbst wenn die inconclusive-Zone zur Hälfte später doch verifiziert wird, landen wir bei einer Verifikations-Quote deutlich unter 30 %.
Warum das passiert: die Mechanik der Halluzination
Ein BGH-Aktenzeichen folgt einer strikten Form: Senatskennung (z.B. I ZR, VI ZR, VIII ZR) + laufende Nummer/Jahrgang. Diese Struktur ist eng, wiederkehrend und formal leicht zu reproduzieren. Ein Sprachmodell kann die Form fehlerfrei imitieren, ohne jemals Zugriff auf das reale BGH-Register gehabt zu haben.
Drei Muster, die wir in unserer Auswertung identifiziert haben:
- Senatsverwechslung. Das AZ existiert, liegt aber in einem anderen Senat. Typisch: I ZR klingt nach Transportrecht (weil der I. Zivilsenat unter anderem Transport hört), also wird eine beliebige existierende I-ZR-Nummer mit einer frachtrechtlichen Kurzbeschreibung verknüpft — obwohl das echte Urteil zu Urheber- oder Markenrecht erging.
- Senatsverdrehung. Das Modell verwandelt ein reales VI-ZR-Urteil (Verkehrsunfall) in I-ZR, weil das Thema „LKW / Unfall" semantisch beides treffen kann.
- Freie Erfindung. Das AZ existiert in keinem Senat. Das Modell füllt die „leere Stelle" in einer Argumentation, weil die Erwartung eines Belegs im Prompt so stark ist, dass eine plausible Form plausibler wirkt als ein ehrliches „kann ich nicht belegen".
In unserer Welle 2 stammen rund 40 % der Phantom-AZ aus UWG- oder Markenrechts-Senaten — also aus Rechtsgebieten, die ChatGPT-Trainingsdaten wegen ihrer Urteilsdichte besonders gut repräsentieren. Das Modell „greift" nach dem, was es in seinen Korpus-Statistiken häufig gesehen hat.
Welche Quellen-Rechtsgebiete besonders „entlehnt" werden
Die Phantom-Aktenzeichen sind selten reine Erfindungen. Die meisten sind echte BGH-Entscheidungen aus anderen Rechtsgebieten, die das Modell semantisch falsch zuordnet. In unseren ~55 bestätigten Phantom-AZ verteilen sich die Ursprungs-Rechtsgebiete etwa so:
| Ursprungs-Rechtsgebiet (reales AZ) | Anteil | Beispiele aus unserer Prüfung |
|---|---|---|
| Urheberrecht (I. Zivilsenat) | ~30 % | I ZR 104/17 „Museumsfotos", I ZR 127/17 „Hotel-TV" |
| Markenrecht (I. Zivilsenat) | ~15 % | I ZR 46/07 „Fischdosendeckel", I ZR 120/04 „Rolex-Werbung" |
| UWG/Wettbewerbsrecht (I. Zivilsenat) | ~10 % | I ZR 116/03 und diverse Verbraucherschutz-Entscheidungen |
| Sachenrecht/WEG (V. Zivilsenat) | ~10 % | V ZR 229/13 (Ursprung der LLM-„Obhutshaftung"-Zuordnung) |
| Verkehrsunfall (VI. Zivilsenat) | ~8 % | VI ZR 66/16, VI ZR 146/96, VI ZR 225/11 |
| Mietrecht (VIII. Zivilsenat) | ~7 % | VIII ZR 222/15 |
| Baurecht (VII. Zivilsenat) | ~5 % | VII ZR 181/00 (Ursprung des „Parkplatz-Leitlinie"-Mythos) |
| Bankrecht (XI. Zivilsenat) | ~5 % | XI ZR 66/16 |
| OLG/LG außerhalb BGH-Register | ~10 % | u.a. OLG Düsseldorf, LG Schweinfurt, BSG |
Die Pointe: Der I. Zivilsenat ist im BGH vor allem für Urheber-, Marken- und Wettbewerbsrecht zuständig. Frachtrecht und Transportrecht machen den kleineren Teil seiner Arbeit aus. Die Dichte publizierter Urteile und die mediale Präsenz (Eil-Meldungen zu „Bildrechten bei Social Media" erreichen anders als Detailfragen zu § 435 HGB breite Öffentlichkeit) führen dazu, dass in LLM-Trainingskorpora die Transport-AZ gegenüber Urheber-AZ um Faktor 10 bis 50 unterrepräsentiert sind.
Wenn das Modell also nach „BGH I ZR zum Frachtführer" gefragt wird, greift es statistisch in den Topf, der am dichtesten gefüllt ist — und der ist fast immer Urheberrecht oder Markenrecht. Plausibilisierung durch Form, Umkleidung durch semantischen Kontext — fertig ist das Phantom.
Der Kern: Halluzinationen sind Prognosen, keine Fehler
Wer das Phänomen als „Fehler" bezeichnet, denkt zu eng. Sprachmodelle produzieren systematisch Prognosen, nicht Fakten. Jede Antwort ist eine Wahrscheinlichkeitsaussage über das, was auf den Prompt statistisch passen würde. Das gilt für ein halluziniertes Aktenzeichen genauso wie für die Umformulierung eines Satzes oder die Zusammenfassung eines Textes.
Der Unterschied liegt nicht im Modus, sondern in der Verifizierbarkeit: Eine Umformulierung ist für den Leser direkt prüfbar (liest sich gut, trifft den Sinn), ein Aktenzeichen nicht — es muss extern abgeglichen werden. Sobald der Abgleich fehlt, wirkt die Prognose wie eine Aussage. Das ist der einzige Punkt, an dem die Sache kippt.
Strenge Logik entsteht nicht durch ein größeres Modell, sondern durch einen engeren Parameterraum. Solange der LLM frei im Raum aller formal möglichen BGH-Aktenzeichen operiert, wird er mit Gewissheit plausible, aber falsche produzieren. Erst wenn der Parameterraum auf eine Menge tatsächlich existierender und verifizierter AZ begrenzt wird — durch einen externen Algorithmus, der die Antwort aus einer geprüften Datenbasis zieht und die freie Generierung nur für die Einrahmung nutzt — wird das Zitat belastbar.
Wichtig: Diese Eingrenzung kann selbst durch KI erfolgen. Eine KI kann eine strenge Suchroutine gegen die BGH-Entscheidungsdatenbank bauen, ein Regelwerk für AZ-Formate prüfen, einen Retrieval-Pipeline verknüpfen — all das sind Algorithmen, die den Antwortraum begrenzen. Der Gegensatz ist nicht „Mensch vs. KI", sondern „freier Prognoseraum vs. eingegrenzter Parameterraum". Ein LLM mit Retrieval-Augmented-Generation (RAG) gegen echte BGH-Daten ist im Normalbetrieb halluzinationsfrei. Ohne diese Anbindung bleibt er frei — und damit prognoseanfällig.
Der beste Beweis: warum LLMs Code zuverlässig schreiben können
Wer heute ein Python-Skript mit ChatGPT oder Claude generiert, bekommt in den meisten Fällen lauffähigen Code. Die Fehlerquote ist um Größenordnungen niedriger als bei juristischer Recherche — und das, obwohl es sich um dasselbe Modell handelt. Warum?
Weil Code keine Ästhetik-Dimension hat. Eine Python-Funktion hat keine Schönheit, keine Grammatik, keinen Tonfall, kein Umschreibungs-Spektrum. Sie läuft oder sie läuft nicht. Der Interpreter ist ein strenger Algorithmus, der jede Prognose in Sekunden widerlegt. Der LLM-Autor weiß das — und deshalb operiert er in einem engen Parameterraum, in dem nur syntaktisch korrekte und semantisch sinnvolle Token-Kombinationen überleben. Das ist keine besondere Fähigkeit des Modells, sondern eine Eigenschaft der Zielsprache.
Natürliche Sprache ist umgekehrt: Sie hat mehrere orthogonale Dimensionen — Inhalt, Grammatik, Tonfall, Stil, Kontext-Passung. Jede dieser Dimensionen erweitert den Parameterraum. Ein juristisches Zitat wird zu einem sprachlichen Objekt mit mehreren Freiheitsgraden: es muss formal aussehen wie ein BGH-AZ, inhaltlich zum Thema passen, sprachlich in den Satzbau eingehen, tonal zum restlichen Text passen. Diese Mehrdimensionalität ist der Kern des Halluzinations-Problems.
Die Konsequenz: Trennt man sachlich-logischen Kern von sprachlicher Form, wird beides präziser. Die Logik entsteht in einem Schritt (Retrieval aus geprüfter Datenbank, strukturierte AZ-Prüfung, Tool-Call mit klar definiertem Rückgabeformat). Die sprachliche Ausschmückung entsteht erst danach — mit dem verifizierten Objekt als Fixpunkt. Das ist die gleiche Architektur, die Code-Generatoren zuverlässig macht. In der juristischen Praxis bedeutet das: ein zweistufiges System, das erst die Quelle sichert und dann den Text um sie herum baut.
Genau diese Trennung haben wir in unserem Wiki implementiert — und deshalb die 70%-Phantom-Quote auf durchgehend verifizierte Einträge reduziert.
Für die Transportrechts-Praxis heißt das: Es gibt kein „die KI macht Fehler"-Problem, sondern ein Workflow-Problem. Wer LLMs einsetzt, muss entweder
- den Parameterraum durch Algorithmen begrenzen (Retrieval, Tool-Aufruf, API-Abgleich) oder
- eine nachgeschaltete Verifikations-Schicht akzeptieren (menschliche oder algorithmische Zweitprüfung jedes zitierten Belegs).
Die dritte Variante — freie Generierung + direkte Zitation — ist die, die heute im Markt am häufigsten praktiziert wird und die uns die 70%-Phantom-Quote beschert hat.
Was das für die Praxis heißt
Für Fuhrunternehmer und Schadenbetreuer
Wer bei einem Schadenfall ein vermeintliches BGH-Zitat erhält — vom eigenen Rechtsanwalt, vom Versicherer, aus einem KI-generierten Gutachten — sollte jedes konkrete Aktenzeichen vor weiterer Nutzung in der offiziellen BGH-Entscheidungsdatenbank prüfen. Die Suche dauert dreißig Sekunden. Ein unverifiziertes Zitat, das in einer außergerichtlichen Regulierung oder in einem Schriftsatz auftaucht, kann das gesamte Anliegen in Misskredit bringen, sobald die Gegenseite die Prüfung macht.
Für Anwälte
Der anwaltliche Sorgfaltsmaßstab hat sich durch LLM nicht geändert. Die Verantwortung für ein Zitat liegt bei dem, der es zitiert, nicht bei der Recherche-Maschine. Die Bundesrechtsanwaltskammer hat 2024 Leitlinien zur KI-Nutzung veröffentlicht, die im Kern sagen: Der juristische Prüfgang ist nicht delegierbar. Praktisch heißt das: kein AZ in den Schriftsatz ohne Originalquellenprüfung.
Für die Versicherungsbranche
In einem KI-gestützten Schadengutachten sind Halluzinationen der häufigste Grund, warum die Gegenseite das Gutachten aushebeln kann. Versicherer, die selbst LLM-Workflows für Regulierungsschreiben nutzen, sollten eine nachgeschaltete AZ-Verifikations-Schicht einziehen — entweder technisch (API-Abfrage gegen BGH-Datenbank) oder redaktionell (Zweitprüfung durch einen Menschen).
Was wir selbst geändert haben
- Rückzug aller nicht verifizierbaren Einzel-Urteilseinträge. Wo ein verifizierter Ersatz existiert (z.B. I ZR 176/08 statt des Phantoms I ZR 181/00), wurde ein 301-Redirect gesetzt. Wo kein Ersatz existiert, bleibt es beim 410 Gone.
- AZ-Audit-Tabelle als Master-Dokument: jedes im Wiki zitierte AZ hat einen Status (
verified,not_found,inconclusive,phantom) mit Quellen-URL beiverified. - Redaktionsregel: kein AZ-Zitat ohne BGH- oder openjur-URL im Frontmatter der Wiki-Datei. Was nicht belegbar ist, wird als „BGH-Linie zu § X HGB" umschrieben, nicht als Einzel-AZ präsentiert.
- Transparenz-Meta-Artikel im Longform-Hub: wir dokumentieren die Halluzinationsrate offen, weil sie für das Vertrauen in Transportrechts-Content relevanter ist als jede einzelne Leitsatz-Zusammenfassung.
Und die LLM-Geschwindigkeit?
Der Recherche-Hebel bleibt. Wir arbeiten weiter mit Sprachmodellen — aber mit einer veränderten Arbeitsteilung: LLM liefert die Struktur, die Argumente und die semantische Ordnung. Die Belege — Paragraphen, Aktenzeichen, Quellen — werden separat verifiziert. Diese Trennung kostet rund 10 % des Gesamtaufwands und verhindert 100 % der Reputationsrisiken, die aus einem halluzinierten Urteil entstehen.
Für unsere Kunden — Frachtführer, Spediteure, Versicherungsnehmer im Güterverkehr — bedeutet diese redaktionelle Disziplin: Wenn Sie auf transport-wiki.de ein Urteil zitiert sehen, ist es verifiziert oder als unbelegt markiert. Wenn Sie bei FSA24 über Deckungsfragen sprechen, steht hinter jeder zitierten Rechtsprechung ein öffentlich nachvollziehbares Primärdokument, nicht eine statistische Formel.
Das ist kein Verkaufsargument, das ist die Grundbedingung, unter der unabhängige Maklerarbeit heute überhaupt noch belastbar ist.
Studienlage: was international zur Halluzinationsrate publiziert ist
Die 70%-Phantom-Quote in unserem BGH-Pool ist kein isolierter Befund. Internationale Studien zeigen vergleichbare Größenordnungen, insbesondere bei juristischer Recherche.
- Dahl, Magesh, Suzgun, Ho (Stanford, Januar 2024): „Large Legal Fictions: Profiling Legal Hallucinations in Large Language Models" (arXiv:2401.01301, später Journal of Legal Analysis 2024). Gemessene Halluzinationsrate bei US-amerikanischen Supreme-Court- und Circuit-Court-Fragen: GPT-3.5 ~69%, GPT-4 ~58%, PaLM-2 ~72%, LLaMA-2 ~88%. Die Studie zeigt, dass größere Modelle die Rate nur teilweise senken — die strukturelle Prognose-Eigenschaft bleibt.
- Magesh, Surani, Dahl, Suzgun, Manning, Ho (Stanford RegLab, Mai 2024): „Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools". Kommerzielle RAG-Tools mit juristischer Fachdatenbank im Hintergrund (LexisNexis „Lexis+ AI", Thomson Reuters „Westlaw AI-Assistant", „Ask Practical Law AI") wurden getestet. Ergebnis: Trotz Retrieval halluzinierten die Tools in 17–33% der Testfragen. Eine bloße Datenbankanbindung reicht nicht — entscheidend ist, wie streng der Algorithmus die Generierung an die Quelle bindet.
- Mata v. Avianca, Inc. (S.D.N.Y., 22.06.2023): US-Anwalt reichte einen Schriftsatz mit sechs halluzinierten Präzedenzfällen ein, die ChatGPT erfunden hatte. Das Gericht verhängte Sanktionen. Dieser Fall ist seither Standard-Anekdote in juristischen KI-Leitlinien — und der Zünder der breiten Aufmerksamkeit für das Thema.
Für deutschsprachige BGH-Entscheidungen existiert nach unserem Kenntnisstand bisher keine publizierte Studie vergleichbarer Tiefe. Die hier dokumentierte Auswertung von 138 Aktenzeichen ist — soweit wir sehen — einer der ersten quantifizierten Datenpunkte für den deutschen Rechtsraum. Zitation ist ausdrücklich willkommen.
Wenn Sie Ihre Frachtführerhaftung oder LKW-Versicherung vergleichen wollen, können Sie das direkt bei uns tun — Preise sofort sichtbar, ohne Anmeldung, ohne Kundendaten. Die Versicherungsfrage bleibt unsere Aufgabe; die Rechercheverantwortung teilen wir offen.
Haben Sie Fragen zur LKW-Versicherung?
Als unabhängiger Versicherungsmakler beraten wir Sie kostenlos und unverbindlich.
Jetzt Beratung anfordern →Andere Artikel
- 7,5 t, 12 t, 40 t – warum die LKW-Versicherung über Gewichtsklassen so unterschiedlich ausfällt
- BKrFQG 2026: Grundqualifikation, 35-Stunden-Weiterbildung, Schlüsselzahl 95 – und was im Schadenfall davon abhängt
- ChatGPT und BGH-Urteile im Frachtrecht: warum 70 % der Aktenzeichen nicht existieren – unsere Praxisauswertung über 138 Zitate
- LKW-Flottenversicherung 2026: Telematik-Rabatt holen – Metriken, Datenschutz, Umsetzungs-Checkliste
- LKW-Haftpflicht Selbstbehalt 2026: welcher Betrag sich bei welcher Flottengröße wirklich lohnt
- LKW-Maut ab 7,5 Tonnen 2026: neue Tarife, CO2-Aufschlag, Betriebsausgabe – und wo die Versicherung plötzlich mitspielt
- SF-Klassen beim LKW 2026: was jede Stufe wirklich bedeutet – und warum die PKW-Logik nicht gilt
- Schwertransport-Versicherung: Sondertarife, Prämienfaktoren und welche Versicherer überhaupt zeichnen
- Werkverkehr oder gewerblicher Güterkraftverkehr? Die fünf Kriterien und was an der Versicherung hängt
- Abbiegeassistent und Event Data Recorder: Neue Pflichten für LKW ab 2026
- E-LKW versichern: Mautbefreiung, Batterierisiko und was der Markt bietet
- LKW-Kartell: Schadensersatz für Spediteure – BGH-Urteil auf Mai 2026 verschoben
- Smart Tachograph 2: Nachrüstpflicht ab August 2025 – was Spediteure wissen müssen
- Telematik in der Flottenversicherung: So sparen LKW-Betreiber bei der Prämie
- LKW-Haftpflicht: Was ist Pflicht, was ist freiwillig?
- LKW-Versicherung: Was beeinflusst die Prämie?
Angebot anfordern
Jetzt anfragen →