Wie wurde die Qualität der AI Overviews untersucht?
Google AI Overviews greifen auf eine Vielzahl unterschiedlicher Quellen zurück. Diese reichen von etablierten, vertrauenswürdigen Websites bis hin zu Inhalten aus sozialen Netzwerken wie Facebook.
Um die Qualität dieser Antworten systematisch zu bewerten, wurde im Auftrag der New York Times eine umfangreiche Analyse durch das KI-Unternehmen Oumi durchgeführt. Grundlage der Untersuchung war der Benchmark SimpleQA. Die Bewertung der Antworten übernahm ein von Oumi entwickeltes Prüfmodell namens „HallOumi“.
Was ist der SimpleQA-Benchmark?
Bei SimpleQA handelt es sich um einen von OpenAI entwickelten Test, der darauf abzielt, die Fähigkeit von KI-Systemen zu messen, kurze und eindeutig beantwortbare Faktenfragen korrekt zu beantworten.
Typische Eigenschaften:
- klare, objektiv überprüfbare Antworten
- Fokus auf Faktenwissen
- binäre Bewertung: richtig oder falsch
Der Benchmark wird insbesondere eingesetzt, um sogenannte Halluzinationen – also fehlerhafte oder frei erfundene Inhalte – systematisch zu erkennen und zu reduzieren.
Hierbei ist wichtig zu wissen, dass SimpleQA nur einen Teil der Realität abbildet, da komplexe oder interpretative Suchanfragen hier nicht berücksichtigt werden.
Ablauf der Untersuchung
Insgesamt wurden im Rahmen der Analyse 4.326 Suchanfragen ausgewertet. Die Untersuchung erfolgte in zwei Etappen: Eine erste Testphase im Oktober 2025 basierte noch auf dem Modell Gemini 2, während eine zweite Auswertung im Februar 2026 nach dem Update auf Gemini 3 durchgeführt wurde. Das Ergebnis
- ca. 85 Prozent korrekt (Gemini 2)
- ca. 91 Prozent korrekt (Gemini 3)
Warum 91 Prozent trotzdem problematisch sind
Auf den ersten Blick wirkt die Quote überzeugend. Bei näherem Hinsehen offenbart sich jedoch ein erhebliches Skalierungsproblem. Google verarbeitet jedes Jahr über fünf Billionen Suchanfragen. Selbst bei einer Fehlerquote von etwa zehn Prozent bedeutet dies, dass die KI jede Stunde Antworten in zweistelliger Millionenhöhe liefert, die nicht korrekt sind. Und das betrifft nicht nur triviale Fragen, sondern auch sensible Themen wie Gesundheit, Finanzen und Recht.
Ein weiteres Problem: fehlende Quellenabsicherung
Hinzu kommt ein weiteres kritisches Ergebnis der Analyse: Ein großer Teil der eigentlich richtigen Antworten ist nicht ausreichend belegt. Beim neueren Modell Gemini 3 lag der Anteil solcher sogenannten „nicht geerdeten“ Antworten bei rund 56 Prozent. Das bedeutet, dass die angegebenen Quellen die Aussagen nicht vollständig stützen. Für Nutzer wird es dadurch deutlich schwieriger, die Richtigkeit der Informationen eigenständig nachzuvollziehen.
Was sagt Google dazu?
Dass AI Overviews nicht fehlerfrei sind, ist auch Google bewusst. Deshalb findet sich unter den KI-generierten Antworten regelmäßig der Hinweis: „KI-Antworten können Fehler enthalten.“
Die Ergebnisse der Oumi-Studie sieht Google dennoch kritisch. Ein Unternehmenssprecher bemängelte, dass die Analyse methodische Schwächen aufweise. Insbesondere wurde angeführt, dass der eingesetzte SimpleQA-Benchmark teilweise selbst ungenaue Daten enthalte und zudem nicht das reale Suchverhalten von Nutzern widerspiegele.
Gleichzeitig zeigen interne Auswertungen von Google, dass das zugrunde liegende Modell Gemini 3 in rund 28 Prozent der Fälle fehlerhafte Informationen liefern kann. Das Unternehmen betont jedoch, dass die AI Overviews insgesamt zuverlässiger seien, da sie nicht nur auf das Modell selbst zurückgreifen, sondern zusätzlich Daten aus der Google-Suche einbeziehen.
Was bedeutet das für Nutzer und Unternehmen?
Unabhängig von der konkreten Fehlerquote wird eines deutlich: KI-generierte Antworten wirken häufig überzeugender, als sie tatsächlich sind. Für Nutzer bedeutet das, dass Informationen nicht ungeprüft übernommen werden sollten. Stattdessen ist es wichtiger denn je, Inhalte kritisch zu hinterfragen und mehrere Quellen zum Vergleich heranzuziehen.
Für Unternehmen und Website-Betreiber hat diese Entwicklung noch weitreichendere Konsequenzen. Inhalte werden zunehmend von der KI verarbeitet und direkt in den Suchergebnissen ausgespielt, ohne dass Nutzer die eigentliche Website besuchen. Die klassische Sichtbarkeit über Klicks verliert damit an Bedeutung, stattdessen verschiebt sie sich hin zur Präsenz innerhalb der KI-generierten Antworten.
Sie möchten wissen, wie stark Ihre Website bereits von diesen Entwicklungen betroffen ist? Dann lohnt sich ein genauer Blick: Wir analysieren für Sie, ob Ihre Inhalte in AI Overviews erscheinen, an welchen Stellen Sie möglicherweise Traffic verlieren und mit welchen konkreten Maßnahmen Sie gezielt gegensteuern können. Kontaktieren Sie bei Interesse gerne das Team der SEO AG Darmstadt.
Wenn Sie wissen möchten, wie AI Overviews grundsätzlich funktionieren und wie Ihre Website sichtbar bleibt, dann lesen Sie auch unseren Beitrag: Google AI Mode und AI Overviews: So bleiben Sie trotz KI-Suche sichtbar.
