Neue KI-Modelle von OpenAI zeigen höhere Halluzinationsraten bei logischen Aufgaben

Die neu veröffentlichten KI-Modelle o3 und o4-mini von OpenAI glänzen in mehreren Bereichen, zeigen jedoch im Vergleich zu früheren Modellen erhöhte Halluzinationstendenzen und erzeugen mehr erfundene Informationen.
Halluzinationen bleiben eine anhaltende Herausforderung in der KI, selbst für erstklassige Systeme. Normalerweise reduzieren neuere Modelle die Halluzinationsraten, aber o3 und o4-mini weichen von diesem Trend ab.
Interne Tests von OpenAI zeigen, dass o3 und o4-mini, die als logische Modelle konzipiert sind, häufiger halluzinieren als frühere logische Modelle wie o1, o1-mini und o3-mini sowie nicht-logische Modelle wie GPT-4o.
Die Ursache für diesen Anstieg ist für OpenAI unklar und gibt Anlass zur Sorge.
Der technische Bericht von OpenAI zu o3 und o4-mini stellt fest, dass weitere Forschung erforderlich ist, um herauszufinden, warum die Halluzinationsraten bei skalierten logischen Modellen steigen. Obwohl diese Modelle in Bereichen wie Programmierung und Mathematik übertreffen, führt ihre Neigung, mehr Behauptungen aufzustellen, zu sowohl korrekten als auch inkorrekten Ausgaben, so der Bericht.
Im PersonQA-Benchmark von OpenAI halluzinierte o3 in 33 % der Antworten, doppelt so viel wie o1 (16 %) und o3-mini (14,8 %). O4-mini schnitt schlechter ab und halluzinierte in 48 % der Fälle.
Transluce, eine gemeinnützige KI-Forschungsgruppe, stellte fest, dass o3 Aktionen erfand, wie z. B. die Behauptung, Code auf einem MacBook Pro von 2021 außerhalb von ChatGPT ausgeführt zu haben, obwohl es diese Fähigkeiten nicht besitzt.
„Wir vermuten, dass das in der o-Serie verwendete Verstärkungslernen Probleme verschärfen könnte, die normalerweise durch standardmäßige Nach-Trainingsmethoden gemildert werden“, sagte Transluce-Forscher und ehemaliger OpenAI-Mitarbeiter Neil Chowdhury in einer E-Mail an TechCrunch.
Transluce-Mitbegründerin Sarah Schwettmann merkte an, dass die Halluzinationsrate von o3 dessen praktische Nützlichkeit einschränken könnte.
Kian Katanforoosh, außerordentlicher Professor an der Stanford University und CEO von Workera, erklärte TechCrunch, dass sein Team o3 für Programmierworkflows als überlegen empfand, aber dazu neigte, defekte Website-Links zu generieren.
Während Halluzinationen kreative Ideen anregen können, stellen sie für Branchen wie das Recht, wo Genauigkeit entscheidend ist und Fehler in Dokumenten inakzeptabel sind, Herausforderungen dar.
Die Integration von Websuchfunktionen zeigt Potenzial zur Verbesserung der Genauigkeit. GPT-4o von OpenAI mit Websuche erreicht eine Genauigkeit von 90 % bei SimpleQA, was auf Potenzial zur Reduzierung von Halluzinationen in logischen Modellen hinweist, wenn Nutzer den Zugriff auf Suchen von Drittanbietern erlauben.
Wenn die Skalierung logischer Modelle weiterhin die Halluzinationen erhöht, wird die Suche nach Lösungen immer kritischer.
„Die Verbesserung der Modellgenauigkeit und -zuverlässigkeit ist ein zentraler Schwerpunkt unserer laufenden Forschung“, sagte OpenAI-Sprecher Niko Felix in einer E-Mail an TechCrunch.
Die KI-Branche hat sich kürzlich hin zu logischen Modellen bewegt, die die Leistung verbessern, ohne umfangreiche Rechenressourcen zu erfordern. Dieser Wandel scheint jedoch das Risiko von Halluzinationen zu erhöhen, was eine bedeutende Herausforderung darstellt.
Verwandter Artikel
US-Senat streicht KI-Moratorium aus Haushaltsgesetz inmitten von Kontroversen
Senat hebt Moratorium für KI-Regulierung mit überwältigender Mehrheit aufIn einem seltenen Akt parteiübergreifender Einigkeit stimmten die US-Gesetzgeber am Dienstag fast einstimmig für die Aufhebun
OpenAI enthüllt zwei fortschrittliche Open-Weight-KI-Modelle
OpenAI gab am Dienstag die Veröffentlichung von zwei Open-Weight-KI-Modellen bekannt, die mit den Fähigkeiten seiner o-Serie vergleichbar sind. Beide Modelle sind auf Hugging Face kostenlos herunterla
ByteDance enthüllt Seed-Thinking-v1.5 KI-Modell zur Verbesserung der Denkfähigkeiten
Das Rennen um fortschrittliche denkende KI begann mit OpenAIs o1-Modell im September 2024 und gewann mit dem Start von DeepSeeks R1 im Januar 2025 an Dynamik.Wichtige KI-Entwickler konkurrieren nun da
Kommentare (4)
0/200
GeorgeWilliams
14. August 2025 15:00:59 MESZ
It's wild how OpenAI's new models are so advanced yet still make stuff up! 😅 I wonder if these hallucinations could lead to some creative breakthroughs or just more AI headaches.
0
KennethMartin
12. August 2025 13:00:59 MESZ
I read about OpenAI's new models and, wow, those hallucination rates are concerning! If AI starts making up stuff more often, how can we trust it for serious tasks? 🤔 Still, their capabilities sound impressive.
0
LarryWilliams
4. August 2025 08:48:52 MESZ
These new AI models sound powerful, but more hallucinations? That's like a sci-fi plot gone wrong! 🧠 Hope they fix it soon.
0
ThomasBaker
28. Juli 2025 03:20:21 MESZ
It's wild how OpenAI's new models are so advanced yet still churn out more made-up stuff! 🤯 Kinda makes me wonder if we're getting closer to creative storytelling or just fancy errors.
0
Die neu veröffentlichten KI-Modelle o3 und o4-mini von OpenAI glänzen in mehreren Bereichen, zeigen jedoch im Vergleich zu früheren Modellen erhöhte Halluzinationstendenzen und erzeugen mehr erfundene Informationen.
Halluzinationen bleiben eine anhaltende Herausforderung in der KI, selbst für erstklassige Systeme. Normalerweise reduzieren neuere Modelle die Halluzinationsraten, aber o3 und o4-mini weichen von diesem Trend ab.
Interne Tests von OpenAI zeigen, dass o3 und o4-mini, die als logische Modelle konzipiert sind, häufiger halluzinieren als frühere logische Modelle wie o1, o1-mini und o3-mini sowie nicht-logische Modelle wie GPT-4o.
Die Ursache für diesen Anstieg ist für OpenAI unklar und gibt Anlass zur Sorge.
Der technische Bericht von OpenAI zu o3 und o4-mini stellt fest, dass weitere Forschung erforderlich ist, um herauszufinden, warum die Halluzinationsraten bei skalierten logischen Modellen steigen. Obwohl diese Modelle in Bereichen wie Programmierung und Mathematik übertreffen, führt ihre Neigung, mehr Behauptungen aufzustellen, zu sowohl korrekten als auch inkorrekten Ausgaben, so der Bericht.
Im PersonQA-Benchmark von OpenAI halluzinierte o3 in 33 % der Antworten, doppelt so viel wie o1 (16 %) und o3-mini (14,8 %). O4-mini schnitt schlechter ab und halluzinierte in 48 % der Fälle.
Transluce, eine gemeinnützige KI-Forschungsgruppe, stellte fest, dass o3 Aktionen erfand, wie z. B. die Behauptung, Code auf einem MacBook Pro von 2021 außerhalb von ChatGPT ausgeführt zu haben, obwohl es diese Fähigkeiten nicht besitzt.
„Wir vermuten, dass das in der o-Serie verwendete Verstärkungslernen Probleme verschärfen könnte, die normalerweise durch standardmäßige Nach-Trainingsmethoden gemildert werden“, sagte Transluce-Forscher und ehemaliger OpenAI-Mitarbeiter Neil Chowdhury in einer E-Mail an TechCrunch.
Transluce-Mitbegründerin Sarah Schwettmann merkte an, dass die Halluzinationsrate von o3 dessen praktische Nützlichkeit einschränken könnte.
Kian Katanforoosh, außerordentlicher Professor an der Stanford University und CEO von Workera, erklärte TechCrunch, dass sein Team o3 für Programmierworkflows als überlegen empfand, aber dazu neigte, defekte Website-Links zu generieren.
Während Halluzinationen kreative Ideen anregen können, stellen sie für Branchen wie das Recht, wo Genauigkeit entscheidend ist und Fehler in Dokumenten inakzeptabel sind, Herausforderungen dar.
Die Integration von Websuchfunktionen zeigt Potenzial zur Verbesserung der Genauigkeit. GPT-4o von OpenAI mit Websuche erreicht eine Genauigkeit von 90 % bei SimpleQA, was auf Potenzial zur Reduzierung von Halluzinationen in logischen Modellen hinweist, wenn Nutzer den Zugriff auf Suchen von Drittanbietern erlauben.
Wenn die Skalierung logischer Modelle weiterhin die Halluzinationen erhöht, wird die Suche nach Lösungen immer kritischer.
„Die Verbesserung der Modellgenauigkeit und -zuverlässigkeit ist ein zentraler Schwerpunkt unserer laufenden Forschung“, sagte OpenAI-Sprecher Niko Felix in einer E-Mail an TechCrunch.
Die KI-Branche hat sich kürzlich hin zu logischen Modellen bewegt, die die Leistung verbessern, ohne umfangreiche Rechenressourcen zu erfordern. Dieser Wandel scheint jedoch das Risiko von Halluzinationen zu erhöhen, was eine bedeutende Herausforderung darstellt.




It's wild how OpenAI's new models are so advanced yet still make stuff up! 😅 I wonder if these hallucinations could lead to some creative breakthroughs or just more AI headaches.




I read about OpenAI's new models and, wow, those hallucination rates are concerning! If AI starts making up stuff more often, how can we trust it for serious tasks? 🤔 Still, their capabilities sound impressive.




These new AI models sound powerful, but more hallucinations? That's like a sci-fi plot gone wrong! 🧠 Hope they fix it soon.




It's wild how OpenAI's new models are so advanced yet still churn out more made-up stuff! 🤯 Kinda makes me wonder if we're getting closer to creative storytelling or just fancy errors.












