Neue KI-Modelle von OpenAI zeigen höhere Halluzinationsraten bei logischen Aufgaben

Die neu veröffentlichten KI-Modelle o3 und o4-mini von OpenAI glänzen in mehreren Bereichen, zeigen jedoch im Vergleich zu früheren Modellen erhöhte Halluzinationstendenzen und erzeugen mehr erfundene Informationen.
Halluzinationen bleiben eine anhaltende Herausforderung in der KI, selbst für erstklassige Systeme. Normalerweise reduzieren neuere Modelle die Halluzinationsraten, aber o3 und o4-mini weichen von diesem Trend ab.
Interne Tests von OpenAI zeigen, dass o3 und o4-mini, die als logische Modelle konzipiert sind, häufiger halluzinieren als frühere logische Modelle wie o1, o1-mini und o3-mini sowie nicht-logische Modelle wie GPT-4o.
Die Ursache für diesen Anstieg ist für OpenAI unklar und gibt Anlass zur Sorge.
Der technische Bericht von OpenAI zu o3 und o4-mini stellt fest, dass weitere Forschung erforderlich ist, um herauszufinden, warum die Halluzinationsraten bei skalierten logischen Modellen steigen. Obwohl diese Modelle in Bereichen wie Programmierung und Mathematik übertreffen, führt ihre Neigung, mehr Behauptungen aufzustellen, zu sowohl korrekten als auch inkorrekten Ausgaben, so der Bericht.
Im PersonQA-Benchmark von OpenAI halluzinierte o3 in 33 % der Antworten, doppelt so viel wie o1 (16 %) und o3-mini (14,8 %). O4-mini schnitt schlechter ab und halluzinierte in 48 % der Fälle.
Transluce, eine gemeinnützige KI-Forschungsgruppe, stellte fest, dass o3 Aktionen erfand, wie z. B. die Behauptung, Code auf einem MacBook Pro von 2021 außerhalb von ChatGPT ausgeführt zu haben, obwohl es diese Fähigkeiten nicht besitzt.
„Wir vermuten, dass das in der o-Serie verwendete Verstärkungslernen Probleme verschärfen könnte, die normalerweise durch standardmäßige Nach-Trainingsmethoden gemildert werden“, sagte Transluce-Forscher und ehemaliger OpenAI-Mitarbeiter Neil Chowdhury in einer E-Mail an TechCrunch.
Transluce-Mitbegründerin Sarah Schwettmann merkte an, dass die Halluzinationsrate von o3 dessen praktische Nützlichkeit einschränken könnte.
Kian Katanforoosh, außerordentlicher Professor an der Stanford University und CEO von Workera, erklärte TechCrunch, dass sein Team o3 für Programmierworkflows als überlegen empfand, aber dazu neigte, defekte Website-Links zu generieren.
Während Halluzinationen kreative Ideen anregen können, stellen sie für Branchen wie das Recht, wo Genauigkeit entscheidend ist und Fehler in Dokumenten inakzeptabel sind, Herausforderungen dar.
Die Integration von Websuchfunktionen zeigt Potenzial zur Verbesserung der Genauigkeit. GPT-4o von OpenAI mit Websuche erreicht eine Genauigkeit von 90 % bei SimpleQA, was auf Potenzial zur Reduzierung von Halluzinationen in logischen Modellen hinweist, wenn Nutzer den Zugriff auf Suchen von Drittanbietern erlauben.
Wenn die Skalierung logischer Modelle weiterhin die Halluzinationen erhöht, wird die Suche nach Lösungen immer kritischer.
„Die Verbesserung der Modellgenauigkeit und -zuverlässigkeit ist ein zentraler Schwerpunkt unserer laufenden Forschung“, sagte OpenAI-Sprecher Niko Felix in einer E-Mail an TechCrunch.
Die KI-Branche hat sich kürzlich hin zu logischen Modellen bewegt, die die Leistung verbessern, ohne umfangreiche Rechenressourcen zu erfordern. Dieser Wandel scheint jedoch das Risiko von Halluzinationen zu erhöhen, was eine bedeutende Herausforderung darstellt.
Verwandter Artikel
Satya Nadella bereit, die neuen Vorteile der Vereinbarung mit OpenAI zu nutzen
Am Mittwoch fragte ein Analyst von Wall Street den Microsoft-CEO Satya Nadella direkt, wie die überarbeitete Partnerschaft mit OpenAI die finanziellen Ergebnisse des Unternehmens beeinflussen würde.Nadella bezeichnete die neue Vereinbarung als einen
OpenAI skizziert eine KI-Wirtschaft mit öffentlichen Vermögensfonds, Robotersteuern und einer Vier-Tage-Woche
Während Regierungen darum ringen, die wirtschaftlichen Auswirkungen superintelligenter Maschinen zu bewältigen, hat OpenAI eine Reihe von politischen Vorschlägen veröffentlicht, in denen dargelegt wir
Greg Brockman enthüllt, wie Elon Musk OpenAI verlassen hat
Ende August 2017 trafen sich führende Persönlichkeiten von OpenAI – damals ein kleines gemeinnütziges Forschungslabor –, um zu erörtern, wie sie ein gewinnorientiertes Unternehmen gründen könnten, um
Empfehlungen zu verwandten Spezialthemen
Kommentare (4)
It's wild how OpenAI's new models are so advanced yet still make stuff up! 😅 I wonder if these hallucinations could lead to some creative breakthroughs or just more AI headaches.
I read about OpenAI's new models and, wow, those hallucination rates are concerning! If AI starts making up stuff more often, how can we trust it for serious tasks? 🤔 Still, their capabilities sound impressive.
These new AI models sound powerful, but more hallucinations? That's like a sci-fi plot gone wrong! 🧠 Hope they fix it soon.

Die neu veröffentlichten KI-Modelle o3 und o4-mini von OpenAI glänzen in mehreren Bereichen, zeigen jedoch im Vergleich zu früheren Modellen erhöhte Halluzinationstendenzen und erzeugen mehr erfundene Informationen.
Halluzinationen bleiben eine anhaltende Herausforderung in der KI, selbst für erstklassige Systeme. Normalerweise reduzieren neuere Modelle die Halluzinationsraten, aber o3 und o4-mini weichen von diesem Trend ab.
Interne Tests von OpenAI zeigen, dass o3 und o4-mini, die als logische Modelle konzipiert sind, häufiger halluzinieren als frühere logische Modelle wie o1, o1-mini und o3-mini sowie nicht-logische Modelle wie GPT-4o.
Die Ursache für diesen Anstieg ist für OpenAI unklar und gibt Anlass zur Sorge.
Der technische Bericht von OpenAI zu o3 und o4-mini stellt fest, dass weitere Forschung erforderlich ist, um herauszufinden, warum die Halluzinationsraten bei skalierten logischen Modellen steigen. Obwohl diese Modelle in Bereichen wie Programmierung und Mathematik übertreffen, führt ihre Neigung, mehr Behauptungen aufzustellen, zu sowohl korrekten als auch inkorrekten Ausgaben, so der Bericht.
Im PersonQA-Benchmark von OpenAI halluzinierte o3 in 33 % der Antworten, doppelt so viel wie o1 (16 %) und o3-mini (14,8 %). O4-mini schnitt schlechter ab und halluzinierte in 48 % der Fälle.
Transluce, eine gemeinnützige KI-Forschungsgruppe, stellte fest, dass o3 Aktionen erfand, wie z. B. die Behauptung, Code auf einem MacBook Pro von 2021 außerhalb von ChatGPT ausgeführt zu haben, obwohl es diese Fähigkeiten nicht besitzt.
„Wir vermuten, dass das in der o-Serie verwendete Verstärkungslernen Probleme verschärfen könnte, die normalerweise durch standardmäßige Nach-Trainingsmethoden gemildert werden“, sagte Transluce-Forscher und ehemaliger OpenAI-Mitarbeiter Neil Chowdhury in einer E-Mail an TechCrunch.
Transluce-Mitbegründerin Sarah Schwettmann merkte an, dass die Halluzinationsrate von o3 dessen praktische Nützlichkeit einschränken könnte.
Kian Katanforoosh, außerordentlicher Professor an der Stanford University und CEO von Workera, erklärte TechCrunch, dass sein Team o3 für Programmierworkflows als überlegen empfand, aber dazu neigte, defekte Website-Links zu generieren.
Während Halluzinationen kreative Ideen anregen können, stellen sie für Branchen wie das Recht, wo Genauigkeit entscheidend ist und Fehler in Dokumenten inakzeptabel sind, Herausforderungen dar.
Die Integration von Websuchfunktionen zeigt Potenzial zur Verbesserung der Genauigkeit. GPT-4o von OpenAI mit Websuche erreicht eine Genauigkeit von 90 % bei SimpleQA, was auf Potenzial zur Reduzierung von Halluzinationen in logischen Modellen hinweist, wenn Nutzer den Zugriff auf Suchen von Drittanbietern erlauben.
Wenn die Skalierung logischer Modelle weiterhin die Halluzinationen erhöht, wird die Suche nach Lösungen immer kritischer.
„Die Verbesserung der Modellgenauigkeit und -zuverlässigkeit ist ein zentraler Schwerpunkt unserer laufenden Forschung“, sagte OpenAI-Sprecher Niko Felix in einer E-Mail an TechCrunch.
Die KI-Branche hat sich kürzlich hin zu logischen Modellen bewegt, die die Leistung verbessern, ohne umfangreiche Rechenressourcen zu erfordern. Dieser Wandel scheint jedoch das Risiko von Halluzinationen zu erhöhen, was eine bedeutende Herausforderung darstellt.
Satya Nadella bereit, die neuen Vorteile der Vereinbarung mit OpenAI zu nutzen
Am Mittwoch fragte ein Analyst von Wall Street den Microsoft-CEO Satya Nadella direkt, wie die überarbeitete Partnerschaft mit OpenAI die finanziellen Ergebnisse des Unternehmens beeinflussen würde.Nadella bezeichnete die neue Vereinbarung als einen
OpenAI skizziert eine KI-Wirtschaft mit öffentlichen Vermögensfonds, Robotersteuern und einer Vier-Tage-Woche
Während Regierungen darum ringen, die wirtschaftlichen Auswirkungen superintelligenter Maschinen zu bewältigen, hat OpenAI eine Reihe von politischen Vorschlägen veröffentlicht, in denen dargelegt wir
Greg Brockman enthüllt, wie Elon Musk OpenAI verlassen hat
Ende August 2017 trafen sich führende Persönlichkeiten von OpenAI – damals ein kleines gemeinnütziges Forschungslabor –, um zu erörtern, wie sie ein gewinnorientiertes Unternehmen gründen könnten, um
It's wild how OpenAI's new models are so advanced yet still make stuff up! 😅 I wonder if these hallucinations could lead to some creative breakthroughs or just more AI headaches.
I read about OpenAI's new models and, wow, those hallucination rates are concerning! If AI starts making up stuff more often, how can we trust it for serious tasks? 🤔 Still, their capabilities sound impressive.
These new AI models sound powerful, but more hallucinations? That's like a sci-fi plot gone wrong! 🧠 Hope they fix it soon.





Heim






