Neue KI-Modelle von OpenAI zeigen höhere Halluzinationsraten bei logischen Aufgaben

Die neu veröffentlichten KI-Modelle o3 und o4-mini von OpenAI glänzen in mehreren Bereichen, zeigen jedoch im Vergleich zu früheren Modellen erhöhte Halluzinationstendenzen und erzeugen mehr erfundene Informationen.
Halluzinationen bleiben eine anhaltende Herausforderung in der KI, selbst für erstklassige Systeme. Normalerweise reduzieren neuere Modelle die Halluzinationsraten, aber o3 und o4-mini weichen von diesem Trend ab.
Interne Tests von OpenAI zeigen, dass o3 und o4-mini, die als logische Modelle konzipiert sind, häufiger halluzinieren als frühere logische Modelle wie o1, o1-mini und o3-mini sowie nicht-logische Modelle wie GPT-4o.
Die Ursache für diesen Anstieg ist für OpenAI unklar und gibt Anlass zur Sorge.
Der technische Bericht von OpenAI zu o3 und o4-mini stellt fest, dass weitere Forschung erforderlich ist, um herauszufinden, warum die Halluzinationsraten bei skalierten logischen Modellen steigen. Obwohl diese Modelle in Bereichen wie Programmierung und Mathematik übertreffen, führt ihre Neigung, mehr Behauptungen aufzustellen, zu sowohl korrekten als auch inkorrekten Ausgaben, so der Bericht.
Im PersonQA-Benchmark von OpenAI halluzinierte o3 in 33 % der Antworten, doppelt so viel wie o1 (16 %) und o3-mini (14,8 %). O4-mini schnitt schlechter ab und halluzinierte in 48 % der Fälle.
Transluce, eine gemeinnützige KI-Forschungsgruppe, stellte fest, dass o3 Aktionen erfand, wie z. B. die Behauptung, Code auf einem MacBook Pro von 2021 außerhalb von ChatGPT ausgeführt zu haben, obwohl es diese Fähigkeiten nicht besitzt.
„Wir vermuten, dass das in der o-Serie verwendete Verstärkungslernen Probleme verschärfen könnte, die normalerweise durch standardmäßige Nach-Trainingsmethoden gemildert werden“, sagte Transluce-Forscher und ehemaliger OpenAI-Mitarbeiter Neil Chowdhury in einer E-Mail an TechCrunch.
Transluce-Mitbegründerin Sarah Schwettmann merkte an, dass die Halluzinationsrate von o3 dessen praktische Nützlichkeit einschränken könnte.
Kian Katanforoosh, außerordentlicher Professor an der Stanford University und CEO von Workera, erklärte TechCrunch, dass sein Team o3 für Programmierworkflows als überlegen empfand, aber dazu neigte, defekte Website-Links zu generieren.
Während Halluzinationen kreative Ideen anregen können, stellen sie für Branchen wie das Recht, wo Genauigkeit entscheidend ist und Fehler in Dokumenten inakzeptabel sind, Herausforderungen dar.
Die Integration von Websuchfunktionen zeigt Potenzial zur Verbesserung der Genauigkeit. GPT-4o von OpenAI mit Websuche erreicht eine Genauigkeit von 90 % bei SimpleQA, was auf Potenzial zur Reduzierung von Halluzinationen in logischen Modellen hinweist, wenn Nutzer den Zugriff auf Suchen von Drittanbietern erlauben.
Wenn die Skalierung logischer Modelle weiterhin die Halluzinationen erhöht, wird die Suche nach Lösungen immer kritischer.
„Die Verbesserung der Modellgenauigkeit und -zuverlässigkeit ist ein zentraler Schwerpunkt unserer laufenden Forschung“, sagte OpenAI-Sprecher Niko Felix in einer E-Mail an TechCrunch.
Die KI-Branche hat sich kürzlich hin zu logischen Modellen bewegt, die die Leistung verbessern, ohne umfangreiche Rechenressourcen zu erfordern. Dieser Wandel scheint jedoch das Risiko von Halluzinationen zu erhöhen, was eine bedeutende Herausforderung darstellt.
Verwandter Artikel
Bedenken über die Talentbindung in den USA durch die Ablehnung der Green Card eines KI-Forschers
Kai Chen, ein kanadischer KI-Experte bei OpenAI mit 12 Jahren in den USA, wurde eine Green Card verweigert, so Noam Brown, ein prominenter Forschungswissenschaftler des Unternehmens. In einem Beitrag
Washington Post arbeitet mit OpenAI zusammen, um Nachrichten über ChatGPT zugänglicher zu machen
The Washington Post und OpenAI haben eine „strategische Partnerschaft“ angekündigt, um „den Zugang zu vertrauenswürdigen Nachrichten über ChatGPT zu erweitern“, so eine Pressemitteilung von The Washin
OpenAI bekräftigt gemeinnützige Wurzeln in großer Unternehmensumstrukturierung
OpenAI bleibt seiner gemeinnützigen Mission treu, während es eine bedeutende Unternehmensumstrukturierung durchläuft und Wachstum mit dem Engagement für ethische KI-Entwicklung in Einklang bringt.CEO
Kommentare (0)
0/200
Die neu veröffentlichten KI-Modelle o3 und o4-mini von OpenAI glänzen in mehreren Bereichen, zeigen jedoch im Vergleich zu früheren Modellen erhöhte Halluzinationstendenzen und erzeugen mehr erfundene Informationen.
Halluzinationen bleiben eine anhaltende Herausforderung in der KI, selbst für erstklassige Systeme. Normalerweise reduzieren neuere Modelle die Halluzinationsraten, aber o3 und o4-mini weichen von diesem Trend ab.
Interne Tests von OpenAI zeigen, dass o3 und o4-mini, die als logische Modelle konzipiert sind, häufiger halluzinieren als frühere logische Modelle wie o1, o1-mini und o3-mini sowie nicht-logische Modelle wie GPT-4o.
Die Ursache für diesen Anstieg ist für OpenAI unklar und gibt Anlass zur Sorge.
Der technische Bericht von OpenAI zu o3 und o4-mini stellt fest, dass weitere Forschung erforderlich ist, um herauszufinden, warum die Halluzinationsraten bei skalierten logischen Modellen steigen. Obwohl diese Modelle in Bereichen wie Programmierung und Mathematik übertreffen, führt ihre Neigung, mehr Behauptungen aufzustellen, zu sowohl korrekten als auch inkorrekten Ausgaben, so der Bericht.
Im PersonQA-Benchmark von OpenAI halluzinierte o3 in 33 % der Antworten, doppelt so viel wie o1 (16 %) und o3-mini (14,8 %). O4-mini schnitt schlechter ab und halluzinierte in 48 % der Fälle.
Transluce, eine gemeinnützige KI-Forschungsgruppe, stellte fest, dass o3 Aktionen erfand, wie z. B. die Behauptung, Code auf einem MacBook Pro von 2021 außerhalb von ChatGPT ausgeführt zu haben, obwohl es diese Fähigkeiten nicht besitzt.
„Wir vermuten, dass das in der o-Serie verwendete Verstärkungslernen Probleme verschärfen könnte, die normalerweise durch standardmäßige Nach-Trainingsmethoden gemildert werden“, sagte Transluce-Forscher und ehemaliger OpenAI-Mitarbeiter Neil Chowdhury in einer E-Mail an TechCrunch.
Transluce-Mitbegründerin Sarah Schwettmann merkte an, dass die Halluzinationsrate von o3 dessen praktische Nützlichkeit einschränken könnte.
Kian Katanforoosh, außerordentlicher Professor an der Stanford University und CEO von Workera, erklärte TechCrunch, dass sein Team o3 für Programmierworkflows als überlegen empfand, aber dazu neigte, defekte Website-Links zu generieren.
Während Halluzinationen kreative Ideen anregen können, stellen sie für Branchen wie das Recht, wo Genauigkeit entscheidend ist und Fehler in Dokumenten inakzeptabel sind, Herausforderungen dar.
Die Integration von Websuchfunktionen zeigt Potenzial zur Verbesserung der Genauigkeit. GPT-4o von OpenAI mit Websuche erreicht eine Genauigkeit von 90 % bei SimpleQA, was auf Potenzial zur Reduzierung von Halluzinationen in logischen Modellen hinweist, wenn Nutzer den Zugriff auf Suchen von Drittanbietern erlauben.
Wenn die Skalierung logischer Modelle weiterhin die Halluzinationen erhöht, wird die Suche nach Lösungen immer kritischer.
„Die Verbesserung der Modellgenauigkeit und -zuverlässigkeit ist ein zentraler Schwerpunkt unserer laufenden Forschung“, sagte OpenAI-Sprecher Niko Felix in einer E-Mail an TechCrunch.
Die KI-Branche hat sich kürzlich hin zu logischen Modellen bewegt, die die Leistung verbessern, ohne umfangreiche Rechenressourcen zu erfordern. Dieser Wandel scheint jedoch das Risiko von Halluzinationen zu erhöhen, was eine bedeutende Herausforderung darstellt.











