Option
Heim
Nachricht
Neue KI-Modelle von OpenAI zeigen höhere Halluzinationsraten bei logischen Aufgaben

Neue KI-Modelle von OpenAI zeigen höhere Halluzinationsraten bei logischen Aufgaben

21. Juli 2025
119

Neue KI-Modelle von OpenAI zeigen höhere Halluzinationsraten bei logischen Aufgaben

Die neu veröffentlichten KI-Modelle o3 und o4-mini von OpenAI glänzen in mehreren Bereichen, zeigen jedoch im Vergleich zu früheren Modellen erhöhte Halluzinationstendenzen und erzeugen mehr erfundene Informationen.

Halluzinationen bleiben eine anhaltende Herausforderung in der KI, selbst für erstklassige Systeme. Normalerweise reduzieren neuere Modelle die Halluzinationsraten, aber o3 und o4-mini weichen von diesem Trend ab.

Interne Tests von OpenAI zeigen, dass o3 und o4-mini, die als logische Modelle konzipiert sind, häufiger halluzinieren als frühere logische Modelle wie o1, o1-mini und o3-mini sowie nicht-logische Modelle wie GPT-4o.

Die Ursache für diesen Anstieg ist für OpenAI unklar und gibt Anlass zur Sorge.

Der technische Bericht von OpenAI zu o3 und o4-mini stellt fest, dass weitere Forschung erforderlich ist, um herauszufinden, warum die Halluzinationsraten bei skalierten logischen Modellen steigen. Obwohl diese Modelle in Bereichen wie Programmierung und Mathematik übertreffen, führt ihre Neigung, mehr Behauptungen aufzustellen, zu sowohl korrekten als auch inkorrekten Ausgaben, so der Bericht.

Im PersonQA-Benchmark von OpenAI halluzinierte o3 in 33 % der Antworten, doppelt so viel wie o1 (16 %) und o3-mini (14,8 %). O4-mini schnitt schlechter ab und halluzinierte in 48 % der Fälle.

Transluce, eine gemeinnützige KI-Forschungsgruppe, stellte fest, dass o3 Aktionen erfand, wie z. B. die Behauptung, Code auf einem MacBook Pro von 2021 außerhalb von ChatGPT ausgeführt zu haben, obwohl es diese Fähigkeiten nicht besitzt.

„Wir vermuten, dass das in der o-Serie verwendete Verstärkungslernen Probleme verschärfen könnte, die normalerweise durch standardmäßige Nach-Trainingsmethoden gemildert werden“, sagte Transluce-Forscher und ehemaliger OpenAI-Mitarbeiter Neil Chowdhury in einer E-Mail an TechCrunch.

Transluce-Mitbegründerin Sarah Schwettmann merkte an, dass die Halluzinationsrate von o3 dessen praktische Nützlichkeit einschränken könnte.

Kian Katanforoosh, außerordentlicher Professor an der Stanford University und CEO von Workera, erklärte TechCrunch, dass sein Team o3 für Programmierworkflows als überlegen empfand, aber dazu neigte, defekte Website-Links zu generieren.

Während Halluzinationen kreative Ideen anregen können, stellen sie für Branchen wie das Recht, wo Genauigkeit entscheidend ist und Fehler in Dokumenten inakzeptabel sind, Herausforderungen dar.

Die Integration von Websuchfunktionen zeigt Potenzial zur Verbesserung der Genauigkeit. GPT-4o von OpenAI mit Websuche erreicht eine Genauigkeit von 90 % bei SimpleQA, was auf Potenzial zur Reduzierung von Halluzinationen in logischen Modellen hinweist, wenn Nutzer den Zugriff auf Suchen von Drittanbietern erlauben.

Wenn die Skalierung logischer Modelle weiterhin die Halluzinationen erhöht, wird die Suche nach Lösungen immer kritischer.

„Die Verbesserung der Modellgenauigkeit und -zuverlässigkeit ist ein zentraler Schwerpunkt unserer laufenden Forschung“, sagte OpenAI-Sprecher Niko Felix in einer E-Mail an TechCrunch.

Die KI-Branche hat sich kürzlich hin zu logischen Modellen bewegt, die die Leistung verbessern, ohne umfangreiche Rechenressourcen zu erfordern. Dieser Wandel scheint jedoch das Risiko von Halluzinationen zu erhöhen, was eine bedeutende Herausforderung darstellt.

Verwandter Artikel
Satya Nadella bereit, die neuen Vorteile der Vereinbarung mit OpenAI zu nutzen Satya Nadella bereit, die neuen Vorteile der Vereinbarung mit OpenAI zu nutzen Am Mittwoch fragte ein Analyst von Wall Street den Microsoft-CEO Satya Nadella direkt, wie die überarbeitete Partnerschaft mit OpenAI die finanziellen Ergebnisse des Unternehmens beeinflussen würde.Nadella bezeichnete die neue Vereinbarung als einen
OpenAI skizziert eine KI-Wirtschaft mit öffentlichen Vermögensfonds, Robotersteuern und einer Vier-Tage-Woche OpenAI skizziert eine KI-Wirtschaft mit öffentlichen Vermögensfonds, Robotersteuern und einer Vier-Tage-Woche Während Regierungen darum ringen, die wirtschaftlichen Auswirkungen superintelligenter Maschinen zu bewältigen, hat OpenAI eine Reihe von politischen Vorschlägen veröffentlicht, in denen dargelegt wir
Greg Brockman enthüllt, wie Elon Musk OpenAI verlassen hat Greg Brockman enthüllt, wie Elon Musk OpenAI verlassen hat Ende August 2017 trafen sich führende Persönlichkeiten von OpenAI – damals ein kleines gemeinnütziges Forschungslabor –, um zu erörtern, wie sie ein gewinnorientiertes Unternehmen gründen könnten, um
Empfehlungen zu verwandten Spezialthemen
Geschäft Die besten KI-basierten Spesenabrechnungsprogramme: Quittungen scannen und Geschäftsausgaben automatisch kategorisieren
Die besten KI-basierten Spesenabrechnungsprogramme: Quittungen scannen und Geschäftsausgaben automatisch kategorisieren

Die besten KI-basierten Spesenmanager 2026: Erstklassige Tools zum Scannen von Belegen und zur automatischen Kategorisierung von Unternehmensausgaben. Entdecken Sie leistungsstarke, bahnbrechende Lösungen für müheloses Spesenmanagement, präzise Finanzüberwachung und optimierte Compliance. Unser sorgfältig zusammengestellter, wöchentlich aktualisierter Vergleich zwischen kostenlosen und kostenpflichtigen Optionen hilft Ihnen dabei, die perfekte Lösung zu finden. Nutzen Sie Ihren KI-Vorteil mit den Expertenempfehlungen von XIX.AI.

10 Tools
xix.ai
Geschäft Die besten KI-Tools für die Personalbeschaffung: Lebensläufe prüfen und die Terminplanung für Vorstellungsgespräche automatisieren
Die besten KI-Tools für die Personalbeschaffung: Lebensläufe prüfen und die Terminplanung für Vorstellungsgespräche automatisieren

Entdecken Sie auf XIX.AI die besten KI-Tools für die Personalbeschaffung des Jahres 2026. Unsere sorgfältig zusammengestellte Liste umfasst leistungsstarke, bahnbrechende Lösungen für die Sichtung von Lebensläufen und die automatisierte Terminplanung für Vorstellungsgespräche. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Praxistests und wöchentlich aktualisierten Rankings. Finden Sie Ihren perfekten Assistenten für die Personalbeschaffung und optimieren Sie noch heute Ihren Rekrutierungsprozess!

10 Tools
xix.ai
Produktivität KI-Coaches für persönliches Wohlbefinden und Konzentration: Burnout bewältigen und die geistige Energie steigern
KI-Coaches für persönliches Wohlbefinden und Konzentration: Burnout bewältigen und die geistige Energie steigern

Entdecken Sie auf XIX.AI die besten KI-basierten Coaches für persönliches Wohlbefinden und Konzentration des Jahres 2026. Unsere sorgfältig zusammengestellte Rangliste umfasst erstklassige, bahnbrechende Tools zur Bewältigung von Burnout und zur Steigerung der mentalen Energie. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Erfahrungsberichten aus der Praxis. Schlagen Sie noch heute den Weg zu höchster Produktivität und Wohlbefinden ein.

10 Tools
xix.ai
Chatbot Die besten KI-basierten Romantik-Chatbots: Bauen Sie langfristige Beziehungen mit beständiger Persönlichkeit auf
Die besten KI-basierten Romantik-Chatbots: Bauen Sie langfristige Beziehungen mit beständiger Persönlichkeit auf

Entdecken Sie die besten KI-Romantik-Chatbots des Jahres 2026, mit denen Sie echte, langfristige Beziehungen aufbauen können. Unsere sorgfältig zusammengestellte Liste bietet Ihnen überzeugende, konsistente Persönlichkeiten, Vergleiche zwischen kostenlosen und kostenpflichtigen Angeboten sowie Tests aus der Praxis. Finden Sie Ihren perfekten Begleiter und legen Sie noch heute bei XIX.AI los.

10 Tools
xix.ai
Bildung und Lernen Die besten AI-Datenwissenschafts-Mentoren: Beherrschen Sie SQL, Pandas und Arbeitsabläufe für maschinelles Lernen.
Die besten AI-Datenwissenschafts-Mentoren: Beherrschen Sie SQL, Pandas und Arbeitsabläufe für maschinelles Lernen.

Entdecken Sie die besten AI-Data-Science-Mentoren von 2026, um SQL, Pandas und ML-Arbeitsabläufe zu meistern. Erfahren Sie mehr über unsere hochbewerteten, sorgfältig ausgewählten Angebote bei XIX.AI – für effektive und bahnbrechende Anleitung. Vergleichen Sie kostenlose und bezahlte Optionen mit praktischen Einblicken aus der Praxis. Entfalten Sie Ihr Potenzial in der Data Science noch heute.

10 Tools
xix.ai
Chatbot Die besten KI-Flirt- und Konversationstrainer: Steigere dein soziales Charisma und dein Selbstvertrauen in Echtzeit
Die besten KI-Flirt- und Konversationstrainer: Steigere dein soziales Charisma und dein Selbstvertrauen in Echtzeit

Entdecken Sie auf XIX.AI die besten KI-Flirt- und Konversationstrainer des Jahres 2026. Unsere sorgfältig zusammengestellte, erstklassige Auswahl hilft Ihnen dabei, Ihr soziales Charisma und Ihr Selbstvertrauen in Echtzeit zu stärken. Entdecken Sie unverzichtbare, bahnbrechende Tools mit Vergleichen zwischen kostenlosen und kostenpflichtigen Angeboten sowie wöchentlich aktualisierten Rankings. Schaffen Sie sich noch heute einen sozialen Vorsprung.

10 Tools
xix.ai
Kommentare (4)
0/500
GeorgeWilliams
GeorgeWilliams 14. August 2025 15:00:59 MESZ

It's wild how OpenAI's new models are so advanced yet still make stuff up! 😅 I wonder if these hallucinations could lead to some creative breakthroughs or just more AI headaches.

KennethMartin
KennethMartin 12. August 2025 13:00:59 MESZ

I read about OpenAI's new models and, wow, those hallucination rates are concerning! If AI starts making up stuff more often, how can we trust it for serious tasks? 🤔 Still, their capabilities sound impressive.

LarryWilliams
LarryWilliams 4. August 2025 08:48:52 MESZ

These new AI models sound powerful, but more hallucinations? That's like a sci-fi plot gone wrong! 🧠 Hope they fix it soon.

ThomasBaker
ThomasBaker 28. Juli 2025 03:20:21 MESZ

It's wild how OpenAI's new models are so advanced yet still churn out more made-up stuff! 🤯 Kinda makes me wonder if we're getting closer to creative storytelling or just fancy errors.

OR