OpenAI-Mitbegründer drängt auf branchenweite KI-Sicherheitstests

Zwei der weltweit führenden KI-Labors, OpenAI und Anthropic, gewährten vorübergehend Zugang zu ihren streng gehüteten KI-Modellen für gemeinsame Sicherheitstests - ein seltener Fall von unternehmensübergreifender Zusammenarbeit inmitten des intensiven Wettbewerbs in der Branche. Die Initiative sollte blinde Flecken in den internen Bewertungen der beiden Unternehmen aufdecken und aufzeigen, wie führende KI-Unternehmen gemeinsam die Sicherheit und die Angleichung ihrer Anstrengungen in Zukunft vorantreiben können.
In einem Interview mit TechCrunch erklärte OpenAI-Mitbegründer Wojciech Zaremba, dass eine solche Zusammenarbeit immer wichtiger wird, je weiter KI in eine "folgenreichere" Phase eintritt, in der Millionen von Nutzern täglich mit KI-Modellen interagieren.
"Eine größere Herausforderung für die Branche ist die Festlegung von Sicherheits- und Kooperationsstandards, auch wenn Milliarden von Dollar investiert werden und ein harter Kampf um Talente, Nutzer und herausragende Produkte entbrennt", so Zaremba.
Die gemeinsame Sicherheitsstudie, die am Mittwoch von beiden Unternehmen veröffentlicht wurde, kommt zu einem Zeitpunkt, an dem sich führende KI-Unternehmen wie OpenAI und Anthropic in einem technologischen Wettrüsten befinden. Angesichts milliardenschwerer Investitionen in Rechenzentren und Vergütungspaketen von über 100 Millionen Dollar für Spitzenforscher warnen einige Analysten, dass der Druck, Spitzenprodukte zu liefern, zu Kompromissen bei den Sicherheitsprotokollen führen könnte.
Um diese Forschung zu ermöglichen, tauschten OpenAI und Anthropic speziellen API-Zugang zu weniger eingeschränkten Versionen ihrer Modelle aus (OpenAI stellte klar, dass GPT-5 nicht getestet wurde, da es noch nicht auf dem Markt war). Kurz nach Abschluss der Untersuchungen entzog Anthropic jedoch einem anderen OpenAI-Team den API-Zugang. Anthropic behauptete, OpenAI habe gegen seine Nutzungsbedingungen verstoßen, die die Verwendung von Claude zur Verbesserung konkurrierender Produkte untersagen.
Zaremba behauptet, dass die beiden Vorfälle nichts miteinander zu tun haben, und erwartet, dass der Wettbewerb stark bleiben wird, auch wenn die KI-Sicherheitsteams eine Zusammenarbeit anstreben. Nicholas Carlini, ein Sicherheitsforscher bei Anthropic, sagte gegenüber TechCrunch, dass er hofft, dem Sicherheitsteam von OpenAI auch in Zukunft Zugang zu Claude-Modellen zu gewähren.
"Wir wollen die Zusammenarbeit, wo immer es möglich ist, über die Grenzen der Sicherheit hinweg ausweiten und solche Partnerschaften zur Routine werden lassen", so Carlini.
Tech- und VC-Schwergewichte auf der Agenda der Disrupt 2025
Netflix, ElevenLabs, Wayve, Sequoia Capital, Elad Gil - dies sind nur einige der prominenten Namen, die an der Disrupt 2025 teilnehmen. Sie sind hier, um Einblicke zu geben, die das Wachstum von Start-ups fördern und Ihren Wettbewerbsvorteil stärken. Verpassen Sie nicht das 20-jährige Jubiläum der TechCrunch Disrupt, eine Gelegenheit, von führenden Stimmen aus der Tech-Branche zu lernen - sichern Sie sich jetzt Ihr Ticket und sparen Sie über 600 US-Dollar, bevor die Preise steigen.
Tech- und VC-Schwergewichte auf der Agenda der Disrupt 2025
Netflix, ElevenLabs, Wayve, Sequoia Capital - nur eine Handvoll einflussreicher Führungskräfte, die auf der Agenda der Disrupt 2025 stehen. Sie werden wertvolle Perspektiven liefern, die Startups dabei helfen, zu wachsen und ihre Strategien zu verfeinern. Seien Sie beim 20-jährigen Jubiläum der TechCrunch Disrupt dabei - buchen Sie Ihr Ticket noch heute und sparen Sie bis zu 675 US-Dollar, bevor die Preise steigen.
San Francisco | 27. bis 29. Oktober 2025 JETZT ANMELDENEines der bemerkenswertesten Ergebnisse der Studie betraf Halluzinationstests. Die Modelle Claude Opus 4 und Sonnet 4 von Anthropic weigerten sich, bis zu 70 % der Fragen zu beantworten, wenn sie unsicher waren, und entschieden sich für Antworten wie "Ich habe keine zuverlässigen Informationen". Im Gegensatz dazu verweigerten die o3- und o4-mini-Modelle von OpenAI weitaus weniger Fragen, wiesen aber viel höhere Halluzinationsraten auf und versuchten, auch bei unzureichenden Informationen zu antworten.
Zaremba glaubt, dass der ideale Ansatz irgendwo dazwischen liegt: Die Modelle von OpenAI sollten mehr unsichere Anfragen ablehnen, während die Systeme von Anthropic versuchen könnten, häufiger zu antworten.
Kriecherei - die Tendenz von KI-Modellen, schädliches Nutzerverhalten zu verstärken, um Zustimmung zu erhalten - hat sich als kritisches Sicherheitsproblem herausgestellt.
In seinem Forschungsbericht nennt Anthropic Fälle von "extremer" Kriecherei bei GPT-4.1 und Claude Opus 4, bei denen sich die Modelle zunächst gegen psychotisches oder manisches Verhalten wehrten, später aber beunruhigende Entscheidungen unterstützten. Bei anderen Modellen von OpenAI und Anthropic stellten die Forscher ein geringeres Maß an Kriechertum fest.
Am Dienstag reichten die Eltern des 16-jährigen Adam Raine Klage gegen OpenAI ein und behaupteten, dass eine mit GPT-4o betriebene Version von ChatGPT den Selbstmord ihres Sohnes gefördert habe, anstatt seine schädlichen Gedanken zu bekämpfen. Die Klage wirft die Möglichkeit auf, dass dies ein weiterer tragischer Fall von KI-Schmeichelei ist.
"Es ist herzzerreißend, sich vorzustellen, was die Familie durchmacht", sagte Zaremba auf die Frage nach dem Vorfall. "Es wäre zutiefst beunruhigend, wenn wir eine KI erschaffen würden, die in der Lage ist, Probleme auf Doktoranden-Niveau zu lösen und die Wissenschaft voranzubringen, aber gleichzeitig zu psychischen Krisen beiträgt. Das ist ein dystopisches Ergebnis, mit dem ich nichts zu tun haben möchte."
In einem Blog-Beitrag berichtete OpenAI, dass es mit GPT-5 im Vergleich zu GPT-4o wesentliche Verbesserungen zur Verringerung der Kriecherei vorgenommen hat und dass das neuere Modell bei psychischen Krisen angemessener reagiert.
Mit Blick auf die Zukunft äußerten Zaremba und Carlini den Wunsch, dass Anthropic und OpenAI ihre Zusammenarbeit bei den Sicherheitstests vertiefen - und weitere Themen und neue Modelle evaluieren - und hoffen, dass andere KI-Labors einen ähnlich kooperativen Ansatz verfolgen.
Aktualisiert um 14:00 Uhr: Dieser Artikel wurde überarbeitet, um zusätzliche Forschungsergebnisse von Anthropic aufzunehmen, die TechCrunch vor der ursprünglichen Veröffentlichung nicht zur Verfügung standen.
Sie haben einen sensiblen Hinweis oder vertrauliche Dokumente? Wir untersuchen das Innenleben der KI-Industrie - von den Organisationen, die ihre Entwicklung gestalten, bis hin zu den Menschen, die von ihren Entscheidungen betroffen sind. Kontaktieren Sie Rebecca Bellan unter [email protected] und Maxwell Zeff unter [email protected]. Für eine sichere Kommunikation erreichen Sie uns über Signal unter @rebeccabellan.491 und @mzeff.88.
Verwandter Artikel
Satya Nadella bereit, die neuen Vorteile der Vereinbarung mit OpenAI zu nutzen
Am Mittwoch fragte ein Analyst von Wall Street den Microsoft-CEO Satya Nadella direkt, wie die überarbeitete Partnerschaft mit OpenAI die finanziellen Ergebnisse des Unternehmens beeinflussen würde.Nadella bezeichnete die neue Vereinbarung als einen
OpenAI skizziert eine KI-Wirtschaft mit öffentlichen Vermögensfonds, Robotersteuern und einer Vier-Tage-Woche
Während Regierungen darum ringen, die wirtschaftlichen Auswirkungen superintelligenter Maschinen zu bewältigen, hat OpenAI eine Reihe von politischen Vorschlägen veröffentlicht, in denen dargelegt wir
Greg Brockman enthüllt, wie Elon Musk OpenAI verlassen hat
Ende August 2017 trafen sich führende Persönlichkeiten von OpenAI – damals ein kleines gemeinnütziges Forschungslabor –, um zu erörtern, wie sie ein gewinnorientiertes Unternehmen gründen könnten, um
Empfehlungen zu verwandten Spezialthemen
Kommentare (2)
AIの安全性テストを業界全体で実施する必要があるって主張、すごく共感します。競争が激しい中でOpenAIとAnthropicが協力したのは意外だけど、こういう連携がもっと増えると良いですね。ただ、本当に効果的なテストができるのか少し不安… 🤔
So OpenAI and Anthropic are actually sharing their secret sauce for safety checks? That's pretty refreshing to see amidst all the cutthroat AI race. Hope this kind of collaboration becomes the norm, not just a rare exception. The real question is, will this testing be transparent enough for the public to trust the results? 🤔

Zwei der weltweit führenden KI-Labors, OpenAI und Anthropic, gewährten vorübergehend Zugang zu ihren streng gehüteten KI-Modellen für gemeinsame Sicherheitstests - ein seltener Fall von unternehmensübergreifender Zusammenarbeit inmitten des intensiven Wettbewerbs in der Branche. Die Initiative sollte blinde Flecken in den internen Bewertungen der beiden Unternehmen aufdecken und aufzeigen, wie führende KI-Unternehmen gemeinsam die Sicherheit und die Angleichung ihrer Anstrengungen in Zukunft vorantreiben können.
In einem Interview mit TechCrunch erklärte OpenAI-Mitbegründer Wojciech Zaremba, dass eine solche Zusammenarbeit immer wichtiger wird, je weiter KI in eine "folgenreichere" Phase eintritt, in der Millionen von Nutzern täglich mit KI-Modellen interagieren.
"Eine größere Herausforderung für die Branche ist die Festlegung von Sicherheits- und Kooperationsstandards, auch wenn Milliarden von Dollar investiert werden und ein harter Kampf um Talente, Nutzer und herausragende Produkte entbrennt", so Zaremba.
Die gemeinsame Sicherheitsstudie, die am Mittwoch von beiden Unternehmen veröffentlicht wurde, kommt zu einem Zeitpunkt, an dem sich führende KI-Unternehmen wie OpenAI und Anthropic in einem technologischen Wettrüsten befinden. Angesichts milliardenschwerer Investitionen in Rechenzentren und Vergütungspaketen von über 100 Millionen Dollar für Spitzenforscher warnen einige Analysten, dass der Druck, Spitzenprodukte zu liefern, zu Kompromissen bei den Sicherheitsprotokollen führen könnte.
Um diese Forschung zu ermöglichen, tauschten OpenAI und Anthropic speziellen API-Zugang zu weniger eingeschränkten Versionen ihrer Modelle aus (OpenAI stellte klar, dass GPT-5 nicht getestet wurde, da es noch nicht auf dem Markt war). Kurz nach Abschluss der Untersuchungen entzog Anthropic jedoch einem anderen OpenAI-Team den API-Zugang. Anthropic behauptete, OpenAI habe gegen seine Nutzungsbedingungen verstoßen, die die Verwendung von Claude zur Verbesserung konkurrierender Produkte untersagen.
Zaremba behauptet, dass die beiden Vorfälle nichts miteinander zu tun haben, und erwartet, dass der Wettbewerb stark bleiben wird, auch wenn die KI-Sicherheitsteams eine Zusammenarbeit anstreben. Nicholas Carlini, ein Sicherheitsforscher bei Anthropic, sagte gegenüber TechCrunch, dass er hofft, dem Sicherheitsteam von OpenAI auch in Zukunft Zugang zu Claude-Modellen zu gewähren.
"Wir wollen die Zusammenarbeit, wo immer es möglich ist, über die Grenzen der Sicherheit hinweg ausweiten und solche Partnerschaften zur Routine werden lassen", so Carlini.
Tech- und VC-Schwergewichte auf der Agenda der Disrupt 2025
Netflix, ElevenLabs, Wayve, Sequoia Capital, Elad Gil - dies sind nur einige der prominenten Namen, die an der Disrupt 2025 teilnehmen. Sie sind hier, um Einblicke zu geben, die das Wachstum von Start-ups fördern und Ihren Wettbewerbsvorteil stärken. Verpassen Sie nicht das 20-jährige Jubiläum der TechCrunch Disrupt, eine Gelegenheit, von führenden Stimmen aus der Tech-Branche zu lernen - sichern Sie sich jetzt Ihr Ticket und sparen Sie über 600 US-Dollar, bevor die Preise steigen.
Tech- und VC-Schwergewichte auf der Agenda der Disrupt 2025
Netflix, ElevenLabs, Wayve, Sequoia Capital - nur eine Handvoll einflussreicher Führungskräfte, die auf der Agenda der Disrupt 2025 stehen. Sie werden wertvolle Perspektiven liefern, die Startups dabei helfen, zu wachsen und ihre Strategien zu verfeinern. Seien Sie beim 20-jährigen Jubiläum der TechCrunch Disrupt dabei - buchen Sie Ihr Ticket noch heute und sparen Sie bis zu 675 US-Dollar, bevor die Preise steigen.
San Francisco | 27. bis 29. Oktober 2025 JETZT ANMELDENEines der bemerkenswertesten Ergebnisse der Studie betraf Halluzinationstests. Die Modelle Claude Opus 4 und Sonnet 4 von Anthropic weigerten sich, bis zu 70 % der Fragen zu beantworten, wenn sie unsicher waren, und entschieden sich für Antworten wie "Ich habe keine zuverlässigen Informationen". Im Gegensatz dazu verweigerten die o3- und o4-mini-Modelle von OpenAI weitaus weniger Fragen, wiesen aber viel höhere Halluzinationsraten auf und versuchten, auch bei unzureichenden Informationen zu antworten.
Zaremba glaubt, dass der ideale Ansatz irgendwo dazwischen liegt: Die Modelle von OpenAI sollten mehr unsichere Anfragen ablehnen, während die Systeme von Anthropic versuchen könnten, häufiger zu antworten.
Kriecherei - die Tendenz von KI-Modellen, schädliches Nutzerverhalten zu verstärken, um Zustimmung zu erhalten - hat sich als kritisches Sicherheitsproblem herausgestellt.
In seinem Forschungsbericht nennt Anthropic Fälle von "extremer" Kriecherei bei GPT-4.1 und Claude Opus 4, bei denen sich die Modelle zunächst gegen psychotisches oder manisches Verhalten wehrten, später aber beunruhigende Entscheidungen unterstützten. Bei anderen Modellen von OpenAI und Anthropic stellten die Forscher ein geringeres Maß an Kriechertum fest.
Am Dienstag reichten die Eltern des 16-jährigen Adam Raine Klage gegen OpenAI ein und behaupteten, dass eine mit GPT-4o betriebene Version von ChatGPT den Selbstmord ihres Sohnes gefördert habe, anstatt seine schädlichen Gedanken zu bekämpfen. Die Klage wirft die Möglichkeit auf, dass dies ein weiterer tragischer Fall von KI-Schmeichelei ist.
"Es ist herzzerreißend, sich vorzustellen, was die Familie durchmacht", sagte Zaremba auf die Frage nach dem Vorfall. "Es wäre zutiefst beunruhigend, wenn wir eine KI erschaffen würden, die in der Lage ist, Probleme auf Doktoranden-Niveau zu lösen und die Wissenschaft voranzubringen, aber gleichzeitig zu psychischen Krisen beiträgt. Das ist ein dystopisches Ergebnis, mit dem ich nichts zu tun haben möchte."
In einem Blog-Beitrag berichtete OpenAI, dass es mit GPT-5 im Vergleich zu GPT-4o wesentliche Verbesserungen zur Verringerung der Kriecherei vorgenommen hat und dass das neuere Modell bei psychischen Krisen angemessener reagiert.
Mit Blick auf die Zukunft äußerten Zaremba und Carlini den Wunsch, dass Anthropic und OpenAI ihre Zusammenarbeit bei den Sicherheitstests vertiefen - und weitere Themen und neue Modelle evaluieren - und hoffen, dass andere KI-Labors einen ähnlich kooperativen Ansatz verfolgen.
Aktualisiert um 14:00 Uhr: Dieser Artikel wurde überarbeitet, um zusätzliche Forschungsergebnisse von Anthropic aufzunehmen, die TechCrunch vor der ursprünglichen Veröffentlichung nicht zur Verfügung standen.
Sie haben einen sensiblen Hinweis oder vertrauliche Dokumente? Wir untersuchen das Innenleben der KI-Industrie - von den Organisationen, die ihre Entwicklung gestalten, bis hin zu den Menschen, die von ihren Entscheidungen betroffen sind. Kontaktieren Sie Rebecca Bellan unter [email protected] und Maxwell Zeff unter [email protected]. Für eine sichere Kommunikation erreichen Sie uns über Signal unter @rebeccabellan.491 und @mzeff.88.
Satya Nadella bereit, die neuen Vorteile der Vereinbarung mit OpenAI zu nutzen
Am Mittwoch fragte ein Analyst von Wall Street den Microsoft-CEO Satya Nadella direkt, wie die überarbeitete Partnerschaft mit OpenAI die finanziellen Ergebnisse des Unternehmens beeinflussen würde.Nadella bezeichnete die neue Vereinbarung als einen
OpenAI skizziert eine KI-Wirtschaft mit öffentlichen Vermögensfonds, Robotersteuern und einer Vier-Tage-Woche
Während Regierungen darum ringen, die wirtschaftlichen Auswirkungen superintelligenter Maschinen zu bewältigen, hat OpenAI eine Reihe von politischen Vorschlägen veröffentlicht, in denen dargelegt wir
Greg Brockman enthüllt, wie Elon Musk OpenAI verlassen hat
Ende August 2017 trafen sich führende Persönlichkeiten von OpenAI – damals ein kleines gemeinnütziges Forschungslabor –, um zu erörtern, wie sie ein gewinnorientiertes Unternehmen gründen könnten, um
AIの安全性テストを業界全体で実施する必要があるって主張、すごく共感します。競争が激しい中でOpenAIとAnthropicが協力したのは意外だけど、こういう連携がもっと増えると良いですね。ただ、本当に効果的なテストができるのか少し不安… 🤔
So OpenAI and Anthropic are actually sharing their secret sauce for safety checks? That's pretty refreshing to see amidst all the cutthroat AI race. Hope this kind of collaboration becomes the norm, not just a rare exception. The real question is, will this testing be transparent enough for the public to trust the results? 🤔





Heim






