Heim
Forschungschefs fordern den Technologiesektor auf, KI-Verständigungsprozesse zu verfolgen

KI-Forscher von OpenAI, Google DeepMind, Anthropic und einer breiten Koalition von Unternehmen und gemeinnützigen Organisationen plädieren für eine intensivere Erforschung der Überwachung der sogenannten Denkprozesse von KI-Schlussfolgermodellen, heißt es in einem am Dienstag veröffentlichten Positionspapier.
Ein charakteristisches Merkmal von KI-Schlussfolgermodellen wie o3 von OpenAI und R1 von DeepSeek ist die Verwendung von Gedankenketten oder CoTs - ein externalisierter Prozess, bei dem KI-Modelle systematisch Probleme durcharbeiten, ähnlich wie Menschen, die ein Schmierpapier verwenden, um eine komplexe mathematische Gleichung zu lösen. Denkmodelle sind für den Antrieb von KI-Agenten von grundlegender Bedeutung, und die Autoren des Papiers sind der Meinung, dass die Überwachung von CoTs zu einer wichtigen Methode werden könnte, um zunehmend leistungsfähige und weit verbreitete KI-Agenten unter Kontrolle zu halten.
"Die Überwachung von CoTs bietet eine wertvolle Erweiterung der Sicherheitsprotokolle für hochmoderne KI, da sie einen einzigartigen Einblick in die Entscheidungsfindung von KI-Agenten bietet", so die Forscher in ihrem Positionspapier. "Es gibt jedoch keine Gewissheit, dass dieses Maß an Transparenz auch weiterhin gegeben sein wird. Wir fordern die Forschungsgemeinschaft und KI-Entwickler auf, die Vorteile der CoT-Überwachbarkeit zu maximieren und nach Möglichkeiten zu suchen, sie zu erhalten."
Das Positionspapier fordert führende KI-Entwickler auf, zu untersuchen, was CoTs "überwachbar" macht - insbesondere, welche Faktoren die Transparenz darüber, wie KI-Modelle ihre Antworten wirklich generieren, erhöhen oder verringern. Die Autoren stellen fest, dass das CoT-Monitoring zwar ein vielversprechender Ansatz für das Verständnis von KI-Schlussfolgermodellen ist, aber dennoch anfällig bleibt, und sie warnen vor Änderungen, die seine Transparenz oder Zuverlässigkeit verringern könnten.
Darüber hinaus fordern die Autoren die KI-Entwickler auf, die CoT-Überwachbarkeit konsequent zu verfolgen und zu untersuchen, wie diese Methode schließlich als Sicherheitsmaßnahme implementiert werden könnte.
Zu den prominenten Unterzeichnern des Papiers gehören der Forschungsleiter von OpenAI, Mark Chen, der CEO von Safe Superintelligence, Ilya Sutskever, der Nobelpreisträger Geoffrey Hinton, der Mitbegründer von Google DeepMind, Shane Legg, der Sicherheitsberater von xAI, Dan Hendrycks, und der Mitbegründer von Thinking Machines, John Schulman. Zu den führenden Autoren gehören Vertreter des britischen AI Security Institute und von Apollo Research sowie weitere Unterzeichner von METR, Amazon, Meta und der UC Berkeley.
Dieses Papier stellt eine vereinte Anstrengung vieler führender KI-Industrievertreter dar, die Forschung im Bereich der KI-Sicherheit zu beschleunigen. Es kommt zu einer Zeit, in der ein intensiver Wettbewerb zwischen den Technologieunternehmen herrscht - ein Wettbewerb, der Meta dazu veranlasst hat, Spitzenforscher von OpenAI, Google DeepMind und Anthropic mit millionenschweren Angeboten abzuwerben. Zu den begehrtesten Forschern gehören diejenigen, die sich auf KI-Agenten und logische Modelle spezialisiert haben.
Techcrunch-VeranstaltungJETZT LIVE! TechCrunch Alle Bühne
Intelligenter bauen. Schneller skalieren. Tiefer verbinden. Schließen Sie sich Innovatoren von Precursor Ventures, NEA, Index Ventures, Underscore VC und anderen für einen Tag vollgepackt mit umsetzbaren Strategien, spannenden Workshops und sinnvollem Networking an.
Sparen Sie $450 bei Ihrem TechCrunch All Stage Pass
Intelligenter bauen. Schneller skalieren. Tiefer vernetzen. Schließen Sie sich Innovatoren von Precursor Ventures, NEA, Index Ventures, Underscore VC und anderen für einen Tag voller umsetzbarer Strategien, intensiver Workshops und sinnvoller Kontakte an.
Boston, MA|July 15REGISTER NOW"Wir befinden uns in einem entscheidenden Moment, in dem wir diese neue Fähigkeit der Gedankenkette haben. Sie scheint sehr nützlich zu sein, aber sie könnte in ein paar Jahren wieder verschwinden, wenn ihr keine gezielte Aufmerksamkeit zuteil wird", sagte Bowen Baker, ein an dem Papier beteiligter OpenAI-Forscher, in einem Interview mit TechCrunch. "Die Veröffentlichung eines Positionspapiers wie dieses ist für mich eine Möglichkeit, mehr Forschung und Aufmerksamkeit auf dieses Thema zu lenken, bevor es zu spät ist."
OpenAI veröffentlichte im September 2024 erstmals eine Vorschau auf sein erstes KI-Schlussfolgermodell, o1. In den darauffolgenden Monaten stellte die Technologiebranche rasch konkurrierende Modelle mit ähnlichen Fähigkeiten vor, wobei einige von Google DeepMind, xAI und Anthropic sogar noch fortschrittlichere Benchmark-Leistungen zeigten.
Dennoch ist das Verständnis für die Funktionsweise von KI-Modellen immer noch begrenzt. Zwar haben die KI-Labors im vergangenen Jahr erhebliche Fortschritte bei der Verbesserung der KI-Leistung gemacht, doch hat dies nicht unbedingt zu einem besseren Verständnis ihrer Entscheidungsprozesse geführt.
Anthropic ist ein Pionier auf dem Gebiet des Verständnisses der Funktionsweise von KI-Modellen - ein Bereich, der als Interpretierbarkeit bekannt ist. Anfang dieses Jahres versprach CEO Dario Amodei, die "Blackbox" der KI-Modelle bis 2027 zu entschlüsseln und die Investitionen in die Interpretierbarkeit zu erhöhen. Er ermutigte auch OpenAI und Google DeepMind, diesen Bereich weiter zu erforschen.
Erste Forschungsergebnisse von Anthropic deuten darauf hin, dass CoTs möglicherweise nicht ganz verlässliche Indikatoren dafür sind, wie diese Modelle Antworten generieren. Gleichzeitig haben OpenAI-Forscher angedeutet, dass die Überwachung von CoTs schließlich als zuverlässige Methode zur Verfolgung der Ausrichtung und Sicherheit von KI-Modellen dienen könnte.
Positionspapiere wie dieses zielen darauf ab, das Bewusstsein zu schärfen und mehr Aufmerksamkeit für aufkommende Forschungsbereiche wie das CoT-Monitoring zu wecken. Unternehmen wie OpenAI, Google DeepMind und Anthropic forschen bereits in diesem Bereich, aber diese Publikation kann dazu beitragen, zusätzliche Mittel und Untersuchungen anzuregen.
Verwandter Artikel
OpenAI übernimmt das AI-Start-up für persönliche Finanzen Hiro
OpenAI hat das Finanzstart-up Hiro Finance übernommen, wie Gründer Ethan Bloch am Montag bekannt gab. OpenAI bestätigte die Übernahme gegenüber TechCrunch. Das Start-up erhielt Unterstützung von der führenden Fintech-Venture-Capital-Firma Ribbit sowi
Satya Nadella bereit, die neuen Vorteile der Vereinbarung mit OpenAI zu nutzen
Am Mittwoch fragte ein Analyst von Wall Street den Microsoft-CEO Satya Nadella direkt, wie die überarbeitete Partnerschaft mit OpenAI die finanziellen Ergebnisse des Unternehmens beeinflussen würde.Nadella bezeichnete die neue Vereinbarung als einen
OpenAI skizziert eine KI-Wirtschaft mit öffentlichen Vermögensfonds, Robotersteuern und einer Vier-Tage-Woche
Während Regierungen darum ringen, die wirtschaftlichen Auswirkungen superintelligenter Maschinen zu bewältigen, hat OpenAI eine Reihe von politischen Vorschlägen veröffentlicht, in denen dargelegt wir
Empfehlungen zu verwandten Spezialthemen
Kommentare (1)

KI-Forscher von OpenAI, Google DeepMind, Anthropic und einer breiten Koalition von Unternehmen und gemeinnützigen Organisationen plädieren für eine intensivere Erforschung der Überwachung der sogenannten Denkprozesse von KI-Schlussfolgermodellen, heißt es in einem am Dienstag veröffentlichten Positionspapier.
Ein charakteristisches Merkmal von KI-Schlussfolgermodellen wie o3 von OpenAI und R1 von DeepSeek ist die Verwendung von Gedankenketten oder CoTs - ein externalisierter Prozess, bei dem KI-Modelle systematisch Probleme durcharbeiten, ähnlich wie Menschen, die ein Schmierpapier verwenden, um eine komplexe mathematische Gleichung zu lösen. Denkmodelle sind für den Antrieb von KI-Agenten von grundlegender Bedeutung, und die Autoren des Papiers sind der Meinung, dass die Überwachung von CoTs zu einer wichtigen Methode werden könnte, um zunehmend leistungsfähige und weit verbreitete KI-Agenten unter Kontrolle zu halten.
"Die Überwachung von CoTs bietet eine wertvolle Erweiterung der Sicherheitsprotokolle für hochmoderne KI, da sie einen einzigartigen Einblick in die Entscheidungsfindung von KI-Agenten bietet", so die Forscher in ihrem Positionspapier. "Es gibt jedoch keine Gewissheit, dass dieses Maß an Transparenz auch weiterhin gegeben sein wird. Wir fordern die Forschungsgemeinschaft und KI-Entwickler auf, die Vorteile der CoT-Überwachbarkeit zu maximieren und nach Möglichkeiten zu suchen, sie zu erhalten."
Das Positionspapier fordert führende KI-Entwickler auf, zu untersuchen, was CoTs "überwachbar" macht - insbesondere, welche Faktoren die Transparenz darüber, wie KI-Modelle ihre Antworten wirklich generieren, erhöhen oder verringern. Die Autoren stellen fest, dass das CoT-Monitoring zwar ein vielversprechender Ansatz für das Verständnis von KI-Schlussfolgermodellen ist, aber dennoch anfällig bleibt, und sie warnen vor Änderungen, die seine Transparenz oder Zuverlässigkeit verringern könnten.
Darüber hinaus fordern die Autoren die KI-Entwickler auf, die CoT-Überwachbarkeit konsequent zu verfolgen und zu untersuchen, wie diese Methode schließlich als Sicherheitsmaßnahme implementiert werden könnte.
Zu den prominenten Unterzeichnern des Papiers gehören der Forschungsleiter von OpenAI, Mark Chen, der CEO von Safe Superintelligence, Ilya Sutskever, der Nobelpreisträger Geoffrey Hinton, der Mitbegründer von Google DeepMind, Shane Legg, der Sicherheitsberater von xAI, Dan Hendrycks, und der Mitbegründer von Thinking Machines, John Schulman. Zu den führenden Autoren gehören Vertreter des britischen AI Security Institute und von Apollo Research sowie weitere Unterzeichner von METR, Amazon, Meta und der UC Berkeley.
Dieses Papier stellt eine vereinte Anstrengung vieler führender KI-Industrievertreter dar, die Forschung im Bereich der KI-Sicherheit zu beschleunigen. Es kommt zu einer Zeit, in der ein intensiver Wettbewerb zwischen den Technologieunternehmen herrscht - ein Wettbewerb, der Meta dazu veranlasst hat, Spitzenforscher von OpenAI, Google DeepMind und Anthropic mit millionenschweren Angeboten abzuwerben. Zu den begehrtesten Forschern gehören diejenigen, die sich auf KI-Agenten und logische Modelle spezialisiert haben.
Techcrunch-VeranstaltungJETZT LIVE! TechCrunch Alle Bühne
Intelligenter bauen. Schneller skalieren. Tiefer verbinden. Schließen Sie sich Innovatoren von Precursor Ventures, NEA, Index Ventures, Underscore VC und anderen für einen Tag vollgepackt mit umsetzbaren Strategien, spannenden Workshops und sinnvollem Networking an.
Sparen Sie $450 bei Ihrem TechCrunch All Stage Pass
Intelligenter bauen. Schneller skalieren. Tiefer vernetzen. Schließen Sie sich Innovatoren von Precursor Ventures, NEA, Index Ventures, Underscore VC und anderen für einen Tag voller umsetzbarer Strategien, intensiver Workshops und sinnvoller Kontakte an.
Boston, MA|July 15REGISTER NOW"Wir befinden uns in einem entscheidenden Moment, in dem wir diese neue Fähigkeit der Gedankenkette haben. Sie scheint sehr nützlich zu sein, aber sie könnte in ein paar Jahren wieder verschwinden, wenn ihr keine gezielte Aufmerksamkeit zuteil wird", sagte Bowen Baker, ein an dem Papier beteiligter OpenAI-Forscher, in einem Interview mit TechCrunch. "Die Veröffentlichung eines Positionspapiers wie dieses ist für mich eine Möglichkeit, mehr Forschung und Aufmerksamkeit auf dieses Thema zu lenken, bevor es zu spät ist."
OpenAI veröffentlichte im September 2024 erstmals eine Vorschau auf sein erstes KI-Schlussfolgermodell, o1. In den darauffolgenden Monaten stellte die Technologiebranche rasch konkurrierende Modelle mit ähnlichen Fähigkeiten vor, wobei einige von Google DeepMind, xAI und Anthropic sogar noch fortschrittlichere Benchmark-Leistungen zeigten.
Dennoch ist das Verständnis für die Funktionsweise von KI-Modellen immer noch begrenzt. Zwar haben die KI-Labors im vergangenen Jahr erhebliche Fortschritte bei der Verbesserung der KI-Leistung gemacht, doch hat dies nicht unbedingt zu einem besseren Verständnis ihrer Entscheidungsprozesse geführt.
Anthropic ist ein Pionier auf dem Gebiet des Verständnisses der Funktionsweise von KI-Modellen - ein Bereich, der als Interpretierbarkeit bekannt ist. Anfang dieses Jahres versprach CEO Dario Amodei, die "Blackbox" der KI-Modelle bis 2027 zu entschlüsseln und die Investitionen in die Interpretierbarkeit zu erhöhen. Er ermutigte auch OpenAI und Google DeepMind, diesen Bereich weiter zu erforschen.
Erste Forschungsergebnisse von Anthropic deuten darauf hin, dass CoTs möglicherweise nicht ganz verlässliche Indikatoren dafür sind, wie diese Modelle Antworten generieren. Gleichzeitig haben OpenAI-Forscher angedeutet, dass die Überwachung von CoTs schließlich als zuverlässige Methode zur Verfolgung der Ausrichtung und Sicherheit von KI-Modellen dienen könnte.
Positionspapiere wie dieses zielen darauf ab, das Bewusstsein zu schärfen und mehr Aufmerksamkeit für aufkommende Forschungsbereiche wie das CoT-Monitoring zu wecken. Unternehmen wie OpenAI, Google DeepMind und Anthropic forschen bereits in diesem Bereich, aber diese Publikation kann dazu beitragen, zusätzliche Mittel und Untersuchungen anzuregen.
OpenAI übernimmt das AI-Start-up für persönliche Finanzen Hiro
OpenAI hat das Finanzstart-up Hiro Finance übernommen, wie Gründer Ethan Bloch am Montag bekannt gab. OpenAI bestätigte die Übernahme gegenüber TechCrunch. Das Start-up erhielt Unterstützung von der führenden Fintech-Venture-Capital-Firma Ribbit sowi
Satya Nadella bereit, die neuen Vorteile der Vereinbarung mit OpenAI zu nutzen
Am Mittwoch fragte ein Analyst von Wall Street den Microsoft-CEO Satya Nadella direkt, wie die überarbeitete Partnerschaft mit OpenAI die finanziellen Ergebnisse des Unternehmens beeinflussen würde.Nadella bezeichnete die neue Vereinbarung als einen
OpenAI skizziert eine KI-Wirtschaft mit öffentlichen Vermögensfonds, Robotersteuern und einer Vier-Tage-Woche
Während Regierungen darum ringen, die wirtschaftlichen Auswirkungen superintelligenter Maschinen zu bewältigen, hat OpenAI eine Reihe von politischen Vorschlägen veröffentlicht, in denen dargelegt wir











