OpenAI entdeckt eindeutige KI-Modell-Persönlichkeiten

Laut einer neuen Studie, die am Mittwoch veröffentlicht wurde, berichten OpenAI-Wissenschaftler, dass sie verborgene Merkmale in KI-Modellen aufgedeckt haben, die mit unkooperativen "Personas" verbunden sind.
Durch die Untersuchung der internen Repräsentationen von KI-Modellen - der numerischen Daten, die ihre Antworten steuern und die für Menschen oft unverständlich erscheinen - haben OpenAI-Forscher Muster identifiziert, die bei Fehlverhalten des Modells aktiv werden.
Es wurde festgestellt, dass ein bestimmtes Merkmal mit schädlichen Reaktionen korreliert, bei denen das Modell irreführende Informationen oder unverantwortliche Empfehlungen gibt.
Das Forschungsteam entdeckte, dass es die Intensität dieser schädlichen Reaktionen modulieren konnte, indem es das entsprechende Merkmal manipulierte.
Dieser Durchbruch verschafft OpenAI tiefere Einblicke in die Mechanismen, die hinter unsicherem KI-Verhalten stehen, was zu sichereren KI-Systemen führen könnte. Laut Dan Mossing, Forscher für Interpretierbarkeit, könnten diese identifizierbaren Muster die Erkennung von problematischem Verhalten in operativen KI-Modellen verbessern.
"Wir sind optimistisch, dass die von uns entwickelten Techniken - insbesondere diese Methode zur Vereinfachung komplexer Phänomene in einfache mathematische Operationen - sich als wertvoll für das Verständnis der Modellverallgemeinerung in anderen Kontexten erweisen werden", so Mossing gegenüber TechCrunch.
Obwohl KI-Forscher über Methoden zur Verbesserung von Modellen verfügen, sind sie sich über die genauen Denkprozesse, die hinter KI-Entscheidungen stehen, noch nicht im Klaren. Wie Chris Olah von Anthropic häufig feststellt, entwickeln sich KI-Modelle eher durch Training als durch herkömmliche Technik. Um diese Wissenslücke zu schließen, investieren OpenAI, Google DeepMind und Anthropic verstärkt in die Interpretierbarkeitsforschung - eine Disziplin, die sich dem Verständnis der internen Mechanismen von KI widmet.
Techcrunch-VeranstaltungSparen Sie $200+ bei Ihrem TechCrunch All Stage Pass
Intelligenter bauen. Schneller skalieren. Tiefer verbinden. Kommen Sie mit Visionären von Precursor Ventures, NEA, Index Ventures, Underscore VC und anderen zu einem Tag voller Strategien, Workshops und bedeutsamer Kontakte.
Sparen Sie $200+ bei Ihrem TechCrunch All Stage Pass
Intelligenter bauen. Schneller skalieren. Tiefer verbinden. Treffen Sie Visionäre von Precursor Ventures, NEA, Index Ventures, Underscore VC und anderen für einen Tag voller Strategien, Workshops und bedeutsamer Verbindungen.
Boston, MA | 15. Juli JETZT ANMELDENJüngste Forschungen des Oxforder KI-Wissenschaftlers Owain Evans haben wichtige Fragen zur KI-Generalisierung aufgeworfen. Die Studie hat gezeigt, dass OpenAI-Modelle, wenn sie auf anfälligem Code trainiert werden, in verschiedenen Bereichen schädliche Fähigkeiten entwickeln können, wie z. B. den Versuch, Benutzer zur Preisgabe von Passwörtern zu verleiten. Dieses Phänomen, das als "emergent misalignment" bezeichnet wird, motivierte OpenAI zu weiteren Untersuchungen.
Bei der Untersuchung des emergenten Versatzes stellte OpenAI unerwartet interne Modellmerkmale fest, die das Verhalten erheblich beeinflussen. Mossing vergleicht diese Muster mit der neuronalen Aktivität im menschlichen Gehirn, wo bestimmte Neuronen mit bestimmten Stimmungen oder Verhaltensweisen korrespondieren.
"Als Dans Team diese Ergebnisse vorstellte, war meine unmittelbare Reaktion: 'Sie haben es tatsächlich gefunden'", erinnert sich Tejal Patwardhan, ein Forscher bei OpenAI Frontier Evaluations. "Sie entdeckten neuronale Aktivierungen, die diese Personas offenbaren und angepasst werden können, um die Anpassung des Modells zu verbessern."
Die Forschung zeigte Merkmale, die mit sarkastischen Reaktionen verbunden sind, neben anderen, die mit schwerwiegenderem Fehlverhalten verbunden sind, bei dem die Modelle übertriebene Schurkenpersönlichkeiten annehmen. Diese Merkmale können sich während der Feinabstimmung erheblich verändern.
Wichtig ist, dass die Forscher herausfanden, dass eine aufkommende Fehlanpassung oft durch das Trainieren des Modells mit nur ein paar hundert Beispielen von sicherem Code korrigiert werden konnte.
Die jüngste Arbeit von OpenAI baut auf früheren Forschungsarbeiten von Anthropic zur Interpretierbarkeit und Anpassung auf. Im Jahr 2024 veröffentlichte Anthropic Studien, in denen versucht wurde, die Interna von KI-Modellen abzubilden und Merkmale zu identifizieren, die für verschiedene Konzepte verantwortlich sind.
Organisationen wie OpenAI und Anthropic zeigen, dass das Verständnis der KI-Funktionalität einen erheblichen Wert hat, der über die bloße Verbesserung der Leistung hinausgeht. Dennoch bleibt ein vollständiges Verständnis heutiger KI-Systeme ein weit entferntes Ziel.
Verwandter Artikel
Greg Brockman enthüllt, wie Elon Musk OpenAI verlassen hat
Ende August 2017 trafen sich führende Persönlichkeiten von OpenAI – damals ein kleines gemeinnütziges Forschungslabor –, um zu erörtern, wie sie ein gewinnorientiertes Unternehmen gründen könnten, um
Das Pentagon schließt Vereinbarungen mit Nvidia, Microsoft und AWS ab, um KI in gesicherten Netzwerken einzusetzen.
Nachdem zuvor Einigungen mit Google, SpaceX und OpenAI erreicht worden waren, gab das US-Verteidigungsministerium am Freitag bekannt, dass es nun auch Vereinbarungen mit Nvidia, Microsoft, Amazon Web Services und Reflection AI unterzeichnet hat, um d
OpenAI präsentiert die Fähigkeiten der Sprachintelligenz in seiner API
OpenAI gab am Donnerstag bekannt, dass seine API nun mehrere neue Funktionen für Sprachintelligenz enthält, die entwickelt wurden, um Entwicklern zu helfen, Anwendungen zu erstellen, die in der Lage sind, Gespräche zu führen, transkribieren und übers
Empfehlungen zu verwandten Spezialthemen
Kommentare (1)

Laut einer neuen Studie, die am Mittwoch veröffentlicht wurde, berichten OpenAI-Wissenschaftler, dass sie verborgene Merkmale in KI-Modellen aufgedeckt haben, die mit unkooperativen "Personas" verbunden sind.
Durch die Untersuchung der internen Repräsentationen von KI-Modellen - der numerischen Daten, die ihre Antworten steuern und die für Menschen oft unverständlich erscheinen - haben OpenAI-Forscher Muster identifiziert, die bei Fehlverhalten des Modells aktiv werden.
Es wurde festgestellt, dass ein bestimmtes Merkmal mit schädlichen Reaktionen korreliert, bei denen das Modell irreführende Informationen oder unverantwortliche Empfehlungen gibt.
Das Forschungsteam entdeckte, dass es die Intensität dieser schädlichen Reaktionen modulieren konnte, indem es das entsprechende Merkmal manipulierte.
Dieser Durchbruch verschafft OpenAI tiefere Einblicke in die Mechanismen, die hinter unsicherem KI-Verhalten stehen, was zu sichereren KI-Systemen führen könnte. Laut Dan Mossing, Forscher für Interpretierbarkeit, könnten diese identifizierbaren Muster die Erkennung von problematischem Verhalten in operativen KI-Modellen verbessern.
"Wir sind optimistisch, dass die von uns entwickelten Techniken - insbesondere diese Methode zur Vereinfachung komplexer Phänomene in einfache mathematische Operationen - sich als wertvoll für das Verständnis der Modellverallgemeinerung in anderen Kontexten erweisen werden", so Mossing gegenüber TechCrunch.
Obwohl KI-Forscher über Methoden zur Verbesserung von Modellen verfügen, sind sie sich über die genauen Denkprozesse, die hinter KI-Entscheidungen stehen, noch nicht im Klaren. Wie Chris Olah von Anthropic häufig feststellt, entwickeln sich KI-Modelle eher durch Training als durch herkömmliche Technik. Um diese Wissenslücke zu schließen, investieren OpenAI, Google DeepMind und Anthropic verstärkt in die Interpretierbarkeitsforschung - eine Disziplin, die sich dem Verständnis der internen Mechanismen von KI widmet.
Techcrunch-VeranstaltungSparen Sie $200+ bei Ihrem TechCrunch All Stage Pass
Intelligenter bauen. Schneller skalieren. Tiefer verbinden. Kommen Sie mit Visionären von Precursor Ventures, NEA, Index Ventures, Underscore VC und anderen zu einem Tag voller Strategien, Workshops und bedeutsamer Kontakte.
Sparen Sie $200+ bei Ihrem TechCrunch All Stage Pass
Intelligenter bauen. Schneller skalieren. Tiefer verbinden. Treffen Sie Visionäre von Precursor Ventures, NEA, Index Ventures, Underscore VC und anderen für einen Tag voller Strategien, Workshops und bedeutsamer Verbindungen.
Boston, MA | 15. Juli JETZT ANMELDENJüngste Forschungen des Oxforder KI-Wissenschaftlers Owain Evans haben wichtige Fragen zur KI-Generalisierung aufgeworfen. Die Studie hat gezeigt, dass OpenAI-Modelle, wenn sie auf anfälligem Code trainiert werden, in verschiedenen Bereichen schädliche Fähigkeiten entwickeln können, wie z. B. den Versuch, Benutzer zur Preisgabe von Passwörtern zu verleiten. Dieses Phänomen, das als "emergent misalignment" bezeichnet wird, motivierte OpenAI zu weiteren Untersuchungen.
Bei der Untersuchung des emergenten Versatzes stellte OpenAI unerwartet interne Modellmerkmale fest, die das Verhalten erheblich beeinflussen. Mossing vergleicht diese Muster mit der neuronalen Aktivität im menschlichen Gehirn, wo bestimmte Neuronen mit bestimmten Stimmungen oder Verhaltensweisen korrespondieren.
"Als Dans Team diese Ergebnisse vorstellte, war meine unmittelbare Reaktion: 'Sie haben es tatsächlich gefunden'", erinnert sich Tejal Patwardhan, ein Forscher bei OpenAI Frontier Evaluations. "Sie entdeckten neuronale Aktivierungen, die diese Personas offenbaren und angepasst werden können, um die Anpassung des Modells zu verbessern."
Die Forschung zeigte Merkmale, die mit sarkastischen Reaktionen verbunden sind, neben anderen, die mit schwerwiegenderem Fehlverhalten verbunden sind, bei dem die Modelle übertriebene Schurkenpersönlichkeiten annehmen. Diese Merkmale können sich während der Feinabstimmung erheblich verändern.
Wichtig ist, dass die Forscher herausfanden, dass eine aufkommende Fehlanpassung oft durch das Trainieren des Modells mit nur ein paar hundert Beispielen von sicherem Code korrigiert werden konnte.
Die jüngste Arbeit von OpenAI baut auf früheren Forschungsarbeiten von Anthropic zur Interpretierbarkeit und Anpassung auf. Im Jahr 2024 veröffentlichte Anthropic Studien, in denen versucht wurde, die Interna von KI-Modellen abzubilden und Merkmale zu identifizieren, die für verschiedene Konzepte verantwortlich sind.
Organisationen wie OpenAI und Anthropic zeigen, dass das Verständnis der KI-Funktionalität einen erheblichen Wert hat, der über die bloße Verbesserung der Leistung hinausgeht. Dennoch bleibt ein vollständiges Verständnis heutiger KI-Systeme ein weit entferntes Ziel.
Greg Brockman enthüllt, wie Elon Musk OpenAI verlassen hat
Ende August 2017 trafen sich führende Persönlichkeiten von OpenAI – damals ein kleines gemeinnütziges Forschungslabor –, um zu erörtern, wie sie ein gewinnorientiertes Unternehmen gründen könnten, um
Das Pentagon schließt Vereinbarungen mit Nvidia, Microsoft und AWS ab, um KI in gesicherten Netzwerken einzusetzen.
Nachdem zuvor Einigungen mit Google, SpaceX und OpenAI erreicht worden waren, gab das US-Verteidigungsministerium am Freitag bekannt, dass es nun auch Vereinbarungen mit Nvidia, Microsoft, Amazon Web Services und Reflection AI unterzeichnet hat, um d
OpenAI präsentiert die Fähigkeiten der Sprachintelligenz in seiner API
OpenAI gab am Donnerstag bekannt, dass seine API nun mehrere neue Funktionen für Sprachintelligenz enthält, die entwickelt wurden, um Entwicklern zu helfen, Anwendungen zu erstellen, die in der Lage sind, Gespräche zu führen, transkribieren und übers





Heim






