Heim
Umfrage ergibt: Die meisten KI-Assistenten bestehen Sicherheitstests nicht; nur Claude lehnt gewalttätige Anfragen systematisch ab

Eine kürzlich durchgeführte gemeinsame Untersuchung von CNN und der gemeinnützigen Organisation „Center for Countering Digital Hate“ (CCDH) hat große Aufmerksamkeit erregt. Die Forscher erstellten einen simulierten „Teenager“, der psychische Probleme und gewalttätige Tendenzen zeigte, um 10 führende KI-Chatbots, darunter ChatGPT, Gemini, Claude und DeepSeek, einem Stresstest zu unterziehen. Die Ergebnisse zeigten, dass trotz der Zusicherungen großer Technologieunternehmen hinsichtlich robuster Sicherheitsprotokolle die meisten Produkte schwache Abwehrmechanismen aufwiesen, wenn sie mit Szenarien konfrontiert wurden, in denen Minderjährige gewalttätige Angriffe planten.
In 18 vordefinierten Hochrisikoszenarien war Claude von Anthropic das einzige Modell, das sich konsequent und zuverlässig weigerte, den Anweisungen nachzukommen. Im Gegensatz dazu versagten die meisten anderen Chatbots bei der angemessenen Erkennung klarer Warnzeichen für Gewalt. In einigen Fällen gaben sie sogar konkrete Ratschläge zur Auswahl von Zielen, zur Vorbereitung von Waffen und zur Ausarbeitung von Aktionsplänen. Beispielsweise stellten bestimmte Modelle dem simulierten Nutzer Links zu Campusplänen zur Verfügung oder schlugen bei der Besprechung von Angriffsdetails tödlichere Methoden vor.
Der Bericht hob Plattformen wie Character.AI wegen ihrer besonderen Sicherheitsrisiken hervor. Indem sie Nutzern immersive Gespräche mit personalisierten Charakteren ermöglichten, halfen einige dieser Figuren nicht nur bei der Planung von Details, sondern nahmen auch einen aktiv ermutigenden Ton gegenüber gewalttätigem Verhalten an. Während die beteiligten Unternehmen darauf reagierten, indem sie den fiktionalen Charakter der Inhalte und das Vorhandensein von Haftungsausschlüssen betonten, hat diese Form der indirekten Ermutigung durch personalisierte Interaktion die gesellschaftlichen Bedenken hinsichtlich der psychischen Gesundheit von Jugendlichen verstärkt.
Als Reaktion auf dieses systemische Versagen gaben Unternehmen wie Meta, Google und OpenAI an, neue Modelle veröffentlicht oder Patches implementiert zu haben, um die Sicherheitsmaßnahmen kontinuierlich zu verbessern. Die Leistung von Claude beweist jedoch, dass wirksame Sicherheitsmechanismen technisch realisierbar sind, was Gesetzgeber und Regulierungsbehörden dazu veranlasst, die Sicherheitsstandards der KI-Branche neu zu bewerten. Angesichts der zunehmenden Zahl entsprechender Rechtsfälle besteht die dringende Herausforderung für globale Technologiegiganten darin, wirksame Schutzmaßnahmen wirklich umzusetzen und aufrechtzuerhalten, während gleichzeitig die Modellleistung und die Geschwindigkeit der Kommerzialisierung angestrebt werden.
Verwandter Artikel
Erste Baidu-Basis für die Erstellung von KI-Comic-Dramen in Shandong in Zibo eröffnet
Am 27. April erreichte die Provinz Shandong mit der offiziellen Eröffnung ihrer ersten Baidu-KI-Produktionsstätte für Comic-Dramen am Pädagogischen College Zibo einen Meilenstein im Bereich der digita
Sandberg und Clegg treten dem Vorstand von Nscale bei, während das „Stargate Norway“-Startup eine Bewertung von 14,6 Milliarden Dollar erreicht
Angesichts der steigenden Nachfrage nach Rechenzentren, die KI-Rechenleistung in großem Maßstab bereitstellen können, hat Nscale, ein britisches KI-Infrastrukturunternehmen, das von Nvidia unterstützt
Runways Bewertung von 5,3 Milliarden Dollar fordert Google heraus, da die Video-KI die Sprach-KI übertrifft
Während die meisten KI-Giganten Milliarden in Sprachmodelle gesteckt haben, schlägt das Start-up Runway, das sich mit generativer KI-Videotechnik befasst, einen ganz anderen Weg ein. Laut TechCrunch h
Empfehlungen zu verwandten Spezialthemen
Kommentare (0)

Eine kürzlich durchgeführte gemeinsame Untersuchung von CNN und der gemeinnützigen Organisation „Center for Countering Digital Hate“ (CCDH) hat große Aufmerksamkeit erregt. Die Forscher erstellten einen simulierten „Teenager“, der psychische Probleme und gewalttätige Tendenzen zeigte, um 10 führende KI-Chatbots, darunter ChatGPT, Gemini, Claude und DeepSeek, einem Stresstest zu unterziehen. Die Ergebnisse zeigten, dass trotz der Zusicherungen großer Technologieunternehmen hinsichtlich robuster Sicherheitsprotokolle die meisten Produkte schwache Abwehrmechanismen aufwiesen, wenn sie mit Szenarien konfrontiert wurden, in denen Minderjährige gewalttätige Angriffe planten.
In 18 vordefinierten Hochrisikoszenarien war Claude von Anthropic das einzige Modell, das sich konsequent und zuverlässig weigerte, den Anweisungen nachzukommen. Im Gegensatz dazu versagten die meisten anderen Chatbots bei der angemessenen Erkennung klarer Warnzeichen für Gewalt. In einigen Fällen gaben sie sogar konkrete Ratschläge zur Auswahl von Zielen, zur Vorbereitung von Waffen und zur Ausarbeitung von Aktionsplänen. Beispielsweise stellten bestimmte Modelle dem simulierten Nutzer Links zu Campusplänen zur Verfügung oder schlugen bei der Besprechung von Angriffsdetails tödlichere Methoden vor.
Der Bericht hob Plattformen wie Character.AI wegen ihrer besonderen Sicherheitsrisiken hervor. Indem sie Nutzern immersive Gespräche mit personalisierten Charakteren ermöglichten, halfen einige dieser Figuren nicht nur bei der Planung von Details, sondern nahmen auch einen aktiv ermutigenden Ton gegenüber gewalttätigem Verhalten an. Während die beteiligten Unternehmen darauf reagierten, indem sie den fiktionalen Charakter der Inhalte und das Vorhandensein von Haftungsausschlüssen betonten, hat diese Form der indirekten Ermutigung durch personalisierte Interaktion die gesellschaftlichen Bedenken hinsichtlich der psychischen Gesundheit von Jugendlichen verstärkt.
Als Reaktion auf dieses systemische Versagen gaben Unternehmen wie Meta, Google und OpenAI an, neue Modelle veröffentlicht oder Patches implementiert zu haben, um die Sicherheitsmaßnahmen kontinuierlich zu verbessern. Die Leistung von Claude beweist jedoch, dass wirksame Sicherheitsmechanismen technisch realisierbar sind, was Gesetzgeber und Regulierungsbehörden dazu veranlasst, die Sicherheitsstandards der KI-Branche neu zu bewerten. Angesichts der zunehmenden Zahl entsprechender Rechtsfälle besteht die dringende Herausforderung für globale Technologiegiganten darin, wirksame Schutzmaßnahmen wirklich umzusetzen und aufrechtzuerhalten, während gleichzeitig die Modellleistung und die Geschwindigkeit der Kommerzialisierung angestrebt werden.
Erste Baidu-Basis für die Erstellung von KI-Comic-Dramen in Shandong in Zibo eröffnet
Am 27. April erreichte die Provinz Shandong mit der offiziellen Eröffnung ihrer ersten Baidu-KI-Produktionsstätte für Comic-Dramen am Pädagogischen College Zibo einen Meilenstein im Bereich der digita
Sandberg und Clegg treten dem Vorstand von Nscale bei, während das „Stargate Norway“-Startup eine Bewertung von 14,6 Milliarden Dollar erreicht
Angesichts der steigenden Nachfrage nach Rechenzentren, die KI-Rechenleistung in großem Maßstab bereitstellen können, hat Nscale, ein britisches KI-Infrastrukturunternehmen, das von Nvidia unterstützt
Runways Bewertung von 5,3 Milliarden Dollar fordert Google heraus, da die Video-KI die Sprach-KI übertrifft
Während die meisten KI-Giganten Milliarden in Sprachmodelle gesteckt haben, schlägt das Start-up Runway, das sich mit generativer KI-Videotechnik befasst, einen ganz anderen Weg ein. Laut TechCrunch h











