IQ: Eine fehlerhafte Maßnahme für die AI -Bewertung

Bei einer kürzlichen Pressekonferenz teilte Sam Altman, CEO von OpenAI, seine Gedanken über die rasante Entwicklung des „IQ“ von KI mit. Er erwähnte: „Sehr grob gesagt, fühlt es sich für mich an – das ist nicht wissenschaftlich korrekt, sondern nur ein Gefühl oder eine spirituelle Antwort – als würden wir jedes Jahr eine Standardabweichung des IQ voranschreiten.“ Altman ist nicht allein darin, den IQ als Maßstab für den Fortschritt von KI zu verwenden; auch Influencer in sozialen Medien haben KI-Modelle IQ-Tests unterzogen und die Ergebnisse geteilt.
Viele Experten argumentieren jedoch, dass die Verwendung von IQ zur Bewertung der Fähigkeiten von KI nicht nur unzureichend, sondern auch irreführend ist. Sandra Wachter, eine Forscherin in Oxford, die sich auf Technologie und Regulierung spezialisiert, sagte gegenüber TechCrunch: „Es kann sehr verlockend sein, die gleichen Maßstäbe, die wir für Menschen verwenden, zu nutzen, um Fähigkeiten oder Fortschritte zu beschreiben, aber das ist, als würde man Äpfel mit Orangen vergleichen.“
Während der Pressekonferenz schien Altman IQ mit Intelligenz gleichzusetzen. Doch IQ-Tests messen eher relative, nicht absolute Maßstäbe bestimmter Intelligenzarten. Sie gelten allgemein als gute Indikatoren für Logik und abstraktes Denken, scheitern jedoch bei praktischer Intelligenz – der Art, die hilft, Dinge zum Laufen zu bringen. Außerdem liefern sie nur eine Momentaufnahme der Fähigkeiten einer Person.
Wachter betonte: „IQ ist ein Werkzeug, um menschliche Fähigkeiten zu messen – ein umstrittenes, wohlgemerkt – basierend auf dem, was Wissenschaftler für menschliche Intelligenz halten. Aber man kann nicht denselben Maßstab verwenden, um die Fähigkeiten von KI zu beschreiben. Ein Auto ist schneller als Menschen, und ein U-Boot ist besser im Tauchen. Aber das bedeutet nicht, dass Autos oder U-Boote die menschliche Intelligenz übertreffen. Man setzt einen Aspekt der Leistung mit menschlicher Intelligenz gleich, die viel komplexer ist.“
Die Ursprünge von IQ-Tests sind mit der Eugenik verbunden, einer diskreditierten Theorie über die Verbesserung von Menschen durch selektive Zucht. Um bei diesen Tests gut abzuschneiden, braucht man ein gutes Arbeitsgedächtnis und Vertrautheit mit westlichen kulturellen Normen, was Verzerrungen verursachen kann. Os Keyes, Doktorand an der University of Washington, der sich mit ethischer KI beschäftigt, glaubt, dass wenn ein KI-Modell bei einem IQ-Test gut abschneidet, dies mehr über die Schwächen des Tests als über die Stärke des Modells aussagt. Keyes sagte: „Diese Tests sind ziemlich leicht zu überlisten, wenn man praktisch unendlich viel Gedächtnis und Geduld hat. IQ-Tests sind eine stark eingeschränkte Methode, um Kognition, Bewusstsein und Intelligenz zu messen, was wir schon vor der Erfindung des digitalen Computers wussten.“
KI könnte bei IQ-Tests einen unfairen Vorteil haben, da Modelle über enormes Gedächtnis und Wissen verfügen. Sie werden oft mit öffentlichen Webdaten trainiert, die viele IQ-Testfragen enthalten. Mike Cook, Forschungsstipendiat am King’s College London, spezialisiert auf KI, bemerkte: „Tests wiederholen oft sehr ähnliche Muster – eine ziemlich sichere Methode, den IQ zu steigern, ist das Üben von IQ-Tests, was im Wesentlichen jedes Modell getan hat. Wenn ich etwas lerne, wird es nicht millionenfach mit perfekter Klarheit in mein Gehirn eingespeist, anders als bei KI, und ich kann es auch nicht ohne Rauschen oder Signalverlust verarbeiten.“
Cook wies auch darauf hin, dass IQ-Tests mit ihren inhärenten Verzerrungen für Menschen entwickelt wurden, um allgemeine Problemlösungsfähigkeiten zu bewerten. Sie sind für KI, die Probleme anders angeht, nicht geeignet. Er sagte: „Eine Krähe könnte ein Werkzeug benutzen, um eine Belohnung aus einer Box zu holen, aber das bedeutet nicht, dass sie sich in Harvard einschreiben kann. Wenn ich ein mathematisches Problem löse, kämpft mein Gehirn auch damit, die Worte auf der Seite korrekt zu lesen, nicht an die Einkäufe zu denken, die ich auf dem Heimweg erledigen muss, oder daran, ob es im Raum gerade zu kalt ist. Mit anderen Worten, menschliche Gehirne haben mit viel mehr Dingen zu kämpfen, wenn sie ein Problem lösen – egal ob IQ-Tests oder andere – und sie tun dies mit viel weniger Unterstützung als KI.“
Heidy Khlaaf, leitende KI-Wissenschaftlerin am AI Now Institute, sagte gegenüber TechCrunch, dass wir bessere Wege brauchen, um KI zu testen. Sie sagte: „In der Geschichte der Informatik haben wir die Rechenfähigkeiten nicht mit denen von Menschen verglichen, gerade weil die Natur der Berechnung bedeutet, dass Systeme schon immer Aufgaben erledigen konnten, die über menschliche Fähigkeiten hinausgehen. Die Idee, die Leistung von Systemen direkt mit menschlichen Fähigkeiten zu vergleichen, ist ein neues, stark umstrittenes Phänomen, und die Kontroverse um die ständig wachsenden – und sich verändernden – Benchmarks, die zur Bewertung von KI-Systemen geschaffen werden, ist groß.“
Verwandter Artikel
Kakao Mobility stellt einen Fahrplan für autonomes Fahren der Stufe 4 im Bereich der physischen KI vor
Kakao Mobility plant, im Rahmen seiner Strategie für physische KI Technologien für autonomes Fahren der Stufe 4 intern zu entwickeln.Auf der Konferenz „World IT Show 2026“ im COEX in Seoul stellte Ki
Barry Diller: Das Vertrauen in Sam Altman spielt keine Rolle, da die allgemeine künstliche Intelligenz (AGI) immer näher rückt
Barry Diller, der milliardenschwere Medienmogul, hält OpenAI-CEO Sam Altman nicht für unglaubwürdig, obwohl jüngste Berichte das Gegenteil nahelegen. Bei seiner Rede auf der „Future of Everything“-Kon
YouTube weitet die KI-basierte Deepfake-Erkennung auf Politiker, Regierungsvertreter und Journalisten aus
Am Dienstag gab YouTube bekannt, dass es seine Deepfake-Erkennungstechnologie auf eine ausgewählte Gruppe von Regierungsbeamten, politischen Kandidaten und Journalisten ausweiten wird. Das Tool identi
Empfehlungen zu verwandten Spezialthemen
Kommentare (48)
interesting perspective! always thought of AI as a super-fast learner, not something we could measure with something like IQ. sam’s analogy does make it relatable, but i agree—AI probably needs its own new rating system entirely. 🤔
Это точно! IQ — устаревший инструмент для оценки ИИ 🤖 Интеллект многогранен — творчество, эмоции, адаптация куда важнее сухих цифр. Интересно, какие метрики придут на смену?
¿IQ para medir IA? 😅 Qué idea más anticuada. Sam Altman tiene razón en que es una métrica limitada. Los humanos tenemos inteligencias múltiples, ¿por qué reducirlo todo a un número? Me pregunto si no deberíamos desarrollar nuevas formas de evaluar capacidades como creatividad o empatía en sistemas de IA. ¡Eso sí sería revolucionario!
A visão de Sam Altman sobre o crescimento do IQ da IA é intrigante, mas me parece um pouco vaga. É legal pensar que a IA está ficando mais inteligente a cada ano, mas como medimos isso? Ainda assim, é um conceito divertido para refletir tomando um café. ☕ Talvez eles devessem desenvolver uma métrica mais concreta? 🤔
サム・アルトマンのAIのIQ成長に関する見解は興味深いですが、私には少し曖昧に感じます。AIが毎年賢くなると思うのはクールですが、それをどう測るのでしょうか?それでも、コーヒーを飲みながら考える楽しいコンセプトですね。☕もっと具体的な指標を開発すべきかもしれませんね?🤔

Bei einer kürzlichen Pressekonferenz teilte Sam Altman, CEO von OpenAI, seine Gedanken über die rasante Entwicklung des „IQ“ von KI mit. Er erwähnte: „Sehr grob gesagt, fühlt es sich für mich an – das ist nicht wissenschaftlich korrekt, sondern nur ein Gefühl oder eine spirituelle Antwort – als würden wir jedes Jahr eine Standardabweichung des IQ voranschreiten.“ Altman ist nicht allein darin, den IQ als Maßstab für den Fortschritt von KI zu verwenden; auch Influencer in sozialen Medien haben KI-Modelle IQ-Tests unterzogen und die Ergebnisse geteilt.
Viele Experten argumentieren jedoch, dass die Verwendung von IQ zur Bewertung der Fähigkeiten von KI nicht nur unzureichend, sondern auch irreführend ist. Sandra Wachter, eine Forscherin in Oxford, die sich auf Technologie und Regulierung spezialisiert, sagte gegenüber TechCrunch: „Es kann sehr verlockend sein, die gleichen Maßstäbe, die wir für Menschen verwenden, zu nutzen, um Fähigkeiten oder Fortschritte zu beschreiben, aber das ist, als würde man Äpfel mit Orangen vergleichen.“
Während der Pressekonferenz schien Altman IQ mit Intelligenz gleichzusetzen. Doch IQ-Tests messen eher relative, nicht absolute Maßstäbe bestimmter Intelligenzarten. Sie gelten allgemein als gute Indikatoren für Logik und abstraktes Denken, scheitern jedoch bei praktischer Intelligenz – der Art, die hilft, Dinge zum Laufen zu bringen. Außerdem liefern sie nur eine Momentaufnahme der Fähigkeiten einer Person.
Wachter betonte: „IQ ist ein Werkzeug, um menschliche Fähigkeiten zu messen – ein umstrittenes, wohlgemerkt – basierend auf dem, was Wissenschaftler für menschliche Intelligenz halten. Aber man kann nicht denselben Maßstab verwenden, um die Fähigkeiten von KI zu beschreiben. Ein Auto ist schneller als Menschen, und ein U-Boot ist besser im Tauchen. Aber das bedeutet nicht, dass Autos oder U-Boote die menschliche Intelligenz übertreffen. Man setzt einen Aspekt der Leistung mit menschlicher Intelligenz gleich, die viel komplexer ist.“
Die Ursprünge von IQ-Tests sind mit der Eugenik verbunden, einer diskreditierten Theorie über die Verbesserung von Menschen durch selektive Zucht. Um bei diesen Tests gut abzuschneiden, braucht man ein gutes Arbeitsgedächtnis und Vertrautheit mit westlichen kulturellen Normen, was Verzerrungen verursachen kann. Os Keyes, Doktorand an der University of Washington, der sich mit ethischer KI beschäftigt, glaubt, dass wenn ein KI-Modell bei einem IQ-Test gut abschneidet, dies mehr über die Schwächen des Tests als über die Stärke des Modells aussagt. Keyes sagte: „Diese Tests sind ziemlich leicht zu überlisten, wenn man praktisch unendlich viel Gedächtnis und Geduld hat. IQ-Tests sind eine stark eingeschränkte Methode, um Kognition, Bewusstsein und Intelligenz zu messen, was wir schon vor der Erfindung des digitalen Computers wussten.“
KI könnte bei IQ-Tests einen unfairen Vorteil haben, da Modelle über enormes Gedächtnis und Wissen verfügen. Sie werden oft mit öffentlichen Webdaten trainiert, die viele IQ-Testfragen enthalten. Mike Cook, Forschungsstipendiat am King’s College London, spezialisiert auf KI, bemerkte: „Tests wiederholen oft sehr ähnliche Muster – eine ziemlich sichere Methode, den IQ zu steigern, ist das Üben von IQ-Tests, was im Wesentlichen jedes Modell getan hat. Wenn ich etwas lerne, wird es nicht millionenfach mit perfekter Klarheit in mein Gehirn eingespeist, anders als bei KI, und ich kann es auch nicht ohne Rauschen oder Signalverlust verarbeiten.“
Cook wies auch darauf hin, dass IQ-Tests mit ihren inhärenten Verzerrungen für Menschen entwickelt wurden, um allgemeine Problemlösungsfähigkeiten zu bewerten. Sie sind für KI, die Probleme anders angeht, nicht geeignet. Er sagte: „Eine Krähe könnte ein Werkzeug benutzen, um eine Belohnung aus einer Box zu holen, aber das bedeutet nicht, dass sie sich in Harvard einschreiben kann. Wenn ich ein mathematisches Problem löse, kämpft mein Gehirn auch damit, die Worte auf der Seite korrekt zu lesen, nicht an die Einkäufe zu denken, die ich auf dem Heimweg erledigen muss, oder daran, ob es im Raum gerade zu kalt ist. Mit anderen Worten, menschliche Gehirne haben mit viel mehr Dingen zu kämpfen, wenn sie ein Problem lösen – egal ob IQ-Tests oder andere – und sie tun dies mit viel weniger Unterstützung als KI.“
Heidy Khlaaf, leitende KI-Wissenschaftlerin am AI Now Institute, sagte gegenüber TechCrunch, dass wir bessere Wege brauchen, um KI zu testen. Sie sagte: „In der Geschichte der Informatik haben wir die Rechenfähigkeiten nicht mit denen von Menschen verglichen, gerade weil die Natur der Berechnung bedeutet, dass Systeme schon immer Aufgaben erledigen konnten, die über menschliche Fähigkeiten hinausgehen. Die Idee, die Leistung von Systemen direkt mit menschlichen Fähigkeiten zu vergleichen, ist ein neues, stark umstrittenes Phänomen, und die Kontroverse um die ständig wachsenden – und sich verändernden – Benchmarks, die zur Bewertung von KI-Systemen geschaffen werden, ist groß.“
Barry Diller: Das Vertrauen in Sam Altman spielt keine Rolle, da die allgemeine künstliche Intelligenz (AGI) immer näher rückt
Barry Diller, der milliardenschwere Medienmogul, hält OpenAI-CEO Sam Altman nicht für unglaubwürdig, obwohl jüngste Berichte das Gegenteil nahelegen. Bei seiner Rede auf der „Future of Everything“-Kon
YouTube weitet die KI-basierte Deepfake-Erkennung auf Politiker, Regierungsvertreter und Journalisten aus
Am Dienstag gab YouTube bekannt, dass es seine Deepfake-Erkennungstechnologie auf eine ausgewählte Gruppe von Regierungsbeamten, politischen Kandidaten und Journalisten ausweiten wird. Das Tool identi
interesting perspective! always thought of AI as a super-fast learner, not something we could measure with something like IQ. sam’s analogy does make it relatable, but i agree—AI probably needs its own new rating system entirely. 🤔
Это точно! IQ — устаревший инструмент для оценки ИИ 🤖 Интеллект многогранен — творчество, эмоции, адаптация куда важнее сухих цифр. Интересно, какие метрики придут на смену?
¿IQ para medir IA? 😅 Qué idea más anticuada. Sam Altman tiene razón en que es una métrica limitada. Los humanos tenemos inteligencias múltiples, ¿por qué reducirlo todo a un número? Me pregunto si no deberíamos desarrollar nuevas formas de evaluar capacidades como creatividad o empatía en sistemas de IA. ¡Eso sí sería revolucionario!
A visão de Sam Altman sobre o crescimento do IQ da IA é intrigante, mas me parece um pouco vaga. É legal pensar que a IA está ficando mais inteligente a cada ano, mas como medimos isso? Ainda assim, é um conceito divertido para refletir tomando um café. ☕ Talvez eles devessem desenvolver uma métrica mais concreta? 🤔
サム・アルトマンのAIのIQ成長に関する見解は興味深いですが、私には少し曖昧に感じます。AIが毎年賢くなると思うのはクールですが、それをどう測るのでしょうか?それでも、コーヒーを飲みながら考える楽しいコンセプトですね。☕もっと具体的な指標を開発すべきかもしれませんね?🤔





Heim






