GPT-4.5 enthüllt Problem des Turing-Tests
22. Mai 2025
EricJohnson
0
Der Turing-Test, ein Konzept des legendären Alan Turing, ist seit Langem ein Maßstab in der Welt der künstlichen Intelligenz. Doch lassen Sie uns gleich ein weit verbreitetes Missverständnis aufklären: Der Turing-Test zu bestehen bedeutet nicht unbedingt, dass eine Maschine "denkt" wie ein Mensch. Es geht eher darum, Menschen davon zu überzeugen, dass sie es tut.
Neue Forschung von der University of California in San Diego hat den Scheinwerfer auf das neueste Modell von OpenAI, GPT-4.5, gerichtet. Diese KI kann Menschen nun noch effektiver dazu bringen, zu glauben, sie würden mit einer anderen Person chatten, als Menschen es untereinander können. Das ist eine große Sache in der Welt der KI – es ist wie bei einem Zaubertrick, bei dem man das Geheimnis kennt, der einen aber trotzdem umhaut.

Beweis für AGI?
Aber hier kommt der Haken: Selbst die Forscher an der UC San Diego sind nicht bereit, zu erklären, dass wir "künstliche allgemeine Intelligenz" (AGI) erreicht haben, nur weil ein KI-Modell den Turing-Test besteht. AGI wäre der Heilige Gral der KI – Maschinen, die denken und Informationen verarbeiten können, genau wie Menschen es tun.
Melanie Mitchell, eine KI-Forscherin vom Santa Fe Institute, argumentiert in der Zeitschrift Science, dass der Turing-Test mehr über menschliche Annahmen als über tatsächliche Intelligenz testet. Klar, eine KI mag fließend und überzeugend klingen, aber das ist nicht dasselbe wie allgemeine Intelligenz. Es ist wie das Schachspielen – beeindruckend, aber nicht das ganze Bild.
Der neueste Hype rund um dies stammt aus einem Papier von Cameron Jones und Benjamin Bergen an der UC San Diego, betitelt "Large Language Models Pass the Turing Test", veröffentlicht auf dem arXiv Pre-Print-Server. Sie führen dieses Experiment seit Jahren durch, mit Unterstützung von UC San Diego-Studenten, und es ist Teil einer langen Reihe von Forschungen – über 800 Behauptungen und Gegenargumente wurden über Computer, die den Turing-Test bestehen, gemacht.
Wie funktioniert der Turing-Test?
Wie funktioniert dieser Test also? Ursprünglich stellte sich Turing das als ein Spiel mit Textnachrichten zwischen einem menschlichen "Richter" und zwei "Zeugen" vor – einem Menschen und einem Computer. Die Herausforderung für die Zeugen ist es, den Richter davon zu überzeugen, dass sie menschlich sind. Der Richter weiß, dass einer ein Mensch ist, aber nicht welcher, und muss eine Vermutung anstellen. Es ist eine Dreierkonstellation, die genauso sehr um Wahrnehmung und Glauben geht wie um die Fähigkeiten des Computers.
Jones und Bergen haben diesem klassischen Setup ihre eigene Wendung gegeben, und man kann es sogar online ausprobieren, sei es als Richter oder Zeuge. In ihrer Version nutzten UC San Diego-Studenten eine Text-Chat-App. Einige spielten den Richter, andere den menschlichen Zeugen, während GPT-4.5 die Rolle des Computer-Zeugen übernahm. Jeder Richter chattete gleichzeitig mit einem Menschen und einem Computer, was dem ursprünglichen Format von Turing treu blieb.
Um den Computer-Zeugen zu spielen, verwendeten sie verschiedene große Sprachmodelle, denen sie Prompts basierend auf den Herausforderungen des Richters gaben. GPT-4.5 wurde mit zwei verschiedenen Prompts getestet: einem mit minimalen Informationen und einem anderen namens PERSONA, das detaillierte Anweisungen enthielt, wie ein junger, introvertierter, internetkundiger Mensch zu agieren, der Slang verwendet.

Die Ergebnisse
Sie testeten auch drei andere KI-Programme: das vorherige Modell von OpenAI, GPT-4o; Meta Platforms' Llama 3.1 405b; und den uralten Chatbot aus den 1960er Jahren, ELIZA. ELIZA wurde eingeführt, um zu sehen, ob die großen Sprachmodelle nur durch Zufall Menschen täuschen oder ob sie wirklich besser sind.
GPT-4.5, laut Jones und Bergen, täuschte menschliche Richter in 73% der Fälle, dass es ein Mensch sei – eine "Gewinnrate", wie sie es nennen. Das ist viel besser als die anderen Modelle, die zwischen 21% und 56% erzielten, selbst mit ähnlichen detaillierten Prompts. Und es ist ein riesiger Sprung gegenüber dem Test des vergangenen Jahres von GPT-4, das nur eine Gewinnrate von 54% hatte, kaum über dem Zufall.
Jones und Bergen stellten fest, dass Richter nicht nur von der KI getäuscht wurden, sondern tatsächlich eher glaubten, dass sie ein Mensch sei, als die echten menschlichen Teilnehmer.
Ist der Test wirklich ein Maß für Intelligenz?
Was bedeutet es also, dass Menschen im Chat einen Computer nicht von einer Person unterscheiden können? Die große Frage, die seit Jahrzehnten diskutiert wird, ist, ob der Turing-Test wirklich Intelligenz misst. Jones und Bergen schlagen vor, dass Maschinen vielleicht einfach so gut geworden sind, sich an verschiedene Szenarien anzupassen, dass sie überzeugend als Mensch durchgehen können. Der PERSONA-Prompt, von Menschen erstellt, ist etwas, woran sich GPT-4.5 angepasst hat und das es zu seinem Vorteil genutzt hat.
Aber es gibt einen Haken: Vielleicht sind Menschen einfach schlecht darin, Intelligenz zu erkennen. Die Autoren weisen darauf hin, dass ELIZA, der uralte Chatbot, Richter 23% der Zeit täuschte, nicht, weil sie intelligenter war, sondern weil sie nicht den Erwartungen entsprach, wie eine KI sein sollte. Einige Richter hielten sie für menschlich, weil sie "sarkastisch" oder "unhöflich" war, was sie von einer KI nicht erwarteten.
Das deutet darauf hin, dass Richter von ihren Annahmen über das Verhalten von Menschen und KIs beeinflusst werden, anstatt einfach den intelligentesten scheinenden Agenten zu wählen. Interessanterweise konzentrierten sich die Richter weniger auf Wissen, was Turing für entscheidend hielt. Stattdessen glaubten sie eher, dass ein Zeuge menschlich sei, wenn er Wissenslücken zu haben schien.
Sozialverhalten, nicht Intelligenz
Alles in allem deutet das darauf hin, dass Menschen eher auf Sozialverhalten als auf Intelligenz achten. Jones und Bergen kommen zu dem Schluss, dass der Turing-Test nicht wirklich ein Test der Intelligenz ist – es ist ein Test der Menschlichkeit.
Turing mochte gedacht haben, dass Intelligenz das größte Hindernis sei, um menschlich zu erscheinen, aber je näher Maschinen uns kommen, desto offensichtlicher werden andere Unterschiede. Intelligenz allein reicht nicht mehr aus, um überzeugend menschlich zu wirken.
Was im Papier nicht direkt gesagt wird, ist, dass Menschen so daran gewöhnt sind, auf Computern zu tippen, sei es an eine Person oder eine Maschine, dass der Turing-Test nicht mehr der neuartige Test für Mensch-Computer-Interaktion ist, der er einmal war. Es ist eher ein Test der Online-Gewohnheiten von Menschen geworden.
Die Autoren schlagen vor, dass der Test erweitert werden könnte, weil Intelligenz so komplex und vielseitig ist, dass kein einziger Test entscheidend sein kann. Sie schlagen verschiedene Designs vor, wie die Nutzung von KI-Experten als Richter oder das Hinzufügen finanzieller Anreize, um Richter genauer zu prüfen. Diese Änderungen könnten zeigen, wie sehr Einstellungen und Erwartungen die Ergebnisse beeinflussen.
Sie kommen zu dem Schluss, dass der Turing-Test zwar Teil des Bildes sein mag, aber zusammen mit anderen Arten von Beweisen betrachtet werden sollte. Dies entspricht einem wachsenden Trend in der KI-Forschung, Menschen "im Loop" einzubeziehen, um zu bewerten, was Maschinen tun.
Reicht das menschliche Urteil aus?
Doch bleibt die Frage, ob das menschliche Urteil langfristig ausreichen wird. Im Film Blade Runner verwenden Menschen eine Maschine, den "Voight-Kampff", um Menschen von Replikanten-Robotern zu unterscheiden. Während wir AGI verfolgen und kämpfen, um zu definieren, was sie überhaupt ist, könnten wir letztendlich darauf angewiesen sein, dass Maschinen die Intelligenz von Maschinen bewerten.
Oder wir müssen zumindest Maschinen fragen, was sie über Menschen denken, die versuchen, andere Menschen mit Prompts zu täuschen. Es ist eine wilde Welt da draußen in der KI-Forschung, und sie wird nur noch interessanter.
Verwandter Artikel
Apple wird 2027 gekrümmtes Glas-iPhone starten
Heute Morgen hat Mark Gurman von Bloomberg mit seinem Power On-Newsletter Aufregung ausgelöst, indem er eine Apple-"Produktoffensive" für 2027 prognostizierte. Besonders erwähnensw
KI-betriebene Nachfragebriefe helfen dabei, gefrorene Mittel freizuschalten
Der Umgang mit gefrorenen Mitteln von Unternehmen wie Amazon, PayPal oder Stripe kann echte Kopfschmerzen haben. Ein effektiver Weg, um dieses Problem anzugehen, besteht darin, ein überzeugendes Nachfragebrief zu senden. Mit Hilfe von KI, insbesondere Chatgpt
Llama 3.1: Metas Schritt Richtung Open-Source-KI
Meta stellt Llama 3.1 vor: Ein neuer Sprung in der KI-TechnologieMeta, das Unternehmen hinter Facebook, hat gerade den roten Teppich für Llama 3.1 405B ausgerollt, ihr neuestes Ope
Kommentare (0)
0/200






Der Turing-Test, ein Konzept des legendären Alan Turing, ist seit Langem ein Maßstab in der Welt der künstlichen Intelligenz. Doch lassen Sie uns gleich ein weit verbreitetes Missverständnis aufklären: Der Turing-Test zu bestehen bedeutet nicht unbedingt, dass eine Maschine "denkt" wie ein Mensch. Es geht eher darum, Menschen davon zu überzeugen, dass sie es tut.
Neue Forschung von der University of California in San Diego hat den Scheinwerfer auf das neueste Modell von OpenAI, GPT-4.5, gerichtet. Diese KI kann Menschen nun noch effektiver dazu bringen, zu glauben, sie würden mit einer anderen Person chatten, als Menschen es untereinander können. Das ist eine große Sache in der Welt der KI – es ist wie bei einem Zaubertrick, bei dem man das Geheimnis kennt, der einen aber trotzdem umhaut.
Beweis für AGI?
Aber hier kommt der Haken: Selbst die Forscher an der UC San Diego sind nicht bereit, zu erklären, dass wir "künstliche allgemeine Intelligenz" (AGI) erreicht haben, nur weil ein KI-Modell den Turing-Test besteht. AGI wäre der Heilige Gral der KI – Maschinen, die denken und Informationen verarbeiten können, genau wie Menschen es tun.
Melanie Mitchell, eine KI-Forscherin vom Santa Fe Institute, argumentiert in der Zeitschrift Science, dass der Turing-Test mehr über menschliche Annahmen als über tatsächliche Intelligenz testet. Klar, eine KI mag fließend und überzeugend klingen, aber das ist nicht dasselbe wie allgemeine Intelligenz. Es ist wie das Schachspielen – beeindruckend, aber nicht das ganze Bild.
Der neueste Hype rund um dies stammt aus einem Papier von Cameron Jones und Benjamin Bergen an der UC San Diego, betitelt "Large Language Models Pass the Turing Test", veröffentlicht auf dem arXiv Pre-Print-Server. Sie führen dieses Experiment seit Jahren durch, mit Unterstützung von UC San Diego-Studenten, und es ist Teil einer langen Reihe von Forschungen – über 800 Behauptungen und Gegenargumente wurden über Computer, die den Turing-Test bestehen, gemacht.
Wie funktioniert der Turing-Test?
Wie funktioniert dieser Test also? Ursprünglich stellte sich Turing das als ein Spiel mit Textnachrichten zwischen einem menschlichen "Richter" und zwei "Zeugen" vor – einem Menschen und einem Computer. Die Herausforderung für die Zeugen ist es, den Richter davon zu überzeugen, dass sie menschlich sind. Der Richter weiß, dass einer ein Mensch ist, aber nicht welcher, und muss eine Vermutung anstellen. Es ist eine Dreierkonstellation, die genauso sehr um Wahrnehmung und Glauben geht wie um die Fähigkeiten des Computers.
Jones und Bergen haben diesem klassischen Setup ihre eigene Wendung gegeben, und man kann es sogar online ausprobieren, sei es als Richter oder Zeuge. In ihrer Version nutzten UC San Diego-Studenten eine Text-Chat-App. Einige spielten den Richter, andere den menschlichen Zeugen, während GPT-4.5 die Rolle des Computer-Zeugen übernahm. Jeder Richter chattete gleichzeitig mit einem Menschen und einem Computer, was dem ursprünglichen Format von Turing treu blieb.
Um den Computer-Zeugen zu spielen, verwendeten sie verschiedene große Sprachmodelle, denen sie Prompts basierend auf den Herausforderungen des Richters gaben. GPT-4.5 wurde mit zwei verschiedenen Prompts getestet: einem mit minimalen Informationen und einem anderen namens PERSONA, das detaillierte Anweisungen enthielt, wie ein junger, introvertierter, internetkundiger Mensch zu agieren, der Slang verwendet.
Die Ergebnisse
Sie testeten auch drei andere KI-Programme: das vorherige Modell von OpenAI, GPT-4o; Meta Platforms' Llama 3.1 405b; und den uralten Chatbot aus den 1960er Jahren, ELIZA. ELIZA wurde eingeführt, um zu sehen, ob die großen Sprachmodelle nur durch Zufall Menschen täuschen oder ob sie wirklich besser sind.
GPT-4.5, laut Jones und Bergen, täuschte menschliche Richter in 73% der Fälle, dass es ein Mensch sei – eine "Gewinnrate", wie sie es nennen. Das ist viel besser als die anderen Modelle, die zwischen 21% und 56% erzielten, selbst mit ähnlichen detaillierten Prompts. Und es ist ein riesiger Sprung gegenüber dem Test des vergangenen Jahres von GPT-4, das nur eine Gewinnrate von 54% hatte, kaum über dem Zufall.
Jones und Bergen stellten fest, dass Richter nicht nur von der KI getäuscht wurden, sondern tatsächlich eher glaubten, dass sie ein Mensch sei, als die echten menschlichen Teilnehmer.
Ist der Test wirklich ein Maß für Intelligenz?
Was bedeutet es also, dass Menschen im Chat einen Computer nicht von einer Person unterscheiden können? Die große Frage, die seit Jahrzehnten diskutiert wird, ist, ob der Turing-Test wirklich Intelligenz misst. Jones und Bergen schlagen vor, dass Maschinen vielleicht einfach so gut geworden sind, sich an verschiedene Szenarien anzupassen, dass sie überzeugend als Mensch durchgehen können. Der PERSONA-Prompt, von Menschen erstellt, ist etwas, woran sich GPT-4.5 angepasst hat und das es zu seinem Vorteil genutzt hat.
Aber es gibt einen Haken: Vielleicht sind Menschen einfach schlecht darin, Intelligenz zu erkennen. Die Autoren weisen darauf hin, dass ELIZA, der uralte Chatbot, Richter 23% der Zeit täuschte, nicht, weil sie intelligenter war, sondern weil sie nicht den Erwartungen entsprach, wie eine KI sein sollte. Einige Richter hielten sie für menschlich, weil sie "sarkastisch" oder "unhöflich" war, was sie von einer KI nicht erwarteten.
Das deutet darauf hin, dass Richter von ihren Annahmen über das Verhalten von Menschen und KIs beeinflusst werden, anstatt einfach den intelligentesten scheinenden Agenten zu wählen. Interessanterweise konzentrierten sich die Richter weniger auf Wissen, was Turing für entscheidend hielt. Stattdessen glaubten sie eher, dass ein Zeuge menschlich sei, wenn er Wissenslücken zu haben schien.
Sozialverhalten, nicht Intelligenz
Alles in allem deutet das darauf hin, dass Menschen eher auf Sozialverhalten als auf Intelligenz achten. Jones und Bergen kommen zu dem Schluss, dass der Turing-Test nicht wirklich ein Test der Intelligenz ist – es ist ein Test der Menschlichkeit.
Turing mochte gedacht haben, dass Intelligenz das größte Hindernis sei, um menschlich zu erscheinen, aber je näher Maschinen uns kommen, desto offensichtlicher werden andere Unterschiede. Intelligenz allein reicht nicht mehr aus, um überzeugend menschlich zu wirken.
Was im Papier nicht direkt gesagt wird, ist, dass Menschen so daran gewöhnt sind, auf Computern zu tippen, sei es an eine Person oder eine Maschine, dass der Turing-Test nicht mehr der neuartige Test für Mensch-Computer-Interaktion ist, der er einmal war. Es ist eher ein Test der Online-Gewohnheiten von Menschen geworden.
Die Autoren schlagen vor, dass der Test erweitert werden könnte, weil Intelligenz so komplex und vielseitig ist, dass kein einziger Test entscheidend sein kann. Sie schlagen verschiedene Designs vor, wie die Nutzung von KI-Experten als Richter oder das Hinzufügen finanzieller Anreize, um Richter genauer zu prüfen. Diese Änderungen könnten zeigen, wie sehr Einstellungen und Erwartungen die Ergebnisse beeinflussen.
Sie kommen zu dem Schluss, dass der Turing-Test zwar Teil des Bildes sein mag, aber zusammen mit anderen Arten von Beweisen betrachtet werden sollte. Dies entspricht einem wachsenden Trend in der KI-Forschung, Menschen "im Loop" einzubeziehen, um zu bewerten, was Maschinen tun.
Reicht das menschliche Urteil aus?
Doch bleibt die Frage, ob das menschliche Urteil langfristig ausreichen wird. Im Film Blade Runner verwenden Menschen eine Maschine, den "Voight-Kampff", um Menschen von Replikanten-Robotern zu unterscheiden. Während wir AGI verfolgen und kämpfen, um zu definieren, was sie überhaupt ist, könnten wir letztendlich darauf angewiesen sein, dass Maschinen die Intelligenz von Maschinen bewerten.
Oder wir müssen zumindest Maschinen fragen, was sie über Menschen denken, die versuchen, andere Menschen mit Prompts zu täuschen. Es ist eine wilde Welt da draußen in der KI-Forschung, und sie wird nur noch interessanter.











