Option
Heim
Nachricht
AI -Argumentationsmodelle mit NPR -Sonntagspuzzle -Fragen getestet

AI -Argumentationsmodelle mit NPR -Sonntagspuzzle -Fragen getestet

10. April 2025
132

Jeden Sonntag begeistert Will Shortz, der Mastermind hinter den Kreuzworträtseln der New York Times, Tausende von Zuhörern mit seinem Segment, dem Sunday Puzzle, bei NPR. Diese Rätsel sind so gestaltet, dass sie mit Allgemeinwissen lösbar sind, stellen jedoch selbst für erfahrene Rätsellöser eine erhebliche Herausforderung dar.

Diese Komplexität ist der Grund, warum einige Experten glauben, dass der Sunday Puzzle als wertvolles Werkzeug dienen könnte, um die Grenzen der Problemlösungsfähigkeiten von KI zu testen.

In einer kürzlich durchgeführten Studie entwickelten Forscher vom Wellesley College, Oberlin College, der University of Texas at Austin, der Northeastern University, der Charles University und dem Startup Cursor einen KI-Benchmark unter Verwendung von Rätseln aus dem Sunday Puzzle. Ihre Ergebnisse zeigten faszinierende Verhaltensweisen bei Reasoning-Modellen, einschließlich OpenAI's o1, das gelegentlich „aufgibt“ und wissentlich falsche Antworten liefert.

Arjun Guha, ein Informatikprofessor an der Northeastern und Mitautor der Studie, erklärte gegenüber TechCrunch, dass das Ziel war, einen Benchmark zu erstellen, der für jeden mit Allgemeinwissen verständlich ist. Er bemerkte: „Wir wollten einen Benchmark mit Problemen entwickeln, die Menschen nur mit Allgemeinwissen verstehen können.“

Die KI-Branche steht derzeit vor einer Herausforderung beim Benchmarking, da viele Tests auf fortgeschrittene Fähigkeiten wie Mathematik und Naturwissenschaften auf PhD-Niveau fokussiert sind, die für die meisten Nutzer nicht relevant sind. Darüber hinaus sind selbst kürzlich veröffentlichte Benchmarks fast gesättigt.

Der Sunday Puzzle bietet einen einzigartigen Vorteil, da er nicht auf spezialisiertes Wissen angewiesen ist und sein Format verhindert, dass KI-Modelle einfach auswendig gelernte Antworten wiedergeben, so Guha. Er erläuterte: „Ich denke, was diese Probleme schwierig macht, ist, dass es wirklich schwer ist, bedeutende Fortschritte bei einem Problem zu machen, bis man es löst – das ist der Moment, in dem alles plötzlich zusammenpasst. Das erfordert eine Kombination aus Einsicht und einem Ausschlussverfahren.“

Allerdings hat der Sunday Puzzle auch seine Grenzen. Er ist stark auf die US-Kultur zentriert und verwendet ausschließlich Englisch, und es besteht das Risiko, dass Modelle, die auf diesen Rätseln trainiert wurden, „schummeln“ könnten, wenn sie die Fragen zuvor gesehen haben. Guha beruhigt jedoch, dass er dafür noch keine Beweise gefunden hat. Er fügte hinzu: „Neue Fragen werden jede Woche veröffentlicht, und wir können davon ausgehen, dass die neuesten Fragen wirklich ungesehen sind. Wir beabsichtigen, den Benchmark frisch zu halten und zu verfolgen, wie sich die Leistung der Modelle im Laufe der Zeit verändert.“

Der Benchmark der Forscher, der etwa 600 Rätsel aus dem Sunday Puzzle umfasst, zeigte, dass Reasoning-Modelle wie o1 und DeepSeek's R1 andere Modelle deutlich übertrafen. Diese Modelle überprüfen sich selbst akribisch, was ihnen hilft, häufige Fehler zu vermeiden. Diese Gründlichkeit bedeutet jedoch, dass sie länger brauchen, um eine Lösung zu finden – typischerweise einige Sekunden bis Minuten mehr.

Interessanterweise gibt DeepSeek's R1 manchmal auf und sagt „Ich gebe auf“, bevor es eine zufällige falsche Antwort liefert – eine Reaktion, mit der viele Menschen mitfühlen können. Andere merkwürdige Verhaltensweisen, die beobachtet wurden, umfassen Modelle, die eine falsche Antwort geben, diese zurückziehen, einen weiteren Versuch starten und erneut scheitern. Einige Modelle geraten in endlose Schleifen des „Nachdenkens“, liefern unsinnige Erklärungen oder beantworten eine Frage korrekt, um dann unnötigerweise alternative Antworten zu erkunden.

Guha kommentierte das Verhalten von R1 und sagte: „Bei schwierigen Problemen sagt R1 buchstäblich, dass es ‚frustriert‘ ist. Es war amüsant zu sehen, wie ein Modell nachahmt, was ein Mensch sagen könnte. Es bleibt abzuwarten, wie ‚Frustration‘ beim Reasoning die Qualität der Modellergebnisse beeinflussen kann.“

NPR-Benchmark

R1 wird bei einer Frage im Sunday Puzzle-Herausforderungsset „frustriert“.Bildnachweis:Guha et al.

Der derzeitige Spitzenreiter im Benchmark ist o1 mit einem Ergebnis von 59 %, gefolgt von dem kürzlich veröffentlichten o3-mini, das auf hohe „Reasoning-Anstrengung“ eingestellt ist, mit 47 %. R1 erzielte 35 %. Die Forscher planen, ihre Tests auf weitere Reasoning-Modelle auszuweiten, in der Hoffnung, Verbesserungsbereiche zu identifizieren.

NPR-Benchmark

Die Punktzahlen der Modelle, die das Team in ihrem Benchmark getestet hat.Bildnachweis:Guha et al.

Guha betonte die Bedeutung zugänglicher Benchmarks und erklärte: „Man braucht keinen PhD, um gut im Reasoning zu sein, daher sollte es möglich sein, Reasoning-Benchmarks zu entwerfen, die kein Wissen auf PhD-Niveau erfordern. Ein Benchmark mit breiterem Zugang ermöglicht es einer größeren Gruppe von Forschern, die Ergebnisse zu verstehen und zu analysieren, was wiederum in Zukunft zu besseren Lösungen führen kann. Darüber hinaus glauben wir, dass jeder in der Lage sein sollte, intuitiv zu erfassen, was diese Modelle können – und was nicht –, da modernste Modelle zunehmend in Bereichen eingesetzt werden, die jeden betreffen.“

Verwandter Artikel
Salesforce stellt KI-Digitale Teamkollegen in Slack vor, um mit Microsoft Copilot zu konkurrieren Salesforce stellt KI-Digitale Teamkollegen in Slack vor, um mit Microsoft Copilot zu konkurrieren Salesforce hat eine neue KI-Strategie für den Arbeitsplatz gestartet und spezialisierte „digitale Teamkollegen“ in Slack-Konversationen integriert, wie das Unternehmen am Montag bekannt gab.Das neue T
Oracles 40-Mrd.-Nvidia-Chip-Investition stärkt Texas AI-Rechenzentrum Oracles 40-Mrd.-Nvidia-Chip-Investition stärkt Texas AI-Rechenzentrum Oracle plant, etwa 40 Milliarden Dollar in Nvidia-Chips zu investieren, um ein großes neues Rechenzentrum in Texas zu betreiben, das von OpenAI entwickelt wird, wie die Financial Times berichtet. Dies
Meta AI App führt Premium-Stufe und Werbung ein Meta AI App führt Premium-Stufe und Werbung ein Die AI-App von Meta könnte bald ein kostenpflichtiges Abonnement einführen, ähnlich den Angeboten von Konkurrenten wie OpenAI, Google und Microsoft. Während eines Q1 2025 Earnings Calls skizzierte Met
Kommentare (11)
0/200
StephenRamirez
StephenRamirez 22. Juli 2025 08:33:07 MESZ

NPR's Sunday Puzzle with AI? Sounds like a brain teaser showdown! I wonder if these models can outsmart Will Shortz’s tricky wordplay. 🤔

PaulTaylor
PaulTaylor 19. April 2025 23:13:34 MESZ

¡Esta herramienta de IA que resuelve los rompecabezas de los domingos de NPR es genial! Es como tener un amigo listo que ama los rompecabezas tanto como yo. A veces se equivoca, pero ¿quién no? ¡Sigue así, IA! 😄

StephenScott
StephenScott 19. April 2025 12:57:20 MESZ

This AI tool tackling NPR's Sunday Puzzles is super cool! It's like having a brainy friend who loves puzzles as much as I do. Sometimes it gets the answers wrong, but hey, who doesn't? Keep up the good work, AI! 🤓

CharlesThomas
CharlesThomas 19. April 2025 04:09:55 MESZ

NPRのサンデーパズルに挑戦するこのAIツール、めっちゃ面白い!パズル好きの友達がいるみたいで嬉しい。たまに答えを間違えるけど、誰でもそうなるよね。頑張ってね、AI!😊

JackMartin
JackMartin 13. April 2025 12:51:16 MESZ

NPRのサンデーパズルをAIで解くのは驚きです!これらのトリッキーな質問をモデルがどれだけうまく処理するかを見るのはクールです。時々間違えることもありますが、それでも印象的です。アルゴリズムを調整し続けてくださいね!🤓

RichardRoberts
RichardRoberts 13. April 2025 10:54:45 MESZ

Sử dụng AI để giải các câu đố Chủ Nhật của NPR thật là đáng kinh ngạc! Thật tuyệt khi thấy các mô hình xử lý tốt những câu hỏi khó khăn này. Đôi khi chúng sai, nhưng vẫn rất ấn tượng. Cứ tiếp tục điều chỉnh các thuật toán đó, các bạn! 🤓

Zurück nach oben
OR