オプション
ニュース
NPRサンデーパズルの質問でテストされたAI '推論モデル

NPRサンデーパズルの質問でテストされたAI '推論モデル

2025年4月10日
132

毎週日曜日、NPRのウィル・ショーツ、ニューヨーク・タイムズのクロスワードパズルの仕掛け人が、彼のセグメント「サンデーパズル」で何千人ものリスナーを引きつけます。これらのパズルは一般知識で解けるように作られていますが、経験豊富なパズル愛好者にとってもかなりの挑戦となります。

この複雑さが、一部の専門家がサンデーパズルがAIの問題解決能力の限界をテストする貴重なツールになり得ると考える理由です。

最近の研究では、ウェルズリー大学、オバーリン大学、テキサス大学オースティン校、ノースイースタン大学、チャールズ大学、そしてスタートアップのCursorの研究者たちが、サンデーパズルのなぞなぞを使ったAIベンチマークを開発しました。彼らの発見は、OpenAIのo1を含む推論モデルが、時折「諦める」ことや、知っていて間違った答えを提供するなど、興味深い行動を示しました。

ノースイースタンのコンピュータサイエンス教授であり、研究の共著者であるアージュン・グハは、TechCrunchに対し、目標は一般知識を持つ人なら誰でも理解できるベンチマークを作ることだったと説明しました。彼は「私たちは、一般知識だけで人間が理解できる問題を使ったベンチマークを開発したかった」と述べました。

AI業界は現在、ベンチマークにおける課題に直面しています。多くのテストは、博士レベルの数学や科学など、ほとんどのユーザーに関係のない高度なスキルに焦点を当てています。さらに、最近リリースされたベンチマークでさえ、飽和状態に近づいています。

グハによると、サンデーパズルは専門知識に依存せず、その形式がAIモデルが単に記憶した答えを吐き出すことを防ぐため、独自の利点を提供します。彼は「これらの問題を難しくしているのは、問題を解くまで意味のある進展を遂げることが非常に難しい点です。すべてが一気に繋がるのはその瞬間です。それには洞察力と排除プロセスの組み合わせが必要です」と詳しく説明しました。

しかし、サンデーパズルには限界もあります。それは米国文化を中心に構成されており、英語のみを使用しています。また、モデルが以前に問題を見たことがある場合、「カンニング」するリスクがあります。グハはまだその証拠を見つけていないと安心させますが、「新しい問題は毎週リリースされ、最新の問題は本当に見たことがないものと期待できます。ベンチマークを新鮮に保ち、モデルのパフォーマンスが時間とともにどう変化するかを追跡するつもりです」と付け加えました。

研究者のベンチマークには、約600のサンデーパズルのなぞなぞが含まれており、o1やDeepSeekのR1のような推論モデルが他のモデルを大きく上回りました。これらのモデルは自身を綿密に事実確認し、よくある落とし穴を回避します。ただし、この徹底さは、解決に数秒から数分長くかかることを意味します。

興味深いことに、DeepSeekのR1は時折敗北を認め、「諦めます」と言ってランダムな間違った答えを提供します。これは多くの人間が共感できる反応です。観察された他の奇妙な行動には、モデルが間違った答えを出し、それを撤回し、別の推測を試みて再び失敗する、といったものがあります。一部のモデルは「思考」の無限ループに陥ったり、意味不明な説明を提供したり、正しい答えを出した後に不必要に他の答えを探ったりします。

グハはR1の行動について、「難しい問題では、R1が文字通り『苛立っている』と言います。モデルが人間が言うかもしれないことを模倣するのは面白かったです。推論における『苛立ち』がモデルの結果の質にどのように影響するかは、今後の課題です」とコメントしました。

NPRベンチマーク

サンデーパズルチャレンジセットの質問で「苛立つ」R1。画像クレジット:グハら。

現在のベンチマークのトップパフォーマーはo1で、59%のスコアを達成し、次いで最近リリースされた「高推論努力」に設定されたo3-miniが47%、R1は35%でした。研究者たちは、さらに多くの推論モデルをテストに含め、改善の余地を特定することを計画しています。

NPRベンチマーク

チームがベンチマークでテストしたモデルのスコア。画像クレジット:グハら。

グハはアクセス可能なベンチマークの重要性を強調し、「推論に優れているのに博士号は必要ありません。したがって、博士レベルの知識を必要としない推論ベンチマークを設計できるはずです。より幅広いアクセスが可能なベンチマークは、より多くの研究者が結果を理解し分析することを可能にし、将来的により良い解決策につながる可能性があります。さらに、最先端のモデルがすべての人に影響を与える場面でますます展開される中、誰もがこれらのモデルが何ができ、何ができないかを直感的に理解できるべきだと考えています」と述べました。

関連記事
SalesforceがSlackでAIデジタルチームメイトを公開、Microsoft Copilotに対抗 SalesforceがSlackでAIデジタルチームメイトを公開、Microsoft Copilotに対抗 Salesforceは新しい職場AI戦略を発表し、月曜日にSlackの会話に統合された専門の「デジタルチームメイト」を導入した。新ツール「SlackのAgentforce」は、企業が職場チャットを検索し、会社データにアクセスし、従業員が日常的に働くメッセージングプラットフォーム内でアクションを実行するタスク特化型AIエージェントを作成・展開できる。「専門の従業員が協力して問題を解決するように、クラ
Oracleの40億ドルNvidiaチップ投資がテキサスAIデータセンターを強化 Oracleの40億ドルNvidiaチップ投資がテキサスAIデータセンターを強化 Oracleは、Financial Timesが報じたところによると、OpenAIが開発するテキサスの主要な新データセンターを動かすために、約40億ドルのNvidiaチップに投資する予定です。この取引は、これまでで最大規模のチップ取得の一つであり、AIコンピューティングリソースに対する急増する需要を強調しています。テキサス州アビリーンに位置するこの施設は、米国初の「Stargate」データセンター
Meta AIアプリがプレミアム層と広告を導入 Meta AIアプリがプレミアム層と広告を導入 MetaのAIアプリは、OpenAI、Google、Microsoftなどの競合他社と同様に、有料サブスクリプションを近日中に導入する可能性があります。2025年第1四半期の決算発表で、MetaのCEOマーク・ザッカーバーグは、プレミアムサービス計画を発表し、ユーザーがMeta AIで強化された計算能力や追加機能にアクセスできるようにすると述べました。ChatGPTに対抗するため、Metaは今週、
コメント (11)
0/200
StephenRamirez
StephenRamirez 2025年7月22日 15:33:07 JST

NPR's Sunday Puzzle with AI? Sounds like a brain teaser showdown! I wonder if these models can outsmart Will Shortz’s tricky wordplay. 🤔

PaulTaylor
PaulTaylor 2025年4月20日 6:13:34 JST

¡Esta herramienta de IA que resuelve los rompecabezas de los domingos de NPR es genial! Es como tener un amigo listo que ama los rompecabezas tanto como yo. A veces se equivoca, pero ¿quién no? ¡Sigue así, IA! 😄

StephenScott
StephenScott 2025年4月19日 19:57:20 JST

This AI tool tackling NPR's Sunday Puzzles is super cool! It's like having a brainy friend who loves puzzles as much as I do. Sometimes it gets the answers wrong, but hey, who doesn't? Keep up the good work, AI! 🤓

CharlesThomas
CharlesThomas 2025年4月19日 11:09:55 JST

NPRのサンデーパズルに挑戦するこのAIツール、めっちゃ面白い!パズル好きの友達がいるみたいで嬉しい。たまに答えを間違えるけど、誰でもそうなるよね。頑張ってね、AI!😊

JackMartin
JackMartin 2025年4月13日 19:51:16 JST

NPRのサンデーパズルをAIで解くのは驚きです!これらのトリッキーな質問をモデルがどれだけうまく処理するかを見るのはクールです。時々間違えることもありますが、それでも印象的です。アルゴリズムを調整し続けてくださいね!🤓

RichardRoberts
RichardRoberts 2025年4月13日 17:54:45 JST

Sử dụng AI để giải các câu đố Chủ Nhật của NPR thật là đáng kinh ngạc! Thật tuyệt khi thấy các mô hình xử lý tốt những câu hỏi khó khăn này. Đôi khi chúng sai, nhưng vẫn rất ấn tượng. Cứ tiếp tục điều chỉnh các thuật toán đó, các bạn! 🤓

トップに戻ります
OR