옵션
뉴스
AI '추론'모델은 NPR 일요일 퍼즐 질문으로 테스트되었습니다

AI '추론'모델은 NPR 일요일 퍼즐 질문으로 테스트되었습니다

2025년 4월 10일
132

매주 일요일, NPR의 윌 쇼츠(Will Shortz), 뉴욕 타임스의 크로스워드 퍼즐의 주역은, 수천 명의 청취자들과 함께 일요 퍼즐 세그먼트를 진행합니다. 이 퍼즐들은 일반 지식으로 풀 수 있도록 설계되었지만, 숙련된 퍼즐 해결자들에게도 상당한 도전을 제공합니다.

이 복잡성 때문에 일부 전문가들은 일요 퍼즐이 AI의 문제 해결 능력의 한계를 테스트하는 데 유용한 도구가 될 수 있다고 믿습니다.

최근 연구에서 웰즐리 대학, 오벌린 대학, 텍사스 오스틴 대학, 노스이스턴 대학, 찰스 대학, 그리고 스타트업 커서(Cursor)의 연구원들은 일요 퍼즐의 수수께끼를 사용해 AI 벤치마크를 개발했습니다. 그들의 발견은 OpenAI의 o1을 포함한 추론 모델들이 때때로 "포기"하고 의도적으로 잘못된 답을 제공하는 흥미로운 행동을 보여주었습니다.

노스이스턴의 컴퓨터 과학 교수이자 연구의 공동 저자인 아르준 구하(Arjun Guha)는 테크크런치(TechCrunch)에 목표가 일반 지식만으로 이해할 수 있는 벤치마크를 만드는 것이라고 설명했습니다. 그는 "우리는 일반 지식만으로 사람들이 이해할 수 있는 문제를 가진 벤치마크를 개발하고 싶었다"고 말했습니다.

현재 AI 산업은 벤치마킹에 어려움을 겪고 있으며, 많은 테스트가 박사 수준의 수학 및 과학과 같은 고급 기술에 초점을 맞추고 있어 대부분의 사용자와 관련이 없습니다. 게다가 최근 발표된 벤치마크조차도 포화 상태에 가까워지고 있습니다.

구하에 따르면, 일요 퍼즐은 전문 지식에 의존하지 않고, 그 형식이 AI 모델이 단순히 기억된 답을 되풀이하는 것을 방지하기 때문에 독특한 이점을 제공합니다. 그는 "이 문제들이 어려운 이유는 문제를 해결할 때까지 의미 있는 진전을 이루기가 정말 어렵기 때문입니다. 모든 것이 한 번에 딱 맞아떨어집니다. 이는 통찰력과 제거 과정의 조합을 요구합니다"라고 설명했습니다.

그러나 일요 퍼즐에는 한계가 있습니다. 미국 문화를 중심으로 하며 영어만 사용하고, 모델이 이미 질문을 본 경우 "속임수"를 쓸 위험이 있습니다. 구하는 아직 이런 증거를 찾지 못했다고 안심시켰습니다. 그는 "매주 새로운 질문이 공개되며, 최신 질문은 정말로 보지 못한 질문일 것으로 기대할 수 있습니다. 우리는 벤치마크를 신선하게 유지하고 모델 성능이 시간에 따라 어떻게 변하는지 추적할 계획입니다"라고 덧붙였습니다.

약 600개의 일요 퍼즐 수수께끼를 포함한 연구자들의 벤치마크는 o1과 DeepSeek의 R1과 같은 추론 모델이 다른 모델들을 크게 앞섰음을 보여주었습니다. 이 모델들은 스스로를 꼼꼼히 사실 확인하여 흔한 함정을 피합니다. 그러나 이 철저함은 솔루션에 도달하는 데 더 많은 시간이 걸립니다 — 보통 몇 초에서 몇 분 더 걸립니다.

흥미롭게도, DeepSeek의 R1은 때때로 "포기합니다"라고 말하며 무작위로 잘못된 답을 제공합니다 — 많은 사람들이 공감할 수 있는 반응입니다. 관찰된 다른 특이한 행동으로는 모델이 잘못된 답을 제시한 후 철회하고, 다른 추측을 시도했다가 다시 실패하는 경우가 있습니다. 일부 모델은 "생각"의 끝없는 루프에 갇히거나, 터무니없는 설명을 제공하거나, 정답을 맞춘 후에도 불필요하게 다른 답을 탐색합니다.

구하는 R1의 행동에 대해 언급하며, "어려운 문제에서 R1은 문자 그대로 '좌절하고 있다'고 말합니다. 모델이 인간이 말할 법한 것을 모방하는 모습이 재미있었습니다. 추론에서 '좌절'이 모델 결과의 품질에 어떤 영향을 미칠지는 아직 지켜봐야 합니다"라고 말했습니다.

NPR 벤치마크

일요 퍼즐 챌린지 세트에서 질문에 “좌절”하는 R1.이미지 출처:구하 외.

현재 벤치마크에서 최고 성과를 낸 모델은 o1으로 59% 점수를 기록했으며, 최근 출시된 o3-mini는 높은 "추론 노력" 설정에서 47%를 기록했습니다. R1은 35%를 기록했습니다. 연구원들은 더 많은 추론 모델로 테스트를 확장하여 개선 영역을 정확히 파악할 계획입니다.

NPR 벤치마크

팀이 벤치마크에서 테스트한 모델들의 점수.이미지 출처:구하 외.

구하는 접근 가능한 벤치마크의 중요성을 강조하며, "추론에 능숙하기 위해 박사 학위가 필요하지 않으므로, 박사 수준의 지식을 요구하지 않는 추론 벤치마크를 설계할 수 있어야 합니다. 더 많은 연구자들이 결과를 이해하고 분석할 수 있는 벤치마크는 미래에 더 나은 솔루션으로 이어질 수 있습니다. 또한, 최첨단 모델이 점점 더 모두에게 영향을 미치는 환경에 배포됨에 따라, 모두가 이 모델들이 무엇을 할 수 있고, 할 수 없는지를 직관적으로 이해할 수 있어야 한다고 믿습니다"라고 말했습니다.

관련 기사
Salesforce, Slack에서 Microsoft Copilot과 경쟁하는 AI 디지털 팀메이트 공개 Salesforce, Slack에서 Microsoft Copilot과 경쟁하는 AI 디지털 팀메이트 공개 Salesforce는 새로운 직장 AI 전략을 공개하며 월요일, Slack 대화에 통합된 전문화된 “디지털 팀메이트”를 소개했습니다.새 도구인 Slack의 Agentforce는 기업이 직장 대화를 검색하고, 회사 데이터에 접근하며, 직원들이 매일 사용하는 메시징 플랫폼 내에서 작업을 실행하는 작업별 AI 에이전트를 만들고 배포할 수 있게 합니다.“전문화된
Oracle의 400억 달러 Nvidia 칩 투자로 텍사스 AI 데이터센터 강화 Oracle의 400억 달러 Nvidia 칩 투자로 텍사스 AI 데이터센터 강화 Oracle은 Financial Times에 따르면 OpenAI가 개발한 텍사스 주요 신규 데이터센터를 지원하기 위해 Nvidia 칩에 약 400억 달러를 투자할 예정입니다. 이는 지금까지 가장 큰 칩 인수 거래 중 하나로, AI 컴퓨팅 자원에 대한 급증하는 수요를 보여줍니다.텍사스 애빌린에 위치한 이 시설은 미국 최초의 “Stargate” 데이터센터입니다
Meta AI 앱, 프리미엄 티어 및 광고 도입 Meta AI 앱, 프리미엄 티어 및 광고 도입 Meta의 AI 앱은 OpenAI, Google, Microsoft와 같은 경쟁사의 제품과 유사하게 유료 구독 서비스를 곧 선보일 예정입니다. 2025년 1분기 실적 발표에서 Meta CEO Mark Zuckerberg는 프리미엄 서비스 계획을 밝히며, 이를 통해 사용자가 Meta AI에서 향상된 컴퓨팅 파워나 추가 기능을 이용할 수 있다고 전했습니다.Ch
의견 (11)
0/200
StephenRamirez
StephenRamirez 2025년 7월 22일 오후 3시 33분 7초 GMT+09:00

NPR's Sunday Puzzle with AI? Sounds like a brain teaser showdown! I wonder if these models can outsmart Will Shortz’s tricky wordplay. 🤔

PaulTaylor
PaulTaylor 2025년 4월 20일 오전 6시 13분 34초 GMT+09:00

¡Esta herramienta de IA que resuelve los rompecabezas de los domingos de NPR es genial! Es como tener un amigo listo que ama los rompecabezas tanto como yo. A veces se equivoca, pero ¿quién no? ¡Sigue así, IA! 😄

StephenScott
StephenScott 2025년 4월 19일 오후 7시 57분 20초 GMT+09:00

This AI tool tackling NPR's Sunday Puzzles is super cool! It's like having a brainy friend who loves puzzles as much as I do. Sometimes it gets the answers wrong, but hey, who doesn't? Keep up the good work, AI! 🤓

CharlesThomas
CharlesThomas 2025년 4월 19일 오전 11시 9분 55초 GMT+09:00

NPRのサンデーパズルに挑戦するこのAIツール、めっちゃ面白い!パズル好きの友達がいるみたいで嬉しい。たまに答えを間違えるけど、誰でもそうなるよね。頑張ってね、AI!😊

JackMartin
JackMartin 2025년 4월 13일 오후 7시 51분 16초 GMT+09:00

NPRのサンデーパズルをAIで解くのは驚きです!これらのトリッキーな質問をモデルがどれだけうまく処理するかを見るのはクールです。時々間違えることもありますが、それでも印象的です。アルゴリズムを調整し続けてくださいね!🤓

RichardRoberts
RichardRoberts 2025년 4월 13일 오후 5시 54분 45초 GMT+09:00

Sử dụng AI để giải các câu đố Chủ Nhật của NPR thật là đáng kinh ngạc! Thật tuyệt khi thấy các mô hình xử lý tốt những câu hỏi khó khăn này. Đôi khi chúng sai, nhưng vẫn rất ấn tượng. Cứ tiếp tục điều chỉnh các thuật toán đó, các bạn! 🤓

위로 돌아갑니다
OR