옵션
뉴스
AI '추론'모델은 NPR 일요일 퍼즐 질문으로 테스트되었습니다

AI '추론'모델은 NPR 일요일 퍼즐 질문으로 테스트되었습니다

2025년 4월 10일
132

매주 일요일, NPR의 윌 쇼츠(Will Shortz), 뉴욕 타임스의 크로스워드 퍼즐의 주역은, 수천 명의 청취자들과 함께 일요 퍼즐 세그먼트를 진행합니다. 이 퍼즐들은 일반 지식으로 풀 수 있도록 설계되었지만, 숙련된 퍼즐 해결자들에게도 상당한 도전을 제공합니다.

이 복잡성 때문에 일부 전문가들은 일요 퍼즐이 AI의 문제 해결 능력의 한계를 테스트하는 데 유용한 도구가 될 수 있다고 믿습니다.

최근 연구에서 웰즐리 대학, 오벌린 대학, 텍사스 오스틴 대학, 노스이스턴 대학, 찰스 대학, 그리고 스타트업 커서(Cursor)의 연구원들은 일요 퍼즐의 수수께끼를 사용해 AI 벤치마크를 개발했습니다. 그들의 발견은 OpenAI의 o1을 포함한 추론 모델들이 때때로 "포기"하고 의도적으로 잘못된 답을 제공하는 흥미로운 행동을 보여주었습니다.

노스이스턴의 컴퓨터 과학 교수이자 연구의 공동 저자인 아르준 구하(Arjun Guha)는 테크크런치(TechCrunch)에 목표가 일반 지식만으로 이해할 수 있는 벤치마크를 만드는 것이라고 설명했습니다. 그는 "우리는 일반 지식만으로 사람들이 이해할 수 있는 문제를 가진 벤치마크를 개발하고 싶었다"고 말했습니다.

현재 AI 산업은 벤치마킹에 어려움을 겪고 있으며, 많은 테스트가 박사 수준의 수학 및 과학과 같은 고급 기술에 초점을 맞추고 있어 대부분의 사용자와 관련이 없습니다. 게다가 최근 발표된 벤치마크조차도 포화 상태에 가까워지고 있습니다.

구하에 따르면, 일요 퍼즐은 전문 지식에 의존하지 않고, 그 형식이 AI 모델이 단순히 기억된 답을 되풀이하는 것을 방지하기 때문에 독특한 이점을 제공합니다. 그는 "이 문제들이 어려운 이유는 문제를 해결할 때까지 의미 있는 진전을 이루기가 정말 어렵기 때문입니다. 모든 것이 한 번에 딱 맞아떨어집니다. 이는 통찰력과 제거 과정의 조합을 요구합니다"라고 설명했습니다.

그러나 일요 퍼즐에는 한계가 있습니다. 미국 문화를 중심으로 하며 영어만 사용하고, 모델이 이미 질문을 본 경우 "속임수"를 쓸 위험이 있습니다. 구하는 아직 이런 증거를 찾지 못했다고 안심시켰습니다. 그는 "매주 새로운 질문이 공개되며, 최신 질문은 정말로 보지 못한 질문일 것으로 기대할 수 있습니다. 우리는 벤치마크를 신선하게 유지하고 모델 성능이 시간에 따라 어떻게 변하는지 추적할 계획입니다"라고 덧붙였습니다.

약 600개의 일요 퍼즐 수수께끼를 포함한 연구자들의 벤치마크는 o1과 DeepSeek의 R1과 같은 추론 모델이 다른 모델들을 크게 앞섰음을 보여주었습니다. 이 모델들은 스스로를 꼼꼼히 사실 확인하여 흔한 함정을 피합니다. 그러나 이 철저함은 솔루션에 도달하는 데 더 많은 시간이 걸립니다 — 보통 몇 초에서 몇 분 더 걸립니다.

흥미롭게도, DeepSeek의 R1은 때때로 "포기합니다"라고 말하며 무작위로 잘못된 답을 제공합니다 — 많은 사람들이 공감할 수 있는 반응입니다. 관찰된 다른 특이한 행동으로는 모델이 잘못된 답을 제시한 후 철회하고, 다른 추측을 시도했다가 다시 실패하는 경우가 있습니다. 일부 모델은 "생각"의 끝없는 루프에 갇히거나, 터무니없는 설명을 제공하거나, 정답을 맞춘 후에도 불필요하게 다른 답을 탐색합니다.

구하는 R1의 행동에 대해 언급하며, "어려운 문제에서 R1은 문자 그대로 '좌절하고 있다'고 말합니다. 모델이 인간이 말할 법한 것을 모방하는 모습이 재미있었습니다. 추론에서 '좌절'이 모델 결과의 품질에 어떤 영향을 미칠지는 아직 지켜봐야 합니다"라고 말했습니다.

NPR 벤치마크

일요 퍼즐 챌린지 세트에서 질문에 “좌절”하는 R1.이미지 출처:구하 외.

현재 벤치마크에서 최고 성과를 낸 모델은 o1으로 59% 점수를 기록했으며, 최근 출시된 o3-mini는 높은 "추론 노력" 설정에서 47%를 기록했습니다. R1은 35%를 기록했습니다. 연구원들은 더 많은 추론 모델로 테스트를 확장하여 개선 영역을 정확히 파악할 계획입니다.

NPR 벤치마크

팀이 벤치마크에서 테스트한 모델들의 점수.이미지 출처:구하 외.

구하는 접근 가능한 벤치마크의 중요성을 강조하며, "추론에 능숙하기 위해 박사 학위가 필요하지 않으므로, 박사 수준의 지식을 요구하지 않는 추론 벤치마크를 설계할 수 있어야 합니다. 더 많은 연구자들이 결과를 이해하고 분석할 수 있는 벤치마크는 미래에 더 나은 솔루션으로 이어질 수 있습니다. 또한, 최첨단 모델이 점점 더 모두에게 영향을 미치는 환경에 배포됨에 따라, 모두가 이 모델들이 무엇을 할 수 있고, 할 수 없는지를 직관적으로 이해할 수 있어야 한다고 믿습니다"라고 말했습니다.

관련 기사
"닷 AI 컴패니언 앱, 폐쇄 발표, 개인화 서비스 중단" 금요일 개발자의 발표에 따르면 개인적인 친구이자 친구의 역할을 하도록 설계된 AI 컴패니언 애플리케이션인 Dot이 운영을 중단할 예정입니다. 닷을 개발한 스타트업인 뉴 컴퓨터는 웹사이트를 통해 10월 5일까지 서비스를 계속 이용할 수 있으며, 사용자들이 개인 데이터를 내보낼 수 있는 시간을 제공한다고 밝혔습니다.이 앱은 올해 초 공동 창업자인 샘 휘트모어와
앤트로픽, AI로 생성된 도서 불법 복제에 대한 법적 소송 해결 앤트로픽, AI로 생성된 도서 불법 복제에 대한 법적 소송 해결 앤트로픽은 미국 작가들과의 저작권 분쟁에서 잠재적으로 비용이 많이 드는 재판을 피할 수 있는 집단 소송 합의안에 동의하며 합의에 도달했습니다. 이번 화요일에 법원 문서로 제출된 이 합의는 AI 회사가 불법 복제된 문학 작품을 사용하여 클로드 모델을 훈련시켰다는 주장에서 비롯되었습니다.합의 세부 사항은 기밀로 유지되지만, 이 사건은 저자 Andrea Bart
Figma, 모든 사용자에게 AI 기반 앱 빌더 도구 공개 Figma, 모든 사용자에게 AI 기반 앱 빌더 도구 공개 올해 초에 공개된 혁신적인 즉석 앱 개발 플랫폼인 피그마 메이크가 공식적으로 베타 버전을 종료하고 모든 사용자에게 출시되었습니다. 이 획기적인 도구는 Google의 Gemini 코드 어시스트, Microsoft의 GitHub 코파일럿과 같은 AI 기반 코딩 어시스턴트 대열에 합류하여 크리에이터가 기존의 프로그래밍 전문 지식 없이도 자연어 설명을 기능적인 프
의견 (11)
0/200
StephenRamirez
StephenRamirez 2025년 7월 22일 오후 3시 33분 7초 GMT+09:00

NPR's Sunday Puzzle with AI? Sounds like a brain teaser showdown! I wonder if these models can outsmart Will Shortz’s tricky wordplay. 🤔

PaulTaylor
PaulTaylor 2025년 4월 20일 오전 6시 13분 34초 GMT+09:00

¡Esta herramienta de IA que resuelve los rompecabezas de los domingos de NPR es genial! Es como tener un amigo listo que ama los rompecabezas tanto como yo. A veces se equivoca, pero ¿quién no? ¡Sigue así, IA! 😄

StephenScott
StephenScott 2025년 4월 19일 오후 7시 57분 20초 GMT+09:00

This AI tool tackling NPR's Sunday Puzzles is super cool! It's like having a brainy friend who loves puzzles as much as I do. Sometimes it gets the answers wrong, but hey, who doesn't? Keep up the good work, AI! 🤓

CharlesThomas
CharlesThomas 2025년 4월 19일 오전 11시 9분 55초 GMT+09:00

NPRのサンデーパズルに挑戦するこのAIツール、めっちゃ面白い!パズル好きの友達がいるみたいで嬉しい。たまに答えを間違えるけど、誰でもそうなるよね。頑張ってね、AI!😊

JackMartin
JackMartin 2025년 4월 13일 오후 7시 51분 16초 GMT+09:00

NPRのサンデーパズルをAIで解くのは驚きです!これらのトリッキーな質問をモデルがどれだけうまく処理するかを見るのはクールです。時々間違えることもありますが、それでも印象的です。アルゴリズムを調整し続けてくださいね!🤓

RichardRoberts
RichardRoberts 2025년 4월 13일 오후 5시 54분 45초 GMT+09:00

Sử dụng AI để giải các câu đố Chủ Nhật của NPR thật là đáng kinh ngạc! Thật tuyệt khi thấy các mô hình xử lý tốt những câu hỏi khó khăn này. Đôi khi chúng sai, nhưng vẫn rất ấn tượng. Cứ tiếp tục điều chỉnh các thuật toán đó, các bạn! 🤓

위로 돌아갑니다
OR