opção
Lar
Notícias
Modelos de 'raciocínio' da IA ​​testados com as perguntas do quebra -cabeça de domingo da NPR

Modelos de 'raciocínio' da IA ​​testados com as perguntas do quebra -cabeça de domingo da NPR

10 de Abril de 2025
132

Todos os domingos, Will Shortz, da NPR, o gênio por trás dos quebra-cabeças de palavras cruzadas do The New York Times, envolve milhares de ouvintes com seu segmento, o Quebra-Cabeça de Domingo. Esses quebra-cabeças são projetados para serem resolvidos com conhecimento geral, mas representam um desafio significativo até mesmo para solucionadores de quebra-cabeças experientes.

Essa complexidade é o motivo pelo qual alguns especialistas acreditam que o Quebra-Cabeça de Domingo poderia servir como uma ferramenta valiosa para testar os limites das capacidades de resolução de problemas da IA.

Em um estudo recente, pesquisadores do Wellesley College, Oberlin College, Universidade do Texas em Austin, Northeastern University, Universidade Charles e a startup Cursor desenvolveram um benchmark de IA usando enigmas do Quebra-Cabeça de Domingo. Suas descobertas revelaram comportamentos intrigantes em modelos de raciocínio, incluindo o o1 da OpenAI, que ocasionalmente "desiste" e oferece respostas incorretas conscientemente.

Arjun Guha, professor de ciência da computação na Northeastern e coautor do estudo, explicou à TechCrunch que o objetivo era criar um benchmark que pudesse ser compreendido por qualquer pessoa com conhecimento geral. Ele observou, "Queríamos desenvolver um benchmark com problemas que humanos possam entender com apenas conhecimento geral."

A indústria de IA atualmente enfrenta um desafio com benchmarking, pois muitos testes focam em habilidades avançadas, como matemática e ciência de nível de doutorado, que não são relevantes para a maioria dos usuários. Além disso, até mesmo benchmarks lançados recentemente estão próximos da saturação.

O Quebra-Cabeça de Domingo oferece uma vantagem única porque não depende de conhecimento especializado, e seu formato impede que modelos de IA simplesmente regurgitem respostas memorizadas, segundo Guha. Ele elaborou, "Acho que o que torna esses problemas difíceis é que é realmente difícil fazer progresso significativo em um problema até resolvê-lo — é quando tudo se encaixa de uma vez. Isso requer uma combinação de insight e um processo de eliminação."

No entanto, o Quebra-Cabeça de Domingo não está isento de limitações. Ele é centrado na cultura dos EUA e usa apenas inglês, e há o risco de que modelos treinados nesses quebra-cabeças possam "trapacear" se já tiverem visto as perguntas antes. Guha tranquiliza, no entanto, que ainda não encontrou evidências disso. Ele acrescentou, "Novas perguntas são lançadas toda semana, e podemos esperar que as perguntas mais recentes sejam verdadeiramente inéditas. Pretendemos manter o benchmark atualizado e acompanhar como o desempenho do modelo muda ao longo do tempo."

O benchmark dos pesquisadores, com cerca de 600 enigmas do Quebra-Cabeça de Domingo, mostrou que modelos de raciocínio como o o1 e o R1 da DeepSeek superaram significativamente outros modelos. Esses modelos verificam os fatos meticulosamente, o que os ajuda a evitar armadilhas comuns. No entanto, essa minuciosidade significa que eles levam mais tempo para chegar a uma solução — geralmente de alguns segundos a minutos a mais.

Curiosamente, o R1 da DeepSeek às vezes admite a derrota, dizendo "Eu desisto", antes de oferecer uma resposta incorreta aleatória — uma reação com a qual muitos humanos podem se identificar. Outros comportamentos peculiares observados incluem modelos dando uma resposta errada, retratando-a, tentando outra suposição e falhando novamente. Alguns modelos ficam presos em loops intermináveis de "pensamento", fornecem explicações sem sentido ou respondem corretamente a uma pergunta apenas para depois explorar respostas alternativas desnecessariamente.

Guha comentou sobre o comportamento do R1, dizendo, "Em problemas difíceis, o R1 literalmente diz que está ficando 'frustrado'. Foi engraçado ver como um modelo emula o que um humano poderia dizer. Ainda resta ver como a 'frustração' no raciocínio pode afetar a qualidade dos resultados do modelo."

Benchmark NPR

R1 ficando “frustrado” em uma pergunta do conjunto de desafios do Quebra-Cabeça de Domingo. Créditos da imagem: Guha et al.

O atual líder no benchmark é o o1, alcançando uma pontuação de 59%, seguido pelo recém-lançado o3-mini configurado para alto "esforço de raciocínio" com 47%. O R1 obteve 35%. Os pesquisadores planejam expandir seus testes para mais modelos de raciocínio, esperando identificar áreas para melhoria.

Benchmark NPR

As pontuações dos modelos testados pela equipe em seu benchmark. Créditos da imagem: Guha et al.

Guha enfatizou a importância de benchmarks acessíveis, afirmando, "Você não precisa de um doutorado para ser bom em raciocínio, então deve ser possível projetar benchmarks de raciocínio que não exijam conhecimento de nível de doutorado. Um benchmark com acesso mais amplo permite que um conjunto mais amplo de pesquisadores compreenda e analise os resultados, o que pode, por sua vez, levar a melhores soluções no futuro. Além disso, à medida que modelos de ponta são cada vez mais implementados em ambientes que afetam a todos, acreditamos que todos deveriam ser capazes de intuir o que esses modelos são — e não são — capazes de fazer."

Artigo relacionado
Salesforce Apresenta Companheiros Digitais de IA no Slack para Rivalizar com o Microsoft Copilot Salesforce Apresenta Companheiros Digitais de IA no Slack para Rivalizar com o Microsoft Copilot A Salesforce lançou uma nova estratégia de IA para o local de trabalho, introduzindo “companheiros digitais” especializados integrados às conversas do Slack, revelou a empresa na segunda-feira.A nova
Investimento de US$ 40 bilhões da Oracle em chips Nvidia impulsiona centro de dados de IA no Texas Investimento de US$ 40 bilhões da Oracle em chips Nvidia impulsiona centro de dados de IA no Texas A Oracle planeja investir aproximadamente US$ 40 bilhões em chips Nvidia para alimentar um grande novo centro de dados no Texas, desenvolvido pela OpenAI, conforme relatado pelo Financial Times. Este
Aplicativo Meta AI Introduzirá Nível Premium e Anúncios Aplicativo Meta AI Introduzirá Nível Premium e Anúncios O aplicativo de IA da Meta pode em breve apresentar uma assinatura paga, seguindo o exemplo de concorrentes como OpenAI, Google e Microsoft. Durante uma teleconferência de resultados do primeiro trime
Comentários (11)
0/200
StephenRamirez
StephenRamirez 22 de Julho de 2025 à7 07:33:07 WEST

NPR's Sunday Puzzle with AI? Sounds like a brain teaser showdown! I wonder if these models can outsmart Will Shortz’s tricky wordplay. 🤔

PaulTaylor
PaulTaylor 19 de Abril de 2025 à34 22:13:34 WEST

¡Esta herramienta de IA que resuelve los rompecabezas de los domingos de NPR es genial! Es como tener un amigo listo que ama los rompecabezas tanto como yo. A veces se equivoca, pero ¿quién no? ¡Sigue así, IA! 😄

StephenScott
StephenScott 19 de Abril de 2025 à20 11:57:20 WEST

This AI tool tackling NPR's Sunday Puzzles is super cool! It's like having a brainy friend who loves puzzles as much as I do. Sometimes it gets the answers wrong, but hey, who doesn't? Keep up the good work, AI! 🤓

CharlesThomas
CharlesThomas 19 de Abril de 2025 à55 03:09:55 WEST

NPRのサンデーパズルに挑戦するこのAIツール、めっちゃ面白い!パズル好きの友達がいるみたいで嬉しい。たまに答えを間違えるけど、誰でもそうなるよね。頑張ってね、AI!😊

JackMartin
JackMartin 13 de Abril de 2025 à16 11:51:16 WEST

NPRのサンデーパズルをAIで解くのは驚きです!これらのトリッキーな質問をモデルがどれだけうまく処理するかを見るのはクールです。時々間違えることもありますが、それでも印象的です。アルゴリズムを調整し続けてくださいね!🤓

RichardRoberts
RichardRoberts 13 de Abril de 2025 à45 09:54:45 WEST

Sử dụng AI để giải các câu đố Chủ Nhật của NPR thật là đáng kinh ngạc! Thật tuyệt khi thấy các mô hình xử lý tốt những câu hỏi khó khăn này. Đôi khi chúng sai, nhưng vẫn rất ấn tượng. Cứ tiếp tục điều chỉnh các thuật toán đó, các bạn! 🤓

De volta ao topo
OR