opción
Hogar
Noticias
Modelos de 'razonamiento' de ai probados con preguntas de rompecabezas de NPR Sunday

Modelos de 'razonamiento' de ai probados con preguntas de rompecabezas de NPR Sunday

10 de abril de 2025
132

Cada domingo, Will Shortz de NPR, la mente maestra detrás de los crucigramas del New York Times, cautiva a miles de oyentes con su segmento, el Sunday Puzzle. Estos acertijos están diseñados para ser resueltos con conocimientos generales, pero representan un desafío significativo incluso para los solucionadores de acertijos experimentados.

Esta complejidad es la razón por la que algunos expertos creen que el Sunday Puzzle podría servir como una herramienta valiosa para probar los límites de las capacidades de resolución de problemas de la IA.

En un estudio reciente, investigadores de Wellesley College, Oberlin College, la Universidad de Texas en Austin, Northeastern University, la Universidad Charles y la startup Cursor desarrollaron un punto de referencia de IA utilizando acertijos del Sunday Puzzle. Sus hallazgos revelaron comportamientos intrigantes en modelos de razonamiento, incluido el o1 de OpenAI, que en ocasiones "se rinde" y ofrece respuestas incorrectas a sabiendas.

Arjun Guha, profesor de ciencias de la computación en Northeastern y coautor del estudio, explicó a TechCrunch que el objetivo era crear un punto de referencia que cualquier persona con conocimientos generales pudiera entender. Señaló, "Queríamos desarrollar un punto de referencia con problemas que los humanos puedan entender con solo conocimientos generales."

La industria de la IA enfrenta actualmente un desafío con los puntos de referencia, ya que muchas pruebas se centran en habilidades avanzadas como matemáticas y ciencias a nivel de doctorado, que no son relevantes para la mayoría de los usuarios. Además, incluso los puntos de referencia recientemente lanzados están acercándose a la saturación.

El Sunday Puzzle ofrece una ventaja única porque no depende de conocimientos especializados, y su formato evita que los modelos de IA simplemente regurgiten respuestas memorizadas, según Guha. Él explicó, "Creo que lo que hace que estos problemas sean difíciles es que es realmente complicado avanzar significativamente en un problema hasta que lo resuelves — es cuando todo encaja de repente. Eso requiere una combinación de perspicacia y un proceso de eliminación."

Sin embargo, el Sunday Puzzle no está exento de limitaciones. Está centrado en la cultura estadounidense y usa solo inglés, y existe el riesgo de que los modelos entrenados con estos acertijos puedan "hacer trampa" si han visto las preguntas antes. Guha asegura, sin embargo, que aún no ha encontrado evidencia de esto. Añadió, "Se lanzan nuevas preguntas cada semana, y podemos esperar que las últimas preguntas sean realmente nuevas. Pretendemos mantener el punto de referencia actualizado y seguir cómo cambia el rendimiento de los modelos con el tiempo."

El punto de referencia de los investigadores, que incluye alrededor de 600 acertijos del Sunday Puzzle, mostró que los modelos de razonamiento como o1 y R1 de DeepSeek superaron significativamente a otros modelos. Estos modelos verifican meticulosamente sus propios datos, lo que les ayuda a evitar errores comunes. Sin embargo, esta minuciosidad significa que tardan más en llegar a una solución — típicamente de unos segundos a minutos más.

Curiosamente, R1 de DeepSeek a veces admite la derrota, diciendo "me rindo", antes de ofrecer una respuesta incorrecta al azar — una reacción con la que muchos humanos pueden empatizar. Otros comportamientos peculiares observados incluyen modelos que dan una respuesta equivocada, la retractan, intentan otra suposición y fallan nuevamente. Algunos modelos se quedan atrapados en bucles interminables de "pensamiento", proporcionan explicaciones sin sentido o responden correctamente a una pregunta solo para luego explorar respuestas alternativas innecesariamente.

Guha comentó sobre el comportamiento de R1, diciendo, "En problemas difíciles, R1 literalmente dice que está 'frustrado'. Fue divertido ver cómo un modelo emula lo que un humano podría decir. Queda por ver cómo la 'frustración' en el razonamiento puede afectar la calidad de los resultados del modelo."

Punto de referencia NPR

R1 se "frustra" con una pregunta en el conjunto de desafíos del Sunday Puzzle. Créditos de la imagen: Guha et al.

El mejor desempeño actual en el punto de referencia es o1, con un puntaje del 59%, seguido por el recientemente lanzado o3-mini configurado en un alto "esfuerzo de razonamiento" con un 47%. R1 obtuvo un 35%. Los investigadores planean expandir sus pruebas a más modelos de razonamiento, esperando identificar áreas para mejorar.

Punto de referencia NPR

Las puntuaciones de los modelos que el equipo probó en su punto de referencia. Créditos de la imagen: Guha et al.

Guha enfatizó la importancia de los puntos de referencia accesibles, declarando, "No necesitas un doctorado para ser bueno en razonamiento, por lo que debería ser posible diseñar puntos de referencia de razonamiento que no requieran conocimientos a nivel de doctorado. Un punto de referencia con un acceso más amplio permite que un conjunto más amplio de investigadores comprenda y analice los resultados, lo que puede llevar a mejores soluciones en el futuro. Además, a medida que los modelos de última generación se implementan cada vez más en entornos que afectan a todos, creemos que todos deberían poder intuir qué son —y qué no son— capaces de hacer estos modelos."

Artículo relacionado
Salesforce Presenta Compañeros Digitales de IA en Slack para Competir con Microsoft Copilot Salesforce Presenta Compañeros Digitales de IA en Slack para Competir con Microsoft Copilot Salesforce lanzó una nueva estrategia de IA para el lugar de trabajo, presentando “compañeros digitales” especializados integrados en las conversaciones de Slack, según reveló la compañía el lunes.La
Inversión de Oracle de $40 mil millones en chips Nvidia impulsa el centro de datos de IA en Texas Inversión de Oracle de $40 mil millones en chips Nvidia impulsa el centro de datos de IA en Texas Oracle planea invertir aproximadamente $40 mil millones en chips Nvidia para alimentar un importante centro de datos nuevo en Texas, desarrollado por OpenAI, según informó el Financial Times. Este acu
Aplicación de Meta AI para Introducir un Nivel Premium y Anuncios Aplicación de Meta AI para Introducir un Nivel Premium y Anuncios La aplicación de IA de Meta pronto podría incluir una suscripción de pago, siguiendo el modelo de competidores como OpenAI, Google y Microsoft. Durante una llamada de resultados del primer trimestre d
comentario (11)
0/200
StephenRamirez
StephenRamirez 22 de julio de 2025 08:33:07 GMT+02:00

NPR's Sunday Puzzle with AI? Sounds like a brain teaser showdown! I wonder if these models can outsmart Will Shortz’s tricky wordplay. 🤔

PaulTaylor
PaulTaylor 19 de abril de 2025 23:13:34 GMT+02:00

¡Esta herramienta de IA que resuelve los rompecabezas de los domingos de NPR es genial! Es como tener un amigo listo que ama los rompecabezas tanto como yo. A veces se equivoca, pero ¿quién no? ¡Sigue así, IA! 😄

StephenScott
StephenScott 19 de abril de 2025 12:57:20 GMT+02:00

This AI tool tackling NPR's Sunday Puzzles is super cool! It's like having a brainy friend who loves puzzles as much as I do. Sometimes it gets the answers wrong, but hey, who doesn't? Keep up the good work, AI! 🤓

CharlesThomas
CharlesThomas 19 de abril de 2025 04:09:55 GMT+02:00

NPRのサンデーパズルに挑戦するこのAIツール、めっちゃ面白い!パズル好きの友達がいるみたいで嬉しい。たまに答えを間違えるけど、誰でもそうなるよね。頑張ってね、AI!😊

JackMartin
JackMartin 13 de abril de 2025 12:51:16 GMT+02:00

NPRのサンデーパズルをAIで解くのは驚きです!これらのトリッキーな質問をモデルがどれだけうまく処理するかを見るのはクールです。時々間違えることもありますが、それでも印象的です。アルゴリズムを調整し続けてくださいね!🤓

RichardRoberts
RichardRoberts 13 de abril de 2025 10:54:45 GMT+02:00

Sử dụng AI để giải các câu đố Chủ Nhật của NPR thật là đáng kinh ngạc! Thật tuyệt khi thấy các mô hình xử lý tốt những câu hỏi khó khăn này. Đôi khi chúng sai, nhưng vẫn rất ấn tượng. Cứ tiếp tục điều chỉnh các thuật toán đó, các bạn! 🤓

Volver arriba
OR