Hogar
El modelo o3 de IA de OpenAI obtiene una puntuación más baja en la prueba de referencia de lo que se sugirió inicialmente

Por qué las discrepancias en los puntos de referencia son importantes en la IA
En lo que respecta a la IA, los números suelen contar la historia y, a veces, esos números no cuadran del todo. Tomemos como ejemplo el modelo o3 de OpenAI. Las afirmaciones iniciales eran asombrosas: o3 podía resolver más del 25% de los problemas FrontierMath. Para contextualizar, la competencia se quedaba en unos pocos dígitos. Sin embargo, en los últimos tiempos, Epoch AI -un respetado instituto de investigación- ha dado un vuelco a la historia. Sus hallazgos sugieren que el rendimiento real de o3 se acerca al 10%. No está mal, pero desde luego no es la cifra que tanto llamó la atención a OpenAI en un principio.
¿Qué está pasando realmente?
Desglosémoslo. Es probable que la puntuación original de OpenAI se obtuviera en condiciones óptimas, condiciones que podrían no ser exactamente reproducibles en el mundo real. Epoch señaló que su entorno de pruebas podría diferir ligeramente del de OpenAI, e incluso la versión de FrontierMath que utilizaron era más reciente. Esto no quiere decir que OpenAI haya engañado a nadie; sus afirmaciones iniciales coincidían con las pruebas internas, pero la disparidad pone de manifiesto un problema más amplio. Los puntos de referencia no siempre son comparables. Y, admitámoslo, las empresas tienen incentivos para dar lo mejor de sí mismas.
El papel de la transparencia
Esta situación plantea una cuestión importante: ¿Hasta qué punto deben ser transparentes las empresas de IA a la hora de compartir resultados? Aunque OpenAI no mintió abiertamente, sus mensajes crearon expectativas que no se cumplieron del todo. Es un equilibrio delicado. Las empresas quieren mostrar sus avances, pero también tienen que ser honestas sobre lo que significan realmente esas cifras. A medida que la IA se integre cada vez más en la vida cotidiana, tanto los consumidores como los investigadores exigirán respuestas más claras.
Otras polémicas del sector
Los errores de evaluación comparativa no son exclusivos de OpenAI. Otros actores del sector de la IA se han enfrentado a escrutinios similares. En enero, Epoch se metió en un buen lío tras aceptar financiación no revelada de OpenAI justo antes del anuncio de o3. Por su parte, xAI, de Elon Musk, fue objeto de críticas por modificar supuestamente sus gráficos de referencia para que Grok 3 pareciera mejor de lo que era en realidad. Incluso Meta, uno de los gigantes tecnológicos, admitió recientemente que promocionaba puntuaciones basadas en un modelo que no estaba disponible públicamente. Está claro que la carrera por dominar los titulares se recrudece, y no todos juegan limpio.
De cara al futuro
Aunque estas polémicas puedan parecer desalentadoras, en realidad son un signo de progreso. A medida que el panorama de la IA madura, también lo hace el discurso en torno a la responsabilidad. Los consumidores y los investigadores exigen una mayor transparencia, y eso es bueno. Obliga a las empresas a ser más reflexivas a la hora de presentar sus logros y garantiza que los usuarios no se dejen llevar por exageraciones poco realistas. Al fin y al cabo, el objetivo no debería ser jugar con las cifras, sino crear modelos que realmente hagan avanzar el sector.
Artículo relacionado
Satya Nadella está listo para aprovechar el nuevo acuerdo con OpenAI
El miércoles, un analista de Wall Street preguntó directamente al CEO de Microsoft, Satya Nadella, cómo la revisada asociación con OpenAI afectaría las finanzas de la empresa.Nadella describió el nuevo acuerdo como una victoria para todos. “Estamos
OpenAI esboza la economía de la IA con fondos de riqueza pública, impuestos sobre los robots y la semana laboral de cuatro días
Mientras los gobiernos se esfuerzan por gestionar el impacto económico de las máquinas superinteligentes, OpenAI ha publicado una serie de propuestas políticas en las que se esboza cómo podrían reconf
Greg Brockman desvela cómo Elon Musk abandonó OpenAI
A finales de agosto de 2017, las figuras clave de OpenAI —por entonces un pequeño laboratorio de investigación sin ánimo de lucro— se reunieron para debatir cómo crearían una entidad con fines lucrati
Recomendaciones de temas especiales relacionados
comentario (6)
0/500
Como usuário curioso sobre IA, fico um pouco desconfiado quando os benchmarks não batem. A OpenAI lançou o o3 com uma fanfarra enorme, falando de mais de 25% nos desafios do Frontier, mas agora parece que os resultados reais podem ser bem mais modestos. Isso me faz pensar: deveríamos confiar mais nas métricas das empresas ou em avaliações independentes? A competição entre os modelos está tão acirrada que às vezes a verdade parece ficar em segundo plano... Precisamos de mais transparência! 🤔
Ces écarts sur les benchmarks montrent bien qu'on ne peut pas prendre toutes les déclarations des labos pour argent comptant. Du coup, ça soulève des questions sur la transparence des processus d'évaluation. C'est important pour les chercheurs et les développeurs qui basent leur travail sur ces résultats. 🤔
오픈AI의 벤치마크 수치 조작 논란, 이젠 식상하네요 😅 경쟁이 치열해질수록 회사들이 성과를 부풀리는 건 드문 일이 아니지만... 진실은 결국 밝혀지잖아요. 이번 건으로 인공지능 업계의 신뢰도가 또 한 번 흔들리는 건 아닐지 걱정됩니다.
I was hyped for o3, but these benchmark gaps are a letdown. Makes you wonder if the AI hype train is running on fumes. Still cool tech, tho! 😎
The o3 model's benchmark slip-up is a bit of a letdown. 😕 I was hyped for OpenAI's big claims, but now I’m wondering if they’re overselling. Numbers don’t lie, but they can sure be misleading!
The o3 model's benchmark slip-up is wild! I was hyped for those big claims, but now it’s like finding out your favorite superhero has a weak spot. Still, AI’s moving so fast, I wonder if these benchmarks even keep up with real-world use. 🤔 Anyone else feel like we’re chasing numbers instead of actual progress?

Por qué las discrepancias en los puntos de referencia son importantes en la IA
En lo que respecta a la IA, los números suelen contar la historia y, a veces, esos números no cuadran del todo. Tomemos como ejemplo el modelo o3 de OpenAI. Las afirmaciones iniciales eran asombrosas: o3 podía resolver más del 25% de los problemas FrontierMath. Para contextualizar, la competencia se quedaba en unos pocos dígitos. Sin embargo, en los últimos tiempos, Epoch AI -un respetado instituto de investigación- ha dado un vuelco a la historia. Sus hallazgos sugieren que el rendimiento real de o3 se acerca al 10%. No está mal, pero desde luego no es la cifra que tanto llamó la atención a OpenAI en un principio.
¿Qué está pasando realmente?
Desglosémoslo. Es probable que la puntuación original de OpenAI se obtuviera en condiciones óptimas, condiciones que podrían no ser exactamente reproducibles en el mundo real. Epoch señaló que su entorno de pruebas podría diferir ligeramente del de OpenAI, e incluso la versión de FrontierMath que utilizaron era más reciente. Esto no quiere decir que OpenAI haya engañado a nadie; sus afirmaciones iniciales coincidían con las pruebas internas, pero la disparidad pone de manifiesto un problema más amplio. Los puntos de referencia no siempre son comparables. Y, admitámoslo, las empresas tienen incentivos para dar lo mejor de sí mismas.
El papel de la transparencia
Esta situación plantea una cuestión importante: ¿Hasta qué punto deben ser transparentes las empresas de IA a la hora de compartir resultados? Aunque OpenAI no mintió abiertamente, sus mensajes crearon expectativas que no se cumplieron del todo. Es un equilibrio delicado. Las empresas quieren mostrar sus avances, pero también tienen que ser honestas sobre lo que significan realmente esas cifras. A medida que la IA se integre cada vez más en la vida cotidiana, tanto los consumidores como los investigadores exigirán respuestas más claras.
Otras polémicas del sector
Los errores de evaluación comparativa no son exclusivos de OpenAI. Otros actores del sector de la IA se han enfrentado a escrutinios similares. En enero, Epoch se metió en un buen lío tras aceptar financiación no revelada de OpenAI justo antes del anuncio de o3. Por su parte, xAI, de Elon Musk, fue objeto de críticas por modificar supuestamente sus gráficos de referencia para que Grok 3 pareciera mejor de lo que era en realidad. Incluso Meta, uno de los gigantes tecnológicos, admitió recientemente que promocionaba puntuaciones basadas en un modelo que no estaba disponible públicamente. Está claro que la carrera por dominar los titulares se recrudece, y no todos juegan limpio.
De cara al futuro
Aunque estas polémicas puedan parecer desalentadoras, en realidad son un signo de progreso. A medida que el panorama de la IA madura, también lo hace el discurso en torno a la responsabilidad. Los consumidores y los investigadores exigen una mayor transparencia, y eso es bueno. Obliga a las empresas a ser más reflexivas a la hora de presentar sus logros y garantiza que los usuarios no se dejen llevar por exageraciones poco realistas. Al fin y al cabo, el objetivo no debería ser jugar con las cifras, sino crear modelos que realmente hagan avanzar el sector.
Satya Nadella está listo para aprovechar el nuevo acuerdo con OpenAI
El miércoles, un analista de Wall Street preguntó directamente al CEO de Microsoft, Satya Nadella, cómo la revisada asociación con OpenAI afectaría las finanzas de la empresa.Nadella describió el nuevo acuerdo como una victoria para todos. “Estamos
OpenAI esboza la economía de la IA con fondos de riqueza pública, impuestos sobre los robots y la semana laboral de cuatro días
Mientras los gobiernos se esfuerzan por gestionar el impacto económico de las máquinas superinteligentes, OpenAI ha publicado una serie de propuestas políticas en las que se esboza cómo podrían reconf
Greg Brockman desvela cómo Elon Musk abandonó OpenAI
A finales de agosto de 2017, las figuras clave de OpenAI —por entonces un pequeño laboratorio de investigación sin ánimo de lucro— se reunieron para debatir cómo crearían una entidad con fines lucrati
Como usuário curioso sobre IA, fico um pouco desconfiado quando os benchmarks não batem. A OpenAI lançou o o3 com uma fanfarra enorme, falando de mais de 25% nos desafios do Frontier, mas agora parece que os resultados reais podem ser bem mais modestos. Isso me faz pensar: deveríamos confiar mais nas métricas das empresas ou em avaliações independentes? A competição entre os modelos está tão acirrada que às vezes a verdade parece ficar em segundo plano... Precisamos de mais transparência! 🤔
Ces écarts sur les benchmarks montrent bien qu'on ne peut pas prendre toutes les déclarations des labos pour argent comptant. Du coup, ça soulève des questions sur la transparence des processus d'évaluation. C'est important pour les chercheurs et les développeurs qui basent leur travail sur ces résultats. 🤔
오픈AI의 벤치마크 수치 조작 논란, 이젠 식상하네요 😅 경쟁이 치열해질수록 회사들이 성과를 부풀리는 건 드문 일이 아니지만... 진실은 결국 밝혀지잖아요. 이번 건으로 인공지능 업계의 신뢰도가 또 한 번 흔들리는 건 아닐지 걱정됩니다.
I was hyped for o3, but these benchmark gaps are a letdown. Makes you wonder if the AI hype train is running on fumes. Still cool tech, tho! 😎
The o3 model's benchmark slip-up is a bit of a letdown. 😕 I was hyped for OpenAI's big claims, but now I’m wondering if they’re overselling. Numbers don’t lie, but they can sure be misleading!
The o3 model's benchmark slip-up is wild! I was hyped for those big claims, but now it’s like finding out your favorite superhero has a weak spot. Still, AI’s moving so fast, I wonder if these benchmarks even keep up with real-world use. 🤔 Anyone else feel like we’re chasing numbers instead of actual progress?











