El modelo o3 de IA de OpenAI obtiene una puntuación más baja en la prueba de referencia de lo que se sugirió inicialmente

Por qué las discrepancias en los puntos de referencia son importantes en la IA
En lo que respecta a la IA, los números suelen contar la historia y, a veces, esos números no cuadran del todo. Tomemos como ejemplo el modelo o3 de OpenAI. Las afirmaciones iniciales eran asombrosas: o3 podía resolver más del 25% de los problemas FrontierMath. Para contextualizar, la competencia se quedaba en unos pocos dígitos. Sin embargo, en los últimos tiempos, Epoch AI -un respetado instituto de investigación- ha dado un vuelco a la historia. Sus hallazgos sugieren que el rendimiento real de o3 se acerca al 10%. No está mal, pero desde luego no es la cifra que tanto llamó la atención a OpenAI en un principio.
¿Qué está pasando realmente?
Desglosémoslo. Es probable que la puntuación original de OpenAI se obtuviera en condiciones óptimas, condiciones que podrían no ser exactamente reproducibles en el mundo real. Epoch señaló que su entorno de pruebas podría diferir ligeramente del de OpenAI, e incluso la versión de FrontierMath que utilizaron era más reciente. Esto no quiere decir que OpenAI haya engañado a nadie; sus afirmaciones iniciales coincidían con las pruebas internas, pero la disparidad pone de manifiesto un problema más amplio. Los puntos de referencia no siempre son comparables. Y, admitámoslo, las empresas tienen incentivos para dar lo mejor de sí mismas.
El papel de la transparencia
Esta situación plantea una cuestión importante: ¿Hasta qué punto deben ser transparentes las empresas de IA a la hora de compartir resultados? Aunque OpenAI no mintió abiertamente, sus mensajes crearon expectativas que no se cumplieron del todo. Es un equilibrio delicado. Las empresas quieren mostrar sus avances, pero también tienen que ser honestas sobre lo que significan realmente esas cifras. A medida que la IA se integre cada vez más en la vida cotidiana, tanto los consumidores como los investigadores exigirán respuestas más claras.
Otras polémicas del sector
Los errores de evaluación comparativa no son exclusivos de OpenAI. Otros actores del sector de la IA se han enfrentado a escrutinios similares. En enero, Epoch se metió en un buen lío tras aceptar financiación no revelada de OpenAI justo antes del anuncio de o3. Por su parte, xAI, de Elon Musk, fue objeto de críticas por modificar supuestamente sus gráficos de referencia para que Grok 3 pareciera mejor de lo que era en realidad. Incluso Meta, uno de los gigantes tecnológicos, admitió recientemente que promocionaba puntuaciones basadas en un modelo que no estaba disponible públicamente. Está claro que la carrera por dominar los titulares se recrudece, y no todos juegan limpio.
De cara al futuro
Aunque estas polémicas puedan parecer desalentadoras, en realidad son un signo de progreso. A medida que el panorama de la IA madura, también lo hace el discurso en torno a la responsabilidad. Los consumidores y los investigadores exigen una mayor transparencia, y eso es bueno. Obliga a las empresas a ser más reflexivas a la hora de presentar sus logros y garantiza que los usuarios no se dejen llevar por exageraciones poco realistas. Al fin y al cabo, el objetivo no debería ser jugar con las cifras, sino crear modelos que realmente hagan avanzar el sector.
Artículo relacionado
Una organización sin ánimo de lucro aprovecha los agentes de IA para impulsar la recaudación de fondos benéficos
Mientras las grandes corporaciones tecnológicas promueven los "agentes" de IA como potenciadores de la productividad para las empresas, una organización sin ánimo de lucro está demostrando su potencia
Los principales laboratorios de IA advierten de que la humanidad está perdiendo el control sobre la comprensión de los sistemas de IA
En una muestra de unidad sin precedentes, investigadores de OpenAI, Google DeepMind, Anthropic y Meta han dejado de lado sus diferencias competitivas para lanzar una advertencia colectiva sobre el des
ChatGPT integra Google Drive y Dropbox para acceder a los archivos
ChatGPT mejora la productividad con nuevas funciones empresarialesOpenAI ha presentado dos nuevas y potentes funciones que transforman ChatGPT en una completa herramienta de productividad empresaria
comentario (4)
0/200
FrankSmith
10 de septiembre de 2025 08:30:33 GMT+02:00
오픈AI의 벤치마크 수치 조작 논란, 이젠 식상하네요 😅 경쟁이 치열해질수록 회사들이 성과를 부풀리는 건 드문 일이 아니지만... 진실은 결국 밝혀지잖아요. 이번 건으로 인공지능 업계의 신뢰도가 또 한 번 흔들리는 건 아닐지 걱정됩니다.
0
LiamWalker
12 de agosto de 2025 08:50:10 GMT+02:00
I was hyped for o3, but these benchmark gaps are a letdown. Makes you wonder if the AI hype train is running on fumes. Still cool tech, tho! 😎
0
FrankLewis
7 de agosto de 2025 04:41:14 GMT+02:00
The o3 model's benchmark slip-up is a bit of a letdown. 😕 I was hyped for OpenAI's big claims, but now I’m wondering if they’re overselling. Numbers don’t lie, but they can sure be misleading!
0
NicholasCarter
29 de julio de 2025 14:25:16 GMT+02:00
The o3 model's benchmark slip-up is wild! I was hyped for those big claims, but now it’s like finding out your favorite superhero has a weak spot. Still, AI’s moving so fast, I wonder if these benchmarks even keep up with real-world use. 🤔 Anyone else feel like we’re chasing numbers instead of actual progress?
0
Por qué las discrepancias en los puntos de referencia son importantes en la IA
En lo que respecta a la IA, los números suelen contar la historia y, a veces, esos números no cuadran del todo. Tomemos como ejemplo el modelo o3 de OpenAI. Las afirmaciones iniciales eran asombrosas: o3 podía resolver más del 25% de los problemas FrontierMath. Para contextualizar, la competencia se quedaba en unos pocos dígitos. Sin embargo, en los últimos tiempos, Epoch AI -un respetado instituto de investigación- ha dado un vuelco a la historia. Sus hallazgos sugieren que el rendimiento real de o3 se acerca al 10%. No está mal, pero desde luego no es la cifra que tanto llamó la atención a OpenAI en un principio.
¿Qué está pasando realmente?
Desglosémoslo. Es probable que la puntuación original de OpenAI se obtuviera en condiciones óptimas, condiciones que podrían no ser exactamente reproducibles en el mundo real. Epoch señaló que su entorno de pruebas podría diferir ligeramente del de OpenAI, e incluso la versión de FrontierMath que utilizaron era más reciente. Esto no quiere decir que OpenAI haya engañado a nadie; sus afirmaciones iniciales coincidían con las pruebas internas, pero la disparidad pone de manifiesto un problema más amplio. Los puntos de referencia no siempre son comparables. Y, admitámoslo, las empresas tienen incentivos para dar lo mejor de sí mismas.
El papel de la transparencia
Esta situación plantea una cuestión importante: ¿Hasta qué punto deben ser transparentes las empresas de IA a la hora de compartir resultados? Aunque OpenAI no mintió abiertamente, sus mensajes crearon expectativas que no se cumplieron del todo. Es un equilibrio delicado. Las empresas quieren mostrar sus avances, pero también tienen que ser honestas sobre lo que significan realmente esas cifras. A medida que la IA se integre cada vez más en la vida cotidiana, tanto los consumidores como los investigadores exigirán respuestas más claras.
Otras polémicas del sector
Los errores de evaluación comparativa no son exclusivos de OpenAI. Otros actores del sector de la IA se han enfrentado a escrutinios similares. En enero, Epoch se metió en un buen lío tras aceptar financiación no revelada de OpenAI justo antes del anuncio de o3. Por su parte, xAI, de Elon Musk, fue objeto de críticas por modificar supuestamente sus gráficos de referencia para que Grok 3 pareciera mejor de lo que era en realidad. Incluso Meta, uno de los gigantes tecnológicos, admitió recientemente que promocionaba puntuaciones basadas en un modelo que no estaba disponible públicamente. Está claro que la carrera por dominar los titulares se recrudece, y no todos juegan limpio.
De cara al futuro
Aunque estas polémicas puedan parecer desalentadoras, en realidad son un signo de progreso. A medida que el panorama de la IA madura, también lo hace el discurso en torno a la responsabilidad. Los consumidores y los investigadores exigen una mayor transparencia, y eso es bueno. Obliga a las empresas a ser más reflexivas a la hora de presentar sus logros y garantiza que los usuarios no se dejen llevar por exageraciones poco realistas. Al fin y al cabo, el objetivo no debería ser jugar con las cifras, sino crear modelos que realmente hagan avanzar el sector.




오픈AI의 벤치마크 수치 조작 논란, 이젠 식상하네요 😅 경쟁이 치열해질수록 회사들이 성과를 부풀리는 건 드문 일이 아니지만... 진실은 결국 밝혀지잖아요. 이번 건으로 인공지능 업계의 신뢰도가 또 한 번 흔들리는 건 아닐지 걱정됩니다.




I was hyped for o3, but these benchmark gaps are a letdown. Makes you wonder if the AI hype train is running on fumes. Still cool tech, tho! 😎




The o3 model's benchmark slip-up is a bit of a letdown. 😕 I was hyped for OpenAI's big claims, but now I’m wondering if they’re overselling. Numbers don’t lie, but they can sure be misleading!




The o3 model's benchmark slip-up is wild! I was hyped for those big claims, but now it’s like finding out your favorite superhero has a weak spot. Still, AI’s moving so fast, I wonder if these benchmarks even keep up with real-world use. 🤔 Anyone else feel like we’re chasing numbers instead of actual progress?












