opción
Hogar
Noticias
El modelo o3 de IA de OpenAI obtiene una puntuación más baja en la prueba de referencia de lo que se sugirió inicialmente

El modelo o3 de IA de OpenAI obtiene una puntuación más baja en la prueba de referencia de lo que se sugirió inicialmente

7 de junio de 2025
127

El modelo o3 de IA de OpenAI obtiene una puntuación más baja en la prueba de referencia de lo que se sugirió inicialmente

Por qué las discrepancias en los puntos de referencia son importantes en la IA

En lo que respecta a la IA, los números suelen contar la historia y, a veces, esos números no cuadran del todo. Tomemos como ejemplo el modelo o3 de OpenAI. Las afirmaciones iniciales eran asombrosas: o3 podía resolver más del 25% de los problemas FrontierMath. Para contextualizar, la competencia se quedaba en unos pocos dígitos. Sin embargo, en los últimos tiempos, Epoch AI -un respetado instituto de investigación- ha dado un vuelco a la historia. Sus hallazgos sugieren que el rendimiento real de o3 se acerca al 10%. No está mal, pero desde luego no es la cifra que tanto llamó la atención a OpenAI en un principio.

¿Qué está pasando realmente?

Desglosémoslo. Es probable que la puntuación original de OpenAI se obtuviera en condiciones óptimas, condiciones que podrían no ser exactamente reproducibles en el mundo real. Epoch señaló que su entorno de pruebas podría diferir ligeramente del de OpenAI, e incluso la versión de FrontierMath que utilizaron era más reciente. Esto no quiere decir que OpenAI haya engañado a nadie; sus afirmaciones iniciales coincidían con las pruebas internas, pero la disparidad pone de manifiesto un problema más amplio. Los puntos de referencia no siempre son comparables. Y, admitámoslo, las empresas tienen incentivos para dar lo mejor de sí mismas.

El papel de la transparencia

Esta situación plantea una cuestión importante: ¿Hasta qué punto deben ser transparentes las empresas de IA a la hora de compartir resultados? Aunque OpenAI no mintió abiertamente, sus mensajes crearon expectativas que no se cumplieron del todo. Es un equilibrio delicado. Las empresas quieren mostrar sus avances, pero también tienen que ser honestas sobre lo que significan realmente esas cifras. A medida que la IA se integre cada vez más en la vida cotidiana, tanto los consumidores como los investigadores exigirán respuestas más claras.

Otras polémicas del sector

Los errores de evaluación comparativa no son exclusivos de OpenAI. Otros actores del sector de la IA se han enfrentado a escrutinios similares. En enero, Epoch se metió en un buen lío tras aceptar financiación no revelada de OpenAI justo antes del anuncio de o3. Por su parte, xAI, de Elon Musk, fue objeto de críticas por modificar supuestamente sus gráficos de referencia para que Grok 3 pareciera mejor de lo que era en realidad. Incluso Meta, uno de los gigantes tecnológicos, admitió recientemente que promocionaba puntuaciones basadas en un modelo que no estaba disponible públicamente. Está claro que la carrera por dominar los titulares se recrudece, y no todos juegan limpio.

De cara al futuro

Aunque estas polémicas puedan parecer desalentadoras, en realidad son un signo de progreso. A medida que el panorama de la IA madura, también lo hace el discurso en torno a la responsabilidad. Los consumidores y los investigadores exigen una mayor transparencia, y eso es bueno. Obliga a las empresas a ser más reflexivas a la hora de presentar sus logros y garantiza que los usuarios no se dejen llevar por exageraciones poco realistas. Al fin y al cabo, el objetivo no debería ser jugar con las cifras, sino crear modelos que realmente hagan avanzar el sector.

Artículo relacionado
Satya Nadella está listo para aprovechar el nuevo acuerdo con OpenAI Satya Nadella está listo para aprovechar el nuevo acuerdo con OpenAI El miércoles, un analista de Wall Street preguntó directamente al CEO de Microsoft, Satya Nadella, cómo la revisada asociación con OpenAI afectaría las finanzas de la empresa.Nadella describió el nuevo acuerdo como una victoria para todos. “Estamos
OpenAI esboza la economía de la IA con fondos de riqueza pública, impuestos sobre los robots y la semana laboral de cuatro días OpenAI esboza la economía de la IA con fondos de riqueza pública, impuestos sobre los robots y la semana laboral de cuatro días Mientras los gobiernos se esfuerzan por gestionar el impacto económico de las máquinas superinteligentes, OpenAI ha publicado una serie de propuestas políticas en las que se esboza cómo podrían reconf
Greg Brockman desvela cómo Elon Musk abandonó OpenAI Greg Brockman desvela cómo Elon Musk abandonó OpenAI A finales de agosto de 2017, las figuras clave de OpenAI —por entonces un pequeño laboratorio de investigación sin ánimo de lucro— se reunieron para debatir cómo crearían una entidad con fines lucrati
Recomendaciones de temas especiales relacionados
Creación de animación Generador de anime AI para Donghua: Crea personajes para novelas web y avatares para cómics
Generador de anime AI para Donghua: Crea personajes para novelas web y avatares para cómics

Descubra los mejores generadores de anime de IA para donghua en 2026. Nuestra lista seleccionada y calificada incluye herramientas poderosas para crear increíbles personajes para novelas web y avatares de cómics. Compare opciones gratuitas y pagadas a través de pruebas reales. Encuentre su compañero creativo ideal y dé vida a sus historias hoy mismo en XIX.AI.

10 herramientas
xix.ai
Creación de cómics Las mejores herramientas de coloración automática con IA para manga: aplica colores planos sin ningún error de coherencia
Las mejores herramientas de coloración automática con IA para manga: aplica colores planos sin ningún error de coherencia

Descubre las mejores herramientas de coloración automática con IA para manga de 2026 en XIX.AI. Nuestra lista seleccionada incluye soluciones revolucionarias y mejor valoradas que aplican colores planos sin ningún error de consistencia, lo que potencia tu productividad. Explora comparativas entre opciones gratuitas y de pago, pruebas en condiciones reales y clasificaciones actualizadas semanalmente para encontrar la opción perfecta para ti. Aprovecha hoy mismo las ventajas de la IA.

10 herramientas
xix.ai
escribiendo Los mejores creadores de perfiles de ficción con IA: cómo generar motivaciones y defectos fatales coherentes para los personajes
Los mejores creadores de perfiles de ficción con IA: cómo generar motivaciones y defectos fatales coherentes para los personajes

Descubre los mejores creadores de perfiles de ficción con IA de 2026 para dar vida a personajes profundos. La selección de XIX.AI incluye herramientas de primera categoría y revolucionarias que generan motivaciones coherentes y defectos fatales. Compara las opciones gratuitas con las de pago mediante pruebas en el mundo real. Libera ahora tu potencial narrativo.

10 herramientas
xix.ai
Negocio El mejor software de optimización de precios con IA: realiza un seguimiento de la competencia y ajusta automáticamente los precios de la tienda
El mejor software de optimización de precios con IA: realiza un seguimiento de la competencia y ajusta automáticamente los precios de la tienda

Descubre el mejor software de optimización de precios con IA de 2026 en XIX.AI. Nuestra selección incluye herramientas de primera categoría y revolucionarias que analizan a la competencia y ajustan automáticamente los precios de tu tienda para maximizar los beneficios. Compara las opciones gratuitas con las de pago mediante pruebas reales. Aprovecha ahora tu ventaja competitiva en materia de precios.

10 herramientas
xix.ai
código Los mejores revisores de código basados en IA: automatiza el cumplimiento de las normas de código limpio y refactoriza los archivos de repositorios heredados
Los mejores revisores de código basados en IA: automatiza el cumplimiento de las normas de código limpio y refactoriza los archivos de repositorios heredados

Descubre los mejores revisores de código con IA de 2026 en XIX.AI. Nuestra lista seleccionada incluye herramientas de primera categoría y revolucionarias para automatizar el cumplimiento de las normas de código limpio y refactorizar archivos de repositorios heredados. Compara las opciones gratuitas con las de pago mediante pruebas reales y clasificaciones que se actualizan semanalmente. Aprovecha hoy mismo tu ventaja con la IA.

10 herramientas
xix.ai
Texto a voz Las mejores aplicaciones de síntesis de voz con IA para la dislexia: apoyo al aprendizaje y mejora de la eficiencia en la lectura de los estudiantes
Las mejores aplicaciones de síntesis de voz con IA para la dislexia: apoyo al aprendizaje y mejora de la eficiencia en la lectura de los estudiantes

Descubre las mejores aplicaciones de TTS con IA de 2026, seleccionadas específicamente para ayudar a las personas con dislexia. Nuestra clasificación, elaborada por expertos, compara herramientas gratuitas y de pago, y destaca sus potentes funciones para mejorar la eficiencia en la lectura y el aprendizaje. Explora soluciones innovadoras e imprescindibles para liberar el potencial de los estudiantes. Empieza tu viaje en XIX.AI.

10 herramientas
xix.ai
comentario (6)
0/500
JackPerez
JackPerez 2 de febrero de 2026 23:00:45 GMT+01:00

Como usuário curioso sobre IA, fico um pouco desconfiado quando os benchmarks não batem. A OpenAI lançou o o3 com uma fanfarra enorme, falando de mais de 25% nos desafios do Frontier, mas agora parece que os resultados reais podem ser bem mais modestos. Isso me faz pensar: deveríamos confiar mais nas métricas das empresas ou em avaliações independentes? A competição entre os modelos está tão acirrada que às vezes a verdade parece ficar em segundo plano... Precisamos de mais transparência! 🤔

BruceRoberts
BruceRoberts 16 de diciembre de 2025 11:30:42 GMT+01:00

Ces écarts sur les benchmarks montrent bien qu'on ne peut pas prendre toutes les déclarations des labos pour argent comptant. Du coup, ça soulève des questions sur la transparence des processus d'évaluation. C'est important pour les chercheurs et les développeurs qui basent leur travail sur ces résultats. 🤔

FrankSmith
FrankSmith 10 de septiembre de 2025 08:30:33 GMT+02:00

오픈AI의 벤치마크 수치 조작 논란, 이젠 식상하네요 😅 경쟁이 치열해질수록 회사들이 성과를 부풀리는 건 드문 일이 아니지만... 진실은 결국 밝혀지잖아요. 이번 건으로 인공지능 업계의 신뢰도가 또 한 번 흔들리는 건 아닐지 걱정됩니다.

LiamWalker
LiamWalker 12 de agosto de 2025 08:50:10 GMT+02:00

I was hyped for o3, but these benchmark gaps are a letdown. Makes you wonder if the AI hype train is running on fumes. Still cool tech, tho! 😎

FrankLewis
FrankLewis 7 de agosto de 2025 04:41:14 GMT+02:00

The o3 model's benchmark slip-up is a bit of a letdown. 😕 I was hyped for OpenAI's big claims, but now I’m wondering if they’re overselling. Numbers don’t lie, but they can sure be misleading!

NicholasCarter
NicholasCarter 29 de julio de 2025 14:25:16 GMT+02:00

The o3 model's benchmark slip-up is wild! I was hyped for those big claims, but now it’s like finding out your favorite superhero has a weak spot. Still, AI’s moving so fast, I wonder if these benchmarks even keep up with real-world use. 🤔 Anyone else feel like we’re chasing numbers instead of actual progress?

OR