AI puntos de referencia: ¿Deberíamos ignorarlos por ahora?
¡Bienvenidos al boletín regular de IA de TechCrunch! Estamos tomando un pequeño descanso, pero no te preocupes, aún puedes obtener toda nuestra cobertura de IA, incluidas mis columnas, análisis diarios y noticias de última hora, aquí mismo en TechCrunch. ¿Quieres recibir estas historias directamente en tu bandeja de entrada todos los días? Solo regístrate en nuestros boletines diarios aquí.
Esta semana, la startup de IA de Elon Musk, xAI, lanzó su último modelo insignia de IA, Grok 3, que impulsa las aplicaciones de chatbot Grok de la compañía. Lo entrenaron con la impresionante cantidad de 200,000 GPUs, y está superando a varios otros modelos destacados, incluidos algunos de OpenAI, en pruebas de referencia para matemáticas, programación y más.
Pero hablemos de lo que realmente significan estas pruebas de referencia.
Aquí en TC, informamos sobre estos números de referencia, aunque no siempre estemos emocionados por hacerlo, porque son una de las pocas formas en que la industria de la IA intenta mostrar cómo están mejorando sus modelos. El problema es que estas pruebas de referencia de IA populares a menudo se centran en cosas oscuras y dan puntuaciones que no reflejan realmente qué tan bien la IA realiza las cosas que realmente le importan a la gente.
Ethan Mollick, profesor en Wharton, acudió a X para decir que hay una necesidad real de mejores pruebas y grupos independientes para realizarlas. Señaló que las empresas de IA a menudo reportan sus propios resultados de referencia, lo que hace difícil confiar completamente en ellos.
"Las pruebas de referencia públicas son tanto 'meh' como saturadas, dejando mucho del testing de IA como reseñas de comida, basadas en el gusto," escribió Mollick. "Si la IA es crítica para el trabajo, necesitamos más."
Hay muchas personas tratando de crear nuevas pruebas de referencia para IA, pero nadie puede ponerse de acuerdo en cuál es la mejor. Algunos piensan que las pruebas de referencia deberían centrarse en el impacto económico para ser útiles, mientras que otros creen que la adopción en el mundo real y la utilidad son las verdaderas medidas del éxito.
Este debate podría durar para siempre. Tal vez, como sugiere el usuario de X Roon, deberíamos prestar menos atención a los nuevos modelos y pruebas de referencia a menos que haya un gran avance en IA. Podría ser mejor para nuestra cordura, incluso si eso significa perdernos algo del revuelo de la IA.
Como mencionamos, This Week in AI está tomando un descanso. Gracias por seguir con nosotros, lectores, a través de todos los altibajos. Hasta la próxima.
Noticias

Créditos de la imagen: Nathan Laine/Bloomberg / Getty Images OpenAI está intentando "descensurar" ChatGPT. Max escribió sobre cómo están cambiando su enfoque hacia el desarrollo de IA para abrazar la "libertad intelectual", incluso en temas difíciles o controvertidos.Mira Murati, ex CTO de OpenAI, tiene una nueva startup llamada Thinking Machines Lab. Están trabajando en herramientas para "hacer que la IA funcione para las necesidades y objetivos únicos de las personas."
xAI lanzó Grok 3 y añadió nuevas funciones a las aplicaciones de Grok para iOS y la web.
Meta está organizando su primera conferencia de desarrolladores enfocada en IA generativa esta primavera. Se llama LlamaCon, por sus modelos Llama, y se llevará a cabo el 29 de abril.
Paul escribió sobre OpenEuroLLM, un proyecto de alrededor de 20 organizaciones para construir modelos fundacionales para una "IA transparente en Europa" que respete la "diversidad lingüística y cultural" de todos los idiomas de la UE.
Artículo de investigación de la semana

Créditos de la imagen: Jakub Porzycki/NurPhoto / Getty Images Investigadores de OpenAI han creado una nueva prueba de referencia de IA llamada SWE-Lancer para evaluar qué tan bien puede programar la IA. Está compuesta por más de 1,400 tareas de ingeniería de software freelance, desde corregir errores y añadir funciones hasta proponer implementaciones técnicas.OpenAI dice que el modelo de mejor rendimiento, Claude 3.5 Sonnet de Anthropic, solo obtuvo un 40.3% en la prueba completa de SWE-Lancer, lo que muestra que la IA aún tiene un largo camino por recorrer. No probaron modelos más nuevos como o3-mini de OpenAI o R1 de DeepSeek de China.
Modelo de la semana
Una empresa china de IA llamada Stepfun lanzó un modelo de IA "abierto" llamado Step-Audio que puede entender y generar discurso en chino, inglés y japonés. Los usuarios incluso pueden ajustar la emoción y el dialecto del audio sintético, incluyendo el canto.
Stepfun es una de varias startups chinas de IA bien financiadas que lanzan modelos con licencias permisivas. Fundada en 2023, recientemente cerraron una ronda de financiación por cientos de millones de inversores, incluyendo firmas de capital privado estatales chinas.
Miscelánea

Créditos de la imagen: Nous Research Nous Research, un grupo de investigación de IA, afirma haber lanzado uno de los primeros modelos de IA que combina razonamiento con "capacidades intuitivas de modelos de lenguaje."Su modelo, DeepHermes-3 Preview, puede alternar entre cadenas de pensamiento cortas y largas para equilibrar precisión y poder computacional. En modo "razonamiento", tarda más en resolver problemas más difíciles y muestra su proceso de pensamiento a lo largo del camino.
Se informa que Anthropic planea lanzar un modelo similar pronto, y OpenAI dice que está en su hoja de ruta a corto plazo.
Artículo relacionado
Grok arremete contra los demócratas y los "ejecutivos judíos" de Hollywood en unas polémicas declaraciones
El viernes por la mañana, Elon Musk anunció mejoras significativas en @Grok, afirmando que los usuarios notarían un mejor rendimiento al interactuar con el asistente de IA. Aunque no se dieron detalle
Una organización sin ánimo de lucro aprovecha los agentes de IA para impulsar la recaudación de fondos benéficos
Mientras las grandes corporaciones tecnológicas promueven los "agentes" de IA como potenciadores de la productividad para las empresas, una organización sin ánimo de lucro está demostrando su potencia
Los principales laboratorios de IA advierten de que la humanidad está perdiendo el control sobre la comprensión de los sistemas de IA
En una muestra de unidad sin precedentes, investigadores de OpenAI, Google DeepMind, Anthropic y Meta han dejado de lado sus diferencias competitivas para lanzar una advertencia colectiva sobre el des
comentario (61)
0/200
JonathanDavis
19 de agosto de 2025 08:26:53 GMT+02:00
AI benchmarks are getting so hyped, but are they even reliable yet? 🤔 Feels like companies just cherry-pick numbers to flex. I’d rather see real-world use cases than some random leaderboard scores.
0
EdwardWalker
19 de agosto de 2025 07:00:59 GMT+02:00
AI benchmarks are getting so hyped, but are they even reliable yet? Feels like we're chasing numbers instead of real progress. 🤔 What do you all think—should we just ignore them for now?
0
HarrySmith
11 de agosto de 2025 21:00:59 GMT+02:00
AI benchmarks are cool, but are they just tech flexing? I’d rather see real-world uses than numbers on a chart. 🤔
0
BillyLewis
4 de agosto de 2025 08:01:00 GMT+02:00
AI benchmarks sound cool, but are they just overhyped numbers? I’m curious if they really tell us anything useful about real-world performance. 🧐
0
JimmyWilson
1 de agosto de 2025 04:48:18 GMT+02:00
AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI vibes in the real world? 🤔
0
JohnTaylor
28 de julio de 2025 03:20:02 GMT+02:00
AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI impacts daily life? 🤔 Curious if we’re hyping stats over real-world use.
0
¡Bienvenidos al boletín regular de IA de TechCrunch! Estamos tomando un pequeño descanso, pero no te preocupes, aún puedes obtener toda nuestra cobertura de IA, incluidas mis columnas, análisis diarios y noticias de última hora, aquí mismo en TechCrunch. ¿Quieres recibir estas historias directamente en tu bandeja de entrada todos los días? Solo regístrate en nuestros boletines diarios aquí.
Esta semana, la startup de IA de Elon Musk, xAI, lanzó su último modelo insignia de IA, Grok 3, que impulsa las aplicaciones de chatbot Grok de la compañía. Lo entrenaron con la impresionante cantidad de 200,000 GPUs, y está superando a varios otros modelos destacados, incluidos algunos de OpenAI, en pruebas de referencia para matemáticas, programación y más.
Pero hablemos de lo que realmente significan estas pruebas de referencia.
Aquí en TC, informamos sobre estos números de referencia, aunque no siempre estemos emocionados por hacerlo, porque son una de las pocas formas en que la industria de la IA intenta mostrar cómo están mejorando sus modelos. El problema es que estas pruebas de referencia de IA populares a menudo se centran en cosas oscuras y dan puntuaciones que no reflejan realmente qué tan bien la IA realiza las cosas que realmente le importan a la gente.
Ethan Mollick, profesor en Wharton, acudió a X para decir que hay una necesidad real de mejores pruebas y grupos independientes para realizarlas. Señaló que las empresas de IA a menudo reportan sus propios resultados de referencia, lo que hace difícil confiar completamente en ellos.
"Las pruebas de referencia públicas son tanto 'meh' como saturadas, dejando mucho del testing de IA como reseñas de comida, basadas en el gusto," escribió Mollick. "Si la IA es crítica para el trabajo, necesitamos más."
Hay muchas personas tratando de crear nuevas pruebas de referencia para IA, pero nadie puede ponerse de acuerdo en cuál es la mejor. Algunos piensan que las pruebas de referencia deberían centrarse en el impacto económico para ser útiles, mientras que otros creen que la adopción en el mundo real y la utilidad son las verdaderas medidas del éxito.
Este debate podría durar para siempre. Tal vez, como sugiere el usuario de X Roon, deberíamos prestar menos atención a los nuevos modelos y pruebas de referencia a menos que haya un gran avance en IA. Podría ser mejor para nuestra cordura, incluso si eso significa perdernos algo del revuelo de la IA.
Como mencionamos, This Week in AI está tomando un descanso. Gracias por seguir con nosotros, lectores, a través de todos los altibajos. Hasta la próxima.
Noticias
Mira Murati, ex CTO de OpenAI, tiene una nueva startup llamada Thinking Machines Lab. Están trabajando en herramientas para "hacer que la IA funcione para las necesidades y objetivos únicos de las personas."
xAI lanzó Grok 3 y añadió nuevas funciones a las aplicaciones de Grok para iOS y la web.
Meta está organizando su primera conferencia de desarrolladores enfocada en IA generativa esta primavera. Se llama LlamaCon, por sus modelos Llama, y se llevará a cabo el 29 de abril.
Paul escribió sobre OpenEuroLLM, un proyecto de alrededor de 20 organizaciones para construir modelos fundacionales para una "IA transparente en Europa" que respete la "diversidad lingüística y cultural" de todos los idiomas de la UE.
Artículo de investigación de la semana
OpenAI dice que el modelo de mejor rendimiento, Claude 3.5 Sonnet de Anthropic, solo obtuvo un 40.3% en la prueba completa de SWE-Lancer, lo que muestra que la IA aún tiene un largo camino por recorrer. No probaron modelos más nuevos como o3-mini de OpenAI o R1 de DeepSeek de China.
Modelo de la semana
Una empresa china de IA llamada Stepfun lanzó un modelo de IA "abierto" llamado Step-Audio que puede entender y generar discurso en chino, inglés y japonés. Los usuarios incluso pueden ajustar la emoción y el dialecto del audio sintético, incluyendo el canto.
Stepfun es una de varias startups chinas de IA bien financiadas que lanzan modelos con licencias permisivas. Fundada en 2023, recientemente cerraron una ronda de financiación por cientos de millones de inversores, incluyendo firmas de capital privado estatales chinas.
Miscelánea
Su modelo, DeepHermes-3 Preview, puede alternar entre cadenas de pensamiento cortas y largas para equilibrar precisión y poder computacional. En modo "razonamiento", tarda más en resolver problemas más difíciles y muestra su proceso de pensamiento a lo largo del camino.
Se informa que Anthropic planea lanzar un modelo similar pronto, y OpenAI dice que está en su hoja de ruta a corto plazo.




AI benchmarks are getting so hyped, but are they even reliable yet? 🤔 Feels like companies just cherry-pick numbers to flex. I’d rather see real-world use cases than some random leaderboard scores.




AI benchmarks are getting so hyped, but are they even reliable yet? Feels like we're chasing numbers instead of real progress. 🤔 What do you all think—should we just ignore them for now?




AI benchmarks are cool, but are they just tech flexing? I’d rather see real-world uses than numbers on a chart. 🤔




AI benchmarks sound cool, but are they just overhyped numbers? I’m curious if they really tell us anything useful about real-world performance. 🧐




AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI vibes in the real world? 🤔




AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI impacts daily life? 🤔 Curious if we’re hyping stats over real-world use.












