AI puntos de referencia: ¿Deberíamos ignorarlos por ahora?
¡Bienvenidos al boletín regular de IA de TechCrunch! Estamos tomando un pequeño descanso, pero no te preocupes, aún puedes obtener toda nuestra cobertura de IA, incluidas mis columnas, análisis diarios y noticias de última hora, aquí mismo en TechCrunch. ¿Quieres recibir estas historias directamente en tu bandeja de entrada todos los días? Solo regístrate en nuestros boletines diarios aquí.
Esta semana, la startup de IA de Elon Musk, xAI, lanzó su último modelo insignia de IA, Grok 3, que impulsa las aplicaciones de chatbot Grok de la compañía. Lo entrenaron con la impresionante cantidad de 200,000 GPUs, y está superando a varios otros modelos destacados, incluidos algunos de OpenAI, en pruebas de referencia para matemáticas, programación y más.
Pero hablemos de lo que realmente significan estas pruebas de referencia.
Aquí en TC, informamos sobre estos números de referencia, aunque no siempre estemos emocionados por hacerlo, porque son una de las pocas formas en que la industria de la IA intenta mostrar cómo están mejorando sus modelos. El problema es que estas pruebas de referencia de IA populares a menudo se centran en cosas oscuras y dan puntuaciones que no reflejan realmente qué tan bien la IA realiza las cosas que realmente le importan a la gente.
Ethan Mollick, profesor en Wharton, acudió a X para decir que hay una necesidad real de mejores pruebas y grupos independientes para realizarlas. Señaló que las empresas de IA a menudo reportan sus propios resultados de referencia, lo que hace difícil confiar completamente en ellos.
"Las pruebas de referencia públicas son tanto 'meh' como saturadas, dejando mucho del testing de IA como reseñas de comida, basadas en el gusto," escribió Mollick. "Si la IA es crítica para el trabajo, necesitamos más."
Hay muchas personas tratando de crear nuevas pruebas de referencia para IA, pero nadie puede ponerse de acuerdo en cuál es la mejor. Algunos piensan que las pruebas de referencia deberían centrarse en el impacto económico para ser útiles, mientras que otros creen que la adopción en el mundo real y la utilidad son las verdaderas medidas del éxito.
Este debate podría durar para siempre. Tal vez, como sugiere el usuario de X Roon, deberíamos prestar menos atención a los nuevos modelos y pruebas de referencia a menos que haya un gran avance en IA. Podría ser mejor para nuestra cordura, incluso si eso significa perdernos algo del revuelo de la IA.
Como mencionamos, This Week in AI está tomando un descanso. Gracias por seguir con nosotros, lectores, a través de todos los altibajos. Hasta la próxima.
Noticias

Créditos de la imagen: Nathan Laine/Bloomberg / Getty Images OpenAI está intentando "descensurar" ChatGPT. Max escribió sobre cómo están cambiando su enfoque hacia el desarrollo de IA para abrazar la "libertad intelectual", incluso en temas difíciles o controvertidos.Mira Murati, ex CTO de OpenAI, tiene una nueva startup llamada Thinking Machines Lab. Están trabajando en herramientas para "hacer que la IA funcione para las necesidades y objetivos únicos de las personas."
xAI lanzó Grok 3 y añadió nuevas funciones a las aplicaciones de Grok para iOS y la web.
Meta está organizando su primera conferencia de desarrolladores enfocada en IA generativa esta primavera. Se llama LlamaCon, por sus modelos Llama, y se llevará a cabo el 29 de abril.
Paul escribió sobre OpenEuroLLM, un proyecto de alrededor de 20 organizaciones para construir modelos fundacionales para una "IA transparente en Europa" que respete la "diversidad lingüística y cultural" de todos los idiomas de la UE.
Artículo de investigación de la semana

Créditos de la imagen: Jakub Porzycki/NurPhoto / Getty Images Investigadores de OpenAI han creado una nueva prueba de referencia de IA llamada SWE-Lancer para evaluar qué tan bien puede programar la IA. Está compuesta por más de 1,400 tareas de ingeniería de software freelance, desde corregir errores y añadir funciones hasta proponer implementaciones técnicas.OpenAI dice que el modelo de mejor rendimiento, Claude 3.5 Sonnet de Anthropic, solo obtuvo un 40.3% en la prueba completa de SWE-Lancer, lo que muestra que la IA aún tiene un largo camino por recorrer. No probaron modelos más nuevos como o3-mini de OpenAI o R1 de DeepSeek de China.
Modelo de la semana
Una empresa china de IA llamada Stepfun lanzó un modelo de IA "abierto" llamado Step-Audio que puede entender y generar discurso en chino, inglés y japonés. Los usuarios incluso pueden ajustar la emoción y el dialecto del audio sintético, incluyendo el canto.
Stepfun es una de varias startups chinas de IA bien financiadas que lanzan modelos con licencias permisivas. Fundada en 2023, recientemente cerraron una ronda de financiación por cientos de millones de inversores, incluyendo firmas de capital privado estatales chinas.
Miscelánea

Créditos de la imagen: Nous Research Nous Research, un grupo de investigación de IA, afirma haber lanzado uno de los primeros modelos de IA que combina razonamiento con "capacidades intuitivas de modelos de lenguaje."Su modelo, DeepHermes-3 Preview, puede alternar entre cadenas de pensamiento cortas y largas para equilibrar precisión y poder computacional. En modo "razonamiento", tarda más en resolver problemas más difíciles y muestra su proceso de pensamiento a lo largo del camino.
Se informa que Anthropic planea lanzar un modelo similar pronto, y OpenAI dice que está en su hoja de ruta a corto plazo.
Artículo relacionado
Antigua ingeniera de OpenAI comparte perspectivas sobre la cultura de la empresa y su rápido crecimiento
Hace tres semanas, Calvin French-Owen, un ingeniero que contribuyó a un producto clave de OpenAI, dejó la empresa.Recientemente compartió una publicación de blog convincente detallando su año en OpenA
Google Presenta Modelos de IA Gemini 2.5 Listos para Producción para Competir con OpenAI en el Mercado Empresarial
Google intensificó su estrategia de IA el lunes, lanzando sus avanzados modelos Gemini 2.5 para uso empresarial e introduciendo una variante rentable para competir en precio y rendimiento.La empresa p
Meta Ofrece Altos Salarios para Talento en IA, Niega Bonos de Firma de $100M
Meta está atrayendo a investigadores de IA a su nuevo laboratorio de superinteligencia con paquetes de compensación multimillonarios sustanciales. Sin embargo, las afirmaciones de bonos de firma de $1
comentario (58)
0/200
BillyLewis
4 de agosto de 2025 08:01:00 GMT+02:00
AI benchmarks sound cool, but are they just overhyped numbers? I’m curious if they really tell us anything useful about real-world performance. 🧐
0
JimmyWilson
1 de agosto de 2025 04:48:18 GMT+02:00
AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI vibes in the real world? 🤔
0
JohnTaylor
28 de julio de 2025 03:20:02 GMT+02:00
AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI impacts daily life? 🤔 Curious if we’re hyping stats over real-world use.
0
ChristopherThomas
26 de abril de 2025 07:57:18 GMT+02:00
I'm on the fence about AI benchmarks. They seem useful but also kinda miss the point sometimes. It's like judging a book by its cover. Still, it's good to have some metrics, right? Maybe we should take them with a grain of salt for now. 🤔
0
BrianWalker
25 de abril de 2025 21:19:34 GMT+02:00
Tôi không chắc về các tiêu chuẩn đánh giá AI. Chúng có vẻ hữu ích nhưng đôi khi cũng bỏ lỡ điểm chính. Giống như đánh giá một cuốn sách qua bìa của nó. Tuy nhiên, có một số chỉ số là tốt, đúng không? Có lẽ chúng ta nên xem xét chúng với một chút hoài nghi tạm thời. 🤔
0
CharlesMartinez
22 de abril de 2025 17:01:53 GMT+02:00
Estou em dúvida sobre os benchmarks de IA. Eles parecem úteis, mas às vezes também perdem o ponto. É como julgar um livro pela capa. Ainda assim, é bom ter algumas métricas, certo? Talvez devêssemos levá-los com um grão de sal por enquanto. 🤔
0
¡Bienvenidos al boletín regular de IA de TechCrunch! Estamos tomando un pequeño descanso, pero no te preocupes, aún puedes obtener toda nuestra cobertura de IA, incluidas mis columnas, análisis diarios y noticias de última hora, aquí mismo en TechCrunch. ¿Quieres recibir estas historias directamente en tu bandeja de entrada todos los días? Solo regístrate en nuestros boletines diarios aquí.
Esta semana, la startup de IA de Elon Musk, xAI, lanzó su último modelo insignia de IA, Grok 3, que impulsa las aplicaciones de chatbot Grok de la compañía. Lo entrenaron con la impresionante cantidad de 200,000 GPUs, y está superando a varios otros modelos destacados, incluidos algunos de OpenAI, en pruebas de referencia para matemáticas, programación y más.
Pero hablemos de lo que realmente significan estas pruebas de referencia.
Aquí en TC, informamos sobre estos números de referencia, aunque no siempre estemos emocionados por hacerlo, porque son una de las pocas formas en que la industria de la IA intenta mostrar cómo están mejorando sus modelos. El problema es que estas pruebas de referencia de IA populares a menudo se centran en cosas oscuras y dan puntuaciones que no reflejan realmente qué tan bien la IA realiza las cosas que realmente le importan a la gente.
Ethan Mollick, profesor en Wharton, acudió a X para decir que hay una necesidad real de mejores pruebas y grupos independientes para realizarlas. Señaló que las empresas de IA a menudo reportan sus propios resultados de referencia, lo que hace difícil confiar completamente en ellos.
"Las pruebas de referencia públicas son tanto 'meh' como saturadas, dejando mucho del testing de IA como reseñas de comida, basadas en el gusto," escribió Mollick. "Si la IA es crítica para el trabajo, necesitamos más."
Hay muchas personas tratando de crear nuevas pruebas de referencia para IA, pero nadie puede ponerse de acuerdo en cuál es la mejor. Algunos piensan que las pruebas de referencia deberían centrarse en el impacto económico para ser útiles, mientras que otros creen que la adopción en el mundo real y la utilidad son las verdaderas medidas del éxito.
Este debate podría durar para siempre. Tal vez, como sugiere el usuario de X Roon, deberíamos prestar menos atención a los nuevos modelos y pruebas de referencia a menos que haya un gran avance en IA. Podría ser mejor para nuestra cordura, incluso si eso significa perdernos algo del revuelo de la IA.
Como mencionamos, This Week in AI está tomando un descanso. Gracias por seguir con nosotros, lectores, a través de todos los altibajos. Hasta la próxima.
Noticias
Mira Murati, ex CTO de OpenAI, tiene una nueva startup llamada Thinking Machines Lab. Están trabajando en herramientas para "hacer que la IA funcione para las necesidades y objetivos únicos de las personas."
xAI lanzó Grok 3 y añadió nuevas funciones a las aplicaciones de Grok para iOS y la web.
Meta está organizando su primera conferencia de desarrolladores enfocada en IA generativa esta primavera. Se llama LlamaCon, por sus modelos Llama, y se llevará a cabo el 29 de abril.
Paul escribió sobre OpenEuroLLM, un proyecto de alrededor de 20 organizaciones para construir modelos fundacionales para una "IA transparente en Europa" que respete la "diversidad lingüística y cultural" de todos los idiomas de la UE.
Artículo de investigación de la semana
OpenAI dice que el modelo de mejor rendimiento, Claude 3.5 Sonnet de Anthropic, solo obtuvo un 40.3% en la prueba completa de SWE-Lancer, lo que muestra que la IA aún tiene un largo camino por recorrer. No probaron modelos más nuevos como o3-mini de OpenAI o R1 de DeepSeek de China.
Modelo de la semana
Una empresa china de IA llamada Stepfun lanzó un modelo de IA "abierto" llamado Step-Audio que puede entender y generar discurso en chino, inglés y japonés. Los usuarios incluso pueden ajustar la emoción y el dialecto del audio sintético, incluyendo el canto.
Stepfun es una de varias startups chinas de IA bien financiadas que lanzan modelos con licencias permisivas. Fundada en 2023, recientemente cerraron una ronda de financiación por cientos de millones de inversores, incluyendo firmas de capital privado estatales chinas.
Miscelánea
Su modelo, DeepHermes-3 Preview, puede alternar entre cadenas de pensamiento cortas y largas para equilibrar precisión y poder computacional. En modo "razonamiento", tarda más en resolver problemas más difíciles y muestra su proceso de pensamiento a lo largo del camino.
Se informa que Anthropic planea lanzar un modelo similar pronto, y OpenAI dice que está en su hoja de ruta a corto plazo.




AI benchmarks sound cool, but are they just overhyped numbers? I’m curious if they really tell us anything useful about real-world performance. 🧐




AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI vibes in the real world? 🤔




AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI impacts daily life? 🤔 Curious if we’re hyping stats over real-world use.




I'm on the fence about AI benchmarks. They seem useful but also kinda miss the point sometimes. It's like judging a book by its cover. Still, it's good to have some metrics, right? Maybe we should take them with a grain of salt for now. 🤔




Tôi không chắc về các tiêu chuẩn đánh giá AI. Chúng có vẻ hữu ích nhưng đôi khi cũng bỏ lỡ điểm chính. Giống như đánh giá một cuốn sách qua bìa của nó. Tuy nhiên, có một số chỉ số là tốt, đúng không? Có lẽ chúng ta nên xem xét chúng với một chút hoài nghi tạm thời. 🤔




Estou em dúvida sobre os benchmarks de IA. Eles parecem úteis, mas às vezes também perdem o ponto. É como julgar um livro pela capa. Ainda assim, é bom ter algumas métricas, certo? Talvez devêssemos levá-los com um grão de sal por enquanto. 🤔












