AI puntos de referencia: ¿Deberíamos ignorarlos por ahora?
¡Bienvenidos al boletín regular de IA de TechCrunch! Estamos tomando un pequeño descanso, pero no te preocupes, aún puedes obtener toda nuestra cobertura de IA, incluidas mis columnas, análisis diarios y noticias de última hora, aquí mismo en TechCrunch. ¿Quieres recibir estas historias directamente en tu bandeja de entrada todos los días? Solo regístrate en nuestros boletines diarios aquí.
Esta semana, la startup de IA de Elon Musk, xAI, lanzó su último modelo insignia de IA, Grok 3, que impulsa las aplicaciones de chatbot Grok de la compañía. Lo entrenaron con la impresionante cantidad de 200,000 GPUs, y está superando a varios otros modelos destacados, incluidos algunos de OpenAI, en pruebas de referencia para matemáticas, programación y más.
Pero hablemos de lo que realmente significan estas pruebas de referencia.
Aquí en TC, informamos sobre estos números de referencia, aunque no siempre estemos emocionados por hacerlo, porque son una de las pocas formas en que la industria de la IA intenta mostrar cómo están mejorando sus modelos. El problema es que estas pruebas de referencia de IA populares a menudo se centran en cosas oscuras y dan puntuaciones que no reflejan realmente qué tan bien la IA realiza las cosas que realmente le importan a la gente.
Ethan Mollick, profesor en Wharton, acudió a X para decir que hay una necesidad real de mejores pruebas y grupos independientes para realizarlas. Señaló que las empresas de IA a menudo reportan sus propios resultados de referencia, lo que hace difícil confiar completamente en ellos.
"Las pruebas de referencia públicas son tanto 'meh' como saturadas, dejando mucho del testing de IA como reseñas de comida, basadas en el gusto," escribió Mollick. "Si la IA es crítica para el trabajo, necesitamos más."
Hay muchas personas tratando de crear nuevas pruebas de referencia para IA, pero nadie puede ponerse de acuerdo en cuál es la mejor. Algunos piensan que las pruebas de referencia deberían centrarse en el impacto económico para ser útiles, mientras que otros creen que la adopción en el mundo real y la utilidad son las verdaderas medidas del éxito.
Este debate podría durar para siempre. Tal vez, como sugiere el usuario de X Roon, deberíamos prestar menos atención a los nuevos modelos y pruebas de referencia a menos que haya un gran avance en IA. Podría ser mejor para nuestra cordura, incluso si eso significa perdernos algo del revuelo de la IA.
Como mencionamos, This Week in AI está tomando un descanso. Gracias por seguir con nosotros, lectores, a través de todos los altibajos. Hasta la próxima.
Noticias

Créditos de la imagen: Nathan Laine/Bloomberg / Getty Images OpenAI está intentando "descensurar" ChatGPT. Max escribió sobre cómo están cambiando su enfoque hacia el desarrollo de IA para abrazar la "libertad intelectual", incluso en temas difíciles o controvertidos.Mira Murati, ex CTO de OpenAI, tiene una nueva startup llamada Thinking Machines Lab. Están trabajando en herramientas para "hacer que la IA funcione para las necesidades y objetivos únicos de las personas."
xAI lanzó Grok 3 y añadió nuevas funciones a las aplicaciones de Grok para iOS y la web.
Meta está organizando su primera conferencia de desarrolladores enfocada en IA generativa esta primavera. Se llama LlamaCon, por sus modelos Llama, y se llevará a cabo el 29 de abril.
Paul escribió sobre OpenEuroLLM, un proyecto de alrededor de 20 organizaciones para construir modelos fundacionales para una "IA transparente en Europa" que respete la "diversidad lingüística y cultural" de todos los idiomas de la UE.
Artículo de investigación de la semana

Créditos de la imagen: Jakub Porzycki/NurPhoto / Getty Images Investigadores de OpenAI han creado una nueva prueba de referencia de IA llamada SWE-Lancer para evaluar qué tan bien puede programar la IA. Está compuesta por más de 1,400 tareas de ingeniería de software freelance, desde corregir errores y añadir funciones hasta proponer implementaciones técnicas.OpenAI dice que el modelo de mejor rendimiento, Claude 3.5 Sonnet de Anthropic, solo obtuvo un 40.3% en la prueba completa de SWE-Lancer, lo que muestra que la IA aún tiene un largo camino por recorrer. No probaron modelos más nuevos como o3-mini de OpenAI o R1 de DeepSeek de China.
Modelo de la semana
Una empresa china de IA llamada Stepfun lanzó un modelo de IA "abierto" llamado Step-Audio que puede entender y generar discurso en chino, inglés y japonés. Los usuarios incluso pueden ajustar la emoción y el dialecto del audio sintético, incluyendo el canto.
Stepfun es una de varias startups chinas de IA bien financiadas que lanzan modelos con licencias permisivas. Fundada en 2023, recientemente cerraron una ronda de financiación por cientos de millones de inversores, incluyendo firmas de capital privado estatales chinas.
Miscelánea

Créditos de la imagen: Nous Research Nous Research, un grupo de investigación de IA, afirma haber lanzado uno de los primeros modelos de IA que combina razonamiento con "capacidades intuitivas de modelos de lenguaje."Su modelo, DeepHermes-3 Preview, puede alternar entre cadenas de pensamiento cortas y largas para equilibrar precisión y poder computacional. En modo "razonamiento", tarda más en resolver problemas más difíciles y muestra su proceso de pensamiento a lo largo del camino.
Se informa que Anthropic planea lanzar un modelo similar pronto, y OpenAI dice que está en su hoja de ruta a corto plazo.
Artículo relacionado
Satya Nadella está listo para aprovechar el nuevo acuerdo con OpenAI
El miércoles, un analista de Wall Street preguntó directamente al CEO de Microsoft, Satya Nadella, cómo la revisada asociación con OpenAI afectaría las finanzas de la empresa.Nadella describió el nuevo acuerdo como una victoria para todos. “Estamos
OpenAI esboza la economía de la IA con fondos de riqueza pública, impuestos sobre los robots y la semana laboral de cuatro días
Mientras los gobiernos se esfuerzan por gestionar el impacto económico de las máquinas superinteligentes, OpenAI ha publicado una serie de propuestas políticas en las que se esboza cómo podrían reconf
La duración del contrato de alquiler de SpaceX por parte de Anthropic divide opiniones
A principios de este mes, xAI cerró un importante acuerdo de recursos informáticos con Anthropic, comprometiéndose a pagar miles de millones al mes a cambio de acceso exclusivo al clúster Colossus. El
Recomendaciones de temas especiales relacionados
comentario (61)
0/500
AI benchmarks are getting so hyped, but are they even reliable yet? 🤔 Feels like companies just cherry-pick numbers to flex. I’d rather see real-world use cases than some random leaderboard scores.
AI benchmarks are getting so hyped, but are they even reliable yet? Feels like we're chasing numbers instead of real progress. 🤔 What do you all think—should we just ignore them for now?
AI benchmarks are cool, but are they just tech flexing? I’d rather see real-world uses than numbers on a chart. 🤔
AI benchmarks sound cool, but are they just overhyped numbers? I’m curious if they really tell us anything useful about real-world performance. 🧐
AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI vibes in the real world? 🤔
¡Bienvenidos al boletín regular de IA de TechCrunch! Estamos tomando un pequeño descanso, pero no te preocupes, aún puedes obtener toda nuestra cobertura de IA, incluidas mis columnas, análisis diarios y noticias de última hora, aquí mismo en TechCrunch. ¿Quieres recibir estas historias directamente en tu bandeja de entrada todos los días? Solo regístrate en nuestros boletines diarios aquí.
Esta semana, la startup de IA de Elon Musk, xAI, lanzó su último modelo insignia de IA, Grok 3, que impulsa las aplicaciones de chatbot Grok de la compañía. Lo entrenaron con la impresionante cantidad de 200,000 GPUs, y está superando a varios otros modelos destacados, incluidos algunos de OpenAI, en pruebas de referencia para matemáticas, programación y más.
Pero hablemos de lo que realmente significan estas pruebas de referencia.
Aquí en TC, informamos sobre estos números de referencia, aunque no siempre estemos emocionados por hacerlo, porque son una de las pocas formas en que la industria de la IA intenta mostrar cómo están mejorando sus modelos. El problema es que estas pruebas de referencia de IA populares a menudo se centran en cosas oscuras y dan puntuaciones que no reflejan realmente qué tan bien la IA realiza las cosas que realmente le importan a la gente.
Ethan Mollick, profesor en Wharton, acudió a X para decir que hay una necesidad real de mejores pruebas y grupos independientes para realizarlas. Señaló que las empresas de IA a menudo reportan sus propios resultados de referencia, lo que hace difícil confiar completamente en ellos.
"Las pruebas de referencia públicas son tanto 'meh' como saturadas, dejando mucho del testing de IA como reseñas de comida, basadas en el gusto," escribió Mollick. "Si la IA es crítica para el trabajo, necesitamos más."
Hay muchas personas tratando de crear nuevas pruebas de referencia para IA, pero nadie puede ponerse de acuerdo en cuál es la mejor. Algunos piensan que las pruebas de referencia deberían centrarse en el impacto económico para ser útiles, mientras que otros creen que la adopción en el mundo real y la utilidad son las verdaderas medidas del éxito.
Este debate podría durar para siempre. Tal vez, como sugiere el usuario de X Roon, deberíamos prestar menos atención a los nuevos modelos y pruebas de referencia a menos que haya un gran avance en IA. Podría ser mejor para nuestra cordura, incluso si eso significa perdernos algo del revuelo de la IA.
Como mencionamos, This Week in AI está tomando un descanso. Gracias por seguir con nosotros, lectores, a través de todos los altibajos. Hasta la próxima.
Noticias

Mira Murati, ex CTO de OpenAI, tiene una nueva startup llamada Thinking Machines Lab. Están trabajando en herramientas para "hacer que la IA funcione para las necesidades y objetivos únicos de las personas."
xAI lanzó Grok 3 y añadió nuevas funciones a las aplicaciones de Grok para iOS y la web.
Meta está organizando su primera conferencia de desarrolladores enfocada en IA generativa esta primavera. Se llama LlamaCon, por sus modelos Llama, y se llevará a cabo el 29 de abril.
Paul escribió sobre OpenEuroLLM, un proyecto de alrededor de 20 organizaciones para construir modelos fundacionales para una "IA transparente en Europa" que respete la "diversidad lingüística y cultural" de todos los idiomas de la UE.
Artículo de investigación de la semana

OpenAI dice que el modelo de mejor rendimiento, Claude 3.5 Sonnet de Anthropic, solo obtuvo un 40.3% en la prueba completa de SWE-Lancer, lo que muestra que la IA aún tiene un largo camino por recorrer. No probaron modelos más nuevos como o3-mini de OpenAI o R1 de DeepSeek de China.
Modelo de la semana
Una empresa china de IA llamada Stepfun lanzó un modelo de IA "abierto" llamado Step-Audio que puede entender y generar discurso en chino, inglés y japonés. Los usuarios incluso pueden ajustar la emoción y el dialecto del audio sintético, incluyendo el canto.
Stepfun es una de varias startups chinas de IA bien financiadas que lanzan modelos con licencias permisivas. Fundada en 2023, recientemente cerraron una ronda de financiación por cientos de millones de inversores, incluyendo firmas de capital privado estatales chinas.
Miscelánea

Su modelo, DeepHermes-3 Preview, puede alternar entre cadenas de pensamiento cortas y largas para equilibrar precisión y poder computacional. En modo "razonamiento", tarda más en resolver problemas más difíciles y muestra su proceso de pensamiento a lo largo del camino.
Se informa que Anthropic planea lanzar un modelo similar pronto, y OpenAI dice que está en su hoja de ruta a corto plazo.
Satya Nadella está listo para aprovechar el nuevo acuerdo con OpenAI
El miércoles, un analista de Wall Street preguntó directamente al CEO de Microsoft, Satya Nadella, cómo la revisada asociación con OpenAI afectaría las finanzas de la empresa.Nadella describió el nuevo acuerdo como una victoria para todos. “Estamos
OpenAI esboza la economía de la IA con fondos de riqueza pública, impuestos sobre los robots y la semana laboral de cuatro días
Mientras los gobiernos se esfuerzan por gestionar el impacto económico de las máquinas superinteligentes, OpenAI ha publicado una serie de propuestas políticas en las que se esboza cómo podrían reconf
La duración del contrato de alquiler de SpaceX por parte de Anthropic divide opiniones
A principios de este mes, xAI cerró un importante acuerdo de recursos informáticos con Anthropic, comprometiéndose a pagar miles de millones al mes a cambio de acceso exclusivo al clúster Colossus. El
AI benchmarks are getting so hyped, but are they even reliable yet? 🤔 Feels like companies just cherry-pick numbers to flex. I’d rather see real-world use cases than some random leaderboard scores.
AI benchmarks are getting so hyped, but are they even reliable yet? Feels like we're chasing numbers instead of real progress. 🤔 What do you all think—should we just ignore them for now?
AI benchmarks are cool, but are they just tech flexing? I’d rather see real-world uses than numbers on a chart. 🤔
AI benchmarks sound cool, but are they just overhyped numbers? I’m curious if they really tell us anything useful about real-world performance. 🧐
AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI vibes in the real world? 🤔





Hogar






