opción
Hogar
Noticias
AI puntos de referencia: ¿Deberíamos ignorarlos por ahora?

AI puntos de referencia: ¿Deberíamos ignorarlos por ahora?

10 de abril de 2025
240

¡Bienvenidos al boletín regular de IA de TechCrunch! Estamos tomando un pequeño descanso, pero no te preocupes, aún puedes obtener toda nuestra cobertura de IA, incluidas mis columnas, análisis diarios y noticias de última hora, aquí mismo en TechCrunch. ¿Quieres recibir estas historias directamente en tu bandeja de entrada todos los días? Solo regístrate en nuestros boletines diarios aquí.

Esta semana, la startup de IA de Elon Musk, xAI, lanzó su último modelo insignia de IA, Grok 3, que impulsa las aplicaciones de chatbot Grok de la compañía. Lo entrenaron con la impresionante cantidad de 200,000 GPUs, y está superando a varios otros modelos destacados, incluidos algunos de OpenAI, en pruebas de referencia para matemáticas, programación y más.

Pero hablemos de lo que realmente significan estas pruebas de referencia.

Aquí en TC, informamos sobre estos números de referencia, aunque no siempre estemos emocionados por hacerlo, porque son una de las pocas formas en que la industria de la IA intenta mostrar cómo están mejorando sus modelos. El problema es que estas pruebas de referencia de IA populares a menudo se centran en cosas oscuras y dan puntuaciones que no reflejan realmente qué tan bien la IA realiza las cosas que realmente le importan a la gente.

Ethan Mollick, profesor en Wharton, acudió a X para decir que hay una necesidad real de mejores pruebas y grupos independientes para realizarlas. Señaló que las empresas de IA a menudo reportan sus propios resultados de referencia, lo que hace difícil confiar completamente en ellos.

"Las pruebas de referencia públicas son tanto 'meh' como saturadas, dejando mucho del testing de IA como reseñas de comida, basadas en el gusto," escribió Mollick. "Si la IA es crítica para el trabajo, necesitamos más."

Hay muchas personas tratando de crear nuevas pruebas de referencia para IA, pero nadie puede ponerse de acuerdo en cuál es la mejor. Algunos piensan que las pruebas de referencia deberían centrarse en el impacto económico para ser útiles, mientras que otros creen que la adopción en el mundo real y la utilidad son las verdaderas medidas del éxito.

Este debate podría durar para siempre. Tal vez, como sugiere el usuario de X Roon, deberíamos prestar menos atención a los nuevos modelos y pruebas de referencia a menos que haya un gran avance en IA. Podría ser mejor para nuestra cordura, incluso si eso significa perdernos algo del revuelo de la IA.

Como mencionamos, This Week in AI está tomando un descanso. Gracias por seguir con nosotros, lectores, a través de todos los altibajos. Hasta la próxima.

Noticias

Créditos de la imagen: Nathan Laine/Bloomberg / Getty Images
OpenAI está intentando "descensurar" ChatGPT. Max escribió sobre cómo están cambiando su enfoque hacia el desarrollo de IA para abrazar la "libertad intelectual", incluso en temas difíciles o controvertidos.

Mira Murati, ex CTO de OpenAI, tiene una nueva startup llamada Thinking Machines Lab. Están trabajando en herramientas para "hacer que la IA funcione para las necesidades y objetivos únicos de las personas."

xAI lanzó Grok 3 y añadió nuevas funciones a las aplicaciones de Grok para iOS y la web.

Meta está organizando su primera conferencia de desarrolladores enfocada en IA generativa esta primavera. Se llama LlamaCon, por sus modelos Llama, y se llevará a cabo el 29 de abril.

Paul escribió sobre OpenEuroLLM, un proyecto de alrededor de 20 organizaciones para construir modelos fundacionales para una "IA transparente en Europa" que respete la "diversidad lingüística y cultural" de todos los idiomas de la UE.

Artículo de investigación de la semana

El sitio web de OpenAI ChatGPT mostrado en la pantalla de una laptop se ve en esta foto de ilustración.

Créditos de la imagen: Jakub Porzycki/NurPhoto / Getty Images
Investigadores de OpenAI han creado una nueva prueba de referencia de IA llamada SWE-Lancer para evaluar qué tan bien puede programar la IA. Está compuesta por más de 1,400 tareas de ingeniería de software freelance, desde corregir errores y añadir funciones hasta proponer implementaciones técnicas.

OpenAI dice que el modelo de mejor rendimiento, Claude 3.5 Sonnet de Anthropic, solo obtuvo un 40.3% en la prueba completa de SWE-Lancer, lo que muestra que la IA aún tiene un largo camino por recorrer. No probaron modelos más nuevos como o3-mini de OpenAI o R1 de DeepSeek de China.

Modelo de la semana

Una empresa china de IA llamada Stepfun lanzó un modelo de IA "abierto" llamado Step-Audio que puede entender y generar discurso en chino, inglés y japonés. Los usuarios incluso pueden ajustar la emoción y el dialecto del audio sintético, incluyendo el canto.

Stepfun es una de varias startups chinas de IA bien financiadas que lanzan modelos con licencias permisivas. Fundada en 2023, recientemente cerraron una ronda de financiación por cientos de millones de inversores, incluyendo firmas de capital privado estatales chinas.

Miscelánea

Nous Research DeepHermes

Créditos de la imagen: Nous Research
Nous Research, un grupo de investigación de IA, afirma haber lanzado uno de los primeros modelos de IA que combina razonamiento con "capacidades intuitivas de modelos de lenguaje."

Su modelo, DeepHermes-3 Preview, puede alternar entre cadenas de pensamiento cortas y largas para equilibrar precisión y poder computacional. En modo "razonamiento", tarda más en resolver problemas más difíciles y muestra su proceso de pensamiento a lo largo del camino.

Se informa que Anthropic planea lanzar un modelo similar pronto, y OpenAI dice que está en su hoja de ruta a corto plazo.

Artículo relacionado
Satya Nadella está listo para aprovechar el nuevo acuerdo con OpenAI Satya Nadella está listo para aprovechar el nuevo acuerdo con OpenAI El miércoles, un analista de Wall Street preguntó directamente al CEO de Microsoft, Satya Nadella, cómo la revisada asociación con OpenAI afectaría las finanzas de la empresa.Nadella describió el nuevo acuerdo como una victoria para todos. “Estamos
OpenAI esboza la economía de la IA con fondos de riqueza pública, impuestos sobre los robots y la semana laboral de cuatro días OpenAI esboza la economía de la IA con fondos de riqueza pública, impuestos sobre los robots y la semana laboral de cuatro días Mientras los gobiernos se esfuerzan por gestionar el impacto económico de las máquinas superinteligentes, OpenAI ha publicado una serie de propuestas políticas en las que se esboza cómo podrían reconf
La duración del contrato de alquiler de SpaceX por parte de Anthropic divide opiniones La duración del contrato de alquiler de SpaceX por parte de Anthropic divide opiniones A principios de este mes, xAI cerró un importante acuerdo de recursos informáticos con Anthropic, comprometiéndose a pagar miles de millones al mes a cambio de acceso exclusivo al clúster Colossus. El
Recomendaciones de temas especiales relacionados
Negocio Las mejores herramientas de selección de personal basadas en IA: filtrar currículos y automatizar la programación de entrevistas con los candidatos
Las mejores herramientas de selección de personal basadas en IA: filtrar currículos y automatizar la programación de entrevistas con los candidatos

Descubre las mejores herramientas de selección de personal basadas en IA de 2026 en XIX.AI. Nuestra lista, cuidadosamente seleccionada, incluye soluciones potentes y revolucionarias para la selección de currículos y la automatización de la programación de entrevistas con los candidatos. Compara las opciones gratuitas con las de pago gracias a pruebas reales y a clasificaciones que se actualizan semanalmente. ¡Encuentra tu asistente de selección de personal ideal y optimiza tu proceso de selección hoy mismo!

10 herramientas
xix.ai
Productividad Entrenadores personales de bienestar y concentración basados en IA: controla el agotamiento y aumenta tus niveles de energía mental
Entrenadores personales de bienestar y concentración basados en IA: controla el agotamiento y aumenta tus niveles de energía mental

Descubre los mejores entrenadores personales de bienestar y concentración basados en IA de 2026 en XIX.AI. Nuestras clasificaciones, cuidadosamente seleccionadas, incluyen herramientas revolucionarias y de primera categoría para gestionar el agotamiento y potenciar la energía mental. Compara las opciones gratuitas con las de pago gracias a información basada en casos reales. Descubre hoy mismo el camino hacia la máxima productividad y el bienestar.

10 herramientas
xix.ai
chatbot Los mejores chatbots románticos con IA: crea relaciones duraderas con personalidades coherentes
Los mejores chatbots románticos con IA: crea relaciones duraderas con personalidades coherentes

Descubre los mejores chatbots románticos con IA de 2026 para establecer relaciones auténticas y duraderas. Nuestra lista seleccionada incluye personalidades sólidas y coherentes, comparativas entre versiones gratuitas y de pago, y pruebas en situaciones reales. Encuentra a tu compañero ideal y empieza a construir tu relación hoy mismo en XIX.AI.

10 herramientas
xix.ai
Educación y aprendizaje Los mejores mentores en ciencia de datos y IA: dominan SQL, Pandas y flujos de trabajo de aprendizaje automático.
Los mejores mentores en ciencia de datos y IA: dominan SQL, Pandas y flujos de trabajo de aprendizaje automático.

Descubra a los mejores mentores en ciencia de datos y AI de 2026 para dominar SQL, Pandas y flujos de trabajo de aprendizaje automático. Explore nuestra selección cuidadosamente seleccionada y altamente valorada en XIX.AI para obtener orientación poderosa que cambie completamente la situación. Compare las opciones gratuitas con las pagadas y obtenga información basada en casos reales. Desbloquee su dominio de la ciencia de datos hoy mismo.

10 herramientas
xix.ai
chatbot Los mejores entrenadores de IA para ligar y conversar: mejora tu carisma social y tu confianza en tiempo real
Los mejores entrenadores de IA para ligar y conversar: mejora tu carisma social y tu confianza en tiempo real

Descubre los mejores cursos de 2026 sobre coqueteo y conversación con IA en XIX.AI. Nuestra selección, cuidadosamente seleccionada y con las mejores valoraciones, te ayuda a desarrollar tu carisma social y tu confianza en tiempo real. Explora herramientas imprescindibles y revolucionarias con comparativas entre versiones gratuitas y de pago, y clasificaciones que se actualizan semanalmente. Potencia hoy mismo tus habilidades sociales.

10 herramientas
xix.ai
código Las mejores herramientas de IA para pruebas unitarias automatizadas: genera casos de prueba con Jest, PyTest y JUnit con un solo clic
Las mejores herramientas de IA para pruebas unitarias automatizadas: genera casos de prueba con Jest, PyTest y JUnit con un solo clic

Descubre las mejores herramientas de IA de 2026 para la automatización de pruebas unitarias. Nuestra selección incluye potentes soluciones revolucionarias que permiten generar casos de prueba para Jest, PyTest y JUnit al instante. Compara las opciones gratuitas con las de pago mediante pruebas reales y clasificaciones actualizadas semanalmente en XIX.AI. Aprovecha las ventajas de la IA y aumenta la productividad de tu desarrollo hoy mismo.

10 herramientas
xix.ai
comentario (61)
0/500
JonathanDavis
JonathanDavis 19 de agosto de 2025 08:26:53 GMT+02:00

AI benchmarks are getting so hyped, but are they even reliable yet? 🤔 Feels like companies just cherry-pick numbers to flex. I’d rather see real-world use cases than some random leaderboard scores.

EdwardWalker
EdwardWalker 19 de agosto de 2025 07:00:59 GMT+02:00

AI benchmarks are getting so hyped, but are they even reliable yet? Feels like we're chasing numbers instead of real progress. 🤔 What do you all think—should we just ignore them for now?

HarrySmith
HarrySmith 11 de agosto de 2025 21:00:59 GMT+02:00

AI benchmarks are cool, but are they just tech flexing? I’d rather see real-world uses than numbers on a chart. 🤔

BillyLewis
BillyLewis 4 de agosto de 2025 08:01:00 GMT+02:00

AI benchmarks sound cool, but are they just overhyped numbers? I’m curious if they really tell us anything useful about real-world performance. 🧐

JimmyWilson
JimmyWilson 1 de agosto de 2025 04:48:18 GMT+02:00

AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI vibes in the real world? 🤔

JohnTaylor
JohnTaylor 28 de julio de 2025 03:20:02 GMT+02:00

AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI impacts daily life? 🤔 Curious if we’re hyping stats over real-world use.

OR