AI puntos de referencia: ¿Deberíamos ignorarlos por ahora?
10 de abril de 2025
MarkWilson
79
¡Bienvenido al boletín de IA regular de TechCrunch! Estamos tomando un pequeño descanso, pero no se preocupe, aún puede obtener toda nuestra cobertura de IA, incluidas mis columnas, análisis diario y noticias de última hora, aquí en TechCrunch. ¿Quieres llevar estas historias directamente a tu bandeja de entrada todos los días? Solo regístrese para nuestros boletines diarios aquí.
Esta semana, la startup de IA de Elon Musk, XAI, lanzó su último modelo de IA insignia, Grok 3, que está impulsando las aplicaciones Grok Chatbot de la compañía. Lo entrenaron en la friolera de 200,000 GPU, y está superando a un montón de otros modelos superiores, incluidos algunos de OpenAi, en puntos de referencia para matemáticas, codificación y más.
Pero hablemos de lo que realmente significan estos puntos de referencia.
Aquí en TC, informamos sobre estos números de referencia, incluso si no siempre estamos encantados, porque son una de las pocas formas en que la industria de la IA intenta mostrar cómo están mejorando sus modelos. La cuestión es que estos puntos de referencia populares de IA a menudo se centran en cosas oscuras y dan puntajes que realmente no reflejan qué tan bien la IA hace las cosas que a la gente realmente les importa.
Ethan Mollick, profesor de Wharton, recurrió a X para decir que hay una necesidad real de mejores pruebas y grupos independientes para administrarlas. Señaló que las compañías de IA a menudo informan sus propios resultados de referencia, lo que hace que sea difícil confiar por completo.
"Los puntos de referencia públicos son 'meh' y saturados, dejando que muchas pruebas de IA sean como revisiones de alimentos, basadas en el gusto", escribió Mollick. "Si la IA es fundamental para trabajar, necesitamos más".
Hay muchas personas tratando de encontrar nuevos puntos de referencia para la IA, pero nadie puede estar de acuerdo en lo que es mejor. Algunos piensan que los puntos de referencia deberían centrarse en el impacto económico para ser útil, mientras que otros creen que la adopción y utilidad del mundo real son las verdaderas medidas de éxito.
Este debate podría continuar para siempre. Tal vez, como sugiere el usuario de X Roon, deberíamos prestar menos atención a los nuevos modelos y puntos de referencia a menos que haya un gran avance de la IA. Puede ser mejor para nuestra cordura, incluso si eso significa perderse una exageración de AI.
Como se mencionó, esta semana en AI se está tomando un descanso. Gracias por quedarse con nosotros, lectores, a través de todos los altibajos. Hasta la próxima.
Noticias

Créditos de imagen: Nathan Laine / Bloomberg / Getty Images Operai está tratando de "sin censurar" ChatGPT. Max escribió sobre cómo están cambiando su enfoque para el desarrollo de la IA para adoptar la "libertad intelectual", incluso en temas duros o controvertidos.
Mira Murati, ex CTO de Operai, tiene una nueva startup llamada Thinking Machines Lab. Están trabajando en herramientas para "hacer que la IA funcione para las necesidades y objetivos únicos [de las personas]".
XAI lanzó Grok 3 y agregó nuevas funciones a las aplicaciones Grok para iOS y la web.
Meta está organizando su primera conferencia de desarrolladores centrada en la IA generativa esta primavera. Se llama Llamacon, después de sus modelos de llama, y está sucediendo el 29 de abril.
Paul escribió sobre Openeurollm, un proyecto de alrededor de 20 organizaciones para construir modelos de base para "IA transparente en Europa" que respeta la "diversidad lingüística y cultural" de todos los idiomas de la UE.
Documento de investigación de la semana

Créditos de imagen: Jakub Porzycki / Nurphoto / Getty Images Los investigadores de Operai han presentado un nuevo punto de referencia de IA llamado Swe-Lancer para probar qué tan bien la IA puede codificar. Está compuesto por más de 1,400 tareas de ingeniería de software independiente, desde solucionar errores y agregar características a proponer implementaciones técnicas.
Operai dice que el modelo de mejor rendimiento, el soneto Claude 3.5 de Anthrope, solo obtuvo un puntaje 40.3% en el punto de referencia Swe-Lancer completo, que muestra que AI todavía tiene un largo camino por recorrer. No probaron modelos más nuevos como el O3-Mini de OpenAi o el R1 de Deepseek de China.
Modelo de la semana
Una compañía de IA china llamada Stepfun lanzó un modelo de IA "abierto" llamado Audio de Step-Step que puede comprender y generar discurso en chino, inglés y japonés. Los usuarios incluso pueden ajustar la emoción y el dialecto del audio sintético, incluido el canto.
STEPFUN es una de las varias nuevas empresas de IA china bien financiadas que liberan modelos con licencias permisivas. Fundada en 2023, recientemente cerraron una ronda de fondos por valor de cientos de millones de inversores, incluidas las empresas de capital privado de propiedad estatal china.
Bolsa de agarre

Créditos de imagen: Nous Research Nous Research, un grupo de investigación de IA, afirma haber publicado uno de los primeros modelos de IA que combina el razonamiento con "capacidades del modelo de lenguaje intuitivo".
Su modelo, Deephermes-3 previa, puede cambiar entre "cadenas de pensamiento" cortas y largas para equilibrar la precisión y la potencia computacional. En el modo de "razonamiento", lleva más tiempo resolver problemas más difíciles y muestra su proceso de pensamiento en el camino.
Según los informes, Anthrope planea lanzar un modelo similar pronto, y OpenAi dice que está en su hoja de ruta a corto plazo.
Artículo relacionado
Google搜索引入了複雜的多部分查詢的“ AI模式”
Google推出了“ AI模式”,以搜索與競爭對手的困惑AI和ChatgptGoogle在AI Arena中加強遊戲,並在其搜索引擎中啟動了實驗性的“ AI模式”功能。旨在進行困惑AI和Openai的Chatgpt搜索之類
Chatgpt主意使用用戶名在某些人中引發了“令人毛骨悚然”的問題
Chatgpt的一些用戶最近遇到了一個奇怪的新功能:聊天機器人偶爾在解決問題時使用他們的名字。這不是以前其通常行為的一部分,許多用戶報告Chatgpt提到了他們的名字,而沒有被告知該怎麼稱呼。意見
Openai增強了Chatgpt,以回憶以前的對話
Openai在周四發表了一項重大宣布,內容涉及在Chatgpt中推出一個名為“ Memory”的新功能。這種漂亮的工具旨在通過記住您以前談論的內容來使您與AI的聊天更為個性化。想像一下,每次開始新的轉換時都不必重複自己
Comentario (55)
0/200
FredAnderson
10 de abril de 2025 13:30:25 GMT
Honestly, AI Benchmarks can be a bit misleading sometimes. I signed up for the daily newsletter hoping for some clarity, but it's just more of the same hype. Maybe we should indeed ignore them for now until there's a more reliable standard. Keep up the good work on the coverage though!
0
WilliamYoung
11 de abril de 2025 03:44:49 GMT
AIのベンチマークって本当に信用できるのかな?毎日のニュースレターに登録したけど、期待していたほど役立つ情報は得られなかった。もう少し信頼できる基準が出てくるまで無視したほうがいいかもね。でも、他のカバレッジは素晴らしいよ!
0
ChristopherDavis
10 de abril de 2025 13:20:05 GMT
Los benchmarks de IA a veces pueden ser engañosos. Me suscribí al boletín diario esperando más claridad, pero solo es más de lo mismo. Quizás deberíamos ignorarlos por ahora hasta que haya un estándar más confiable. ¡Sigan con el buen trabajo en la cobertura!
0
StephenLee
10 de abril de 2025 20:29:13 GMT
Os benchmarks de IA podem ser um pouco enganosos às vezes. Me inscrevi no boletim diário esperando alguma clareza, mas é só mais do mesmo hype. Talvez devêssemos mesmo ignorá-los por enquanto até que haja um padrão mais confiável. Continuem o bom trabalho na cobertura!
0
TimothyRoberts
11 de abril de 2025 06:46:34 GMT
Thực sự thì các benchmarks của AI đôi khi có thể gây hiểu lầm. Tôi đã đăng ký nhận bản tin hàng ngày mong có thêm sự rõ ràng, nhưng lại chỉ nhận được thêm những lời quảng cáo. Có lẽ chúng ta nên bỏ qua chúng tạm thời cho đến khi có tiêu chuẩn đáng tin cậy hơn. Nhưng công việc bao quát của các bạn thì tuyệt vời!
0
NoahGreen
11 de abril de 2025 12:48:46 GMT
I used to rely on AI benchmarks to gauge the performance of new tech, but this article made me think twice. Maybe we're focusing too much on numbers and not enough on practical use. Still, it's a good read for anyone in the AI field. Worth a ponder!
0






¡Bienvenido al boletín de IA regular de TechCrunch! Estamos tomando un pequeño descanso, pero no se preocupe, aún puede obtener toda nuestra cobertura de IA, incluidas mis columnas, análisis diario y noticias de última hora, aquí en TechCrunch. ¿Quieres llevar estas historias directamente a tu bandeja de entrada todos los días? Solo regístrese para nuestros boletines diarios aquí.
Esta semana, la startup de IA de Elon Musk, XAI, lanzó su último modelo de IA insignia, Grok 3, que está impulsando las aplicaciones Grok Chatbot de la compañía. Lo entrenaron en la friolera de 200,000 GPU, y está superando a un montón de otros modelos superiores, incluidos algunos de OpenAi, en puntos de referencia para matemáticas, codificación y más.
Pero hablemos de lo que realmente significan estos puntos de referencia.
Aquí en TC, informamos sobre estos números de referencia, incluso si no siempre estamos encantados, porque son una de las pocas formas en que la industria de la IA intenta mostrar cómo están mejorando sus modelos. La cuestión es que estos puntos de referencia populares de IA a menudo se centran en cosas oscuras y dan puntajes que realmente no reflejan qué tan bien la IA hace las cosas que a la gente realmente les importa.
Ethan Mollick, profesor de Wharton, recurrió a X para decir que hay una necesidad real de mejores pruebas y grupos independientes para administrarlas. Señaló que las compañías de IA a menudo informan sus propios resultados de referencia, lo que hace que sea difícil confiar por completo.
"Los puntos de referencia públicos son 'meh' y saturados, dejando que muchas pruebas de IA sean como revisiones de alimentos, basadas en el gusto", escribió Mollick. "Si la IA es fundamental para trabajar, necesitamos más".
Hay muchas personas tratando de encontrar nuevos puntos de referencia para la IA, pero nadie puede estar de acuerdo en lo que es mejor. Algunos piensan que los puntos de referencia deberían centrarse en el impacto económico para ser útil, mientras que otros creen que la adopción y utilidad del mundo real son las verdaderas medidas de éxito.
Este debate podría continuar para siempre. Tal vez, como sugiere el usuario de X Roon, deberíamos prestar menos atención a los nuevos modelos y puntos de referencia a menos que haya un gran avance de la IA. Puede ser mejor para nuestra cordura, incluso si eso significa perderse una exageración de AI.
Como se mencionó, esta semana en AI se está tomando un descanso. Gracias por quedarse con nosotros, lectores, a través de todos los altibajos. Hasta la próxima.
Noticias
Mira Murati, ex CTO de Operai, tiene una nueva startup llamada Thinking Machines Lab. Están trabajando en herramientas para "hacer que la IA funcione para las necesidades y objetivos únicos [de las personas]".
XAI lanzó Grok 3 y agregó nuevas funciones a las aplicaciones Grok para iOS y la web.
Meta está organizando su primera conferencia de desarrolladores centrada en la IA generativa esta primavera. Se llama Llamacon, después de sus modelos de llama, y está sucediendo el 29 de abril.
Paul escribió sobre Openeurollm, un proyecto de alrededor de 20 organizaciones para construir modelos de base para "IA transparente en Europa" que respeta la "diversidad lingüística y cultural" de todos los idiomas de la UE.
Documento de investigación de la semana
Operai dice que el modelo de mejor rendimiento, el soneto Claude 3.5 de Anthrope, solo obtuvo un puntaje 40.3% en el punto de referencia Swe-Lancer completo, que muestra que AI todavía tiene un largo camino por recorrer. No probaron modelos más nuevos como el O3-Mini de OpenAi o el R1 de Deepseek de China.
Modelo de la semana
Una compañía de IA china llamada Stepfun lanzó un modelo de IA "abierto" llamado Audio de Step-Step que puede comprender y generar discurso en chino, inglés y japonés. Los usuarios incluso pueden ajustar la emoción y el dialecto del audio sintético, incluido el canto.
STEPFUN es una de las varias nuevas empresas de IA china bien financiadas que liberan modelos con licencias permisivas. Fundada en 2023, recientemente cerraron una ronda de fondos por valor de cientos de millones de inversores, incluidas las empresas de capital privado de propiedad estatal china.
Bolsa de agarre
Su modelo, Deephermes-3 previa, puede cambiar entre "cadenas de pensamiento" cortas y largas para equilibrar la precisión y la potencia computacional. En el modo de "razonamiento", lleva más tiempo resolver problemas más difíciles y muestra su proceso de pensamiento en el camino.
Según los informes, Anthrope planea lanzar un modelo similar pronto, y OpenAi dice que está en su hoja de ruta a corto plazo.




Honestly, AI Benchmarks can be a bit misleading sometimes. I signed up for the daily newsletter hoping for some clarity, but it's just more of the same hype. Maybe we should indeed ignore them for now until there's a more reliable standard. Keep up the good work on the coverage though!




AIのベンチマークって本当に信用できるのかな?毎日のニュースレターに登録したけど、期待していたほど役立つ情報は得られなかった。もう少し信頼できる基準が出てくるまで無視したほうがいいかもね。でも、他のカバレッジは素晴らしいよ!




Los benchmarks de IA a veces pueden ser engañosos. Me suscribí al boletín diario esperando más claridad, pero solo es más de lo mismo. Quizás deberíamos ignorarlos por ahora hasta que haya un estándar más confiable. ¡Sigan con el buen trabajo en la cobertura!




Os benchmarks de IA podem ser um pouco enganosos às vezes. Me inscrevi no boletim diário esperando alguma clareza, mas é só mais do mesmo hype. Talvez devêssemos mesmo ignorá-los por enquanto até que haja um padrão mais confiável. Continuem o bom trabalho na cobertura!




Thực sự thì các benchmarks của AI đôi khi có thể gây hiểu lầm. Tôi đã đăng ký nhận bản tin hàng ngày mong có thêm sự rõ ràng, nhưng lại chỉ nhận được thêm những lời quảng cáo. Có lẽ chúng ta nên bỏ qua chúng tạm thời cho đến khi có tiêu chuẩn đáng tin cậy hơn. Nhưng công việc bao quát của các bạn thì tuyệt vời!




I used to rely on AI benchmarks to gauge the performance of new tech, but this article made me think twice. Maybe we're focusing too much on numbers and not enough on practical use. Still, it's a good read for anyone in the AI field. Worth a ponder!












