AI puntos de referencia: ¿Deberíamos ignorarlos por ahora?
¡Bienvenido al boletín de IA regular de TechCrunch! Estamos tomando un pequeño descanso, pero no se preocupe, aún puede obtener toda nuestra cobertura de IA, incluidas mis columnas, análisis diario y noticias de última hora, aquí en TechCrunch. ¿Quieres llevar estas historias directamente a tu bandeja de entrada todos los días? Solo regístrese para nuestros boletines diarios aquí.
Esta semana, la startup de IA de Elon Musk, XAI, lanzó su último modelo de IA insignia, Grok 3, que está impulsando las aplicaciones Grok Chatbot de la compañía. Lo entrenaron en la friolera de 200,000 GPU, y está superando a un montón de otros modelos superiores, incluidos algunos de OpenAi, en puntos de referencia para matemáticas, codificación y más.
Pero hablemos de lo que realmente significan estos puntos de referencia.
Aquí en TC, informamos sobre estos números de referencia, incluso si no siempre estamos encantados, porque son una de las pocas formas en que la industria de la IA intenta mostrar cómo están mejorando sus modelos. La cuestión es que estos puntos de referencia populares de IA a menudo se centran en cosas oscuras y dan puntajes que realmente no reflejan qué tan bien la IA hace las cosas que a la gente realmente les importa.
Ethan Mollick, profesor de Wharton, recurrió a X para decir que hay una necesidad real de mejores pruebas y grupos independientes para administrarlas. Señaló que las compañías de IA a menudo informan sus propios resultados de referencia, lo que hace que sea difícil confiar por completo.
"Los puntos de referencia públicos son 'meh' y saturados, dejando que muchas pruebas de IA sean como revisiones de alimentos, basadas en el gusto", escribió Mollick. "Si la IA es fundamental para trabajar, necesitamos más".
Hay muchas personas tratando de encontrar nuevos puntos de referencia para la IA, pero nadie puede estar de acuerdo en lo que es mejor. Algunos piensan que los puntos de referencia deberían centrarse en el impacto económico para ser útil, mientras que otros creen que la adopción y utilidad del mundo real son las verdaderas medidas de éxito.
Este debate podría continuar para siempre. Tal vez, como sugiere el usuario de X Roon, deberíamos prestar menos atención a los nuevos modelos y puntos de referencia a menos que haya un gran avance de la IA. Puede ser mejor para nuestra cordura, incluso si eso significa perderse una exageración de AI.
Como se mencionó, esta semana en AI se está tomando un descanso. Gracias por quedarse con nosotros, lectores, a través de todos los altibajos. Hasta la próxima.
Noticias

Créditos de imagen: Nathan Laine / Bloomberg / Getty Images Operai está tratando de "sin censurar" ChatGPT. Max escribió sobre cómo están cambiando su enfoque para el desarrollo de la IA para adoptar la "libertad intelectual", incluso en temas duros o controvertidos.
Mira Murati, ex CTO de Operai, tiene una nueva startup llamada Thinking Machines Lab. Están trabajando en herramientas para "hacer que la IA funcione para las necesidades y objetivos únicos [de las personas]".
XAI lanzó Grok 3 y agregó nuevas funciones a las aplicaciones Grok para iOS y la web.
Meta está organizando su primera conferencia de desarrolladores centrada en la IA generativa esta primavera. Se llama Llamacon, después de sus modelos de llama, y está sucediendo el 29 de abril.
Paul escribió sobre Openeurollm, un proyecto de alrededor de 20 organizaciones para construir modelos de base para "IA transparente en Europa" que respeta la "diversidad lingüística y cultural" de todos los idiomas de la UE.
Documento de investigación de la semana

Créditos de imagen: Jakub Porzycki / Nurphoto / Getty Images Los investigadores de Operai han presentado un nuevo punto de referencia de IA llamado Swe-Lancer para probar qué tan bien la IA puede codificar. Está compuesto por más de 1,400 tareas de ingeniería de software independiente, desde solucionar errores y agregar características a proponer implementaciones técnicas.
Operai dice que el modelo de mejor rendimiento, el soneto Claude 3.5 de Anthrope, solo obtuvo un puntaje 40.3% en el punto de referencia Swe-Lancer completo, que muestra que AI todavía tiene un largo camino por recorrer. No probaron modelos más nuevos como el O3-Mini de OpenAi o el R1 de Deepseek de China.
Modelo de la semana
Una compañía de IA china llamada Stepfun lanzó un modelo de IA "abierto" llamado Audio de Step-Step que puede comprender y generar discurso en chino, inglés y japonés. Los usuarios incluso pueden ajustar la emoción y el dialecto del audio sintético, incluido el canto.
STEPFUN es una de las varias nuevas empresas de IA china bien financiadas que liberan modelos con licencias permisivas. Fundada en 2023, recientemente cerraron una ronda de fondos por valor de cientos de millones de inversores, incluidas las empresas de capital privado de propiedad estatal china.
Bolsa de agarre

Créditos de imagen: Nous Research Nous Research, un grupo de investigación de IA, afirma haber publicado uno de los primeros modelos de IA que combina el razonamiento con "capacidades del modelo de lenguaje intuitivo".
Su modelo, Deephermes-3 previa, puede cambiar entre "cadenas de pensamiento" cortas y largas para equilibrar la precisión y la potencia computacional. En el modo de "razonamiento", lleva más tiempo resolver problemas más difíciles y muestra su proceso de pensamiento en el camino.
Según los informes, Anthrope planea lanzar un modelo similar pronto, y OpenAi dice que está en su hoja de ruta a corto plazo.
Artículo relacionado
OpenAI升級其Operator Agent的AI模型
OpenAI將Operator推向全新境界OpenAI正為其自主AI代理Operator進行重大升級。這項變革意味著Operator即將採用基於o3模型的架構,這是OpenAI尖端o系列推理模型的最新成員。此前Operator一直使用客製化版本的GPT-4o驅動,但這次迭代將帶來顯著改進。o3的突破性意義在數學與邏輯推理任務方面,o3幾乎在所有指標上都超越前
OpenAI的o3 AI模型在基準測試中的得分低於最初暗示的水準
為什麼 AI 基準測試的差異很重要?提到 AI 時,數字往往能說明一切——有時,這些數字並不一定完全相符。以 OpenAI 的 o3 模型為例。最初的聲稱簡直令人驚嘆:據報導,o3 可以處理超過 25% 的 notoriously tough FrontierMath 問題。作為參考,競爭對手還停留在個位數。但隨著近期的發展,受人尊敬的研究機構 Epoch
Ziff Davis指控OpenAI涉嫌侵權
Ziff Davis控告OpenAI版權侵權訴訟這起事件在科技和出版界掀起了軒然大波,Ziff Davis——旗下擁有CNET、PCMag、IGN和Everyday Health等品牌的龐大企業聯盟——已對OpenAI提起版權侵權訴訟。根據《紐約時報》的報導,該訴訟聲稱OpenAI故意未經許可使用Ziff Davis的內容,製作了其作品的「精確副本」。這是截
comentario (55)
0/200
FredAnderson
10 de abril de 2025 00:00:00 GMT
Honestly, AI Benchmarks can be a bit misleading sometimes. I signed up for the daily newsletter hoping for some clarity, but it's just more of the same hype. Maybe we should indeed ignore them for now until there's a more reliable standard. Keep up the good work on the coverage though!
0
WilliamYoung
11 de abril de 2025 00:00:00 GMT
AIのベンチマークって本当に信用できるのかな?毎日のニュースレターに登録したけど、期待していたほど役立つ情報は得られなかった。もう少し信頼できる基準が出てくるまで無視したほうがいいかもね。でも、他のカバレッジは素晴らしいよ!
0
ChristopherDavis
10 de abril de 2025 00:00:00 GMT
Los benchmarks de IA a veces pueden ser engañosos. Me suscribí al boletín diario esperando más claridad, pero solo es más de lo mismo. Quizás deberíamos ignorarlos por ahora hasta que haya un estándar más confiable. ¡Sigan con el buen trabajo en la cobertura!
0
StephenLee
11 de abril de 2025 00:00:00 GMT
Os benchmarks de IA podem ser um pouco enganosos às vezes. Me inscrevi no boletim diário esperando alguma clareza, mas é só mais do mesmo hype. Talvez devêssemos mesmo ignorá-los por enquanto até que haja um padrão mais confiável. Continuem o bom trabalho na cobertura!
0
TimothyRoberts
11 de abril de 2025 00:00:00 GMT
Thực sự thì các benchmarks của AI đôi khi có thể gây hiểu lầm. Tôi đã đăng ký nhận bản tin hàng ngày mong có thêm sự rõ ràng, nhưng lại chỉ nhận được thêm những lời quảng cáo. Có lẽ chúng ta nên bỏ qua chúng tạm thời cho đến khi có tiêu chuẩn đáng tin cậy hơn. Nhưng công việc bao quát của các bạn thì tuyệt vời!
0
NoahGreen
11 de abril de 2025 00:00:00 GMT
I used to rely on AI benchmarks to gauge the performance of new tech, but this article made me think twice. Maybe we're focusing too much on numbers and not enough on practical use. Still, it's a good read for anyone in the AI field. Worth a ponder!
0
¡Bienvenido al boletín de IA regular de TechCrunch! Estamos tomando un pequeño descanso, pero no se preocupe, aún puede obtener toda nuestra cobertura de IA, incluidas mis columnas, análisis diario y noticias de última hora, aquí en TechCrunch. ¿Quieres llevar estas historias directamente a tu bandeja de entrada todos los días? Solo regístrese para nuestros boletines diarios aquí.
Esta semana, la startup de IA de Elon Musk, XAI, lanzó su último modelo de IA insignia, Grok 3, que está impulsando las aplicaciones Grok Chatbot de la compañía. Lo entrenaron en la friolera de 200,000 GPU, y está superando a un montón de otros modelos superiores, incluidos algunos de OpenAi, en puntos de referencia para matemáticas, codificación y más.
Pero hablemos de lo que realmente significan estos puntos de referencia.
Aquí en TC, informamos sobre estos números de referencia, incluso si no siempre estamos encantados, porque son una de las pocas formas en que la industria de la IA intenta mostrar cómo están mejorando sus modelos. La cuestión es que estos puntos de referencia populares de IA a menudo se centran en cosas oscuras y dan puntajes que realmente no reflejan qué tan bien la IA hace las cosas que a la gente realmente les importa.
Ethan Mollick, profesor de Wharton, recurrió a X para decir que hay una necesidad real de mejores pruebas y grupos independientes para administrarlas. Señaló que las compañías de IA a menudo informan sus propios resultados de referencia, lo que hace que sea difícil confiar por completo.
"Los puntos de referencia públicos son 'meh' y saturados, dejando que muchas pruebas de IA sean como revisiones de alimentos, basadas en el gusto", escribió Mollick. "Si la IA es fundamental para trabajar, necesitamos más".
Hay muchas personas tratando de encontrar nuevos puntos de referencia para la IA, pero nadie puede estar de acuerdo en lo que es mejor. Algunos piensan que los puntos de referencia deberían centrarse en el impacto económico para ser útil, mientras que otros creen que la adopción y utilidad del mundo real son las verdaderas medidas de éxito.
Este debate podría continuar para siempre. Tal vez, como sugiere el usuario de X Roon, deberíamos prestar menos atención a los nuevos modelos y puntos de referencia a menos que haya un gran avance de la IA. Puede ser mejor para nuestra cordura, incluso si eso significa perderse una exageración de AI.
Como se mencionó, esta semana en AI se está tomando un descanso. Gracias por quedarse con nosotros, lectores, a través de todos los altibajos. Hasta la próxima.
Noticias
Mira Murati, ex CTO de Operai, tiene una nueva startup llamada Thinking Machines Lab. Están trabajando en herramientas para "hacer que la IA funcione para las necesidades y objetivos únicos [de las personas]".
XAI lanzó Grok 3 y agregó nuevas funciones a las aplicaciones Grok para iOS y la web.
Meta está organizando su primera conferencia de desarrolladores centrada en la IA generativa esta primavera. Se llama Llamacon, después de sus modelos de llama, y está sucediendo el 29 de abril.
Paul escribió sobre Openeurollm, un proyecto de alrededor de 20 organizaciones para construir modelos de base para "IA transparente en Europa" que respeta la "diversidad lingüística y cultural" de todos los idiomas de la UE.
Documento de investigación de la semana
Operai dice que el modelo de mejor rendimiento, el soneto Claude 3.5 de Anthrope, solo obtuvo un puntaje 40.3% en el punto de referencia Swe-Lancer completo, que muestra que AI todavía tiene un largo camino por recorrer. No probaron modelos más nuevos como el O3-Mini de OpenAi o el R1 de Deepseek de China.
Modelo de la semana
Una compañía de IA china llamada Stepfun lanzó un modelo de IA "abierto" llamado Audio de Step-Step que puede comprender y generar discurso en chino, inglés y japonés. Los usuarios incluso pueden ajustar la emoción y el dialecto del audio sintético, incluido el canto.
STEPFUN es una de las varias nuevas empresas de IA china bien financiadas que liberan modelos con licencias permisivas. Fundada en 2023, recientemente cerraron una ronda de fondos por valor de cientos de millones de inversores, incluidas las empresas de capital privado de propiedad estatal china.
Bolsa de agarre
Su modelo, Deephermes-3 previa, puede cambiar entre "cadenas de pensamiento" cortas y largas para equilibrar la precisión y la potencia computacional. En el modo de "razonamiento", lleva más tiempo resolver problemas más difíciles y muestra su proceso de pensamiento en el camino.
Según los informes, Anthrope planea lanzar un modelo similar pronto, y OpenAi dice que está en su hoja de ruta a corto plazo.




Honestly, AI Benchmarks can be a bit misleading sometimes. I signed up for the daily newsletter hoping for some clarity, but it's just more of the same hype. Maybe we should indeed ignore them for now until there's a more reliable standard. Keep up the good work on the coverage though!




AIのベンチマークって本当に信用できるのかな?毎日のニュースレターに登録したけど、期待していたほど役立つ情報は得られなかった。もう少し信頼できる基準が出てくるまで無視したほうがいいかもね。でも、他のカバレッジは素晴らしいよ!




Los benchmarks de IA a veces pueden ser engañosos. Me suscribí al boletín diario esperando más claridad, pero solo es más de lo mismo. Quizás deberíamos ignorarlos por ahora hasta que haya un estándar más confiable. ¡Sigan con el buen trabajo en la cobertura!




Os benchmarks de IA podem ser um pouco enganosos às vezes. Me inscrevi no boletim diário esperando alguma clareza, mas é só mais do mesmo hype. Talvez devêssemos mesmo ignorá-los por enquanto até que haja um padrão mais confiável. Continuem o bom trabalho na cobertura!




Thực sự thì các benchmarks của AI đôi khi có thể gây hiểu lầm. Tôi đã đăng ký nhận bản tin hàng ngày mong có thêm sự rõ ràng, nhưng lại chỉ nhận được thêm những lời quảng cáo. Có lẽ chúng ta nên bỏ qua chúng tạm thời cho đến khi có tiêu chuẩn đáng tin cậy hơn. Nhưng công việc bao quát của các bạn thì tuyệt vời!




I used to rely on AI benchmarks to gauge the performance of new tech, but this article made me think twice. Maybe we're focusing too much on numbers and not enough on practical use. Still, it's a good read for anyone in the AI field. Worth a ponder!












