opción
Hogar
Noticias
AI 'razonamiento' modelos de aumento, conduciendo costos de evaluación comparativa

AI 'razonamiento' modelos de aumento, conduciendo costos de evaluación comparativa

22 de abril de 2025
112

AI 'razonamiento' modelos de aumento, conduciendo costos de evaluación comparativa

El aumento de los costos de evaluación de modelos de razonamiento de IA

Los laboratorios de IA como OpenAI han estado promocionando sus avanzados modelos de "razonamiento" de IA, diseñados para abordar problemas complejos paso a paso. Estos modelos, particularmente efectivos en campos como la física, son realmente impresionantes. Sin embargo, tienen un costo elevado cuando se trata de evaluación, lo que dificulta la verificación independiente de sus capacidades.

Según datos de Artificial Analysis, una firma de pruebas de IA de terceros, el costo de evaluar el modelo de razonamiento o1 de OpenAI en siete puntos de referencia populares de IA es de un asombroso $2,767.05. Estos puntos de referencia incluyen MMLU-Pro, GPQA Diamond, Humanity’s Last Exam, LiveCodeBench, SciCode, AIME 2024 y MATH-500. En contraste, la evaluación del modelo de razonamiento "híbrido" de Anthropic, Claude 3.7 Sonnet, en las mismas pruebas costó $1,485.35, mientras que el o3-mini-high de OpenAI fue significativamente más barato a $344.59.

No todos los modelos de razonamiento son igualmente caros de probar. Por ejemplo, Artificial Analysis gastó solo $141.22 evaluando el o1-mini de OpenAI. Sin embargo, los costos de estos modelos tienden a ser altos en promedio. Artificial Analysis ha desembolsado alrededor de $5,200 para evaluar aproximadamente una docena de modelos de razonamiento, lo que es casi el doble de los $2,400 gastados en analizar más de 80 modelos no razonadores.

En comparación, el modelo no razonador GPT-4o de OpenAI, lanzado en mayo de 2024, costó a Artificial Analysis solo $108.85 para evaluar, mientras que Claude 3.6 Sonnet, el predecesor no razonador de Claude 3.7 Sonnet, costó $81.41.

George Cameron, cofundador de Artificial Analysis, compartió con TechCrunch que la organización está preparada para aumentar su presupuesto de evaluación a medida que más laboratorios de IA continúan desarrollando modelos de razonamiento. "En Artificial Analysis, realizamos cientos de evaluaciones mensuales y dedicamos un presupuesto significativo a estas," afirmó Cameron. "Estamos planeando que este gasto aumente a medida que los modelos se lancen con mayor frecuencia."

Artificial Analysis no está solo enfrentando estos costos crecientes. Ross Taylor, CEO de la startup de IA General Reasoning, gastó recientemente $580 para evaluar Claude 3.7 Sonnet en alrededor de 3,700 prompts únicos. Taylor estima que una sola ejecución de MMLU Pro, un punto de referencia diseñado para probar la comprensión del lenguaje, superaría los $1,800.

Taylor destacó una preocupación creciente en una publicación reciente en X, afirmando, "Nos estamos moviendo hacia un mundo donde un laboratorio reporta x% en un punto de referencia donde gastan y cantidad de cómputo, pero donde los recursos para los académicos son

¿Por qué son tan caros de evaluar los modelos de razonamiento?

La razón principal del alto costo de probar modelos de razonamiento es su tendencia a generar una cantidad sustancial de tokens. Los tokens son unidades de texto crudo; por ejemplo, la palabra "fantástico" podría descomponerse en "fan," "tas" y "tic." Según Artificial Analysis, el modelo o1 de OpenAI generó más de 44 millones de tokens durante sus pruebas, lo que es aproximadamente ocho veces la cantidad de tokens generados por el modelo no razonador GPT-4o.

La mayoría de las empresas de IA cobran por el uso del modelo según la cantidad de tokens, lo que se acumula rápidamente. Además, los puntos de referencia modernos están diseñados para generar una gran cantidad de tokens al incluir preguntas que involucran tareas complejas de varios pasos. Jean-Stanislas Denain, investigador senior en Epoch AI, explicó a TechCrunch, "Los puntos de referencia de hoy son más complejos aunque el número de preguntas por punto de referencia ha disminuido en general. A menudo intentan evaluar la capacidad de los modelos para realizar tareas del mundo real, como escribir y ejecutar código, navegar por internet y usar computadoras."

Denain también señaló que el costo por token para los modelos más caros ha estado aumentando. Por ejemplo, cuando se lanzó Claude 3 Opus de Anthropic en mayo de 2024, costaba $75 por millón de tokens de salida. En contraste, GPT-4.5 y o1-pro de OpenAI, lanzados a principios de ese año, costaban $150 y $600 por millón de tokens de salida, respectivamente.

A pesar del aumento del costo por token, Denain señaló, "Dado que los modelos han mejorado con el tiempo, sigue siendo cierto que el costo para alcanzar un nivel dado de rendimiento ha disminuido significativamente con el tiempo. Pero si quieres evaluar los mejores modelos más grandes en cualquier momento, todavía estás pagando más."

La integridad de la evaluación

Muchos laboratorios de IA, incluido OpenAI, ofrecen acceso gratuito o subsidiado a sus modelos para fines de evaluación. Sin embargo, esta práctica genera preocupaciones sobre la integridad del proceso de evaluación. Incluso sin evidencia de manipulación, la mera sugerencia de la participación de un laboratorio de IA puede generar dudas sobre la objetividad de los resultados.

Ross Taylor expresó esta preocupación en X, preguntando, "Desde un punto de vista científico, si publicas un resultado que nadie puede replicar con el mismo modelo, ¿es siquiera ciencia? (¿Lo fue alguna vez, lol)"

Los altos costos y los posibles sesgos en la evaluación de IA subrayan los desafíos que enfrenta el campo mientras se esfuerza por desarrollar y validar modelos cada vez más sofisticados.

Artículo relacionado
Qodo se asocia con Google Cloud para ofrecer herramientas gratuitas de revisión de código de IA para desarrolladores Qodo se asocia con Google Cloud para ofrecer herramientas gratuitas de revisión de código de IA para desarrolladores Qodo, una startup de codificación de IA con sede en Israel enfocada en la calidad del código, ha iniciado una asociación con Google Cloud para mejorar la integridad del software generado por IA.A medi
El AI de DeepMind Gana Oro en la Olimpiada de Matemáticas 2025 El AI de DeepMind Gana Oro en la Olimpiada de Matemáticas 2025 El AI de DeepMind ha logrado un avance impresionante en razonamiento matemático, obteniendo una medalla de oro en la Olimpiada Internacional de Matemáticas (IMO) 2025, solo un año después de ganar pla
Creador de Paralaje Potenciado por IA: Crea Animaciones Dinámicas 2.5D Creador de Paralaje Potenciado por IA: Crea Animaciones Dinámicas 2.5D Transforma imágenes estáticas en animaciones 2.5D cautivadoras con Parallax Maker. Esta herramienta de código abierto permite a artistas y desarrolladores de juegos añadir profundidad y movimiento a s
comentario (17)
0/200
FrankJackson
FrankJackson 10 de agosto de 2025 11:01:00 GMT+02:00

These AI reasoning models are impressive for tackling complex physics problems step by step, but the surging benchmarking costs could stifle innovation for smaller labs. 😟 Reminds me of how tech giants dominate—maybe we need more affordable alternatives?

DouglasRodriguez
DouglasRodriguez 28 de julio de 2025 03:20:21 GMT+02:00

These AI reasoning models sound cool, but the skyrocketing benchmarking costs are wild! 😳 Makes me wonder if smaller labs can even keep up with the big players like OpenAI.

StevenGonzalez
StevenGonzalez 24 de abril de 2025 14:58:05 GMT+02:00

These AI reasoning models are impressive, but the rising costs of benchmarking are a real bummer. It's great for fields like physics, but I hope they find a way to make it more affordable. Otherwise, it's just for the big players. 😕

JackPerez
JackPerez 24 de abril de 2025 09:52:48 GMT+02:00

Esses modelos de raciocínio de IA são impressionantes, mas o aumento dos custos de benchmarking é uma decepção. É ótimo para áreas como a física, mas espero que encontrem uma maneira de torná-lo mais acessível. Caso contrário, será apenas para os grandes jogadores. 😕

GregoryJones
GregoryJones 24 de abril de 2025 09:10:43 GMT+02:00

AI推論モデルは素晴らしいけど、ベンチマーキングのコストが上がるのは残念です。物理分野には良いけど、もっと手頃な価格になる方法を見つけてほしいです。さもないと、大手企業だけのものになってしまいますね。😕

SamuelRoberts
SamuelRoberts 24 de abril de 2025 06:23:58 GMT+02:00

Esses modelos de raciocínio de IA parecem legais, mas o aumento dos custos de benchmarking? Não tanto. Será que podemos ter os benefícios sem falir? 🤔

Volver arriba
OR