KI -Argumentationsmodelle steigen und steigen die Benchmarking -Kosten an

Die steigenden Kosten für das Benchmarking von KI-Reasoning-Modellen
KI-Labore wie OpenAI haben ihre fortschrittlichen „Reasoning“-KI-Modelle beworben, die darauf ausgelegt sind, komplexe Probleme Schritt für Schritt zu lösen. Diese Modelle, die insbesondere in Bereichen wie der Physik effektiv sind, sind in der Tat beeindruckend. Allerdings sind sie mit einem hohen Preis verbunden, wenn es um das Benchmarking geht, was eine unabhängige Überprüfung ihrer Fähigkeiten erschwert.
Laut Daten von Artificial Analysis, einem unabhängigen KI-Testunternehmen, belaufen sich die Kosten für die Bewertung des o1-Reasoning-Modells von OpenAI über sieben populäre KI-Benchmarks auf erstaunliche 2.767,05 $. Diese Benchmarks umfassen MMLU-Pro, GPQA Diamond, Humanity’s Last Exam, LiveCodeBench, SciCode, AIME 2024 und MATH-500. Im Vergleich dazu kostete das Benchmarking des „hybriden“ Reasoning-Modells Claude 3.7 Sonnet von Anthropic bei denselben Tests 1.485,35 $, während OpenAIs o3-mini-high deutlich günstiger war mit 344,59 $.
Nicht alle Reasoning-Modelle sind gleich teuer zu testen. Zum Beispiel gab Artificial Analysis nur 141,22 $ aus, um OpenAIs o1-mini zu bewerten. Allerdings sind die Kosten für diese Modelle im Durchschnitt hoch. Artificial Analysis hat rund 5.200 $ ausgegeben, um etwa ein Dutzend Reasoning-Modelle zu bewerten, was fast das Doppelte der 2.400 $ ist, die für die Analyse von über 80 Nicht-Reasoning-Modellen ausgegeben wurden.
Zum Vergleich kostete das Nicht-Reasoning-Modell GPT-4o von OpenAI, das im Mai 2024 veröffentlicht wurde, Artificial Analysis nur 108,85 $ für die Bewertung, während Claude 3.6 Sonnet, der Nicht-Reasoning-Vorgänger von Claude 3.7 Sonnet, 81,41 $ kostete.
George Cameron, Mitbegründer von Artificial Analysis, teilte TechCrunch mit, dass die Organisation bereit ist, ihr Benchmarking-Budget zu erhöhen, da immer mehr KI-Labore Reasoning-Modelle entwickeln. „Bei Artificial Analysis führen wir monatlich Hunderte von Bewertungen durch und widmen diesen einen erheblichen Budgetanteil“, erklärte Cameron. „Wir planen, diese Ausgaben zu erhöhen, da Modelle häufiger veröffentlicht werden.“
Artificial Analysis ist nicht allein mit diesen steigenden Kosten konfrontiert. Ross Taylor, CEO des KI-Startups General Reasoning, gab kürzlich 580 $ aus, um Claude 3.7 Sonnet an etwa 3.700 einzigartigen Prompts zu bewerten. Taylor schätzt, dass eine einzige Durchführung von MMLU Pro, einem Benchmark zur Überprüfung des Sprachverständnisses, über 1.800 $ kosten würde.
Taylor betonte in einem kürzlichen Beitrag auf X eine wachsende Besorgnis: „Wir bewegen uns auf eine Welt zu, in der ein Labor x% bei einem Benchmark meldet, bei dem sie y Rechenleistung ausgeben, aber die Ressourcen für Akademiker
Warum sind Reasoning-Modelle so teuer im Benchmarking?
Der Hauptgrund für die hohen Kosten beim Testen von Reasoning-Modellen ist ihre Tendenz, eine erhebliche Anzahl von Token zu generieren. Token sind Einheiten von Rohtext; zum Beispiel könnte das Wort „fantastisch“ in „fan“, „tas“ und „tic“ zerlegt werden. Laut Artificial Analysis generierte das o1-Modell von OpenAI während ihrer Tests über 44 Millionen Token, was ungefähr das Achtfache der Token-Anzahl ist, die vom Nicht-Reasoning-Modell GPT-4o generiert wurde.
Die meisten KI-Unternehmen berechnen die Modellnutzung basierend auf der Anzahl der Token, was sich schnell summiert. Zudem sind moderne Benchmarks darauf ausgelegt, eine hohe Anzahl von Token hervorzurufen, indem sie Fragen enthalten, die komplexe, mehrstufige Aufgaben beinhalten. Jean-Stanislas Denain, ein leitender Forscher bei Epoch AI, erklärte TechCrunch: „Die heutigen Benchmarks sind komplexer, obwohl die Anzahl der Fragen pro Benchmark insgesamt abgenommen hat. Sie versuchen oft, die Fähigkeit von Modellen zu bewerten, reale Aufgaben wie das Schreiben und Ausführen von Code, das Surfen im Internet und die Nutzung von Computern durchzuführen.“
Denain wies auch darauf hin, dass die Kosten pro Token für die teuersten Modelle gestiegen sind. Zum Beispiel kostete Anthropics Claude 3 Opus bei seiner Veröffentlichung im Mai 2024 75 $ pro Million Ausgabe-Token. Im Gegensatz dazu kosteten OpenAIs GPT-4.5 und o1-pro, die früher im selben Jahr auf den Markt kamen, jeweils 150 $ und 600 $ pro Million Ausgabe-Token.
Trotz der steigenden Kosten pro Token stellte Denain fest: „Da die Modelle mit der Zeit besser geworden sind, ist es immer noch wahr, dass die Kosten, um ein bestimmtes Leistungsniveau zu erreichen, im Laufe der Zeit stark gesunken sind. Aber wenn Sie die besten größten Modelle zu einem bestimmten Zeitpunkt bewerten wollen, zahlen Sie immer noch mehr.“
Die Integrität des Benchmarkings
Viele KI-Labore, einschließlich OpenAI, bieten kostenlosen oder subventionierten Zugang zu ihren Modellen für Benchmarking-Zwecke an. Diese Praxis wirft jedoch Bedenken hinsichtlich der Integrität des Bewertungsprozesses auf. Selbst ohne Beweise für Manipulation kann der bloße Hinweis auf die Beteiligung eines KI-Labors Zweifel an der Objektivität der Ergebnisse aufwerfen.
Ross Taylor äußerte diese Besorgnis auf X und fragte: „Aus wissenschaftlicher Sicht, wenn Sie ein Ergebnis veröffentlichen, das niemand mit demselben Modell replizieren kann, ist das überhaupt noch Wissenschaft? (War es jemals Wissenschaft, lol)“
Die hohen Kosten und potenziellen Verzerrungen beim KI-Benchmarking unterstreichen die Herausforderungen, denen sich das Feld gegenübersieht, während es bestrebt ist, immer ausgefeiltere Modelle zu entwickeln und zu validieren.
Verwandter Artikel
Yaoke Medias erste AIGC-Serie „Das Geheimnis der Bronzefiguren im Qinling-Gebirge“ startet heute mit KI-generierten Hauptdarstellern
Heute ist der offizielle Starttag von Yaoke Medias AIGC-Fantasy-Mystery-Kurzserie „Die geheime Geschichte der Qinling-Bronze“. Mit den ersten beiden unter Vertrag genommenen KI-Schauspielern des Unter
Satya Nadella bereit, die neuen Vorteile der Vereinbarung mit OpenAI zu nutzen
Am Mittwoch fragte ein Analyst von Wall Street den Microsoft-CEO Satya Nadella direkt, wie die überarbeitete Partnerschaft mit OpenAI die finanziellen Ergebnisse des Unternehmens beeinflussen würde.Nadella bezeichnete die neue Vereinbarung als einen
WordPress.com ermöglicht es nun KI-Agenten, Beiträge zu verfassen und zu veröffentlichen – und vieles mehr
WordPress.com, die beliebte Webhosting- und Publishing-Plattform, setzt nun auf KI-Agenten – ein Schritt, der das Erscheinungsbild des Internets grundlegend verändern könnte. Das Unternehmen gab am Fr
Empfehlungen zu verwandten Spezialthemen
Kommentare (17)
These AI reasoning models are impressive for tackling complex physics problems step by step, but the surging benchmarking costs could stifle innovation for smaller labs. 😟 Reminds me of how tech giants dominate—maybe we need more affordable alternatives?
These AI reasoning models sound cool, but the skyrocketing benchmarking costs are wild! 😳 Makes me wonder if smaller labs can even keep up with the big players like OpenAI.
These AI reasoning models are impressive, but the rising costs of benchmarking are a real bummer. It's great for fields like physics, but I hope they find a way to make it more affordable. Otherwise, it's just for the big players. 😕
Esses modelos de raciocínio de IA são impressionantes, mas o aumento dos custos de benchmarking é uma decepção. É ótimo para áreas como a física, mas espero que encontrem uma maneira de torná-lo mais acessível. Caso contrário, será apenas para os grandes jogadores. 😕
AI推論モデルは素晴らしいけど、ベンチマーキングのコストが上がるのは残念です。物理分野には良いけど、もっと手頃な価格になる方法を見つけてほしいです。さもないと、大手企業だけのものになってしまいますね。😕

Die steigenden Kosten für das Benchmarking von KI-Reasoning-Modellen
KI-Labore wie OpenAI haben ihre fortschrittlichen „Reasoning“-KI-Modelle beworben, die darauf ausgelegt sind, komplexe Probleme Schritt für Schritt zu lösen. Diese Modelle, die insbesondere in Bereichen wie der Physik effektiv sind, sind in der Tat beeindruckend. Allerdings sind sie mit einem hohen Preis verbunden, wenn es um das Benchmarking geht, was eine unabhängige Überprüfung ihrer Fähigkeiten erschwert.
Laut Daten von Artificial Analysis, einem unabhängigen KI-Testunternehmen, belaufen sich die Kosten für die Bewertung des o1-Reasoning-Modells von OpenAI über sieben populäre KI-Benchmarks auf erstaunliche 2.767,05 $. Diese Benchmarks umfassen MMLU-Pro, GPQA Diamond, Humanity’s Last Exam, LiveCodeBench, SciCode, AIME 2024 und MATH-500. Im Vergleich dazu kostete das Benchmarking des „hybriden“ Reasoning-Modells Claude 3.7 Sonnet von Anthropic bei denselben Tests 1.485,35 $, während OpenAIs o3-mini-high deutlich günstiger war mit 344,59 $.
Nicht alle Reasoning-Modelle sind gleich teuer zu testen. Zum Beispiel gab Artificial Analysis nur 141,22 $ aus, um OpenAIs o1-mini zu bewerten. Allerdings sind die Kosten für diese Modelle im Durchschnitt hoch. Artificial Analysis hat rund 5.200 $ ausgegeben, um etwa ein Dutzend Reasoning-Modelle zu bewerten, was fast das Doppelte der 2.400 $ ist, die für die Analyse von über 80 Nicht-Reasoning-Modellen ausgegeben wurden.
Zum Vergleich kostete das Nicht-Reasoning-Modell GPT-4o von OpenAI, das im Mai 2024 veröffentlicht wurde, Artificial Analysis nur 108,85 $ für die Bewertung, während Claude 3.6 Sonnet, der Nicht-Reasoning-Vorgänger von Claude 3.7 Sonnet, 81,41 $ kostete.
George Cameron, Mitbegründer von Artificial Analysis, teilte TechCrunch mit, dass die Organisation bereit ist, ihr Benchmarking-Budget zu erhöhen, da immer mehr KI-Labore Reasoning-Modelle entwickeln. „Bei Artificial Analysis führen wir monatlich Hunderte von Bewertungen durch und widmen diesen einen erheblichen Budgetanteil“, erklärte Cameron. „Wir planen, diese Ausgaben zu erhöhen, da Modelle häufiger veröffentlicht werden.“
Artificial Analysis ist nicht allein mit diesen steigenden Kosten konfrontiert. Ross Taylor, CEO des KI-Startups General Reasoning, gab kürzlich 580 $ aus, um Claude 3.7 Sonnet an etwa 3.700 einzigartigen Prompts zu bewerten. Taylor schätzt, dass eine einzige Durchführung von MMLU Pro, einem Benchmark zur Überprüfung des Sprachverständnisses, über 1.800 $ kosten würde.
Taylor betonte in einem kürzlichen Beitrag auf X eine wachsende Besorgnis: „Wir bewegen uns auf eine Welt zu, in der ein Labor x% bei einem Benchmark meldet, bei dem sie y Rechenleistung ausgeben, aber die Ressourcen für Akademiker
Warum sind Reasoning-Modelle so teuer im Benchmarking?
Der Hauptgrund für die hohen Kosten beim Testen von Reasoning-Modellen ist ihre Tendenz, eine erhebliche Anzahl von Token zu generieren. Token sind Einheiten von Rohtext; zum Beispiel könnte das Wort „fantastisch“ in „fan“, „tas“ und „tic“ zerlegt werden. Laut Artificial Analysis generierte das o1-Modell von OpenAI während ihrer Tests über 44 Millionen Token, was ungefähr das Achtfache der Token-Anzahl ist, die vom Nicht-Reasoning-Modell GPT-4o generiert wurde.
Die meisten KI-Unternehmen berechnen die Modellnutzung basierend auf der Anzahl der Token, was sich schnell summiert. Zudem sind moderne Benchmarks darauf ausgelegt, eine hohe Anzahl von Token hervorzurufen, indem sie Fragen enthalten, die komplexe, mehrstufige Aufgaben beinhalten. Jean-Stanislas Denain, ein leitender Forscher bei Epoch AI, erklärte TechCrunch: „Die heutigen Benchmarks sind komplexer, obwohl die Anzahl der Fragen pro Benchmark insgesamt abgenommen hat. Sie versuchen oft, die Fähigkeit von Modellen zu bewerten, reale Aufgaben wie das Schreiben und Ausführen von Code, das Surfen im Internet und die Nutzung von Computern durchzuführen.“
Denain wies auch darauf hin, dass die Kosten pro Token für die teuersten Modelle gestiegen sind. Zum Beispiel kostete Anthropics Claude 3 Opus bei seiner Veröffentlichung im Mai 2024 75 $ pro Million Ausgabe-Token. Im Gegensatz dazu kosteten OpenAIs GPT-4.5 und o1-pro, die früher im selben Jahr auf den Markt kamen, jeweils 150 $ und 600 $ pro Million Ausgabe-Token.
Trotz der steigenden Kosten pro Token stellte Denain fest: „Da die Modelle mit der Zeit besser geworden sind, ist es immer noch wahr, dass die Kosten, um ein bestimmtes Leistungsniveau zu erreichen, im Laufe der Zeit stark gesunken sind. Aber wenn Sie die besten größten Modelle zu einem bestimmten Zeitpunkt bewerten wollen, zahlen Sie immer noch mehr.“
Die Integrität des Benchmarkings
Viele KI-Labore, einschließlich OpenAI, bieten kostenlosen oder subventionierten Zugang zu ihren Modellen für Benchmarking-Zwecke an. Diese Praxis wirft jedoch Bedenken hinsichtlich der Integrität des Bewertungsprozesses auf. Selbst ohne Beweise für Manipulation kann der bloße Hinweis auf die Beteiligung eines KI-Labors Zweifel an der Objektivität der Ergebnisse aufwerfen.
Ross Taylor äußerte diese Besorgnis auf X und fragte: „Aus wissenschaftlicher Sicht, wenn Sie ein Ergebnis veröffentlichen, das niemand mit demselben Modell replizieren kann, ist das überhaupt noch Wissenschaft? (War es jemals Wissenschaft, lol)“
Die hohen Kosten und potenziellen Verzerrungen beim KI-Benchmarking unterstreichen die Herausforderungen, denen sich das Feld gegenübersieht, während es bestrebt ist, immer ausgefeiltere Modelle zu entwickeln und zu validieren.
Yaoke Medias erste AIGC-Serie „Das Geheimnis der Bronzefiguren im Qinling-Gebirge“ startet heute mit KI-generierten Hauptdarstellern
Heute ist der offizielle Starttag von Yaoke Medias AIGC-Fantasy-Mystery-Kurzserie „Die geheime Geschichte der Qinling-Bronze“. Mit den ersten beiden unter Vertrag genommenen KI-Schauspielern des Unter
Satya Nadella bereit, die neuen Vorteile der Vereinbarung mit OpenAI zu nutzen
Am Mittwoch fragte ein Analyst von Wall Street den Microsoft-CEO Satya Nadella direkt, wie die überarbeitete Partnerschaft mit OpenAI die finanziellen Ergebnisse des Unternehmens beeinflussen würde.Nadella bezeichnete die neue Vereinbarung als einen
WordPress.com ermöglicht es nun KI-Agenten, Beiträge zu verfassen und zu veröffentlichen – und vieles mehr
WordPress.com, die beliebte Webhosting- und Publishing-Plattform, setzt nun auf KI-Agenten – ein Schritt, der das Erscheinungsbild des Internets grundlegend verändern könnte. Das Unternehmen gab am Fr
These AI reasoning models are impressive for tackling complex physics problems step by step, but the surging benchmarking costs could stifle innovation for smaller labs. 😟 Reminds me of how tech giants dominate—maybe we need more affordable alternatives?
These AI reasoning models sound cool, but the skyrocketing benchmarking costs are wild! 😳 Makes me wonder if smaller labs can even keep up with the big players like OpenAI.
These AI reasoning models are impressive, but the rising costs of benchmarking are a real bummer. It's great for fields like physics, but I hope they find a way to make it more affordable. Otherwise, it's just for the big players. 😕
Esses modelos de raciocínio de IA são impressionantes, mas o aumento dos custos de benchmarking é uma decepção. É ótimo para áreas como a física, mas espero que encontrem uma maneira de torná-lo mais acessível. Caso contrário, será apenas para os grandes jogadores. 😕
AI推論モデルは素晴らしいけど、ベンチマーキングのコストが上がるのは残念です。物理分野には良いけど、もっと手頃な価格になる方法を見つけてほしいです。さもないと、大手企業だけのものになってしまいますね。😕





Heim






