Heim
Hugging Face: Wie Unternehmen die KI-Kosten senken und gleichzeitig die Leistung aufrechterhalten können

Viele Unternehmen gehen davon aus, dass die Entwicklung von KI eine enorme Rechenleistung erfordert, was sie dazu veranlasst, dem Erwerb von mehr Ressourcen den Vorrang zu geben.
Sasha Luccioni, AI and Climate Lead bei Hugging Face, schlägt jedoch einen anderen Weg vor. Was wäre, wenn sich der Schwerpunkt auf eine intelligentere Nutzung der KI verlagern würde? Anstatt unermüdlich nach zusätzlichen (und oft übermäßigen) Rechenkapazitäten zu streben, könnten Unternehmen die Leistung und Präzision ihrer Modelle verbessern.
Luccioni argumentiert, dass das Kernproblem im Ansatz liegt: Unternehmen sollten intelligentere Berechnungen anstreben, nicht nur mehr davon.
"Wir übersehen intelligentere Methoden, weil wir darauf fixiert sind, dass wir mehr FLOPS, mehr GPUs und mehr Zeit brauchen", erklärt sie.
Hier sind fünf wichtige Strategien von Hugging Face, die Unternehmen jeder Größe helfen, KI effizienter einzusetzen.
1: Wählen Sie das richtige Modell für die jeweilige Aufgabe
Widerstehen Sie dem Drang, für jede Anwendung massive Allzweckmodelle zu verwenden. Spezialisierte oder destillierte Modelle können für bestimmte Aufgaben oft eine gleichwertige oder sogar bessere Genauigkeit erzielen - und das zu deutlich niedrigeren Kosten und mit geringerem Energieverbrauch.
Luccionis Untersuchungen zeigen, dass ein aufgabenspezifisches Modell 20 bis 30 Mal weniger Energie verbrauchen kann als ein Allzweckmodell. "Diese Modelle werden für einen einzigen Zweck erstellt, im Gegensatz zu großen Sprachmodellen, die für jede beliebige Abfrage ausgelegt sind", erklärte sie.
Die Modelldestillation ist hier entscheidend. Ein vollständiges Modell kann zunächst trainiert und anschließend für eine bestimmte Funktion verfeinert werden. Luccioni wies zum Beispiel darauf hin, dass DeepSeek R1 so groß ist, dass die meisten Unternehmen es sich nicht leisten können, es auszuführen, da oft mindestens 8 GPUs benötigt werden. Im Gegensatz dazu können destillierte Versionen 10 bis 30 Mal kleiner sein und auf einer einzigen GPU laufen.
Sie wies auch auf die Effizienzvorteile von Open-Source-Modellen hin, bei denen die Notwendigkeit entfällt, sie von Grund auf zu trainieren. Anders als noch vor einigen Jahren, als die Unternehmen Ressourcen für die Suche nach geeigneten Modellen verschwendeten, können sie jetzt mit einem Basismodell beginnen und es auf ihre Bedürfnisse abstimmen.
"Dies fördert die kollaborative, schrittweise Innovation anstelle von isolierten Bemühungen, bei denen jeder sein eigenes Modell trainiert und somit Rechenressourcen verschwendet", so Luccioni.
Es setzt sich zunehmend die Erkenntnis durch, dass die Kosten der generativen KI oft größer sind als ihr Nutzen, was in den Unternehmen zu Ernüchterung führt. Während generische Anwendungen wie das Verfassen von E-Mails oder die Transkription von Meetings wirklich hilfreich sind, erfordern aufgabenspezifische Modelle immer noch einen erheblichen Aufwand. Modelle von der Stange sind oft unzureichend und teurer, so Luccioni.
Die Überbrückung dieser Lücke stellt die nächste Grenze der Wertschöpfung dar. "Die meisten Unternehmen wollen eine bestimmte Aufgabe erfüllen", so Luccioni. "Sie suchen keine allgemeine künstliche Intelligenz (AGI), sondern eine spezielle Intelligenz. Das ist die Herausforderung, die wir angehen müssen."
2. Effizienz zum Standard machen
Integrieren Sie die Prinzipien der "Nudge-Theorie" in das Systemdesign, legen Sie konservative Berechnungsbudgets fest, begrenzen Sie die ständig aktiven generativen Funktionen und verlangen Sie von den Nutzern, dass sie sich für die kostenintensiven Berechnungsmodi entscheiden.
In der Verhaltenswissenschaft geht es bei der "Nudge-Theorie" um die subtile Steuerung von Entscheidungen, um positive Verhaltensweisen zu fördern. Luccioni nannte als klassisches Beispiel das Anbieten von Besteck bei Mahlzeiten zum Mitnehmen: Wenn man das Besteck als Option anbietet, anstatt es standardmäßig mitzuliefern, kann man den Abfall drastisch reduzieren.
"Allein die Umstellung von einem Opt-out- auf ein Opt-in-Modell kann das Nutzerverhalten stark beeinflussen", erklärte Luccioni.
Standardeinstellungen führen oft zu unnötiger Nutzung und erhöhten Kosten, da die Modelle Aufgaben ausführen, die sie nicht ausführen sollten. So generieren einige Suchmaschinen jetzt automatisch KI-Zusammenfassungen am Anfang der Ergebnisse. Luccioni beobachtete auch, dass das Modell bei der Verwendung von OpenAIs GPT-5 in letzter Zeit selbst bei sehr einfachen Abfragen standardmäßig in den vollständigen Denkmodus wechselte.
"Für mich sollte das die Ausnahme sein", sagte sie. "Wenn ich frage: 'Was ist der Sinn des Lebens?', dann kann eine KI-Zusammenfassung sicher nützlich sein. Aber für Fragen wie 'Wie ist das Wetter in Montreal?' oder 'Wie sind die Öffnungszeiten meiner örtlichen Apotheke? benötige ich keine generative Zusammenfassung. Die Standardeinstellung sollte sein, dass keine Argumentation erfolgt."
3. Optimierung der Hardware-Auslastung
Implementieren Sie die Stapelverarbeitung, passen Sie die numerische Präzision an und stimmen Sie die Stapelgrößen auf die jeweilige Hardwaregeneration ab, um die Speicherverschwendung und den Stromverbrauch zu minimieren.
Unternehmen sollten ihre spezifischen Anforderungen bewerten: Muss das Modell kontinuierlich laufen? Wird es mit Echtzeitanfragen konfrontiert, vielleicht 100 auf einmal? In solchen Fällen ist eine Always-on-Optimierung unerlässlich, so Luccioni. In vielen anderen Szenarien ist dies jedoch nicht der Fall; Modelle können in regelmäßigen Abständen ausgeführt werden, um Speicherplatz zu sparen, und durch Batching kann die Speichernutzung optimiert werden.
"Es ist eine technische Herausforderung, aber eine sehr spezifische, so dass es schwierig ist, pauschale Ratschläge zu erteilen wie 'destillieren Sie alle Modelle' oder 'ändern Sie die Genauigkeit bei allem'", so Luccioni.
In einer kürzlich durchgeführten Studie fand sie heraus, dass die ideale Chargengröße in hohem Maße von der Hardware abhängt, bis hin zum spezifischen Modell oder der Version. Eine Erhöhung der Chargengröße um nur eine Einheit kann manchmal den Energieverbrauch erhöhen, weil das Modell mehr Speicherressourcen benötigt.
"Das ist ein Aspekt, den die Leute oft übersehen. Sie denken: 'Ich werde einfach die Chargengröße maximieren', aber die wahre Effizienz ergibt sich aus der sorgfältigen Anpassung all dieser Variablen. Das Ergebnis ist ein hoch optimiertes System, das jedoch auf einen ganz bestimmten Kontext zugeschnitten ist", erklärt Luccioni.
4. Anreize für Energietransparenz schaffen
Anreize fördern den Wandel. Vor diesem Hintergrund hat Hugging Face Anfang des Jahres den AI Energy Score eingeführt. Diese Initiative fördert die Energieeffizienz mit Hilfe eines Bewertungssystems von 1 bis 5 Sternen, wobei die effizientesten Modelle mit fünf Sternen ausgezeichnet werden.
Man kann es als "Energy Star für KI" bezeichnen, inspiriert von dem langjährigen Bundesprogramm, das Effizienzstandards festlegt und qualifizierte Geräte mit seinem Logo kennzeichnet.
"Jahrzehntelang war diese Sterne-Kennzeichnung ein starker Motivator. Die Menschen wollten es", sagte Luccioni. "Eine ähnliche Wirkung mit dem Energy Score zu erzielen, wäre fantastisch".
Hugging Face hat ein öffentliches Leaderboard eingerichtet, das im September mit neuen Modellen wie DeepSeek und GPT-oss aktualisiert werden soll und alle sechs Monate oder bei Erscheinen neuer Modelle aktualisiert wird. Ziel ist es, dass die Modellentwickler eine hohe Bewertung als "Ehrenabzeichen" betrachten, so Luccioni.
5. Die Denkweise "Mehr Rechenleistung ist besser" überdenken
Anstatt nach den größten GPU-Clustern zu streben, sollten Sie sich zunächst fragen: "Was ist der intelligenteste Weg, um das gewünschte Ergebnis zu erreichen?" Bei zahlreichen Anwendungen führen intelligentere Architekturen und besser kuratierte Datensätze zu besseren Ergebnissen als eine Skalierung mit roher Gewalt.
"Ich glaube, dass die meisten Leute gar nicht so viele GPUs brauchen, wie sie denken", sagte Luccioni. Sie ermutigte die Unternehmen, die tatsächlichen Aufgaben zu überdenken, die ihre GPUs bewältigen werden, warum sie notwendig sind, wie diese Aufgaben zuvor ausgeführt wurden und welche greifbaren Vorteile zusätzliche GPUs tatsächlich bringen werden.
"Es ist ein Wettlauf nach unten geworden, bei dem jeder meint, einen größeren Cluster zu brauchen", sagte sie. "Der Schlüssel liegt darin, zu analysieren, wofür man KI einsetzt, welche spezifischen Techniken erforderlich sind und was diese Techniken wirklich erfordern."
Verwandter Artikel
Amazon vermittelt 2025 100 Milliarden US -Dollar für KI
Trotz der jüngsten Begeisterung, die darauf hindeutet, dass Deepseek eine Ära von reduzierten KI -Budgets einläuten würde, gibt es keinen Hinweis darauf, dass Big Tech auf die Bremsen tritt. Im Gegenteil, sie treten auf das Gas. Amazon ist der jüngste Riese, der einen kräftigen KI -Ausgabenplan enthüllt, der über 100 Milliarden US -Dollar an CAPI prognostiziert wird
Nvidia enthüllt GPUs der nächsten Generation: Blackwell Ultra, Vera Rubin, Feynman
Auf der GTC 2025 -Konferenz von NVIDIA in San Jose am Dienstag stellte CEO Jensen Huang eine Reihe von bevorstehenden GPUs vor, die in den kommenden Monaten auf den Markt kommen sollen. Der Star der Show? Die Vera Rubin GPU, die für eine Freisetzung in der zweiten Halbzeit 2026 geplant ist. Dieses Tier verfügt über zehn Gigabyte Gedächtnis und kommt mit einem Cust
Claude wurde zur Erstellung bösartiger npm-Pakete genutzt: Über 670 kompromittierte Pakete gefährden Open Source
Ein kürzlich aufgetretener Cybersicherheitsvorfall zeigt, wie große Sprachmodelle (LLMs) für die Entwicklung von Schadsoftware missbraucht werden. Der Sicherheitsforscher Sibi Moosa entdeckte einen An
Empfehlungen zu verwandten Spezialthemen
Kommentare (0)

Viele Unternehmen gehen davon aus, dass die Entwicklung von KI eine enorme Rechenleistung erfordert, was sie dazu veranlasst, dem Erwerb von mehr Ressourcen den Vorrang zu geben.
Sasha Luccioni, AI and Climate Lead bei Hugging Face, schlägt jedoch einen anderen Weg vor. Was wäre, wenn sich der Schwerpunkt auf eine intelligentere Nutzung der KI verlagern würde? Anstatt unermüdlich nach zusätzlichen (und oft übermäßigen) Rechenkapazitäten zu streben, könnten Unternehmen die Leistung und Präzision ihrer Modelle verbessern.
Luccioni argumentiert, dass das Kernproblem im Ansatz liegt: Unternehmen sollten intelligentere Berechnungen anstreben, nicht nur mehr davon.
"Wir übersehen intelligentere Methoden, weil wir darauf fixiert sind, dass wir mehr FLOPS, mehr GPUs und mehr Zeit brauchen", erklärt sie.
Hier sind fünf wichtige Strategien von Hugging Face, die Unternehmen jeder Größe helfen, KI effizienter einzusetzen.
1: Wählen Sie das richtige Modell für die jeweilige Aufgabe
Widerstehen Sie dem Drang, für jede Anwendung massive Allzweckmodelle zu verwenden. Spezialisierte oder destillierte Modelle können für bestimmte Aufgaben oft eine gleichwertige oder sogar bessere Genauigkeit erzielen - und das zu deutlich niedrigeren Kosten und mit geringerem Energieverbrauch.
Luccionis Untersuchungen zeigen, dass ein aufgabenspezifisches Modell 20 bis 30 Mal weniger Energie verbrauchen kann als ein Allzweckmodell. "Diese Modelle werden für einen einzigen Zweck erstellt, im Gegensatz zu großen Sprachmodellen, die für jede beliebige Abfrage ausgelegt sind", erklärte sie.
Die Modelldestillation ist hier entscheidend. Ein vollständiges Modell kann zunächst trainiert und anschließend für eine bestimmte Funktion verfeinert werden. Luccioni wies zum Beispiel darauf hin, dass DeepSeek R1 so groß ist, dass die meisten Unternehmen es sich nicht leisten können, es auszuführen, da oft mindestens 8 GPUs benötigt werden. Im Gegensatz dazu können destillierte Versionen 10 bis 30 Mal kleiner sein und auf einer einzigen GPU laufen.
Sie wies auch auf die Effizienzvorteile von Open-Source-Modellen hin, bei denen die Notwendigkeit entfällt, sie von Grund auf zu trainieren. Anders als noch vor einigen Jahren, als die Unternehmen Ressourcen für die Suche nach geeigneten Modellen verschwendeten, können sie jetzt mit einem Basismodell beginnen und es auf ihre Bedürfnisse abstimmen.
"Dies fördert die kollaborative, schrittweise Innovation anstelle von isolierten Bemühungen, bei denen jeder sein eigenes Modell trainiert und somit Rechenressourcen verschwendet", so Luccioni.
Es setzt sich zunehmend die Erkenntnis durch, dass die Kosten der generativen KI oft größer sind als ihr Nutzen, was in den Unternehmen zu Ernüchterung führt. Während generische Anwendungen wie das Verfassen von E-Mails oder die Transkription von Meetings wirklich hilfreich sind, erfordern aufgabenspezifische Modelle immer noch einen erheblichen Aufwand. Modelle von der Stange sind oft unzureichend und teurer, so Luccioni.
Die Überbrückung dieser Lücke stellt die nächste Grenze der Wertschöpfung dar. "Die meisten Unternehmen wollen eine bestimmte Aufgabe erfüllen", so Luccioni. "Sie suchen keine allgemeine künstliche Intelligenz (AGI), sondern eine spezielle Intelligenz. Das ist die Herausforderung, die wir angehen müssen."
2. Effizienz zum Standard machen
Integrieren Sie die Prinzipien der "Nudge-Theorie" in das Systemdesign, legen Sie konservative Berechnungsbudgets fest, begrenzen Sie die ständig aktiven generativen Funktionen und verlangen Sie von den Nutzern, dass sie sich für die kostenintensiven Berechnungsmodi entscheiden.
In der Verhaltenswissenschaft geht es bei der "Nudge-Theorie" um die subtile Steuerung von Entscheidungen, um positive Verhaltensweisen zu fördern. Luccioni nannte als klassisches Beispiel das Anbieten von Besteck bei Mahlzeiten zum Mitnehmen: Wenn man das Besteck als Option anbietet, anstatt es standardmäßig mitzuliefern, kann man den Abfall drastisch reduzieren.
"Allein die Umstellung von einem Opt-out- auf ein Opt-in-Modell kann das Nutzerverhalten stark beeinflussen", erklärte Luccioni.
Standardeinstellungen führen oft zu unnötiger Nutzung und erhöhten Kosten, da die Modelle Aufgaben ausführen, die sie nicht ausführen sollten. So generieren einige Suchmaschinen jetzt automatisch KI-Zusammenfassungen am Anfang der Ergebnisse. Luccioni beobachtete auch, dass das Modell bei der Verwendung von OpenAIs GPT-5 in letzter Zeit selbst bei sehr einfachen Abfragen standardmäßig in den vollständigen Denkmodus wechselte.
"Für mich sollte das die Ausnahme sein", sagte sie. "Wenn ich frage: 'Was ist der Sinn des Lebens?', dann kann eine KI-Zusammenfassung sicher nützlich sein. Aber für Fragen wie 'Wie ist das Wetter in Montreal?' oder 'Wie sind die Öffnungszeiten meiner örtlichen Apotheke? benötige ich keine generative Zusammenfassung. Die Standardeinstellung sollte sein, dass keine Argumentation erfolgt."
3. Optimierung der Hardware-Auslastung
Implementieren Sie die Stapelverarbeitung, passen Sie die numerische Präzision an und stimmen Sie die Stapelgrößen auf die jeweilige Hardwaregeneration ab, um die Speicherverschwendung und den Stromverbrauch zu minimieren.
Unternehmen sollten ihre spezifischen Anforderungen bewerten: Muss das Modell kontinuierlich laufen? Wird es mit Echtzeitanfragen konfrontiert, vielleicht 100 auf einmal? In solchen Fällen ist eine Always-on-Optimierung unerlässlich, so Luccioni. In vielen anderen Szenarien ist dies jedoch nicht der Fall; Modelle können in regelmäßigen Abständen ausgeführt werden, um Speicherplatz zu sparen, und durch Batching kann die Speichernutzung optimiert werden.
"Es ist eine technische Herausforderung, aber eine sehr spezifische, so dass es schwierig ist, pauschale Ratschläge zu erteilen wie 'destillieren Sie alle Modelle' oder 'ändern Sie die Genauigkeit bei allem'", so Luccioni.
In einer kürzlich durchgeführten Studie fand sie heraus, dass die ideale Chargengröße in hohem Maße von der Hardware abhängt, bis hin zum spezifischen Modell oder der Version. Eine Erhöhung der Chargengröße um nur eine Einheit kann manchmal den Energieverbrauch erhöhen, weil das Modell mehr Speicherressourcen benötigt.
"Das ist ein Aspekt, den die Leute oft übersehen. Sie denken: 'Ich werde einfach die Chargengröße maximieren', aber die wahre Effizienz ergibt sich aus der sorgfältigen Anpassung all dieser Variablen. Das Ergebnis ist ein hoch optimiertes System, das jedoch auf einen ganz bestimmten Kontext zugeschnitten ist", erklärt Luccioni.
4. Anreize für Energietransparenz schaffen
Anreize fördern den Wandel. Vor diesem Hintergrund hat Hugging Face Anfang des Jahres den AI Energy Score eingeführt. Diese Initiative fördert die Energieeffizienz mit Hilfe eines Bewertungssystems von 1 bis 5 Sternen, wobei die effizientesten Modelle mit fünf Sternen ausgezeichnet werden.
Man kann es als "Energy Star für KI" bezeichnen, inspiriert von dem langjährigen Bundesprogramm, das Effizienzstandards festlegt und qualifizierte Geräte mit seinem Logo kennzeichnet.
"Jahrzehntelang war diese Sterne-Kennzeichnung ein starker Motivator. Die Menschen wollten es", sagte Luccioni. "Eine ähnliche Wirkung mit dem Energy Score zu erzielen, wäre fantastisch".
Hugging Face hat ein öffentliches Leaderboard eingerichtet, das im September mit neuen Modellen wie DeepSeek und GPT-oss aktualisiert werden soll und alle sechs Monate oder bei Erscheinen neuer Modelle aktualisiert wird. Ziel ist es, dass die Modellentwickler eine hohe Bewertung als "Ehrenabzeichen" betrachten, so Luccioni.
5. Die Denkweise "Mehr Rechenleistung ist besser" überdenken
Anstatt nach den größten GPU-Clustern zu streben, sollten Sie sich zunächst fragen: "Was ist der intelligenteste Weg, um das gewünschte Ergebnis zu erreichen?" Bei zahlreichen Anwendungen führen intelligentere Architekturen und besser kuratierte Datensätze zu besseren Ergebnissen als eine Skalierung mit roher Gewalt.
"Ich glaube, dass die meisten Leute gar nicht so viele GPUs brauchen, wie sie denken", sagte Luccioni. Sie ermutigte die Unternehmen, die tatsächlichen Aufgaben zu überdenken, die ihre GPUs bewältigen werden, warum sie notwendig sind, wie diese Aufgaben zuvor ausgeführt wurden und welche greifbaren Vorteile zusätzliche GPUs tatsächlich bringen werden.
"Es ist ein Wettlauf nach unten geworden, bei dem jeder meint, einen größeren Cluster zu brauchen", sagte sie. "Der Schlüssel liegt darin, zu analysieren, wofür man KI einsetzt, welche spezifischen Techniken erforderlich sind und was diese Techniken wirklich erfordern."
Amazon vermittelt 2025 100 Milliarden US -Dollar für KI
Trotz der jüngsten Begeisterung, die darauf hindeutet, dass Deepseek eine Ära von reduzierten KI -Budgets einläuten würde, gibt es keinen Hinweis darauf, dass Big Tech auf die Bremsen tritt. Im Gegenteil, sie treten auf das Gas. Amazon ist der jüngste Riese, der einen kräftigen KI -Ausgabenplan enthüllt, der über 100 Milliarden US -Dollar an CAPI prognostiziert wird
Nvidia enthüllt GPUs der nächsten Generation: Blackwell Ultra, Vera Rubin, Feynman
Auf der GTC 2025 -Konferenz von NVIDIA in San Jose am Dienstag stellte CEO Jensen Huang eine Reihe von bevorstehenden GPUs vor, die in den kommenden Monaten auf den Markt kommen sollen. Der Star der Show? Die Vera Rubin GPU, die für eine Freisetzung in der zweiten Halbzeit 2026 geplant ist. Dieses Tier verfügt über zehn Gigabyte Gedächtnis und kommt mit einem Cust
Claude wurde zur Erstellung bösartiger npm-Pakete genutzt: Über 670 kompromittierte Pakete gefährden Open Source
Ein kürzlich aufgetretener Cybersicherheitsvorfall zeigt, wie große Sprachmodelle (LLMs) für die Entwicklung von Schadsoftware missbraucht werden. Der Sicherheitsforscher Sibi Moosa entdeckte einen An











