Hugging Face: Wie Unternehmen die KI-Kosten senken und gleichzeitig die Leistung aufrechterhalten können

Heim

Nachricht

2. Dezember 2025

HenryWalker

# GPUS

Hugging Face: Wie Unternehmen die KI-Kosten senken und gleichzeitig die Leistung aufrechterhalten können

Viele Unternehmen gehen davon aus, dass die Entwicklung von KI eine enorme Rechenleistung erfordert, was sie dazu veranlasst, dem Erwerb von mehr Ressourcen den Vorrang zu geben.

Sasha Luccioni, AI and Climate Lead bei Hugging Face, schlägt jedoch einen anderen Weg vor. Was wäre, wenn sich der Schwerpunkt auf eine intelligentere Nutzung der KI verlagern würde? Anstatt unermüdlich nach zusätzlichen (und oft übermäßigen) Rechenkapazitäten zu streben, könnten Unternehmen die Leistung und Präzision ihrer Modelle verbessern.

Luccioni argumentiert, dass das Kernproblem im Ansatz liegt: Unternehmen sollten intelligentere Berechnungen anstreben, nicht nur mehr davon.

"Wir übersehen intelligentere Methoden, weil wir darauf fixiert sind, dass wir mehr FLOPS, mehr GPUs und mehr Zeit brauchen", erklärt sie.

Hier sind fünf wichtige Strategien von Hugging Face, die Unternehmen jeder Größe helfen, KI effizienter einzusetzen.

1: Wählen Sie das richtige Modell für die jeweilige Aufgabe

Widerstehen Sie dem Drang, für jede Anwendung massive Allzweckmodelle zu verwenden. Spezialisierte oder destillierte Modelle können für bestimmte Aufgaben oft eine gleichwertige oder sogar bessere Genauigkeit erzielen - und das zu deutlich niedrigeren Kosten und mit geringerem Energieverbrauch.

Luccionis Untersuchungen zeigen, dass ein aufgabenspezifisches Modell 20 bis 30 Mal weniger Energie verbrauchen kann als ein Allzweckmodell. "Diese Modelle werden für einen einzigen Zweck erstellt, im Gegensatz zu großen Sprachmodellen, die für jede beliebige Abfrage ausgelegt sind", erklärte sie.

Die Modelldestillation ist hier entscheidend. Ein vollständiges Modell kann zunächst trainiert und anschließend für eine bestimmte Funktion verfeinert werden. Luccioni wies zum Beispiel darauf hin, dass DeepSeek R1 so groß ist, dass die meisten Unternehmen es sich nicht leisten können, es auszuführen, da oft mindestens 8 GPUs benötigt werden. Im Gegensatz dazu können destillierte Versionen 10 bis 30 Mal kleiner sein und auf einer einzigen GPU laufen.

Sie wies auch auf die Effizienzvorteile von Open-Source-Modellen hin, bei denen die Notwendigkeit entfällt, sie von Grund auf zu trainieren. Anders als noch vor einigen Jahren, als die Unternehmen Ressourcen für die Suche nach geeigneten Modellen verschwendeten, können sie jetzt mit einem Basismodell beginnen und es auf ihre Bedürfnisse abstimmen.

"Dies fördert die kollaborative, schrittweise Innovation anstelle von isolierten Bemühungen, bei denen jeder sein eigenes Modell trainiert und somit Rechenressourcen verschwendet", so Luccioni.

Es setzt sich zunehmend die Erkenntnis durch, dass die Kosten der generativen KI oft größer sind als ihr Nutzen, was in den Unternehmen zu Ernüchterung führt. Während generische Anwendungen wie das Verfassen von E-Mails oder die Transkription von Meetings wirklich hilfreich sind, erfordern aufgabenspezifische Modelle immer noch einen erheblichen Aufwand. Modelle von der Stange sind oft unzureichend und teurer, so Luccioni.

Die Überbrückung dieser Lücke stellt die nächste Grenze der Wertschöpfung dar. "Die meisten Unternehmen wollen eine bestimmte Aufgabe erfüllen", so Luccioni. "Sie suchen keine allgemeine künstliche Intelligenz (AGI), sondern eine spezielle Intelligenz. Das ist die Herausforderung, die wir angehen müssen."

2. Effizienz zum Standard machen

Integrieren Sie die Prinzipien der "Nudge-Theorie" in das Systemdesign, legen Sie konservative Berechnungsbudgets fest, begrenzen Sie die ständig aktiven generativen Funktionen und verlangen Sie von den Nutzern, dass sie sich für die kostenintensiven Berechnungsmodi entscheiden.

In der Verhaltenswissenschaft geht es bei der "Nudge-Theorie" um die subtile Steuerung von Entscheidungen, um positive Verhaltensweisen zu fördern. Luccioni nannte als klassisches Beispiel das Anbieten von Besteck bei Mahlzeiten zum Mitnehmen: Wenn man das Besteck als Option anbietet, anstatt es standardmäßig mitzuliefern, kann man den Abfall drastisch reduzieren.

"Allein die Umstellung von einem Opt-out- auf ein Opt-in-Modell kann das Nutzerverhalten stark beeinflussen", erklärte Luccioni.

Standardeinstellungen führen oft zu unnötiger Nutzung und erhöhten Kosten, da die Modelle Aufgaben ausführen, die sie nicht ausführen sollten. So generieren einige Suchmaschinen jetzt automatisch KI-Zusammenfassungen am Anfang der Ergebnisse. Luccioni beobachtete auch, dass das Modell bei der Verwendung von OpenAIs GPT-5 in letzter Zeit selbst bei sehr einfachen Abfragen standardmäßig in den vollständigen Denkmodus wechselte.

"Für mich sollte das die Ausnahme sein", sagte sie. "Wenn ich frage: 'Was ist der Sinn des Lebens?', dann kann eine KI-Zusammenfassung sicher nützlich sein. Aber für Fragen wie 'Wie ist das Wetter in Montreal?' oder 'Wie sind die Öffnungszeiten meiner örtlichen Apotheke? benötige ich keine generative Zusammenfassung. Die Standardeinstellung sollte sein, dass keine Argumentation erfolgt."

3. Optimierung der Hardware-Auslastung

Implementieren Sie die Stapelverarbeitung, passen Sie die numerische Präzision an und stimmen Sie die Stapelgrößen auf die jeweilige Hardwaregeneration ab, um die Speicherverschwendung und den Stromverbrauch zu minimieren.

Unternehmen sollten ihre spezifischen Anforderungen bewerten: Muss das Modell kontinuierlich laufen? Wird es mit Echtzeitanfragen konfrontiert, vielleicht 100 auf einmal? In solchen Fällen ist eine Always-on-Optimierung unerlässlich, so Luccioni. In vielen anderen Szenarien ist dies jedoch nicht der Fall; Modelle können in regelmäßigen Abständen ausgeführt werden, um Speicherplatz zu sparen, und durch Batching kann die Speichernutzung optimiert werden.

"Es ist eine technische Herausforderung, aber eine sehr spezifische, so dass es schwierig ist, pauschale Ratschläge zu erteilen wie 'destillieren Sie alle Modelle' oder 'ändern Sie die Genauigkeit bei allem'", so Luccioni.

In einer kürzlich durchgeführten Studie fand sie heraus, dass die ideale Chargengröße in hohem Maße von der Hardware abhängt, bis hin zum spezifischen Modell oder der Version. Eine Erhöhung der Chargengröße um nur eine Einheit kann manchmal den Energieverbrauch erhöhen, weil das Modell mehr Speicherressourcen benötigt.

"Das ist ein Aspekt, den die Leute oft übersehen. Sie denken: 'Ich werde einfach die Chargengröße maximieren', aber die wahre Effizienz ergibt sich aus der sorgfältigen Anpassung all dieser Variablen. Das Ergebnis ist ein hoch optimiertes System, das jedoch auf einen ganz bestimmten Kontext zugeschnitten ist", erklärt Luccioni.

4. Anreize für Energietransparenz schaffen

Anreize fördern den Wandel. Vor diesem Hintergrund hat Hugging Face Anfang des Jahres den AI Energy Score eingeführt. Diese Initiative fördert die Energieeffizienz mit Hilfe eines Bewertungssystems von 1 bis 5 Sternen, wobei die effizientesten Modelle mit fünf Sternen ausgezeichnet werden.

Man kann es als "Energy Star für KI" bezeichnen, inspiriert von dem langjährigen Bundesprogramm, das Effizienzstandards festlegt und qualifizierte Geräte mit seinem Logo kennzeichnet.

"Jahrzehntelang war diese Sterne-Kennzeichnung ein starker Motivator. Die Menschen wollten es", sagte Luccioni. "Eine ähnliche Wirkung mit dem Energy Score zu erzielen, wäre fantastisch".

Hugging Face hat ein öffentliches Leaderboard eingerichtet, das im September mit neuen Modellen wie DeepSeek und GPT-oss aktualisiert werden soll und alle sechs Monate oder bei Erscheinen neuer Modelle aktualisiert wird. Ziel ist es, dass die Modellentwickler eine hohe Bewertung als "Ehrenabzeichen" betrachten, so Luccioni.

5. Die Denkweise "Mehr Rechenleistung ist besser" überdenken

Anstatt nach den größten GPU-Clustern zu streben, sollten Sie sich zunächst fragen: "Was ist der intelligenteste Weg, um das gewünschte Ergebnis zu erreichen?" Bei zahlreichen Anwendungen führen intelligentere Architekturen und besser kuratierte Datensätze zu besseren Ergebnissen als eine Skalierung mit roher Gewalt.

"Ich glaube, dass die meisten Leute gar nicht so viele GPUs brauchen, wie sie denken", sagte Luccioni. Sie ermutigte die Unternehmen, die tatsächlichen Aufgaben zu überdenken, die ihre GPUs bewältigen werden, warum sie notwendig sind, wie diese Aufgaben zuvor ausgeführt wurden und welche greifbaren Vorteile zusätzliche GPUs tatsächlich bringen werden.

"Es ist ein Wettlauf nach unten geworden, bei dem jeder meint, einen größeren Cluster zu brauchen", sagte sie. "Der Schlüssel liegt darin, zu analysieren, wofür man KI einsetzt, welche spezifischen Techniken erforderlich sind und was diese Techniken wirklich erfordern."

Verwandter Artikel

Amazon vermittelt 2025 100 Milliarden US -Dollar für KI Trotz der jüngsten Begeisterung, die darauf hindeutet, dass Deepseek eine Ära von reduzierten KI -Budgets einläuten würde, gibt es keinen Hinweis darauf, dass Big Tech auf die Bremsen tritt. Im Gegenteil, sie treten auf das Gas. Amazon ist der jüngste Riese, der einen kräftigen KI -Ausgabenplan enthüllt, der über 100 Milliarden US -Dollar an CAPI prognostiziert wird

Nvidia enthüllt GPUs der nächsten Generation: Blackwell Ultra, Vera Rubin, Feynman Auf der GTC 2025 -Konferenz von NVIDIA in San Jose am Dienstag stellte CEO Jensen Huang eine Reihe von bevorstehenden GPUs vor, die in den kommenden Monaten auf den Markt kommen sollen. Der Star der Show? Die Vera Rubin GPU, die für eine Freisetzung in der zweiten Halbzeit 2026 geplant ist. Dieses Tier verfügt über zehn Gigabyte Gedächtnis und kommt mit einem Cust

Claude wurde zur Erstellung bösartiger npm-Pakete genutzt: Über 670 kompromittierte Pakete gefährden Open Source Ein kürzlich aufgetretener Cybersicherheitsvorfall zeigt, wie große Sprachmodelle (LLMs) für die Entwicklung von Schadsoftware missbraucht werden. Der Sicherheitsforscher Sibi Moosa entdeckte einen An

Empfehlungen zu verwandten Spezialthemen

Animationserstellung

AI-Anime-Generator für Donghua: Erstellen Sie Charaktere für Web-Romane und Comic-Avatare

Entdecken Sie die besten AI-Anime-Generatoren für Donghua im Jahr 2026. Unsere hochbewertete, sorgfältig ausgewählte Liste bietet leistungsstarke Tools, mit denen Sie atemberaubende Charaktere für Webromane und Comic-Avatare erstellen können. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand realer Tests. Finden Sie Ihren perfekten kreativen Partner und bringen Sie Ihre Geschichten noch heute bei XIX.AI zum Leben.

10 Tools

xix.ai

Comic-Erstellung

Die besten KI-Tools zur automatischen Kolorierung von Manga: Flache Farben ohne Konsistenzfehler anwenden

Entdecken Sie bei XIX.AI die besten KI-Tools zur automatischen Kolorierung von Manga für das Jahr 2026. Unsere sorgfältig zusammengestellte Liste enthält erstklassige, bahnbrechende Lösungen, die flächige Farben ohne Konsistenzfehler auftragen und so Ihre Produktivität steigern. Entdecken Sie Vergleiche zwischen kostenlosen und kostenpflichtigen Angeboten, Praxistests und wöchentlich aktualisierte Rankings, um das für Sie perfekte Tool zu finden. Nutzen Sie noch heute Ihren KI-Vorteil.

10 Tools

xix.ai

Schreiben

Die besten KI-Profilersteller: Erstellen Sie konsistente Charaktermotivationen und fatale Schwächen

Entdecken Sie die besten KI-Tools zur Charakterentwicklung für 2026, mit denen Sie facettenreiche Figuren erschaffen können. Die von XIX.AI zusammengestellte Liste enthält erstklassige, bahnbrechende Tools, die konsistente Motivationen und fatale Schwächen generieren. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Praxistests. Entfalten Sie jetzt Ihr Potenzial als Geschichtenerzähler.

10 Tools

xix.ai

Geschäft

Die beste Software zur Preisoptimierung mittels KI: Beobachten Sie die Konkurrenz und passen Sie Ihre Shop-Preise automatisch an

Entdecken Sie auf XIX.AI die beste Software zur Preisoptimierung mittels KI für 2026. Unsere sorgfältig zusammengestellte Liste enthält erstklassige, bahnbrechende Tools, die Ihre Mitbewerber beobachten und Ihre Shop-Preise automatisch anpassen, um den maximalen Gewinn zu erzielen. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Praxistests. Sichern Sie sich jetzt Ihren Preisvorteil.

10 Tools

xix.ai

Code

Die besten KI-Code-Prüfer: Automatisierung der Einhaltung von Clean-Code-Standards und Refactoring von Dateien in älteren Repositorys

Entdecken Sie die besten KI-Code-Reviewer des Jahres 2026 auf XIX.AI. Unsere sorgfältig zusammengestellte Liste enthält erstklassige, bahnbrechende Tools zur Automatisierung der Einhaltung von Clean-Code-Standards und zur Refaktorisierung von Dateien in älteren Repositorys. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Praxistests und wöchentlich aktualisierten Rankings. Sichern Sie sich noch heute Ihren KI-Vorsprung.

10 Tools

xix.ai

Text-zu-Sprache

Die besten KI-Sprachausgabe-Apps für Legasthenie: Unterstützung für das Lernen und effizienteres Lesen bei Schülern

Entdecken Sie die besten KI-TTS-Apps des Jahres 2026, die speziell zur Unterstützung bei Legasthenie ausgewählt wurden. In unseren Experten-Rankings vergleichen wir kostenlose und kostenpflichtige Tools und stellen leistungsstarke Funktionen für mehr Leseeffizienz und besseren Lernerfolg vor. Entdecken Sie bahnbrechende Lösungen, die Sie unbedingt ausprobieren sollten, um das Potenzial Ihrer Schüler voll auszuschöpfen. Beginnen Sie Ihre Reise bei XIX.AI.

10 Tools

xix.ai