Googles Gemma 3 erreicht 98% der Genauigkeit von Deepseek mit nur einer GPU
1. Mai 2025
RichardJackson
0
Die Ökonomie der künstlichen Intelligenz ist in letzter Zeit zu einem wichtigen Schwerpunkt geworden, insbesondere bei Startup Deepseek AI, das beeindruckende Skaleneffekte bei der Verwendung von GPU -Chips zeigt. Aber Google wird nicht übertroffen. Am Mittwoch stellte der Tech-Riese sein jüngstes Open-Source-Großsprachmodell Gemma 3 vor, das fast der Genauigkeit des R1-Modells von Deepseek entspricht und dennoch deutlich weniger Rechenleistung verwendet.
Google hat diese Leistung anhand der "ELO" -Erunde gemessen, ein System, das üblicherweise in Schach und Sport verwendet wird, um Konkurrenten zu bewerten. Gemma 3 erzielte einen 1338, der gerade von R1 von 1363 scheut, was bedeutet, dass R1 Gemma technisch übertrifft. Google wirbt für diese Balance aus Computer und Elo -Punktzahl als "Sweet Spot".
In einem Blog -Beitrag beschreibt Google Gemma 3 als "das fähigste Modell, das Sie auf einer einzelnen GPU oder TPU ausführen können, und bezieht sich auf einen eigenen benutzerdefinierten KI -Chip, die" Tensor -Verarbeitungseinheit ". Das Unternehmen behauptet, dass Gemma 3 "eine modernste Leistung für seine Größe liefert", überschüttete Modelle wie Lama-405b, Deepseek-V3 und O3-Mini in Bewertungen des menschlichen Präferenzbewertungen in Larena's Rangliste. Diese Leistung erleichtert es, ansprechende Benutzererfahrungen auf einem einzelnen GPU- oder TPU -Host zu erstellen.
Google
Das Modell von Google übertrifft auch das LLAMA 3 von Meta in ELO Score, was für Google Schätzungen 16 GPUs benötigen würde. Es ist erwähnenswert, dass diese Zahlen für konkurrierende Modelle die Schätzungen von Google sind. Die Deepseek AI hat nur mit 1.814 Nvidia's weniger Kraft H800-GPUs für R1 bekannt gegeben.
In einem Entwickler-Blog-Beitrag über Huggingface finden Sie ein ausführlicheres Informationen, in dem das Gemma 3-Repository verfügbar ist. Gemma 3 wurde für die Verwendung von On-Device-Verwendung und nicht für Rechenzentren entwickelt und weist eine deutlich geringere Anzahl von Parametern im Vergleich zu R1 und anderen Open-Source-Modellen auf. Mit den Parameterzahlen im Bereich von 1 Milliarde bis 27 Milliarden ist Gemma 3 nach aktuellen Maßstäben recht bescheiden, während R1 eine kräftige Parameter von 671 Milliarden aufweist, die jedoch selektiv nur 37 Milliarden verwenden kann.
Der Schlüssel zur Effizienz von Gemma 3 ist eine weit verbreitete AI -Technik, die Destillation namens Destillation nennt, bei der geschulte Modellgewichte aus einem größeren Modell auf eine kleinere übertragen werden, wodurch seine Fähigkeiten verbessert werden. Darüber hinaus erfährt das destillierte Modell drei Qualitätskontrollmaßnahmen: Verstärkungslernen aus menschlichem Feedback (RLHF), Verstärkungslernen aus dem maschinellen Feedback (RLMF) und Verstärkungslernen aus der Ausführung Feedback (RLEF). Diese helfen dabei, die Ausgaben des Modells zu verfeinern, sie hilfreicher zu machen und die Mathematik- und Codierungsfähigkeiten zu verbessern.
Googles Entwickler -Blog beschreibt diese Ansätze, und in einem weiteren Beitrag werden Optimierungstechniken für das kleinste 1 -Milliarden -Parametermodell für mobile Geräte erörtert. Dazu gehören Quantisierung, Aktualisierung von Schlüsselwert-Cache-Layouts, Verbesserung der variablen Ladezeiten und die Gewichtsfreigabe von GPU.
Google vergleicht Gemma 3 nicht nur mit ELO-Ergebnissen, sondern auch mit seinem Vorgänger Gemma 2 und seinen geschlossenen Gemini-Modellen auf verschiedenen Benchmarks wie LiveCodebench. Während Gemma 3 in der Genauigkeit von Gemini 1.5 und Gemini 2.0 im Allgemeinen hinteren, stellt Google fest, dass es "die Wettbewerbsleistung im Vergleich zu geschlossenen Gemini -Modellen zeigt", obwohl sie weniger Parameter haben.
Google
Ein erhebliches Upgrade in Gemma 3 gegenüber Gemma 2 ist das längere "Kontextfenster", das von 8.000 auf 128.000 Token expandiert. Auf diese Weise kann das Modell größere Texte wie ganze Papiere oder Bücher verarbeiten. Gemma 3 ist auch multi-modal und kann im Gegensatz zu seinem Vorgänger sowohl Text- als auch Bildeingänge behandeln. Darüber hinaus unterstützt es über 140 Sprachen, eine enorme Verbesserung gegenüber den englischen Fähigkeiten von Gemma 2.
Abgesehen von diesen Hauptmerkmalen gibt es mehrere andere interessante Aspekte von Gemma 3. Ein Problem mit Großsprachenmodellen ist das Potenzial, Teile ihrer Trainingsdaten zu merken, was zu Verletzungen für Privatsphäre führen kann. Die Forscher von Google testeten Gemma 3 dafür und stellten fest, dass er sich mit einer niedrigeren Rate langfristiger Text auswendig lernte als seine Vorgänger, was auf einen verbesserten Schutz des Datenschutzes hinweist.
Für diejenigen, die sich für das Nitty-Gritty interessieren, bietet das Gemma 3-technische Papier eine gründliche Aufschlüsselung der Fähigkeiten und der Entwicklung des Modells.
Verwandter Artikel
Verwenden Sie Chatgpt, um ein überlegenes Anschreiben zu erstellen: Tipps und Tricks
Das Erstellen eines Lebenslaufs, der Ihre Karriere perfekt zusammenfasst, ist eine Herausforderung, aber Bewerbungen erfordern häufig auch ein Anschreiben. Dieser Brief ist Ihre Chance, sich mit den Einzelheiten zu befassen, warum Sie sich für das Unternehmen interessieren, was Sie für die Position qualifiziert und warum Sie die beste ehrliche Menschen sind
Drei Lösungen zur Lösung von Eleven Labs 'KI -Sprachgenerierungsproblemen
Wenn Sie ein Fan von elf Labors, dem A-To-AI-Sprachgenerator, sind, sind Sie möglicherweise auf dem Weg auf einige Schluckaufe begegnet. Mach dir keine Sorgen; Dieser Artikel ist hier, um Ihnen dabei zu helfen, diese frustrierenden Probleme zu steuern und Ihren KI -Sprachinhalt reibungslos zu halten. Vom Umgang mit IP -Adressbeschränkungen zu Veri
Pika.Art enthüllt neue KI -Videofunktionen und Updates in Redesign
Pika.art, ein Wegbereiter in der KI-gesteuerten Videogenerierungsszene, hat gerade ein großes Facelifting ausgelöst. Die Website der Plattform hat eine vollständige Neugestaltung durchlaufen und einige bahnbrechende Funktionen eingeführt, die versprechen, Ihr Video-Herstellungserlebnis zu verbessern. Bei diesen Updates geht es um das Erstellen
Kommentare (0)
0/200






Die Ökonomie der künstlichen Intelligenz ist in letzter Zeit zu einem wichtigen Schwerpunkt geworden, insbesondere bei Startup Deepseek AI, das beeindruckende Skaleneffekte bei der Verwendung von GPU -Chips zeigt. Aber Google wird nicht übertroffen. Am Mittwoch stellte der Tech-Riese sein jüngstes Open-Source-Großsprachmodell Gemma 3 vor, das fast der Genauigkeit des R1-Modells von Deepseek entspricht und dennoch deutlich weniger Rechenleistung verwendet.
Google hat diese Leistung anhand der "ELO" -Erunde gemessen, ein System, das üblicherweise in Schach und Sport verwendet wird, um Konkurrenten zu bewerten. Gemma 3 erzielte einen 1338, der gerade von R1 von 1363 scheut, was bedeutet, dass R1 Gemma technisch übertrifft. Google wirbt für diese Balance aus Computer und Elo -Punktzahl als "Sweet Spot".
In einem Blog -Beitrag beschreibt Google Gemma 3 als "das fähigste Modell, das Sie auf einer einzelnen GPU oder TPU ausführen können, und bezieht sich auf einen eigenen benutzerdefinierten KI -Chip, die" Tensor -Verarbeitungseinheit ". Das Unternehmen behauptet, dass Gemma 3 "eine modernste Leistung für seine Größe liefert", überschüttete Modelle wie Lama-405b, Deepseek-V3 und O3-Mini in Bewertungen des menschlichen Präferenzbewertungen in Larena's Rangliste. Diese Leistung erleichtert es, ansprechende Benutzererfahrungen auf einem einzelnen GPU- oder TPU -Host zu erstellen.
Google
Das Modell von Google übertrifft auch das LLAMA 3 von Meta in ELO Score, was für Google Schätzungen 16 GPUs benötigen würde. Es ist erwähnenswert, dass diese Zahlen für konkurrierende Modelle die Schätzungen von Google sind. Die Deepseek AI hat nur mit 1.814 Nvidia's weniger Kraft H800-GPUs für R1 bekannt gegeben.
In einem Entwickler-Blog-Beitrag über Huggingface finden Sie ein ausführlicheres Informationen, in dem das Gemma 3-Repository verfügbar ist. Gemma 3 wurde für die Verwendung von On-Device-Verwendung und nicht für Rechenzentren entwickelt und weist eine deutlich geringere Anzahl von Parametern im Vergleich zu R1 und anderen Open-Source-Modellen auf. Mit den Parameterzahlen im Bereich von 1 Milliarde bis 27 Milliarden ist Gemma 3 nach aktuellen Maßstäben recht bescheiden, während R1 eine kräftige Parameter von 671 Milliarden aufweist, die jedoch selektiv nur 37 Milliarden verwenden kann.
Der Schlüssel zur Effizienz von Gemma 3 ist eine weit verbreitete AI -Technik, die Destillation namens Destillation nennt, bei der geschulte Modellgewichte aus einem größeren Modell auf eine kleinere übertragen werden, wodurch seine Fähigkeiten verbessert werden. Darüber hinaus erfährt das destillierte Modell drei Qualitätskontrollmaßnahmen: Verstärkungslernen aus menschlichem Feedback (RLHF), Verstärkungslernen aus dem maschinellen Feedback (RLMF) und Verstärkungslernen aus der Ausführung Feedback (RLEF). Diese helfen dabei, die Ausgaben des Modells zu verfeinern, sie hilfreicher zu machen und die Mathematik- und Codierungsfähigkeiten zu verbessern.
Googles Entwickler -Blog beschreibt diese Ansätze, und in einem weiteren Beitrag werden Optimierungstechniken für das kleinste 1 -Milliarden -Parametermodell für mobile Geräte erörtert. Dazu gehören Quantisierung, Aktualisierung von Schlüsselwert-Cache-Layouts, Verbesserung der variablen Ladezeiten und die Gewichtsfreigabe von GPU.
Google vergleicht Gemma 3 nicht nur mit ELO-Ergebnissen, sondern auch mit seinem Vorgänger Gemma 2 und seinen geschlossenen Gemini-Modellen auf verschiedenen Benchmarks wie LiveCodebench. Während Gemma 3 in der Genauigkeit von Gemini 1.5 und Gemini 2.0 im Allgemeinen hinteren, stellt Google fest, dass es "die Wettbewerbsleistung im Vergleich zu geschlossenen Gemini -Modellen zeigt", obwohl sie weniger Parameter haben.
Google
Ein erhebliches Upgrade in Gemma 3 gegenüber Gemma 2 ist das längere "Kontextfenster", das von 8.000 auf 128.000 Token expandiert. Auf diese Weise kann das Modell größere Texte wie ganze Papiere oder Bücher verarbeiten. Gemma 3 ist auch multi-modal und kann im Gegensatz zu seinem Vorgänger sowohl Text- als auch Bildeingänge behandeln. Darüber hinaus unterstützt es über 140 Sprachen, eine enorme Verbesserung gegenüber den englischen Fähigkeiten von Gemma 2.
Abgesehen von diesen Hauptmerkmalen gibt es mehrere andere interessante Aspekte von Gemma 3. Ein Problem mit Großsprachenmodellen ist das Potenzial, Teile ihrer Trainingsdaten zu merken, was zu Verletzungen für Privatsphäre führen kann. Die Forscher von Google testeten Gemma 3 dafür und stellten fest, dass er sich mit einer niedrigeren Rate langfristiger Text auswendig lernte als seine Vorgänger, was auf einen verbesserten Schutz des Datenschutzes hinweist.
Für diejenigen, die sich für das Nitty-Gritty interessieren, bietet das Gemma 3-technische Papier eine gründliche Aufschlüsselung der Fähigkeiten und der Entwicklung des Modells.












