Ant Group stellt F2LLM-v2 vor: ein mehrsprachiges Embedding-Modell in voller Größe
Die Überwindung der „englischzentrierten“ Einschränkung bei der semantischen Darstellung hat sich zu einer zentralen Herausforderung in der Weiterentwicklung großer Sprachmodelle entwickelt.
Am 26. März veröffentlichte das CodeFuse-Team der Ant Group und der Shanghai Jiao Tong University offiziell die F2LLM-v2-Reihe von Embedding-Modellen. Diese Reihe erzielte nicht nur führende Leistungen in maßgeblichen Benchmarks, sondern bietet Entwicklern weltweit durch einen vollständig quelloffenen Ansatz auch eine leistungsstarke und effiziente Lösung für die semantische Darstellung.

Außergewöhnliche Leistung: 11 SOTA-Ergebnisse bei MTEB
Im maßgeblichen MTEB-Benchmark zur Bewertung von Embedding-Modellen zeigte F2LLM-v2 umfassende Stärken:
11 Spitzenplatzierungen: Es sicherte sich den ersten Platz in 11 sprach- und domänenspezifischen Ranglisten, darunter Deutsch, Französisch, Japanisch und Code-Retrieval.
Ein beeindruckender Herausforderer: Selbst seine schlanken Varianten übertrafen durchweg bekannte Branchenmodelle vergleichbarer Größe.
Umfassende Abdeckung: Die Bewertung umfasste 430 verschiedene Teilaufgaben, wie medizinische Fragen und Antworten sowie Code-Retrieval, und erzielte eine vollständige Szenarioabdeckung.

Umfassendes Verständnis: Beherrschung von 282 natürlichen Sprachen und über 40 Programmiersprachen
Die Leistungsfähigkeit von F2LLM-v2 beruht auf seiner äußerst umfassenden Trainingsgrundlage:
Mehrsprachige Erweiterung: Es bietet verbesserte Unterstützung für Sprachen mit geringen und mittleren Ressourcen (wie nordische und südostasiatische Sprachfamilien) und ermöglicht so eine echte globale Sprachabdeckung.
Programmierkompetenz: Mit einem tiefgreifenden Verständnis von über 40 Programmiersprachen wie Python, Java und Go ist es die ideale Wahl für Entwickler, die RAG-Systeme (Retrieval-Augmented Generation) und Code-Assistenten erstellen.
Hochwertige Daten: Auf der Grundlage von 60 Millionen sorgfältig bereinigten öffentlichen Beispielen gewährleistet es sowohl die Reinheit als auch die Breite der Wissensbasis des Modells.

Extreme Effizienz: Eine komplette Modellfamilie mit einer Skalierung von 80 Millionen bis 14 Milliarden Parametern
Um den Anforderungen von Mobilgeräten bis hin zum Cloud-Computing gerecht zu werden, hat das CodeFuse-Team eine umfassende Modellmatrix entwickelt:
Für Mobilgeräte optimiert: Kompakte Modelle mit 80 Mio. bis 330 Mio. Parametern nutzen Techniken wie „Model Pruning“ und „Knowledge Distillation“ und ermöglichen so einen reibungslosen Betrieb auf mobilen Plattformen.
„Verschachtelte“ Innovation: Es unterstützt die dynamische Dimensionsanpassung, sodass Benutzer flexibel zwischen 8 Dimensionen und voller Dimensionen wechseln können, wodurch der Kompromiss zwischen Inferenzgeschwindigkeit und Speicherkosten optimiert wird.
Vollständig Open Source: Transparenz setzt einen neuen Community-Standard
Im Gegensatz zu vielen „Black-Box“-Modellen verfolgt F2LLM-v2 eine vollständig auf Open Source basierende Philosophie:
Vollständige Veröffentlichung: Alle Modellgewichte für jede Größenvariante stehen zum Download bereit.
Detaillierte Transparenz: Es wird ein umfassender technischer Bericht veröffentlicht, der die gesamte Trainingsmethodik offenlegt.
Volle Reproduzierbarkeit: Der gesamte Code und alle Trainings-Checkpoints werden veröffentlicht, sodass Forscher weltweit auf dieser Arbeit aufbauen und sie weiterentwickeln können.
Fazit: Grenzen überwinden, um das unendliche Potenzial der KI zu erkunden
Als weiterer bedeutender Meilenstein in der CodeFuse Open-Source-Reihe ist die Veröffentlichung von F2LLM-v2
Verwandter Artikel
Claude Opus 4.7 startet mit dem Grundsatz, dass Zuverlässigkeit vor Intelligenz geht
Anthropic hat in diesem Jahr ein hohes Tempo beibehalten und fast jeden zweiten Tag neue Funktionen eingeführt. Das mit Spannung erwartete Claude Opus 4.7 wurde soeben offiziell veröffentlicht, und in
Haier bringt den weltweit leichtesten KI-Sport-Exoskelett-Roboter mit einem Gewicht von nur 1,75 kg auf den Markt
Die Haier Group hat den weltweit leichtesten KI-gestützten Exoskelett-Roboter für den Sport vorgestellt – den Haier Exoskeleton Robot W3. Diese Markteinführung stellt einen neuen Branchenrekord in Sac
Yaoke Medias erste AIGC-Serie „Das Geheimnis der Bronzefiguren im Qinling-Gebirge“ startet heute mit KI-generierten Hauptdarstellern
Heute ist der offizielle Starttag von Yaoke Medias AIGC-Fantasy-Mystery-Kurzserie „Die geheime Geschichte der Qinling-Bronze“. Mit den ersten beiden unter Vertrag genommenen KI-Schauspielern des Unter
Empfehlungen zu verwandten Spezialthemen
Kommentare (0)
Die Überwindung der „englischzentrierten“ Einschränkung bei der semantischen Darstellung hat sich zu einer zentralen Herausforderung in der Weiterentwicklung großer Sprachmodelle entwickelt.
Am 26. März veröffentlichte das CodeFuse-Team der Ant Group und der Shanghai Jiao Tong University offiziell die F2LLM-v2-Reihe von Embedding-Modellen. Diese Reihe erzielte nicht nur führende Leistungen in maßgeblichen Benchmarks, sondern bietet Entwicklern weltweit durch einen vollständig quelloffenen Ansatz auch eine leistungsstarke und effiziente Lösung für die semantische Darstellung.

Außergewöhnliche Leistung: 11 SOTA-Ergebnisse bei MTEB
Im maßgeblichen MTEB-Benchmark zur Bewertung von Embedding-Modellen zeigte F2LLM-v2 umfassende Stärken:
11 Spitzenplatzierungen: Es sicherte sich den ersten Platz in 11 sprach- und domänenspezifischen Ranglisten, darunter Deutsch, Französisch, Japanisch und Code-Retrieval.
Ein beeindruckender Herausforderer: Selbst seine schlanken Varianten übertrafen durchweg bekannte Branchenmodelle vergleichbarer Größe.
Umfassende Abdeckung: Die Bewertung umfasste 430 verschiedene Teilaufgaben, wie medizinische Fragen und Antworten sowie Code-Retrieval, und erzielte eine vollständige Szenarioabdeckung.

Umfassendes Verständnis: Beherrschung von 282 natürlichen Sprachen und über 40 Programmiersprachen
Die Leistungsfähigkeit von F2LLM-v2 beruht auf seiner äußerst umfassenden Trainingsgrundlage:
Mehrsprachige Erweiterung: Es bietet verbesserte Unterstützung für Sprachen mit geringen und mittleren Ressourcen (wie nordische und südostasiatische Sprachfamilien) und ermöglicht so eine echte globale Sprachabdeckung.
Programmierkompetenz: Mit einem tiefgreifenden Verständnis von über 40 Programmiersprachen wie Python, Java und Go ist es die ideale Wahl für Entwickler, die RAG-Systeme (Retrieval-Augmented Generation) und Code-Assistenten erstellen.
Hochwertige Daten: Auf der Grundlage von 60 Millionen sorgfältig bereinigten öffentlichen Beispielen gewährleistet es sowohl die Reinheit als auch die Breite der Wissensbasis des Modells.

Extreme Effizienz: Eine komplette Modellfamilie mit einer Skalierung von 80 Millionen bis 14 Milliarden Parametern
Um den Anforderungen von Mobilgeräten bis hin zum Cloud-Computing gerecht zu werden, hat das CodeFuse-Team eine umfassende Modellmatrix entwickelt:
Für Mobilgeräte optimiert: Kompakte Modelle mit 80 Mio. bis 330 Mio. Parametern nutzen Techniken wie „Model Pruning“ und „Knowledge Distillation“ und ermöglichen so einen reibungslosen Betrieb auf mobilen Plattformen.
„Verschachtelte“ Innovation: Es unterstützt die dynamische Dimensionsanpassung, sodass Benutzer flexibel zwischen 8 Dimensionen und voller Dimensionen wechseln können, wodurch der Kompromiss zwischen Inferenzgeschwindigkeit und Speicherkosten optimiert wird.
Vollständig Open Source: Transparenz setzt einen neuen Community-Standard
Im Gegensatz zu vielen „Black-Box“-Modellen verfolgt F2LLM-v2 eine vollständig auf Open Source basierende Philosophie:
Vollständige Veröffentlichung: Alle Modellgewichte für jede Größenvariante stehen zum Download bereit.
Detaillierte Transparenz: Es wird ein umfassender technischer Bericht veröffentlicht, der die gesamte Trainingsmethodik offenlegt.
Volle Reproduzierbarkeit: Der gesamte Code und alle Trainings-Checkpoints werden veröffentlicht, sodass Forscher weltweit auf dieser Arbeit aufbauen und sie weiterentwickeln können.
Fazit: Grenzen überwinden, um das unendliche Potenzial der KI zu erkunden
Als weiterer bedeutender Meilenstein in der CodeFuse Open-Source-Reihe ist die Veröffentlichung von F2LLM-v2
Claude Opus 4.7 startet mit dem Grundsatz, dass Zuverlässigkeit vor Intelligenz geht
Anthropic hat in diesem Jahr ein hohes Tempo beibehalten und fast jeden zweiten Tag neue Funktionen eingeführt. Das mit Spannung erwartete Claude Opus 4.7 wurde soeben offiziell veröffentlicht, und in
Haier bringt den weltweit leichtesten KI-Sport-Exoskelett-Roboter mit einem Gewicht von nur 1,75 kg auf den Markt
Die Haier Group hat den weltweit leichtesten KI-gestützten Exoskelett-Roboter für den Sport vorgestellt – den Haier Exoskeleton Robot W3. Diese Markteinführung stellt einen neuen Branchenrekord in Sac
Yaoke Medias erste AIGC-Serie „Das Geheimnis der Bronzefiguren im Qinling-Gebirge“ startet heute mit KI-generierten Hauptdarstellern
Heute ist der offizielle Starttag von Yaoke Medias AIGC-Fantasy-Mystery-Kurzserie „Die geheime Geschichte der Qinling-Bronze“. Mit den ersten beiden unter Vertrag genommenen KI-Schauspielern des Unter





Heim






