Maison
Le plugin IA de Sakana AI simplifie le traitement des documents pour les grands modèles
Les difficultés rencontrées par les grands modèles linguistiques dans le traitement de textes longs, souvent qualifiées d’« anxiété de mémoire », pourraient bientôt appartenir au passé. Récemment, la start-up d'IA Sakana AI, basée à Tokyo, a dévoilé deux technologies révolutionnaires : Text-to-LoRA (T2L) et Doc-to-LoRA (D2L). Grâce à une architecture innovante de « super-réseau », ces technologies permettent aux grands modèles d'« absorber » des documents volumineux ou d'apprendre de nouvelles tâches en moins d'une seconde, le tout sans réentraînement.

Les développeurs d'IA sont depuis longtemps confrontés à un choix difficile : entasser de longs documents dans une fenêtre de chat — ce qui ralentit les réponses et consomme beaucoup de mémoire — ou payer le coût élevé du réglage fin d'un modèle. Sakana AI propose une troisième option. Grâce à un paiement unique pour le pré-entraînement, elle génère des plugins de poids minimes (LoRA) pour permettre une adaptation des modèles efficace et à faible coût.
Doc-to-LoRA : les besoins en mémoire passent de 12 Go à seulement 50 Mo
Il s'agit de la technologie la plus impressionnante de cette dernière version. Le traitement d'un document de 128 000 tokens (environ 100 000 mots) avec les méthodes traditionnelles nécessite plus de 12 Go de VRAM pour stocker les informations. Avec D2L, le modèle peut directement « digérer » ces informations pour les transformer en un plugin de moins de 50 Mo.
Une vitesse remarquable: les technologies existantes nécessitent entre 40 et 100 secondes pour traiter un document, tandis que D2L y parvient en moins d'une seconde.
Repousser les limites: cela permet aux modèles de traiter des textes jusqu’à quatre fois plus longs que leur fenêtre de contexte d’origine, atteignant une précision quasi parfaite lors de tests de recherche de type « aiguille dans une botte de foin ».
Text-to-LoRA : personnaliser l'IA avec le langage courant
Text-to-LoRA rend les modèles plus réactifs. Les utilisateurs décrivent simplement une tâche en langage naturel — par exemple, « aide-moi à résoudre un problème complexe de mathématiques » — et le système génère automatiquement un plugin dédié pour améliorer les performances. Des expériences révèlent que les adaptateurs créés de cette manière peuvent surpasser les modèles dédiés entraînés à partir de zéro sur des tâches de mathématiques et de raisonnement logique.
Une technologie intermodale puissante : permettre aux modèles textuels de « voir » les images
Les chercheurs ont découvert un avantage inattendu : D2L présente de solides capacités cross-modales. En mappant les informations visuelles dans les paramètres d’un modèle purement textuel, un modèle qui n’a jamais traité d’images auparavant peut les classer avec une précision de **75,03 %**.
Les réalisations de Sakana AI réduisent considérablement les obstacles pour les particuliers et les entreprises souhaitant personnaliser des modèles d'IA privés. Elles ouvrent également une nouvelle voie vers le développement d'une intelligence artificielle générale (AGI) plus légère et plus intelligente.
Article : https://arxiv.org/pdf/2602.15902
Article connexe
China Telecom investit dans Mianbi Intelligence et porte son capital à 713 000 yuans pour développer des modèles de langage de grande envergure (LLM) et une infrastructure de données
L'«équipe nationale» et la figure de proue de l'université Tsinghua dans le domaine des grands modèles renforcent leur alliance stratégique. Le 1er mars 2026, selon les dernières données d'enregistrem
Le groupe Taotian accélère sa restructuration axée sur l'IA et offre des quotas de jetons gratuits à ses stagiaires
Le groupe TaoTian a récemment lancé le « Plan de productivité IA », conçu pour accélérer l'intégration de la technologie IA dans les opérations de commerce électronique et les processus de R&D grâce à
Glean vise les infrastructures d'IA d'entreprise dans une course à l'acquisition de parts de marché
La course à la domination du marché de l'IA d'entreprise s'accélère. Microsoft intègre Copilot à Office, Google intègre Gemini à Workspace, tandis qu'OpenAI et Anthropic commercialisent leurs produits
Recommandations de sujets spéciaux liés
commentaires (0)
Les difficultés rencontrées par les grands modèles linguistiques dans le traitement de textes longs, souvent qualifiées d’« anxiété de mémoire », pourraient bientôt appartenir au passé. Récemment, la start-up d'IA Sakana AI, basée à Tokyo, a dévoilé deux technologies révolutionnaires : Text-to-LoRA (T2L) et Doc-to-LoRA (D2L). Grâce à une architecture innovante de « super-réseau », ces technologies permettent aux grands modèles d'« absorber » des documents volumineux ou d'apprendre de nouvelles tâches en moins d'une seconde, le tout sans réentraînement.

Les développeurs d'IA sont depuis longtemps confrontés à un choix difficile : entasser de longs documents dans une fenêtre de chat — ce qui ralentit les réponses et consomme beaucoup de mémoire — ou payer le coût élevé du réglage fin d'un modèle. Sakana AI propose une troisième option. Grâce à un paiement unique pour le pré-entraînement, elle génère des plugins de poids minimes (LoRA) pour permettre une adaptation des modèles efficace et à faible coût.
Doc-to-LoRA : les besoins en mémoire passent de 12 Go à seulement 50 Mo
Il s'agit de la technologie la plus impressionnante de cette dernière version. Le traitement d'un document de 128 000 tokens (environ 100 000 mots) avec les méthodes traditionnelles nécessite plus de 12 Go de VRAM pour stocker les informations. Avec D2L, le modèle peut directement « digérer » ces informations pour les transformer en un plugin de moins de 50 Mo.
Une vitesse remarquable: les technologies existantes nécessitent entre 40 et 100 secondes pour traiter un document, tandis que D2L y parvient en moins d'une seconde.
Repousser les limites: cela permet aux modèles de traiter des textes jusqu’à quatre fois plus longs que leur fenêtre de contexte d’origine, atteignant une précision quasi parfaite lors de tests de recherche de type « aiguille dans une botte de foin ».
Text-to-LoRA : personnaliser l'IA avec le langage courant
Text-to-LoRA rend les modèles plus réactifs. Les utilisateurs décrivent simplement une tâche en langage naturel — par exemple, « aide-moi à résoudre un problème complexe de mathématiques » — et le système génère automatiquement un plugin dédié pour améliorer les performances. Des expériences révèlent que les adaptateurs créés de cette manière peuvent surpasser les modèles dédiés entraînés à partir de zéro sur des tâches de mathématiques et de raisonnement logique.
Une technologie intermodale puissante : permettre aux modèles textuels de « voir » les images
Les chercheurs ont découvert un avantage inattendu : D2L présente de solides capacités cross-modales. En mappant les informations visuelles dans les paramètres d’un modèle purement textuel, un modèle qui n’a jamais traité d’images auparavant peut les classer avec une précision de **75,03 %**.
Les réalisations de Sakana AI réduisent considérablement les obstacles pour les particuliers et les entreprises souhaitant personnaliser des modèles d'IA privés. Elles ouvrent également une nouvelle voie vers le développement d'une intelligence artificielle générale (AGI) plus légère et plus intelligente.
Article : https://arxiv.org/pdf/2602.15902
China Telecom investit dans Mianbi Intelligence et porte son capital à 713 000 yuans pour développer des modèles de langage de grande envergure (LLM) et une infrastructure de données
L'«équipe nationale» et la figure de proue de l'université Tsinghua dans le domaine des grands modèles renforcent leur alliance stratégique. Le 1er mars 2026, selon les dernières données d'enregistrem
Le groupe Taotian accélère sa restructuration axée sur l'IA et offre des quotas de jetons gratuits à ses stagiaires
Le groupe TaoTian a récemment lancé le « Plan de productivité IA », conçu pour accélérer l'intégration de la technologie IA dans les opérations de commerce électronique et les processus de R&D grâce à
Glean vise les infrastructures d'IA d'entreprise dans une course à l'acquisition de parts de marché
La course à la domination du marché de l'IA d'entreprise s'accélère. Microsoft intègre Copilot à Office, Google intègre Gemini à Workspace, tandis qu'OpenAI et Anthropic commercialisent leurs produits











