Maison
Apple dévoile RubiCap AI pour la description d'images, malgré des inquiétudes quant à ses performances
En vision par ordinateur, permettre à l'IA d'observer et de décrire chaque détail d'une image avec une précision comparable à celle d'un être humain constitue depuis longtemps un défi majeur. Récemment, Apple, en collaboration avec l'université du Wisconsin-Madison, a officiellement lancé un nouveau cadre d'entraînement pour l'IA baptisé RubiCap .
Ce cadre est spécialement conçu pour la « légende d'images dense », visant à permettre à l'IA de saisir et d'exprimer avec précision des détails fins — comme « une pomme rouge sur la table en bois » ou « un piéton au loin » — plutôt que de se contenter de résumés génériques.

Apprentissage par renforcement à fort impact : Qwen2.5 joue le rôle d’« arbitre »
La légende d'images traditionnelle repose souvent sur une annotation humaine coûteuse ou sur de grands modèles sujets à des hallucinations, ce qui entraîne une qualité de données inégale. L'équipe de recherche d'Apple a résolu ce problème grâce à une approche innovante d'apprentissage par renforcement. Le système utilise d'abord GPT-4 et Gemini 1.5 Pro pour générer des descriptions candidates. Gemini 1.5 Pro affine ensuite les critères de notation, tandis que le modèle Qwen2.5 joue le rôle d'arbitre, fournissant des notes et des commentaires.
Ces retours d'information structurés et précis permettent au modèle d'entraînement d'identifier et de corriger clairement les erreurs, atteignant ainsi une plus grande précision descriptive même avec un nombre de paramètres réduit.
L'avantage des modèles compacts : des taux d'hallucination inférieurs à ceux des modèles à un trillion de paramètres
Les modèles de la série RubiCap (comportant entre 2 et 7 milliards de paramètres) entraînés sur ce cadre ont démontré une efficacité exceptionnelle lors des évaluations. Les données expérimentales révèlent que le modèle RubiCap à 7 milliards de paramètres a obtenu les meilleurs scores lors de tests à l'aveugle, avec un taux d'erreur d'hallucination inférieur à celui d'un grand modèle de pointe à 720 milliards de paramètres. Fait remarquable, la version mini à 3 milliards de paramètres a même surpassé son homologue à 7 milliards de paramètres sur certains indicateurs.
Article connexe
Reliance dévoile un plan d'investissement de 110 milliards de dollars dans l'IA alors que l'Inde accélère sa transition technologique
Mukesh Ambani, le président milliardaire du conglomérat indien Reliance, a annoncé jeudi un plan de 10 000 milliards de roupies (environ 110 milliards de dollars) visant à mettre en place une infrastr
Zhiyuan WITA met fin à son projet d'interaction avec des robots « nus » en déposant sa première demande d'agrément
Le secteur de l'intelligence incarnée a franchi une étape importante. Selon la dernière annonce de l'Administration du cyberespace de Shanghai, le grand modèle WITA développé par Zhiyuan a mené à bien
Une étude anthropologique établit un lien entre les contenus générés par l'IA et une diminution de la réflexion humaine
Lorsque vous voyez l'IA produire instantanément un code ou un document bien structuré et d'une logique claire, êtes-vous tenté de lui faire confiance sans y réfléchir à deux fois ? Selon AIbase, Anthr
Recommandations de sujets spéciaux liés
commentaires (0)
En vision par ordinateur, permettre à l'IA d'observer et de décrire chaque détail d'une image avec une précision comparable à celle d'un être humain constitue depuis longtemps un défi majeur. Récemment, Apple, en collaboration avec l'université du Wisconsin-Madison, a officiellement lancé un nouveau cadre d'entraînement pour l'IA baptisé
Ce cadre est spécialement conçu pour la « légende d'images dense », visant à permettre à l'IA de saisir et d'exprimer avec précision des détails fins — comme « une pomme rouge sur la table en bois » ou « un piéton au loin » — plutôt que de se contenter de résumés génériques.

Apprentissage par renforcement à fort impact : Qwen2.5 joue le rôle d’« arbitre »
La légende d'images traditionnelle repose souvent sur une annotation humaine coûteuse ou sur de grands modèles sujets à des hallucinations, ce qui entraîne une qualité de données inégale. L'équipe de recherche d'Apple a résolu ce problème grâce à une approche innovante d'apprentissage par renforcement. Le système utilise d'abord GPT-4 et Gemini 1.5 Pro pour générer des descriptions candidates. Gemini 1.5 Pro affine ensuite les critères de notation, tandis que le modèle Qwen2.5 joue le rôle d'arbitre, fournissant des notes et des commentaires.
Ces retours d'information structurés et précis permettent au modèle d'entraînement d'identifier et de corriger clairement les erreurs, atteignant ainsi une plus grande précision descriptive même avec un nombre de paramètres réduit.
L'avantage des modèles compacts : des taux d'hallucination inférieurs à ceux des modèles à un trillion de paramètres
Les modèles de la série RubiCap (comportant entre 2 et 7 milliards de paramètres) entraînés sur ce cadre ont démontré une efficacité exceptionnelle lors des évaluations. Les données expérimentales révèlent que le modèle RubiCap à 7 milliards de paramètres a obtenu les meilleurs scores lors de tests à l'aveugle, avec un taux d'erreur d'hallucination inférieur à celui d'un grand modèle de pointe à 720 milliards de paramètres. Fait remarquable, la version mini à 3 milliards de paramètres a même surpassé son homologue à 7 milliards de paramètres sur certains indicateurs.
Reliance dévoile un plan d'investissement de 110 milliards de dollars dans l'IA alors que l'Inde accélère sa transition technologique
Mukesh Ambani, le président milliardaire du conglomérat indien Reliance, a annoncé jeudi un plan de 10 000 milliards de roupies (environ 110 milliards de dollars) visant à mettre en place une infrastr
Zhiyuan WITA met fin à son projet d'interaction avec des robots « nus » en déposant sa première demande d'agrément
Le secteur de l'intelligence incarnée a franchi une étape importante. Selon la dernière annonce de l'Administration du cyberespace de Shanghai, le grand modèle WITA développé par Zhiyuan a mené à bien
Une étude anthropologique établit un lien entre les contenus générés par l'IA et une diminution de la réflexion humaine
Lorsque vous voyez l'IA produire instantanément un code ou un document bien structuré et d'une logique claire, êtes-vous tenté de lui faire confiance sans y réfléchir à deux fois ? Selon AIbase, Anthr











