

Le PDG de Deepmind Demis Hassabis annonce l'intégration future des modèles Gemini et Veo AI de Google
26 avril 2025
KeithGonzález
0

Dans un récent épisode du podcast possible , co-organisé par le co-fondateur de LinkedIn, Reid Hoffman, le PDG de Google Deepmind Demis Hassabis a partagé des nouvelles passionnantes sur les plans de Google. Il a révélé que Google cherchait à fusionner ses modèles Gemini AI avec les modèles de génération vidéo VEO. Cette fusion vise à améliorer la compréhension des Gémeaux du monde physique, ce qui le rend plus apte à comprendre la dynamique réelle.
Hassabis a souligné que dès le départ, Gemini a été conçu pour être multimodal. "Nous avons toujours construit des Gémeaux, notre modèle de fondation, pour être multimodal dès le début", a-t-il expliqué. La motivation derrière cette approche? Une vision d'un assistant numérique universel qui peut vraiment aider dans la vie quotidienne. "Un assistant qui ... vous aide dans le monde réel", a expliqué Hassabis.
L'industrie de l'IA progresse régulièrement vers ce que vous pourriez appeler des modèles "Omni" - ceux qui sont capables de gérer et de synthétiser divers types de médias. Les dernières itérations des Gémeaux de Google, par exemple, peuvent produire non seulement du texte mais aussi de l'audio et des images. Pendant ce temps, le modèle par défaut de ChatGpt d'Openai peut concocter des images sur place, y compris le délicieux art de style Ghibli-de style Ghibli-. Amazon n'est pas loin derrière, avec des plans pour déployer un modèle "tout à toute autre" plus tard cette année.
Ces modèles OMNI exigent une grande quantité de données de formation - pensez aux images, vidéos, audio et texte. Hassabis a laissé entendre que les données vidéo de VEO proviennent principalement de YouTube, un trésor appartenant à Google. "Fondamentalement, en regardant des vidéos YouTube - beaucoup de vidéos YouTube - [Veo 2] peuvent comprendre, vous savez, la physique du monde", a-t-il noté.
Google avait précédemment mentionné à TechCrunch que ses modèles "peuvent être" formés sur "certains" du contenu YouTube, s'alignant avec les accords conclus avec des créateurs YouTube. Il convient de noter que l'année dernière, Google a élargi ses conditions d'utilisation, en partie pour accéder à plus de données pour la formation de ses modèles d'IA.
Article connexe
Google在其工作区生产力应用程序中添加了更多的AI工具
Google通过将其顶级AI模型集成到其生产力套件中,增强其双子座功能,从而使工作更加顺畅,更高效,从而加强了游戏。今天,这家技术巨头推出了其工作区产品的一系列更新,介绍了音频概述和管理M的新方法
Google Gemini:有关生成AI应用程序和模型的所有信息
Gemini是什么?Gemini是Google备受期待的下一代生成AI模型家族,它是通过DeepMind和Google Research之间的合作而开发的。它的设计用途广泛,有各种尺寸,以满足不同的需求:双子座Ultra:设计F的强大模型,设计F
三星将Google的双子座整合到Ballie Home Robot
三星周三宣布,通过与Google Cloud的合作,为其家用机器人Ballie进行了令人兴奋的新开发项目。这种合作伙伴关系将使Google的双子座AI集成到Ballie中,使用户可以通过提出各种问题与机器人互动,Gemini将会
Commentaires (0)
0/200






Dans un récent épisode du podcast possible , co-organisé par le co-fondateur de LinkedIn, Reid Hoffman, le PDG de Google Deepmind Demis Hassabis a partagé des nouvelles passionnantes sur les plans de Google. Il a révélé que Google cherchait à fusionner ses modèles Gemini AI avec les modèles de génération vidéo VEO. Cette fusion vise à améliorer la compréhension des Gémeaux du monde physique, ce qui le rend plus apte à comprendre la dynamique réelle.
Hassabis a souligné que dès le départ, Gemini a été conçu pour être multimodal. "Nous avons toujours construit des Gémeaux, notre modèle de fondation, pour être multimodal dès le début", a-t-il expliqué. La motivation derrière cette approche? Une vision d'un assistant numérique universel qui peut vraiment aider dans la vie quotidienne. "Un assistant qui ... vous aide dans le monde réel", a expliqué Hassabis.
L'industrie de l'IA progresse régulièrement vers ce que vous pourriez appeler des modèles "Omni" - ceux qui sont capables de gérer et de synthétiser divers types de médias. Les dernières itérations des Gémeaux de Google, par exemple, peuvent produire non seulement du texte mais aussi de l'audio et des images. Pendant ce temps, le modèle par défaut de ChatGpt d'Openai peut concocter des images sur place, y compris le délicieux art de style Ghibli-de style Ghibli-. Amazon n'est pas loin derrière, avec des plans pour déployer un modèle "tout à toute autre" plus tard cette année.
Ces modèles OMNI exigent une grande quantité de données de formation - pensez aux images, vidéos, audio et texte. Hassabis a laissé entendre que les données vidéo de VEO proviennent principalement de YouTube, un trésor appartenant à Google. "Fondamentalement, en regardant des vidéos YouTube - beaucoup de vidéos YouTube - [Veo 2] peuvent comprendre, vous savez, la physique du monde", a-t-il noté.
Google avait précédemment mentionné à TechCrunch que ses modèles "peuvent être" formés sur "certains" du contenu YouTube, s'alignant avec les accords conclus avec des créateurs YouTube. Il convient de noter que l'année dernière, Google a élargi ses conditions d'utilisation, en partie pour accéder à plus de données pour la formation de ses modèles d'IA.












