दीपमाइंड के सीईओ डेमिस हसाबिस ने Google के मिथुन और वीओ एआई मॉडल के भविष्य के एकीकरण की घोषणा की

पॉडकास्ट संभव के एक हालिया एपिसोड में, लिंक्डइन के सह-संस्थापक रीड हॉफमैन द्वारा सह-होस्ट किया गया, Google डीपमाइंड के सीईओ डेमिस हसाबिस ने Google की योजनाओं के बारे में कुछ रोमांचक समाचार साझा किए। उन्होंने खुलासा किया कि Google अपने मिथुन एआई मॉडल को वीओ वीडियो-जनरेटिंग मॉडल के साथ मर्ज करना चाहता है। इस संलयन का उद्देश्य भौतिक दुनिया की मिथुन की समझ को बढ़ाना है, जिससे यह वास्तविक जीवन की गतिशीलता को समझने में अधिक निपुणता है।
हसबिस ने जोर देकर कहा कि गेट-गो से, मिथुन को मल्टीमॉडल बनने के लिए डिज़ाइन किया गया था। "हमने हमेशा मिथुन, हमारे फाउंडेशन मॉडल का निर्माण किया है, शुरू से ही मल्टीमॉडल होने के लिए," उन्होंने समझाया। इस दृष्टिकोण के पीछे प्रेरणा? एक सार्वभौमिक डिजिटल सहायक के लिए एक दृष्टि जो वास्तव में रोजमर्रा की जिंदगी में सहायता कर सकती है। "एक सहायक कि ... वास्तव में वास्तविक दुनिया में आपकी मदद करता है," हसबिस ने विस्तार से बताया।
एआई उद्योग लगातार प्रगति कर रहा है जिसे आप "ओमनी" मॉडल कह सकते हैं - जो विभिन्न प्रकार के मीडिया को संभालने और संश्लेषित करने में सक्षम हैं। उदाहरण के लिए, Google का नवीनतम मिथुन पुनरावृत्तियां न केवल पाठ बल्कि ऑडियो और छवियों का उत्पादन कर सकती हैं। इस बीच, Openai का Chatgpt डिफ़ॉल्ट मॉडल उस स्थान पर छवियों को कोड़ा कर सकता है, जिसमें रमणीय स्टूडियो घिबली-शैली की कला भी शामिल है। अमेज़ॅन इस साल के अंत में "किसी भी-से-" "मॉडल को रोल करने की योजना के साथ बहुत पीछे नहीं है।
ये ओमनी मॉडल एक भारी मात्रा में प्रशिक्षण डेटा की मांग करते हैं - छवियों, वीडियो, ऑडियो और पाठ को सोचें। हसाबिस ने संकेत दिया कि वीओ का वीडियो डेटा मुख्य रूप से YouTube से आता है, जो Google के स्वामित्व वाली एक खजाना है। "मूल रूप से, YouTube वीडियो देखकर - बहुत सारे YouTube वीडियो - [VEO 2] यह पता लगा सकते हैं, आप जानते हैं, दुनिया के भौतिकी," उन्होंने कहा।
Google ने पहले TechCrunch के लिए उल्लेख किया था कि इसके मॉडल "कुछ" YouTube सामग्री पर प्रशिक्षित "हो सकते हैं, YouTube रचनाकारों के साथ किए गए समझौतों के साथ संरेखित करते हैं। यह ध्यान देने योग्य है कि पिछले साल, Google ने अपनी सेवा की शर्तों का विस्तार किया, आंशिक रूप से अपने AI मॉडल को प्रशिक्षित करने के लिए अधिक डेटा तक पहुंचने के लिए।
संबंधित लेख
Inside Google’s AI leap: Gemini 2.5 thinks deeper, speaks smarter and codes faster
Google Inches Closer to Its Vision of a Universal AI AssistantAt this year’s Google I/O event, the company revealed significant upgrades to its Gemini 2.5 series, particularly focu
Google is launching a Gemini integration in Chrome
Introducing Gemini Integration in Chrome: A New Era of AI-Powered BrowsingAt Google I/O 2025, Google made waves by announcing a groundbreaking addition to its Chrome browser—Gemini
Top 100 Announcements from I/O Event
Revolutionizing Search with AI: Google’s Latest BreakthroughsAt yesterday’s Google I/O event, the company unveiled some groundbreaking updates across its suite of AI-driven products. From enhanced search capabilities to new tools designed to fuel creativity and productivity, Google is clearly pushin
सूचना (0)
0/200
पॉडकास्ट संभव के एक हालिया एपिसोड में, लिंक्डइन के सह-संस्थापक रीड हॉफमैन द्वारा सह-होस्ट किया गया, Google डीपमाइंड के सीईओ डेमिस हसाबिस ने Google की योजनाओं के बारे में कुछ रोमांचक समाचार साझा किए। उन्होंने खुलासा किया कि Google अपने मिथुन एआई मॉडल को वीओ वीडियो-जनरेटिंग मॉडल के साथ मर्ज करना चाहता है। इस संलयन का उद्देश्य भौतिक दुनिया की मिथुन की समझ को बढ़ाना है, जिससे यह वास्तविक जीवन की गतिशीलता को समझने में अधिक निपुणता है।
हसबिस ने जोर देकर कहा कि गेट-गो से, मिथुन को मल्टीमॉडल बनने के लिए डिज़ाइन किया गया था। "हमने हमेशा मिथुन, हमारे फाउंडेशन मॉडल का निर्माण किया है, शुरू से ही मल्टीमॉडल होने के लिए," उन्होंने समझाया। इस दृष्टिकोण के पीछे प्रेरणा? एक सार्वभौमिक डिजिटल सहायक के लिए एक दृष्टि जो वास्तव में रोजमर्रा की जिंदगी में सहायता कर सकती है। "एक सहायक कि ... वास्तव में वास्तविक दुनिया में आपकी मदद करता है," हसबिस ने विस्तार से बताया।
एआई उद्योग लगातार प्रगति कर रहा है जिसे आप "ओमनी" मॉडल कह सकते हैं - जो विभिन्न प्रकार के मीडिया को संभालने और संश्लेषित करने में सक्षम हैं। उदाहरण के लिए, Google का नवीनतम मिथुन पुनरावृत्तियां न केवल पाठ बल्कि ऑडियो और छवियों का उत्पादन कर सकती हैं। इस बीच, Openai का Chatgpt डिफ़ॉल्ट मॉडल उस स्थान पर छवियों को कोड़ा कर सकता है, जिसमें रमणीय स्टूडियो घिबली-शैली की कला भी शामिल है। अमेज़ॅन इस साल के अंत में "किसी भी-से-" "मॉडल को रोल करने की योजना के साथ बहुत पीछे नहीं है।
ये ओमनी मॉडल एक भारी मात्रा में प्रशिक्षण डेटा की मांग करते हैं - छवियों, वीडियो, ऑडियो और पाठ को सोचें। हसाबिस ने संकेत दिया कि वीओ का वीडियो डेटा मुख्य रूप से YouTube से आता है, जो Google के स्वामित्व वाली एक खजाना है। "मूल रूप से, YouTube वीडियो देखकर - बहुत सारे YouTube वीडियो - [VEO 2] यह पता लगा सकते हैं, आप जानते हैं, दुनिया के भौतिकी," उन्होंने कहा।
Google ने पहले TechCrunch के लिए उल्लेख किया था कि इसके मॉडल "कुछ" YouTube सामग्री पर प्रशिक्षित "हो सकते हैं, YouTube रचनाकारों के साथ किए गए समझौतों के साथ संरेखित करते हैं। यह ध्यान देने योग्य है कि पिछले साल, Google ने अपनी सेवा की शर्तों का विस्तार किया, आंशिक रूप से अपने AI मॉडल को प्रशिक्षित करने के लिए अधिक डेटा तक पहुंचने के लिए।












