Google 推出 Gemini Embedding2:原生多模態模型整合語義空間
Google 近期推出了其全新的原生多模態嵌入模型「Gemini Embedding2」。該模型能將文字、圖像、影片、音訊及 PDF 文件映射至一個共享的語義向量空間,旨在簡化複雜的 AI 資料工作流程,並提升多模態檢索與理解能力。這代表著 Google 在嵌入技術上的重大進展,從單一模態的文字處理邁向統一的多模態語義建模。

此前,在 2025 年 7 月,Google 推出了gemini-embedding-001文字嵌入模型。該模型支援超過 100 種語言,並在 MTEB 多語言基準測試中取得頂尖成績。 全新的 Gemini Embedding2 基於 Gemini 架構,但大幅擴展了其應用範圍。它現在可處理五種不同模態——文字、圖像、影片、音訊和 PDF——並將其投影至單一向量空間。這使得不同類型媒體之間能夠進行直接的語義比較,無需使用多個專用模型或額外的處理步驟。此功能對於語義搜尋、檢索增強生成(RAG)、情緒分析及資料聚類等應用尤為寶貴。
在輸入能力方面,新模型支援多達 8192 個文字標記,是先前 2048 個標記限制的四倍。它每筆請求可處理多達六張 PNG 或 JPEG 圖片、長度達 120 秒的影片,以及最多六頁的 PDF 文件。 值得注意的是,Gemini Embedding2 原生支援音訊處理,無需進行語音轉文字轉換,從而避免了轉錄過程中的潛在資訊損失。Google 還推出了「交錯輸入」技術,讓開發者能在單次請求中結合多種模態——例如將圖片與描述性文字混合——以更精準地捕捉它們之間的語義關聯。

在架構上,該模型持續採用「套娃式表徵學習」(MRL)。此技術利用分層結構動態調整向量維度。預設嵌入維度為 3072,並提供 1536 和 768 兩種可選配置,讓開發者能靈活地在檢索準確度與儲存效率之間取得平衡。
Google 的基準測試結果顯示,Gemini Embedding2 在文字、圖像、影片和語音任務中均展現領先的表現。例如,在文字-影片檢索任務中,其得分達 68.8,超越了 Amazon Nova2 多模態嵌入模型(60.3)和 Voyage Multimodal3.5(55.2)。 在文字-圖像對比中,其得分達 93.4,顯著領先於亞馬遜模型的 84.0 分。
開發者目前可透過Gemini API和Vertex AI 存取 Gemini Embedding2。該模型已整合至 LangChain、LlamaIndex、Haystack、Weaviate、Qdrant、ChromaDB 及 Vector Search 等熱門框架與向量資料庫。為協助開發者快速上手,Google 提供了互動式 Colab 筆記本及輕量級多模態語義搜尋示範。

多模態嵌入技術的競爭日趨白熱化。值得注意的是,今年二月底,AI 搜尋引擎 Perplexity 釋出了其開源嵌入模型pplx-embed-v1和pplx-embed-context-v1。
相關文章
耀科傳媒首部AIGC劇集《秦嶺青銅之謎》今日上線,主演均由AI選角
今日,耀科傳媒的AIGC奇幻懸疑短劇《秦嶺青銅秘事》正式上線。本劇由該公司首批簽約的兩位AI演員秦凌月與林西妍主演,故事背景設定在神秘莫測的秦嶺礦區。 劇情追隨退休情報官秦月帶領團隊深入該區域,揭開一樁塵封已久的礦難,以及跨越兩代人的血祭真相——這份真相就隱藏在受限的地下區域,正是科學探索與古代巫術交匯之處。作為中國最早完全由AI數位人支持的電影之一,該劇在籌備階段便引發了業界熱烈討論,而關於其A
薩提亞·納德拉準備利用與OpenAI的新合作關係
週三,一位華爾街分析師直接詢問了微軟執行長薩蒂亞·納德拉,修訂後的OpenAI合作關係將如何影響公司的財務狀況。 納德拉將這一新協議描述為對各方都有利的結果。“我們對與OpenAI的合作感到滿意。我始終非常重視任何合作關係,並確保它能夠實現雙贏。只有這樣,雙方才能保持良好的合作伙伴關係。” 他強調,微軟仍然可以使用OpenAI的智慧財產權,包括其模型和智慧體產品,但不再需要為此向OpenAI支付費用。 談到在2032年之前可以免費使用OpenAI最先進的人工智慧技術,納德拉表示:“
WordPress.com 現已允許 AI 代理程式撰寫並發布文章,還有更多功能
廣受歡迎的網站託管與發佈平台 WordPress.com 現正積極導入 AI 代理程式——此舉可能重塑網路的樣貌與使用體驗。該公司於週五宣布,將允許 AI 代理程式在客戶網站上起草、編輯及發佈內容,同時也能管理留言、更新與修正元資料,並透過標籤和分類來整理內容。所有這些操作皆透過一個介面進行控制,網站擁有者只需使用自然語言指令說明其需求即可。憑藉這些新功能,網站幾乎可以完全由人工指導的 AI 代理
相關專題推薦
評論 (0)
0/500
Google 近期推出了其全新的原生多模態嵌入模型「Gemini Embedding2」。該模型能將文字、圖像、影片、音訊及 PDF 文件映射至一個共享的語義向量空間,旨在簡化複雜的 AI 資料工作流程,並提升多模態檢索與理解能力。這代表著 Google 在嵌入技術上的重大進展,從單一模態的文字處理邁向統一的多模態語義建模。

此前,在 2025 年 7 月,Google 推出了gemini-embedding-001文字嵌入模型。該模型支援超過 100 種語言,並在 MTEB 多語言基準測試中取得頂尖成績。 全新的 Gemini Embedding2 基於 Gemini 架構,但大幅擴展了其應用範圍。它現在可處理五種不同模態——文字、圖像、影片、音訊和 PDF——並將其投影至單一向量空間。這使得不同類型媒體之間能夠進行直接的語義比較,無需使用多個專用模型或額外的處理步驟。此功能對於語義搜尋、檢索增強生成(RAG)、情緒分析及資料聚類等應用尤為寶貴。
在輸入能力方面,新模型支援多達 8192 個文字標記,是先前 2048 個標記限制的四倍。它每筆請求可處理多達六張 PNG 或 JPEG 圖片、長度達 120 秒的影片,以及最多六頁的 PDF 文件。 值得注意的是,Gemini Embedding2 原生支援音訊處理,無需進行語音轉文字轉換,從而避免了轉錄過程中的潛在資訊損失。Google 還推出了「交錯輸入」技術,讓開發者能在單次請求中結合多種模態——例如將圖片與描述性文字混合——以更精準地捕捉它們之間的語義關聯。

在架構上,該模型持續採用「套娃式表徵學習」(MRL)。此技術利用分層結構動態調整向量維度。預設嵌入維度為 3072,並提供 1536 和 768 兩種可選配置,讓開發者能靈活地在檢索準確度與儲存效率之間取得平衡。
Google 的基準測試結果顯示,Gemini Embedding2 在文字、圖像、影片和語音任務中均展現領先的表現。例如,在文字-影片檢索任務中,其得分達 68.8,超越了 Amazon Nova2 多模態嵌入模型(60.3)和 Voyage Multimodal3.5(55.2)。 在文字-圖像對比中,其得分達 93.4,顯著領先於亞馬遜模型的 84.0 分。
開發者目前可透過Gemini API和Vertex AI 存取 Gemini Embedding2。該模型已整合至 LangChain、LlamaIndex、Haystack、Weaviate、Qdrant、ChromaDB 及 Vector Search 等熱門框架與向量資料庫。為協助開發者快速上手,Google 提供了互動式 Colab 筆記本及輕量級多模態語義搜尋示範。

多模態嵌入技術的競爭日趨白熱化。值得注意的是,今年二月底,AI 搜尋引擎 Perplexity 釋出了其開源嵌入模型pplx-embed-v1和pplx-embed-context-v1。
耀科傳媒首部AIGC劇集《秦嶺青銅之謎》今日上線,主演均由AI選角
今日,耀科傳媒的AIGC奇幻懸疑短劇《秦嶺青銅秘事》正式上線。本劇由該公司首批簽約的兩位AI演員秦凌月與林西妍主演,故事背景設定在神秘莫測的秦嶺礦區。 劇情追隨退休情報官秦月帶領團隊深入該區域,揭開一樁塵封已久的礦難,以及跨越兩代人的血祭真相——這份真相就隱藏在受限的地下區域,正是科學探索與古代巫術交匯之處。作為中國最早完全由AI數位人支持的電影之一,該劇在籌備階段便引發了業界熱烈討論,而關於其A
薩提亞·納德拉準備利用與OpenAI的新合作關係
週三,一位華爾街分析師直接詢問了微軟執行長薩蒂亞·納德拉,修訂後的OpenAI合作關係將如何影響公司的財務狀況。 納德拉將這一新協議描述為對各方都有利的結果。“我們對與OpenAI的合作感到滿意。我始終非常重視任何合作關係,並確保它能夠實現雙贏。只有這樣,雙方才能保持良好的合作伙伴關係。” 他強調,微軟仍然可以使用OpenAI的智慧財產權,包括其模型和智慧體產品,但不再需要為此向OpenAI支付費用。 談到在2032年之前可以免費使用OpenAI最先進的人工智慧技術,納德拉表示:“
WordPress.com 現已允許 AI 代理程式撰寫並發布文章,還有更多功能
廣受歡迎的網站託管與發佈平台 WordPress.com 現正積極導入 AI 代理程式——此舉可能重塑網路的樣貌與使用體驗。該公司於週五宣布,將允許 AI 代理程式在客戶網站上起草、編輯及發佈內容,同時也能管理留言、更新與修正元資料,並透過標籤和分類來整理內容。所有這些操作皆透過一個介面進行控制,網站擁有者只需使用自然語言指令說明其需求即可。憑藉這些新功能,網站幾乎可以完全由人工指導的 AI 代理





首頁






