Meta揭開了長篇小說偵察兵和特立獨行的模型,2T參數龐然大物即將推出!
2025年1月,人工智能界因一家相對鮮為人知的中國AI新創公司DeepSeek推出了開創性的開源語言推理模型DeepSeek R1而震驚。此模型不僅超越了Meta等巨頭的表現,且成本僅為傳聞中的數百萬美元。這金額大概只夠Meta支付其AI團隊幾位領袖的薪水!此消息讓Meta陷入一陣慌亂,特別是因為他們前一個月剛發布的Llama 3.3版本已顯得有些過時。
時至今日,Meta的創始人兼執行長馬克·祖克柏(Mark Zuckerberg)在Instagram上宣布推出全新的Llama 4系列。該系列包括4000億參數的Llama 4 Maverick和1090億參數的Llama 4 Scout,兩者皆可供開發者在llama.com和Hugging Face上立即下載並開始使用。此外,還有一個仍在訓練中的巨型2兆參數模型Llama 4 Behemoth搶先曝光,但尚未有發布日期。
多模態與長上下文能力
這些新模型的突出特點是其多模態性質。它們不僅限於文字,還能處理影片和圖像。並且它們擁有極長的上下文窗口—Maverick為100萬個token,Scout更是高達1000萬個token。換句話說,這相當於一次處理1500頁和15000頁的文字!想像一下,這對於需要處理和生成大量資訊的領域,如醫學、科學或文學,將帶來無限可能。
專家混合架構
所有三款Llama 4模型均採用「專家混合(MoE)」架構,這是一種由OpenAI和Mistral等公司推廣的技術,近年來頗受矚目。此方法將多個較小的專精模型整合成一個更大、更高效的模型。每個Llama 4模型由128個不同專家組成,這意味著每個token僅由必要的專家和一個共享專家處理,使模型更具成本效益且運行更快。Meta宣稱Llama 4 Maverick可在一台Nvidia H100 DGX主機上運行,部署輕鬆無比。
成本效益與可及性
Meta致力於讓這些模型更易於使用。Scout和Maverick均可供自行托管,他們甚至分享了一些誘人的成本估算。例如,Llama 4 Maverick的推理成本每百萬token介於0.19美元至0.49美元,與GPT-4o等專有模型相比,真是物超所值。如果你想透過雲端供應商使用這些模型,Groq已提供具競爭力的價格。
增強推理與MetaP
這些模型專為推理、編碼和問題解決而設計。Meta在訓練中採用了一些巧妙技術來提升這些能力,例如移除簡單提示並使用連續強化學習,搭配逐漸增加難度的提示。他們還引入了MetaP,這是一種允許在一個模型上設置超參數並應用到其他模型的新技術,節省時間和金錢。這對訓練像Behemoth這樣使用32K GPU並處理超過30兆token的巨型模型尤為重要,堪稱遊戲規則改變者。
性能與比較
那麼,這些模型表現如何?祖克柏清楚表明他對開源AI領軍的願景,Llama 4是朝此方向邁出的一大步。雖然它們可能未在所有領域創下新紀錄,但無疑名列前茅。例如,Llama 4 Behemoth在某些基準測試上超越了一些重量級對手,儘管在其他方面仍需追趕DeepSeek R1和OpenAI的o1系列。
Llama 4 Behemoth
- 在MATH-500(95.0)、GPQA Diamond(73.7)和MMLU Pro(82.2)上超越GPT-4.5、Gemini 2.0 Pro和Claude Sonnet 3.7

Llama 4 Maverick
- 在ChartQA、DocVQA、MathVista和MMMU等多模態推理基準測試中擊敗GPT-4o和Gemini 2.0 Flash
- 與DeepSeek v3.1競爭,同時使用不到一半的活躍參數
- 基準分數:ChartQA(90.0)、DocVQA(94.4)、MMLU Pro(80.5)

Llama 4 Scout
- 在DocVQA(94.4)、MMLU Pro(74.3)和MathVista(70.7)上匹敵或超越Mistral 3.1、Gemini 2.0 Flash-Lite和Gemma 3等模型
- 無與倫比的1000萬token上下文長度—適合長篇文檔和程式碼庫

與DeepSeek R1的比較
在頂尖領域中,Llama 4 Behemoth表現出色,但尚未完全超越DeepSeek R1或OpenAI的o1系列。它在MATH-500和MMLU上略遜一籌,但在GPQA Diamond上領先。儘管如此,Llama 4在推理領域顯然是一個強大的競爭者。
基準 Llama 4 Behemoth DeepSeek R1 OpenAI o1-1217 MATH-500 95.0 97.3 96.4 GPQA Diamond 73.7 71.5 75.7 MMLU 82.2 90.8 91.8
安全與政治中立
Meta也未忽略安全問題。他們推出了Llama Guard、Prompt Guard和CyberSecEval等工具以確保一切合規。他們還強調減少政治偏見,特別是在祖克柏於2024年選舉後表示支持共和黨政治後,致力於採取更平衡的做法。
Llama 4的未來
有了Llama 4,Meta正在推動AI在效率、開放性和性能方面的極限。無論你是想打造企業級AI助理還是深入AI研究,Llama 4提供了強大且靈活的選項,優先考慮推理能力。顯而易見,Meta致力於讓AI對每個人都更具可及性和影響力。
相關文章
非營利組織利用 AI 代理提升慈善募款工作
當各大科技公司將人工智慧「代理」推廣為企業生產力的助推器時,一家非營利組織正在展示人工智慧在社會公益方面的潛力。由 Open Philanthropy 支持的慈善研究組織 Sage Future 最近進行了一項創新實驗,展示 AI 模型如何協同進行慈善募款。該非營利組織將 OpenAI 的 GPT-4o 與 o1,以及 Anthropic 的 Claude 3.6 與 3.7 Sonnet 等
頂尖 AI 實驗室警告人類正在失去理解 AI 系統的能力
來自 OpenAI、Google DeepMind、Anthropic 和 Meta 的研究人員,史無前例地展現團結,擱置競爭分歧,就負責任的 AI 開發發出集體警告。來自這些典型競爭組織的 40 多位頂尖科學家共同撰寫了一份突破性的研究論文,強調確保 AI 決策過程透明化的窗口正在快速關閉。此次合作的重點在於現代人工智能系統的一項關鍵發展 - 在產生最終輸出之前,以人類可讀的語言闡明推理過程的新
Google Cloud 為科學研究與發現的突破提供動力
數位革命正透過前所未有的計算能力改變科學方法。尖端技術現在可增強理論框架和實驗室實驗,透過精密模擬和大數據分析,推動各學科的突破。透過策略性地投資於基礎研究、可擴充的雲端架構和人工智慧開發,我們建立了一個加速科學進步的生態系統。我們的貢獻橫跨醫藥研究、氣候建模和奈米技術等領域的突破性創新,並輔以世界級的運算基礎架構、雲端原生軟體解決方案和新一代的生成式人工智慧平台。Google DeepMind
評論 (26)
0/200
OwenLewis
2025-08-24 21:01:19
Llama 4 sounds like a beast! That 10M token context window is wild—imagine analyzing entire books in one go. But can Meta keep up with DeepSeek’s efficiency? Excited for Behemoth, though! 🚀
0
RogerSanchez
2025-04-25 03:53:44
Llama 4 정말 대단해요! 긴 문맥 스카우트와 마버릭 모델은 놀랍네요. 2T 파라미터의 괴물이 나올 걸 기대하고 있어요. 다만, 설정하는 게 좀 복잡해요. 그래도, AI의 미래가 밝아 보이네요! 🚀
0
WillieHernández
2025-04-24 08:21:23
Llama 4はすごい!長いコンテキストのスカウトやマーベリックモデルは驚異的。2Tパラメータのビーストが出るのを待ちきれない。ただ、設定が少し大変かな。でも、これでAIの未来は明るいね!🚀
0
GregoryWilson
2025-04-23 01:23:39
MetaのLlama 4は最高ですね!長いコンテキストをスムーズに処理できるのが本当に便利。マーベリックモデルも面白いけど、2Tパラメータのモデルが来るのが楽しみです!🤩✨
0
BrianThomas
2025-04-22 14:27:50
O Llama 4 da Meta é incrível! A função de contexto longo é uma mão na roda para minhas pesquisas. Os modelos Maverick também são legais, mas estou ansioso pelo modelo de 2T parâmetros. Mal posso esperar para ver o que ele pode fazer! 🤯🚀
0
JohnGarcia
2025-04-22 11:11:00
Acabo de enterarme de Llama 4 de Meta y ¡es una locura! ¡2T parámetros! Espero que no sea solo hype, pero si cumple con las expectativas, va a ser increíble. ¿Alguien ya lo ha probado? ¡Quiero saber más! 😎
0
2025年1月,人工智能界因一家相對鮮為人知的中國AI新創公司DeepSeek推出了開創性的開源語言推理模型DeepSeek R1而震驚。此模型不僅超越了Meta等巨頭的表現,且成本僅為傳聞中的數百萬美元。這金額大概只夠Meta支付其AI團隊幾位領袖的薪水!此消息讓Meta陷入一陣慌亂,特別是因為他們前一個月剛發布的Llama 3.3版本已顯得有些過時。
時至今日,Meta的創始人兼執行長馬克·祖克柏(Mark Zuckerberg)在Instagram上宣布推出全新的Llama 4系列。該系列包括4000億參數的Llama 4 Maverick和1090億參數的Llama 4 Scout,兩者皆可供開發者在llama.com和Hugging Face上立即下載並開始使用。此外,還有一個仍在訓練中的巨型2兆參數模型Llama 4 Behemoth搶先曝光,但尚未有發布日期。
多模態與長上下文能力
這些新模型的突出特點是其多模態性質。它們不僅限於文字,還能處理影片和圖像。並且它們擁有極長的上下文窗口—Maverick為100萬個token,Scout更是高達1000萬個token。換句話說,這相當於一次處理1500頁和15000頁的文字!想像一下,這對於需要處理和生成大量資訊的領域,如醫學、科學或文學,將帶來無限可能。
專家混合架構
所有三款Llama 4模型均採用「專家混合(MoE)」架構,這是一種由OpenAI和Mistral等公司推廣的技術,近年來頗受矚目。此方法將多個較小的專精模型整合成一個更大、更高效的模型。每個Llama 4模型由128個不同專家組成,這意味著每個token僅由必要的專家和一個共享專家處理,使模型更具成本效益且運行更快。Meta宣稱Llama 4 Maverick可在一台Nvidia H100 DGX主機上運行,部署輕鬆無比。
成本效益與可及性
Meta致力於讓這些模型更易於使用。Scout和Maverick均可供自行托管,他們甚至分享了一些誘人的成本估算。例如,Llama 4 Maverick的推理成本每百萬token介於0.19美元至0.49美元,與GPT-4o等專有模型相比,真是物超所值。如果你想透過雲端供應商使用這些模型,Groq已提供具競爭力的價格。
增強推理與MetaP
這些模型專為推理、編碼和問題解決而設計。Meta在訓練中採用了一些巧妙技術來提升這些能力,例如移除簡單提示並使用連續強化學習,搭配逐漸增加難度的提示。他們還引入了MetaP,這是一種允許在一個模型上設置超參數並應用到其他模型的新技術,節省時間和金錢。這對訓練像Behemoth這樣使用32K GPU並處理超過30兆token的巨型模型尤為重要,堪稱遊戲規則改變者。
性能與比較
那麼,這些模型表現如何?祖克柏清楚表明他對開源AI領軍的願景,Llama 4是朝此方向邁出的一大步。雖然它們可能未在所有領域創下新紀錄,但無疑名列前茅。例如,Llama 4 Behemoth在某些基準測試上超越了一些重量級對手,儘管在其他方面仍需追趕DeepSeek R1和OpenAI的o1系列。
Llama 4 Behemoth
- 在MATH-500(95.0)、GPQA Diamond(73.7)和MMLU Pro(82.2)上超越GPT-4.5、Gemini 2.0 Pro和Claude Sonnet 3.7
Llama 4 Maverick
- 在ChartQA、DocVQA、MathVista和MMMU等多模態推理基準測試中擊敗GPT-4o和Gemini 2.0 Flash
- 與DeepSeek v3.1競爭,同時使用不到一半的活躍參數
- 基準分數:ChartQA(90.0)、DocVQA(94.4)、MMLU Pro(80.5)
Llama 4 Scout
- 在DocVQA(94.4)、MMLU Pro(74.3)和MathVista(70.7)上匹敵或超越Mistral 3.1、Gemini 2.0 Flash-Lite和Gemma 3等模型
- 無與倫比的1000萬token上下文長度—適合長篇文檔和程式碼庫
與DeepSeek R1的比較
在頂尖領域中,Llama 4 Behemoth表現出色,但尚未完全超越DeepSeek R1或OpenAI的o1系列。它在MATH-500和MMLU上略遜一籌,但在GPQA Diamond上領先。儘管如此,Llama 4在推理領域顯然是一個強大的競爭者。
基準 | Llama 4 Behemoth | DeepSeek R1 | OpenAI o1-1217 |
---|---|---|---|
MATH-500 | 95.0 | 97.3 | 96.4 |
GPQA Diamond | 73.7 | 71.5 | 75.7 |
MMLU | 82.2 | 90.8 | 91.8 |
安全與政治中立
Meta也未忽略安全問題。他們推出了Llama Guard、Prompt Guard和CyberSecEval等工具以確保一切合規。他們還強調減少政治偏見,特別是在祖克柏於2024年選舉後表示支持共和黨政治後,致力於採取更平衡的做法。
Llama 4的未來
有了Llama 4,Meta正在推動AI在效率、開放性和性能方面的極限。無論你是想打造企業級AI助理還是深入AI研究,Llama 4提供了強大且靈活的選項,優先考慮推理能力。顯而易見,Meta致力於讓AI對每個人都更具可及性和影響力。




Llama 4 sounds like a beast! That 10M token context window is wild—imagine analyzing entire books in one go. But can Meta keep up with DeepSeek’s efficiency? Excited for Behemoth, though! 🚀




Llama 4 정말 대단해요! 긴 문맥 스카우트와 마버릭 모델은 놀랍네요. 2T 파라미터의 괴물이 나올 걸 기대하고 있어요. 다만, 설정하는 게 좀 복잡해요. 그래도, AI의 미래가 밝아 보이네요! 🚀




Llama 4はすごい!長いコンテキストのスカウトやマーベリックモデルは驚異的。2Tパラメータのビーストが出るのを待ちきれない。ただ、設定が少し大変かな。でも、これでAIの未来は明るいね!🚀




MetaのLlama 4は最高ですね!長いコンテキストをスムーズに処理できるのが本当に便利。マーベリックモデルも面白いけど、2Tパラメータのモデルが来るのが楽しみです!🤩✨




O Llama 4 da Meta é incrível! A função de contexto longo é uma mão na roda para minhas pesquisas. Os modelos Maverick também são legais, mas estou ansioso pelo modelo de 2T parâmetros. Mal posso esperar para ver o que ele pode fazer! 🤯🚀




Acabo de enterarme de Llama 4 de Meta y ¡es una locura! ¡2T parámetros! Espero que no sea solo hype, pero si cumple con las expectativas, va a ser increíble. ¿Alguien ya lo ha probado? ¡Quiero saber más! 😎












