Meta揭開了長篇小說偵察兵和特立獨行的模型,2T參數龐然大物即將推出!
2025年1月,人工智能界因一家相對鮮為人知的中國AI新創公司DeepSeek推出了開創性的開源語言推理模型DeepSeek R1而震驚。此模型不僅超越了Meta等巨頭的表現,且成本僅為傳聞中的數百萬美元。這金額大概只夠Meta支付其AI團隊幾位領袖的薪水!此消息讓Meta陷入一陣慌亂,特別是因為他們前一個月剛發布的Llama 3.3版本已顯得有些過時。
時至今日,Meta的創始人兼執行長馬克·祖克柏(Mark Zuckerberg)在Instagram上宣布推出全新的Llama 4系列。該系列包括4000億參數的Llama 4 Maverick和1090億參數的Llama 4 Scout,兩者皆可供開發者在llama.com和Hugging Face上立即下載並開始使用。此外,還有一個仍在訓練中的巨型2兆參數模型Llama 4 Behemoth搶先曝光,但尚未有發布日期。
多模態與長上下文能力
這些新模型的突出特點是其多模態性質。它們不僅限於文字,還能處理影片和圖像。並且它們擁有極長的上下文窗口—Maverick為100萬個token,Scout更是高達1000萬個token。換句話說,這相當於一次處理1500頁和15000頁的文字!想像一下,這對於需要處理和生成大量資訊的領域,如醫學、科學或文學,將帶來無限可能。
專家混合架構
所有三款Llama 4模型均採用「專家混合(MoE)」架構,這是一種由OpenAI和Mistral等公司推廣的技術,近年來頗受矚目。此方法將多個較小的專精模型整合成一個更大、更高效的模型。每個Llama 4模型由128個不同專家組成,這意味著每個token僅由必要的專家和一個共享專家處理,使模型更具成本效益且運行更快。Meta宣稱Llama 4 Maverick可在一台Nvidia H100 DGX主機上運行,部署輕鬆無比。
成本效益與可及性
Meta致力於讓這些模型更易於使用。Scout和Maverick均可供自行托管,他們甚至分享了一些誘人的成本估算。例如,Llama 4 Maverick的推理成本每百萬token介於0.19美元至0.49美元,與GPT-4o等專有模型相比,真是物超所值。如果你想透過雲端供應商使用這些模型,Groq已提供具競爭力的價格。
增強推理與MetaP
這些模型專為推理、編碼和問題解決而設計。Meta在訓練中採用了一些巧妙技術來提升這些能力,例如移除簡單提示並使用連續強化學習,搭配逐漸增加難度的提示。他們還引入了MetaP,這是一種允許在一個模型上設置超參數並應用到其他模型的新技術,節省時間和金錢。這對訓練像Behemoth這樣使用32K GPU並處理超過30兆token的巨型模型尤為重要,堪稱遊戲規則改變者。
性能與比較
那麼,這些模型表現如何?祖克柏清楚表明他對開源AI領軍的願景,Llama 4是朝此方向邁出的一大步。雖然它們可能未在所有領域創下新紀錄,但無疑名列前茅。例如,Llama 4 Behemoth在某些基準測試上超越了一些重量級對手,儘管在其他方面仍需追趕DeepSeek R1和OpenAI的o1系列。
Llama 4 Behemoth
- 在MATH-500(95.0)、GPQA Diamond(73.7)和MMLU Pro(82.2)上超越GPT-4.5、Gemini 2.0 Pro和Claude Sonnet 3.7

Llama 4 Maverick
- 在ChartQA、DocVQA、MathVista和MMMU等多模態推理基準測試中擊敗GPT-4o和Gemini 2.0 Flash
- 與DeepSeek v3.1競爭,同時使用不到一半的活躍參數
- 基準分數:ChartQA(90.0)、DocVQA(94.4)、MMLU Pro(80.5)

Llama 4 Scout
- 在DocVQA(94.4)、MMLU Pro(74.3)和MathVista(70.7)上匹敵或超越Mistral 3.1、Gemini 2.0 Flash-Lite和Gemma 3等模型
- 無與倫比的1000萬token上下文長度—適合長篇文檔和程式碼庫

與DeepSeek R1的比較
在頂尖領域中,Llama 4 Behemoth表現出色,但尚未完全超越DeepSeek R1或OpenAI的o1系列。它在MATH-500和MMLU上略遜一籌,但在GPQA Diamond上領先。儘管如此,Llama 4在推理領域顯然是一個強大的競爭者。
基準 Llama 4 Behemoth DeepSeek R1 OpenAI o1-1217 MATH-500 95.0 97.3 96.4 GPQA Diamond 73.7 71.5 75.7 MMLU 82.2 90.8 91.8
安全與政治中立
Meta也未忽略安全問題。他們推出了Llama Guard、Prompt Guard和CyberSecEval等工具以確保一切合規。他們還強調減少政治偏見,特別是在祖克柏於2024年選舉後表示支持共和黨政治後,致力於採取更平衡的做法。
Llama 4的未來
有了Llama 4,Meta正在推動AI在效率、開放性和性能方面的極限。無論你是想打造企業級AI助理還是深入AI研究,Llama 4提供了強大且靈活的選項,優先考慮推理能力。顯而易見,Meta致力於讓AI對每個人都更具可及性和影響力。
相關文章
薩提亞·納德拉準備利用與OpenAI的新合作關係
週三,一位華爾街分析師直接詢問了微軟執行長薩蒂亞·納德拉,修訂後的OpenAI合作關係將如何影響公司的財務狀況。 納德拉將這一新協議描述為對各方都有利的結果。“我們對與OpenAI的合作感到滿意。我始終非常重視任何合作關係,並確保它能夠實現雙贏。只有這樣,雙方才能保持良好的合作伙伴關係。” 他強調,微軟仍然可以使用OpenAI的智慧財產權,包括其模型和智慧體產品,但不再需要為此向OpenAI支付費用。 談到在2032年之前可以免費使用OpenAI最先進的人工智慧技術,納德拉表示:“
Meta AI 現已開始在 Facebook Marketplace 上回覆買家的訊息
Facebook Marketplace 推出新的 Meta AI 功能,包括針對買家詢問的自動回覆,該公司於週四宣布。該平台還運用 AI 來加速商品上架、摘要賣家檔案,並現在允許賣家在商品列表中提供運送服務。由於賣家經常收到大量買家詢問,Facebook 正透過 Meta AI 驅動的自動回覆功能來簡化此流程。當買家詢問商品庫存狀況時,賣家可利用 Meta AI 根據商品資訊(如描述、庫存狀況、
OpenAI 勾勒出以公共財富基金、機器人稅及每週四天工作制為核心的人工智慧經濟藍圖
當各國政府正竭力應對超智能機器帶來的經濟衝擊之際,OpenAI 發布了一系列政策提案,闡述在「智能時代」中財富與工作可能如何重塑。這些構想將傳統的左翼機制——例如公共財富基金與擴大的社會安全網——與根本上資本主義、市場導向的經濟框架相融合。OpenAI 的提案本質上是一份願望清單,這份公開聲明有助於民選官員、投資者及公眾理解這家市值 8,520 億美元的公司,如何看待人工智慧在重塑勞動與經濟的過程
相關專題推薦
評論 (30)
0/500
A 2 trillion parameter model? The environmental footprint of training these behemoths is starting to overshadow the hype for me. Meta's scale race is impressive, but I hope the next headline is about efficiency breakthroughs, not just size. 🌍💔
Honnêtement, l'IA est en train de devenir une course aux armements écologique... Meta sort un modèle de 2T paramètres, mais on ne parle jamais de l'énergie nécessaire pour l'entraîner. DeepSeek R1 montre qu'on peut être efficace sans monstre énergivore. Un peu de sobriété, peut-être ? 🌱
Ладно, Meta выпускает Llama 4 с 2 триллионами параметров... Но я до сих пор не могу заставить свою предыдущую модель правильно переводить рецепт борща! 😅 Интересно, эти «революционные» модели когда-нибудь действительно поймут культурные нюансы или просто станут мастерами генерации клише?
Meta qui continue la course aux armements avec ces modèles à 2T paramètres... mais franchement, c'est pas un peu excessif ? En janvier on avait déjà DeepSeek R1 qui montrait qu'on pouvait faire mieux avec moins. J'ai l'impression qu'ils cherchent juste à impressionner avec des chiffres gigantesques 🤔
Llama 4 sounds like a beast! That 10M token context window is wild—imagine analyzing entire books in one go. But can Meta keep up with DeepSeek’s efficiency? Excited for Behemoth, though! 🚀
2025年1月,人工智能界因一家相對鮮為人知的中國AI新創公司DeepSeek推出了開創性的開源語言推理模型DeepSeek R1而震驚。此模型不僅超越了Meta等巨頭的表現,且成本僅為傳聞中的數百萬美元。這金額大概只夠Meta支付其AI團隊幾位領袖的薪水!此消息讓Meta陷入一陣慌亂,特別是因為他們前一個月剛發布的Llama 3.3版本已顯得有些過時。
時至今日,Meta的創始人兼執行長馬克·祖克柏(Mark Zuckerberg)在Instagram上宣布推出全新的Llama 4系列。該系列包括4000億參數的Llama 4 Maverick和1090億參數的Llama 4 Scout,兩者皆可供開發者在llama.com和Hugging Face上立即下載並開始使用。此外,還有一個仍在訓練中的巨型2兆參數模型Llama 4 Behemoth搶先曝光,但尚未有發布日期。
多模態與長上下文能力
這些新模型的突出特點是其多模態性質。它們不僅限於文字,還能處理影片和圖像。並且它們擁有極長的上下文窗口—Maverick為100萬個token,Scout更是高達1000萬個token。換句話說,這相當於一次處理1500頁和15000頁的文字!想像一下,這對於需要處理和生成大量資訊的領域,如醫學、科學或文學,將帶來無限可能。
專家混合架構
所有三款Llama 4模型均採用「專家混合(MoE)」架構,這是一種由OpenAI和Mistral等公司推廣的技術,近年來頗受矚目。此方法將多個較小的專精模型整合成一個更大、更高效的模型。每個Llama 4模型由128個不同專家組成,這意味著每個token僅由必要的專家和一個共享專家處理,使模型更具成本效益且運行更快。Meta宣稱Llama 4 Maverick可在一台Nvidia H100 DGX主機上運行,部署輕鬆無比。
成本效益與可及性
Meta致力於讓這些模型更易於使用。Scout和Maverick均可供自行托管,他們甚至分享了一些誘人的成本估算。例如,Llama 4 Maverick的推理成本每百萬token介於0.19美元至0.49美元,與GPT-4o等專有模型相比,真是物超所值。如果你想透過雲端供應商使用這些模型,Groq已提供具競爭力的價格。
增強推理與MetaP
這些模型專為推理、編碼和問題解決而設計。Meta在訓練中採用了一些巧妙技術來提升這些能力,例如移除簡單提示並使用連續強化學習,搭配逐漸增加難度的提示。他們還引入了MetaP,這是一種允許在一個模型上設置超參數並應用到其他模型的新技術,節省時間和金錢。這對訓練像Behemoth這樣使用32K GPU並處理超過30兆token的巨型模型尤為重要,堪稱遊戲規則改變者。
性能與比較
那麼,這些模型表現如何?祖克柏清楚表明他對開源AI領軍的願景,Llama 4是朝此方向邁出的一大步。雖然它們可能未在所有領域創下新紀錄,但無疑名列前茅。例如,Llama 4 Behemoth在某些基準測試上超越了一些重量級對手,儘管在其他方面仍需追趕DeepSeek R1和OpenAI的o1系列。
Llama 4 Behemoth
- 在MATH-500(95.0)、GPQA Diamond(73.7)和MMLU Pro(82.2)上超越GPT-4.5、Gemini 2.0 Pro和Claude Sonnet 3.7

Llama 4 Maverick
- 在ChartQA、DocVQA、MathVista和MMMU等多模態推理基準測試中擊敗GPT-4o和Gemini 2.0 Flash
- 與DeepSeek v3.1競爭,同時使用不到一半的活躍參數
- 基準分數:ChartQA(90.0)、DocVQA(94.4)、MMLU Pro(80.5)

Llama 4 Scout
- 在DocVQA(94.4)、MMLU Pro(74.3)和MathVista(70.7)上匹敵或超越Mistral 3.1、Gemini 2.0 Flash-Lite和Gemma 3等模型
- 無與倫比的1000萬token上下文長度—適合長篇文檔和程式碼庫

與DeepSeek R1的比較
在頂尖領域中,Llama 4 Behemoth表現出色,但尚未完全超越DeepSeek R1或OpenAI的o1系列。它在MATH-500和MMLU上略遜一籌,但在GPQA Diamond上領先。儘管如此,Llama 4在推理領域顯然是一個強大的競爭者。
| 基準 | Llama 4 Behemoth | DeepSeek R1 | OpenAI o1-1217 |
|---|---|---|---|
| MATH-500 | 95.0 | 97.3 | 96.4 |
| GPQA Diamond | 73.7 | 71.5 | 75.7 |
| MMLU | 82.2 | 90.8 | 91.8 |
安全與政治中立
Meta也未忽略安全問題。他們推出了Llama Guard、Prompt Guard和CyberSecEval等工具以確保一切合規。他們還強調減少政治偏見,特別是在祖克柏於2024年選舉後表示支持共和黨政治後,致力於採取更平衡的做法。
Llama 4的未來
有了Llama 4,Meta正在推動AI在效率、開放性和性能方面的極限。無論你是想打造企業級AI助理還是深入AI研究,Llama 4提供了強大且靈活的選項,優先考慮推理能力。顯而易見,Meta致力於讓AI對每個人都更具可及性和影響力。
薩提亞·納德拉準備利用與OpenAI的新合作關係
週三,一位華爾街分析師直接詢問了微軟執行長薩蒂亞·納德拉,修訂後的OpenAI合作關係將如何影響公司的財務狀況。 納德拉將這一新協議描述為對各方都有利的結果。“我們對與OpenAI的合作感到滿意。我始終非常重視任何合作關係,並確保它能夠實現雙贏。只有這樣,雙方才能保持良好的合作伙伴關係。” 他強調,微軟仍然可以使用OpenAI的智慧財產權,包括其模型和智慧體產品,但不再需要為此向OpenAI支付費用。 談到在2032年之前可以免費使用OpenAI最先進的人工智慧技術,納德拉表示:“
Meta AI 現已開始在 Facebook Marketplace 上回覆買家的訊息
Facebook Marketplace 推出新的 Meta AI 功能,包括針對買家詢問的自動回覆,該公司於週四宣布。該平台還運用 AI 來加速商品上架、摘要賣家檔案,並現在允許賣家在商品列表中提供運送服務。由於賣家經常收到大量買家詢問,Facebook 正透過 Meta AI 驅動的自動回覆功能來簡化此流程。當買家詢問商品庫存狀況時,賣家可利用 Meta AI 根據商品資訊(如描述、庫存狀況、
OpenAI 勾勒出以公共財富基金、機器人稅及每週四天工作制為核心的人工智慧經濟藍圖
當各國政府正竭力應對超智能機器帶來的經濟衝擊之際,OpenAI 發布了一系列政策提案,闡述在「智能時代」中財富與工作可能如何重塑。這些構想將傳統的左翼機制——例如公共財富基金與擴大的社會安全網——與根本上資本主義、市場導向的經濟框架相融合。OpenAI 的提案本質上是一份願望清單,這份公開聲明有助於民選官員、投資者及公眾理解這家市值 8,520 億美元的公司,如何看待人工智慧在重塑勞動與經濟的過程
A 2 trillion parameter model? The environmental footprint of training these behemoths is starting to overshadow the hype for me. Meta's scale race is impressive, but I hope the next headline is about efficiency breakthroughs, not just size. 🌍💔
Honnêtement, l'IA est en train de devenir une course aux armements écologique... Meta sort un modèle de 2T paramètres, mais on ne parle jamais de l'énergie nécessaire pour l'entraîner. DeepSeek R1 montre qu'on peut être efficace sans monstre énergivore. Un peu de sobriété, peut-être ? 🌱
Ладно, Meta выпускает Llama 4 с 2 триллионами параметров... Но я до сих пор не могу заставить свою предыдущую модель правильно переводить рецепт борща! 😅 Интересно, эти «революционные» модели когда-нибудь действительно поймут культурные нюансы или просто станут мастерами генерации клише?
Meta qui continue la course aux armements avec ces modèles à 2T paramètres... mais franchement, c'est pas un peu excessif ? En janvier on avait déjà DeepSeek R1 qui montrait qu'on pouvait faire mieux avec moins. J'ai l'impression qu'ils cherchent juste à impressionner avec des chiffres gigantesques 🤔
Llama 4 sounds like a beast! That 10M token context window is wild—imagine analyzing entire books in one go. But can Meta keep up with DeepSeek’s efficiency? Excited for Behemoth, though! 🚀





首頁






