Meta揭開了長篇小說偵察兵和特立獨行的模型,2T參數龐然大物即將推出!
2025年1月,人工智能界因一家相對鮮為人知的中國AI新創公司DeepSeek推出了開創性的開源語言推理模型DeepSeek R1而震驚。此模型不僅超越了Meta等巨頭的表現,且成本僅為傳聞中的數百萬美元。這金額大概只夠Meta支付其AI團隊幾位領袖的薪水!此消息讓Meta陷入一陣慌亂,特別是因為他們前一個月剛發布的Llama 3.3版本已顯得有些過時。
時至今日,Meta的創始人兼執行長馬克·祖克柏(Mark Zuckerberg)在Instagram上宣布推出全新的Llama 4系列。該系列包括4000億參數的Llama 4 Maverick和1090億參數的Llama 4 Scout,兩者皆可供開發者在llama.com和Hugging Face上立即下載並開始使用。此外,還有一個仍在訓練中的巨型2兆參數模型Llama 4 Behemoth搶先曝光,但尚未有發布日期。
多模態與長上下文能力
這些新模型的突出特點是其多模態性質。它們不僅限於文字,還能處理影片和圖像。並且它們擁有極長的上下文窗口—Maverick為100萬個token,Scout更是高達1000萬個token。換句話說,這相當於一次處理1500頁和15000頁的文字!想像一下,這對於需要處理和生成大量資訊的領域,如醫學、科學或文學,將帶來無限可能。
專家混合架構
所有三款Llama 4模型均採用「專家混合(MoE)」架構,這是一種由OpenAI和Mistral等公司推廣的技術,近年來頗受矚目。此方法將多個較小的專精模型整合成一個更大、更高效的模型。每個Llama 4模型由128個不同專家組成,這意味著每個token僅由必要的專家和一個共享專家處理,使模型更具成本效益且運行更快。Meta宣稱Llama 4 Maverick可在一台Nvidia H100 DGX主機上運行,部署輕鬆無比。
成本效益與可及性
Meta致力於讓這些模型更易於使用。Scout和Maverick均可供自行托管,他們甚至分享了一些誘人的成本估算。例如,Llama 4 Maverick的推理成本每百萬token介於0.19美元至0.49美元,與GPT-4o等專有模型相比,真是物超所值。如果你想透過雲端供應商使用這些模型,Groq已提供具競爭力的價格。
增強推理與MetaP
這些模型專為推理、編碼和問題解決而設計。Meta在訓練中採用了一些巧妙技術來提升這些能力,例如移除簡單提示並使用連續強化學習,搭配逐漸增加難度的提示。他們還引入了MetaP,這是一種允許在一個模型上設置超參數並應用到其他模型的新技術,節省時間和金錢。這對訓練像Behemoth這樣使用32K GPU並處理超過30兆token的巨型模型尤為重要,堪稱遊戲規則改變者。
性能與比較
那麼,這些模型表現如何?祖克柏清楚表明他對開源AI領軍的願景,Llama 4是朝此方向邁出的一大步。雖然它們可能未在所有領域創下新紀錄,但無疑名列前茅。例如,Llama 4 Behemoth在某些基準測試上超越了一些重量級對手,儘管在其他方面仍需追趕DeepSeek R1和OpenAI的o1系列。
Llama 4 Behemoth
- 在MATH-500(95.0)、GPQA Diamond(73.7)和MMLU Pro(82.2)上超越GPT-4.5、Gemini 2.0 Pro和Claude Sonnet 3.7

Llama 4 Maverick
- 在ChartQA、DocVQA、MathVista和MMMU等多模態推理基準測試中擊敗GPT-4o和Gemini 2.0 Flash
- 與DeepSeek v3.1競爭,同時使用不到一半的活躍參數
- 基準分數:ChartQA(90.0)、DocVQA(94.4)、MMLU Pro(80.5)

Llama 4 Scout
- 在DocVQA(94.4)、MMLU Pro(74.3)和MathVista(70.7)上匹敵或超越Mistral 3.1、Gemini 2.0 Flash-Lite和Gemma 3等模型
- 無與倫比的1000萬token上下文長度—適合長篇文檔和程式碼庫

與DeepSeek R1的比較
在頂尖領域中,Llama 4 Behemoth表現出色,但尚未完全超越DeepSeek R1或OpenAI的o1系列。它在MATH-500和MMLU上略遜一籌,但在GPQA Diamond上領先。儘管如此,Llama 4在推理領域顯然是一個強大的競爭者。
基準 Llama 4 Behemoth DeepSeek R1 OpenAI o1-1217 MATH-500 95.0 97.3 96.4 GPQA Diamond 73.7 71.5 75.7 MMLU 82.2 90.8 91.8
安全與政治中立
Meta也未忽略安全問題。他們推出了Llama Guard、Prompt Guard和CyberSecEval等工具以確保一切合規。他們還強調減少政治偏見,特別是在祖克柏於2024年選舉後表示支持共和黨政治後,致力於採取更平衡的做法。
Llama 4的未來
有了Llama 4,Meta正在推動AI在效率、開放性和性能方面的極限。無論你是想打造企業級AI助理還是深入AI研究,Llama 4提供了強大且靈活的選項,優先考慮推理能力。顯而易見,Meta致力於讓AI對每個人都更具可及性和影響力。
相關文章
Google 揭曉量產級 Gemini 2.5 AI 模型以在企業市場與 OpenAI 競爭
Google 於週一強化其 AI 策略,推出先進的 Gemini 2.5 模型供企業使用,並引入成本效益高的變體,以在價格與性能上競爭。Alphabet 旗下的公司將其旗艦 AI 模型—Gemini 2.5 Pro 與 Gemini 2.5 Flash—從測試階段提升至全面可用,展示其適用於關鍵業務應用的準備度。同時,Google 推出 Gemini 2.5 Flash-Lite,定位為高量任務中
Meta為AI人才提供高薪,否認1億美元簽約獎金
Meta以數百萬美元的薪酬套餐吸引AI研究人員加入其新超級智能實驗室。然而,一位受聘研究員及洩露的內部會議內容顯示,1億美元「簽約獎金」的說法不實。據The Verge週四報導,在一場洩露的公司全體會議中,Meta高管回應了關於OpenAI執行長Sam Altman聲稱Meta向頂尖研究員提供獎金的問題。Meta技術長Andrew Bosworth表示,只有極少數高級領導可能獲得如此高額報酬,但澄
Meta增強AI安全以先進Llama工具
Meta已發布全新Llama安全工具,以強化AI開發並防範新興威脅。這些升級的Llama AI模型安全工具與Meta的新資源搭配,旨在賦能網路安全團隊利用AI進行防禦,提升所有AI利益相關者的安全性。使用Llama模型的開發者現可直接在Meta的Llama Protections頁面、Hugging Face及GitHub上獲得增強工具。Llama Guard 4引入多模態功能,支持文字與圖像的安
評論 (25)
0/200
RogerSanchez
2025-04-25 03:53:44
Llama 4 정말 대단해요! 긴 문맥 스카우트와 마버릭 모델은 놀랍네요. 2T 파라미터의 괴물이 나올 걸 기대하고 있어요. 다만, 설정하는 게 좀 복잡해요. 그래도, AI의 미래가 밝아 보이네요! 🚀
0
WillieHernández
2025-04-24 08:21:23
Llama 4はすごい!長いコンテキストのスカウトやマーベリックモデルは驚異的。2Tパラメータのビーストが出るのを待ちきれない。ただ、設定が少し大変かな。でも、これでAIの未来は明るいね!🚀
0
GregoryWilson
2025-04-23 01:23:39
MetaのLlama 4は最高ですね!長いコンテキストをスムーズに処理できるのが本当に便利。マーベリックモデルも面白いけど、2Tパラメータのモデルが来るのが楽しみです!🤩✨
0
BrianThomas
2025-04-22 14:27:50
O Llama 4 da Meta é incrível! A função de contexto longo é uma mão na roda para minhas pesquisas. Os modelos Maverick também são legais, mas estou ansioso pelo modelo de 2T parâmetros. Mal posso esperar para ver o que ele pode fazer! 🤯🚀
0
JohnGarcia
2025-04-22 11:11:00
Acabo de enterarme de Llama 4 de Meta y ¡es una locura! ¡2T parámetros! Espero que no sea solo hype, pero si cumple con las expectativas, va a ser increíble. ¿Alguien ya lo ha probado? ¡Quiero saber más! 😎
0
NicholasLewis
2025-04-21 21:31:17
Acabei de ouvir sobre o Llama 4 da Meta e parece insano! 2T parâmetros? Isso é um monstro! Mal posso esperar para ver como se compara ao DeepSeek R1. Espero que não seja só hype, mas se corresponder ao burburinho, vai ser 🔥! Alguém já testou?
0
2025年1月,人工智能界因一家相對鮮為人知的中國AI新創公司DeepSeek推出了開創性的開源語言推理模型DeepSeek R1而震驚。此模型不僅超越了Meta等巨頭的表現,且成本僅為傳聞中的數百萬美元。這金額大概只夠Meta支付其AI團隊幾位領袖的薪水!此消息讓Meta陷入一陣慌亂,特別是因為他們前一個月剛發布的Llama 3.3版本已顯得有些過時。
時至今日,Meta的創始人兼執行長馬克·祖克柏(Mark Zuckerberg)在Instagram上宣布推出全新的Llama 4系列。該系列包括4000億參數的Llama 4 Maverick和1090億參數的Llama 4 Scout,兩者皆可供開發者在llama.com和Hugging Face上立即下載並開始使用。此外,還有一個仍在訓練中的巨型2兆參數模型Llama 4 Behemoth搶先曝光,但尚未有發布日期。
多模態與長上下文能力
這些新模型的突出特點是其多模態性質。它們不僅限於文字,還能處理影片和圖像。並且它們擁有極長的上下文窗口—Maverick為100萬個token,Scout更是高達1000萬個token。換句話說,這相當於一次處理1500頁和15000頁的文字!想像一下,這對於需要處理和生成大量資訊的領域,如醫學、科學或文學,將帶來無限可能。
專家混合架構
所有三款Llama 4模型均採用「專家混合(MoE)」架構,這是一種由OpenAI和Mistral等公司推廣的技術,近年來頗受矚目。此方法將多個較小的專精模型整合成一個更大、更高效的模型。每個Llama 4模型由128個不同專家組成,這意味著每個token僅由必要的專家和一個共享專家處理,使模型更具成本效益且運行更快。Meta宣稱Llama 4 Maverick可在一台Nvidia H100 DGX主機上運行,部署輕鬆無比。
成本效益與可及性
Meta致力於讓這些模型更易於使用。Scout和Maverick均可供自行托管,他們甚至分享了一些誘人的成本估算。例如,Llama 4 Maverick的推理成本每百萬token介於0.19美元至0.49美元,與GPT-4o等專有模型相比,真是物超所值。如果你想透過雲端供應商使用這些模型,Groq已提供具競爭力的價格。
增強推理與MetaP
這些模型專為推理、編碼和問題解決而設計。Meta在訓練中採用了一些巧妙技術來提升這些能力,例如移除簡單提示並使用連續強化學習,搭配逐漸增加難度的提示。他們還引入了MetaP,這是一種允許在一個模型上設置超參數並應用到其他模型的新技術,節省時間和金錢。這對訓練像Behemoth這樣使用32K GPU並處理超過30兆token的巨型模型尤為重要,堪稱遊戲規則改變者。
性能與比較
那麼,這些模型表現如何?祖克柏清楚表明他對開源AI領軍的願景,Llama 4是朝此方向邁出的一大步。雖然它們可能未在所有領域創下新紀錄,但無疑名列前茅。例如,Llama 4 Behemoth在某些基準測試上超越了一些重量級對手,儘管在其他方面仍需追趕DeepSeek R1和OpenAI的o1系列。
Llama 4 Behemoth
- 在MATH-500(95.0)、GPQA Diamond(73.7)和MMLU Pro(82.2)上超越GPT-4.5、Gemini 2.0 Pro和Claude Sonnet 3.7
Llama 4 Maverick
- 在ChartQA、DocVQA、MathVista和MMMU等多模態推理基準測試中擊敗GPT-4o和Gemini 2.0 Flash
- 與DeepSeek v3.1競爭,同時使用不到一半的活躍參數
- 基準分數:ChartQA(90.0)、DocVQA(94.4)、MMLU Pro(80.5)
Llama 4 Scout
- 在DocVQA(94.4)、MMLU Pro(74.3)和MathVista(70.7)上匹敵或超越Mistral 3.1、Gemini 2.0 Flash-Lite和Gemma 3等模型
- 無與倫比的1000萬token上下文長度—適合長篇文檔和程式碼庫
與DeepSeek R1的比較
在頂尖領域中,Llama 4 Behemoth表現出色,但尚未完全超越DeepSeek R1或OpenAI的o1系列。它在MATH-500和MMLU上略遜一籌,但在GPQA Diamond上領先。儘管如此,Llama 4在推理領域顯然是一個強大的競爭者。
基準 | Llama 4 Behemoth | DeepSeek R1 | OpenAI o1-1217 |
---|---|---|---|
MATH-500 | 95.0 | 97.3 | 96.4 |
GPQA Diamond | 73.7 | 71.5 | 75.7 |
MMLU | 82.2 | 90.8 | 91.8 |
安全與政治中立
Meta也未忽略安全問題。他們推出了Llama Guard、Prompt Guard和CyberSecEval等工具以確保一切合規。他們還強調減少政治偏見,特別是在祖克柏於2024年選舉後表示支持共和黨政治後,致力於採取更平衡的做法。
Llama 4的未來
有了Llama 4,Meta正在推動AI在效率、開放性和性能方面的極限。無論你是想打造企業級AI助理還是深入AI研究,Llama 4提供了強大且靈活的選項,優先考慮推理能力。顯而易見,Meta致力於讓AI對每個人都更具可及性和影響力。



Llama 4 정말 대단해요! 긴 문맥 스카우트와 마버릭 모델은 놀랍네요. 2T 파라미터의 괴물이 나올 걸 기대하고 있어요. 다만, 설정하는 게 좀 복잡해요. 그래도, AI의 미래가 밝아 보이네요! 🚀




Llama 4はすごい!長いコンテキストのスカウトやマーベリックモデルは驚異的。2Tパラメータのビーストが出るのを待ちきれない。ただ、設定が少し大変かな。でも、これでAIの未来は明るいね!🚀




MetaのLlama 4は最高ですね!長いコンテキストをスムーズに処理できるのが本当に便利。マーベリックモデルも面白いけど、2Tパラメータのモデルが来るのが楽しみです!🤩✨




O Llama 4 da Meta é incrível! A função de contexto longo é uma mão na roda para minhas pesquisas. Os modelos Maverick também são legais, mas estou ansioso pelo modelo de 2T parâmetros. Mal posso esperar para ver o que ele pode fazer! 🤯🚀




Acabo de enterarme de Llama 4 de Meta y ¡es una locura! ¡2T parámetros! Espero que no sea solo hype, pero si cumple con las expectativas, va a ser increíble. ¿Alguien ya lo ha probado? ¡Quiero saber más! 😎




Acabei de ouvir sobre o Llama 4 da Meta e parece insano! 2T parâmetros? Isso é um monstro! Mal posso esperar para ver como se compara ao DeepSeek R1. Espero que não seja só hype, mas se corresponder ao burburinho, vai ser 🔥! Alguém já testou?












