Meta揭開了長篇小說偵察兵和特立獨行的模型,2T參數龐然大物即將推出!
2025年04月16日
HenryWalker
59
早在2025年1月,當一個相對不知名的中國人工智能創業公司DeepSeek以開創性的開源語言推理模型DeepSeek R1拋棄了Gauntlet,AI世界就震撼了。該模型不僅表現出色,而且以成本的一小部分進行了元模型,而且只能達到幾百萬美元。這就是一種預算元可能只花在幾個AI團隊領導者身上!這一消息使梅塔(Meta)陷入了狂熱,尤其是自從他們最新的Llama模型3.3版本即將在一個月發布的情況下看起來有些過時。
快進到今天,梅塔(Meta)的創始人兼首席執行官馬克·扎克伯格(Mark Zuckerberg)已訪問Instagram,宣布了新Llama 4系列的發布。該系列包括400億參數Llama 4 Maverick和10090億參數Llama 4 Scout,均可在Llama.com上立即下載並開始進行修補,並在Llama.com上進行修補。還有一個巨大的2-萬億參數模型,即仍在訓練中,沒有釋放日期的巨大參數模型。
多模式和長篇文化功能
這些新模型的傑出特徵之一是它們的多模式性質。他們不僅僅是文字;他們也可以處理視頻和圖像。他們配備了令人難以置信的漫長上下文窗口 - 小牛的100萬個令牌,偵察員的偵察兵高達1000萬。從角度來看,這就像一口氣最多處理1,500頁和15,000頁的文字!想像一下,您需要處理並產生大量信息的醫學,科學或文獻等領域的可能性。
Experts架構的混合物
所有三種Llama 4車型都採用“ Experts(MOE)”建築,這是一種浪潮,由Openai和Mistral等公司推廣。這種方法將多個較小的專業模型結合到一個較大,更高效的模型中。每個Llama 4模型都是128個不同專家的組合,這意味著每個代幣的必要專家和一個共享的手柄,使模型更具成本效益,更快地運行。 Meta誇大了Llama 4 Maverick可以在單個NVIDIA H100 DGX主機上運行,這使部署變得輕而易舉。
具有成本效益且易於使用的
Meta就是要使這些模型可訪問。偵察兵和小牛都可以進行自我託管,他們甚至分享了一些誘人的成本估算。例如,Llama 4 Maverick的推論成本在每百萬個代幣0.19美元至0.49美元之間,與GPT-4O(例如GPT-4O)相比,這是一個搶斷。而且,如果您有興趣通過雲提供商使用這些模型,那麼Groq已經提高了競爭性定價。
增強的推理和代碼
這些模型是為了牢記推理,編碼和解決問題的構建。 Meta在訓練過程中使用了一些巧妙的技術來提高這些功能,例如刪除輕鬆的提示並使用越來越困難的提示使用持續的加固學習。他們還引入了Metap,這是一種新技術,允許在一種型號上設置超參數並將其應用於其他模型,從而節省了時間和金錢。這是一個改變遊戲規則的人,尤其是用於諸如Beamemoth之類的訓練怪物,該怪物使用32K GPU和30萬億代幣的流程。
性能和比較
那麼,這些模型如何堆疊?扎克伯格(Zuckerberg)清楚地知道他對開源AI的願景領導了這一指控,而Llama 4是朝這個方向邁出的重要一步。儘管他們可能不會全面設置新的績效記錄,但它們肯定會靠近班級的頂部。例如,Llama 4 Beymoth在某些基準測試中的表現優於一些重型擊球手,儘管它仍然在其他基準和Openai的O1系列中追趕。
駱駝4龐然大物
- 在Math-500(95.0),GPQA Diamond(73.7)和MMLU Pro(82.2)上,勝過GPT-4.5,Gemini 2.0 Pro和Claude Sonnet 3.7(95.0),GPQA Diamond(73.7)

美洲駝4小牛
- 在大多數多模式推理基准上擊敗GPT-4O和Gemini 2.0閃光燈,例如ChartQA,DOCVQA,Mathvista和MMMU
- 使用DeepSeek v3.1競爭,而使用少於活動參數的一半
- 基準分數:ChartQA(90.0),DOCVQA(94.4),MMLU PRO(80.5)

美洲駝4偵察員
- 匹配或勝過Mistral 3.1,Gemini 2.0 Flash-lite和docvqa(94.4),MMLU Pro(74.3)和Mathvista(70.7)等匹配或勝過模型(70.7)
- 無與倫比的10m令牌上下文長度 - 長文檔和代碼庫的理想

與DeepSeek R1進行比較
當涉及大聯盟時,Llama 4 Behemoth擁有自己的,但並沒有完全剝奪Dethrone DeepSeek R1或Openai的O1系列。它在Math-500和MMLU上略有落後,但在GPQA鑽石上領先。儘管如此,很明顯,美洲駝4是推理領域的強大競爭者。
基準 駱駝4龐然大物 DeepSeek R1 Openai O1-1217 Math-500 95.0 97.3 96.4 GPQA鑽石 73.7 71.5 75.7 mmlu 82.2 90.8 91.8
安全和政治中立
梅塔也沒有忘記安全。他們介紹了諸如Llama Guard,Prick Guard和Cyberseceval之類的工具,以使事情保持在進行中。他們指出要減少政治偏見,旨在採取更加平衡的方法,尤其是在扎克伯格(Zuckerberg)著名的2024年大選後對共和黨政治的支持之後。
與駱駝4的未來4
使用Llama 4,Meta在AI中推動了效率,開放性和性能的界限。無論您是想建立企業級的AI助手還是深入研究AI研究,Llama 4都提供了優先推理的強大,靈活的選擇。很明顯,梅塔致力於使AI對每個人更容易訪問和影響。
相關文章
前Deepseeker和合作者發布了新的培訓可靠AI代理的方法:Ragen
人工智能代理年度:仔細研究2025年的期望和現實2025年被許多專家預示為當年的AI代理商(由高級大型語言和多式聯運公司提供支持的AI代理商),來自OpenAI,Anthropic,Google和Google和Deepseek等公司,最終將帶上中心中心中心中心。
蓋亞(Gaia
智力無處不在,但是準確地測量它就像試圖用裸手抓住雲。我們使用考試和基準(例如大學入學考試)來獲得一個大概的想法。每年,學生都會為這些測試做好準備,有時甚至得分完美的100%。但是那是完美的分數
我們如何使用AI來幫助城市應對極端熱量
看起來2024年可能會打破迄今為止最熱的一年的記錄,超過了2023年。這種趨勢對生活在城市熱島的人們來說尤為艱難,這些景點是在混凝土和瀝青浸泡太陽射線,然後散發出熱量的城市中的那些景點。這些區域可以溫暖
評論 (20)
0/200
TimothyEvans
2025年04月19日 04:25:17
Just heard about Meta's Llama 4 and it sounds insane! 2T parameters? That's a monster! Can't wait to see how it performs compared to DeepSeek R1. Hope it's not just hype, but if it lives up to the buzz, it's gonna be 🔥! Anyone tried it yet?
0
EricJohnson
2025年04月17日 12:34:32
メタのラマ4、2Tパラメータって聞いてびっくり!ディープシークR1と比べてどんな感じなのか楽しみ。期待が大きいだけに、実際に使ってみないとわからないけど、期待してるよ!誰かもう試した?😊
0
JohnGarcia
2025年04月22日 03:11:00
Acabo de enterarme de Llama 4 de Meta y ¡es una locura! ¡2T parámetros! Espero que no sea solo hype, pero si cumple con las expectativas, va a ser increíble. ¿Alguien ya lo ha probado? ¡Quiero saber más! 😎
0
NicholasLewis
2025年04月21日 13:31:17
Acabei de ouvir sobre o Llama 4 da Meta e parece insano! 2T parâmetros? Isso é um monstro! Mal posso esperar para ver como se compara ao DeepSeek R1. Espero que não seja só hype, mas se corresponder ao burburinho, vai ser 🔥! Alguém já testou?
0
PaulGonzalez
2025年04月21日 10:16:18
Gerade von Meta's Llama 4 gehört und es klingt verrückt! 2T Parameter? Das ist ein Riese! Kann es kaum erwarten zu sehen, wie es sich im Vergleich zu DeepSeek R1 schlägt. Hoffentlich ist es nicht nur Hype, aber wenn es dem Rummel gerecht wird, wird es 🔥! Jemand schon ausprobiert?
0
IsabellaDavis
2025年04月18日 12:35:20
Meta's Llama 4 is a beast! The long context scout feature is a game-changer for my research. The Maverick models are cool too, but I'm really waiting for that 2T parameter model. Can't wait to see what it can do! 🤓🚀
0






早在2025年1月,當一個相對不知名的中國人工智能創業公司DeepSeek以開創性的開源語言推理模型DeepSeek R1拋棄了Gauntlet,AI世界就震撼了。該模型不僅表現出色,而且以成本的一小部分進行了元模型,而且只能達到幾百萬美元。這就是一種預算元可能只花在幾個AI團隊領導者身上!這一消息使梅塔(Meta)陷入了狂熱,尤其是自從他們最新的Llama模型3.3版本即將在一個月發布的情況下看起來有些過時。
快進到今天,梅塔(Meta)的創始人兼首席執行官馬克·扎克伯格(Mark Zuckerberg)已訪問Instagram,宣布了新Llama 4系列的發布。該系列包括400億參數Llama 4 Maverick和10090億參數Llama 4 Scout,均可在Llama.com上立即下載並開始進行修補,並在Llama.com上進行修補。還有一個巨大的2-萬億參數模型,即仍在訓練中,沒有釋放日期的巨大參數模型。
多模式和長篇文化功能
這些新模型的傑出特徵之一是它們的多模式性質。他們不僅僅是文字;他們也可以處理視頻和圖像。他們配備了令人難以置信的漫長上下文窗口 - 小牛的100萬個令牌,偵察員的偵察兵高達1000萬。從角度來看,這就像一口氣最多處理1,500頁和15,000頁的文字!想像一下,您需要處理並產生大量信息的醫學,科學或文獻等領域的可能性。
Experts架構的混合物
所有三種Llama 4車型都採用“ Experts(MOE)”建築,這是一種浪潮,由Openai和Mistral等公司推廣。這種方法將多個較小的專業模型結合到一個較大,更高效的模型中。每個Llama 4模型都是128個不同專家的組合,這意味著每個代幣的必要專家和一個共享的手柄,使模型更具成本效益,更快地運行。 Meta誇大了Llama 4 Maverick可以在單個NVIDIA H100 DGX主機上運行,這使部署變得輕而易舉。
具有成本效益且易於使用的
Meta就是要使這些模型可訪問。偵察兵和小牛都可以進行自我託管,他們甚至分享了一些誘人的成本估算。例如,Llama 4 Maverick的推論成本在每百萬個代幣0.19美元至0.49美元之間,與GPT-4O(例如GPT-4O)相比,這是一個搶斷。而且,如果您有興趣通過雲提供商使用這些模型,那麼Groq已經提高了競爭性定價。
增強的推理和代碼
這些模型是為了牢記推理,編碼和解決問題的構建。 Meta在訓練過程中使用了一些巧妙的技術來提高這些功能,例如刪除輕鬆的提示並使用越來越困難的提示使用持續的加固學習。他們還引入了Metap,這是一種新技術,允許在一種型號上設置超參數並將其應用於其他模型,從而節省了時間和金錢。這是一個改變遊戲規則的人,尤其是用於諸如Beamemoth之類的訓練怪物,該怪物使用32K GPU和30萬億代幣的流程。
性能和比較
那麼,這些模型如何堆疊?扎克伯格(Zuckerberg)清楚地知道他對開源AI的願景領導了這一指控,而Llama 4是朝這個方向邁出的重要一步。儘管他們可能不會全面設置新的績效記錄,但它們肯定會靠近班級的頂部。例如,Llama 4 Beymoth在某些基準測試中的表現優於一些重型擊球手,儘管它仍然在其他基準和Openai的O1系列中追趕。
駱駝4龐然大物
- 在Math-500(95.0),GPQA Diamond(73.7)和MMLU Pro(82.2)上,勝過GPT-4.5,Gemini 2.0 Pro和Claude Sonnet 3.7(95.0),GPQA Diamond(73.7)
美洲駝4小牛
- 在大多數多模式推理基准上擊敗GPT-4O和Gemini 2.0閃光燈,例如ChartQA,DOCVQA,Mathvista和MMMU
- 使用DeepSeek v3.1競爭,而使用少於活動參數的一半
- 基準分數:ChartQA(90.0),DOCVQA(94.4),MMLU PRO(80.5)
美洲駝4偵察員
- 匹配或勝過Mistral 3.1,Gemini 2.0 Flash-lite和docvqa(94.4),MMLU Pro(74.3)和Mathvista(70.7)等匹配或勝過模型(70.7)
- 無與倫比的10m令牌上下文長度 - 長文檔和代碼庫的理想
與DeepSeek R1進行比較
當涉及大聯盟時,Llama 4 Behemoth擁有自己的,但並沒有完全剝奪Dethrone DeepSeek R1或Openai的O1系列。它在Math-500和MMLU上略有落後,但在GPQA鑽石上領先。儘管如此,很明顯,美洲駝4是推理領域的強大競爭者。
基準 | 駱駝4龐然大物 | DeepSeek R1 | Openai O1-1217 |
---|---|---|---|
Math-500 | 95.0 | 97.3 | 96.4 |
GPQA鑽石 | 73.7 | 71.5 | 75.7 |
mmlu | 82.2 | 90.8 | 91.8 |
安全和政治中立
梅塔也沒有忘記安全。他們介紹了諸如Llama Guard,Prick Guard和Cyberseceval之類的工具,以使事情保持在進行中。他們指出要減少政治偏見,旨在採取更加平衡的方法,尤其是在扎克伯格(Zuckerberg)著名的2024年大選後對共和黨政治的支持之後。
與駱駝4的未來4
使用Llama 4,Meta在AI中推動了效率,開放性和性能的界限。無論您是想建立企業級的AI助手還是深入研究AI研究,Llama 4都提供了優先推理的強大,靈活的選擇。很明顯,梅塔致力於使AI對每個人更容易訪問和影響。




Just heard about Meta's Llama 4 and it sounds insane! 2T parameters? That's a monster! Can't wait to see how it performs compared to DeepSeek R1. Hope it's not just hype, but if it lives up to the buzz, it's gonna be 🔥! Anyone tried it yet?




メタのラマ4、2Tパラメータって聞いてびっくり!ディープシークR1と比べてどんな感じなのか楽しみ。期待が大きいだけに、実際に使ってみないとわからないけど、期待してるよ!誰かもう試した?😊




Acabo de enterarme de Llama 4 de Meta y ¡es una locura! ¡2T parámetros! Espero que no sea solo hype, pero si cumple con las expectativas, va a ser increíble. ¿Alguien ya lo ha probado? ¡Quiero saber más! 😎




Acabei de ouvir sobre o Llama 4 da Meta e parece insano! 2T parâmetros? Isso é um monstro! Mal posso esperar para ver como se compara ao DeepSeek R1. Espero que não seja só hype, mas se corresponder ao burburinho, vai ser 🔥! Alguém já testou?




Gerade von Meta's Llama 4 gehört und es klingt verrückt! 2T Parameter? Das ist ein Riese! Kann es kaum erwarten zu sehen, wie es sich im Vergleich zu DeepSeek R1 schlägt. Hoffentlich ist es nicht nur Hype, aber wenn es dem Rummel gerecht wird, wird es 🔥! Jemand schon ausprobiert?




Meta's Llama 4 is a beast! The long context scout feature is a game-changer for my research. The Maverick models are cool too, but I'm really waiting for that 2T parameter model. Can't wait to see what it can do! 🤓🚀












