選項
首頁
新聞
Meta的Llama 3.1是AI代的進步

Meta的Llama 3.1是AI代的進步

2025-04-15
107

Meta的Llama 3.1是AI代的進步

週二,Meta揭開了其Llama大型語言模型(LLMs)家族最新成員的面紗,推出了Llama 3.1。該公司自豪地宣稱Llama 3.1是首個開源的「前沿模型」,這個術語通常用於描述最先進的AI模型。

Llama 3.1有多種規模,但真正引人注目的還是其龐大的「405B」版本。憑藉驚人的4050億個神經「權重」或參數,它超越了其他知名的開源模型,如Nvidia的Nemotron 4、Google的Gemma 2和Mixtral。更引人入勝的是Meta團隊在打造這個巨型模型時做出的三個關鍵決策。

這些決策堪稱神經網絡工程的典範,構成了Llama 3.1 405B建構與訓練的支柱。它們也延續了Meta在Llama 2中展示的效率提升,顯示出降低深度學習總體計算預算的潛力。

首先,Llama 3.1 405B放棄了Google在其閉源Gemini 1.5和Mistral在其Mixtral中使用的「專家混合」方法。這種方法涉及創建不同的神經權重組合,其中一些可以關閉以簡化預測。相反,Meta的研究人員堅持使用自Google於2017年引入的經典「僅解碼器Transformer模型架構」。他們聲稱這一選擇帶來更穩定的訓練過程。

其次,為了提升這種簡單Transformer模型的性能,Meta的團隊提出了一種巧妙的多階段訓練方法。我們都知道,平衡訓練數據量和計算資源會顯著影響預測質量。但傳統的「規模法則」,即根據模型大小和數據預測性能的規則,並不一定能反映模型在「下游」任務(如推理測試)中的表現。

因此,Meta開發了自己的規模法則。他們增加了訓練數據和計算資源,通過多次迭代測試不同組合,觀察所得模型在關鍵下游任務中的表現。這一細緻的過程幫助他們找到最佳平衡點,最終選擇了4050億個參數作為旗艦模型。最終訓練由Meta的Grand Teton AI伺服器上的16,000個Nvidia H100 GPU晶片提供動力,並採用複雜的系統並行運行數據和權重。

第三項創新在於訓練後階段。每次訓練後,Llama 3.1都會經過嚴格的人類反饋引導過程,類似於OpenAI和其他公司用來優化模型輸出的方法。這包括「監督微調」,模型根據人類偏好學習區分理想與非理想的輸出。

Meta隨後引入了一個新變化,採用「直接偏好優化」(DPO),這是今年由Stanford University AI學者開創的更高效的人類反饋強化學習版本。他們還訓練Llama 3.1使用「工具」,如外部搜尋引擎,通過展示使用API調用解決的提示範例,提升其「零次學習」工具使用能力。

為了對抗「幻覺」,團隊精心挑選特定訓練數據並創建原始問答對,微調模型以僅回答其確知的內容,拒絕回答不確定的問題。

在整個開發過程中,Meta研究人員強調簡單性,指出高質量數據、規模和直接方法始終帶來最佳結果。儘管他們探索了更複雜的架構和訓練配方,但發現增加的複雜性並不能證明其效益。

Llama 3.1 405B的規模對於開源模型來說是一個里程碑,通常被商業閉源模型所壓倒。Meta的首席執行官Mark Zuckerberg強調了經濟優勢,指出開發者運行Llama 3.1 405B的推理成本僅為使用GPT-4o等模型的一半。

Zuckerberg還支持開源AI作為軟體的自然進展,將其比作Unix從專有到更先進、安全且更廣泛的生態系統的演變,這得益於開源開發。

然而,正如ZDNET的Steven Vaughan-Nichols指出,Meta在Hugging Face上發布的程式碼缺少一些細節,且程式碼許可證比典型的開源許可證更具限制性。因此,雖然Llama 3.1算是開源,但並未完全符合標準。然而,其訓練過程的詳細公開是一個令人振奮的變化,特別是當OpenAI和Google等巨頭對其閉源模型越來越守口如瓶時。

相關文章
甲骨文40億美元Nvidia晶片投資推動德州AI數據中心 甲骨文40億美元Nvidia晶片投資推動德州AI數據中心 據《金融時報》報導,甲骨文計劃投資約40億美元於Nvidia晶片,為OpenAI在德州開發的大型新數據中心提供動力。這筆交易是迄今為止最大的晶片收購之一,凸顯了對AI運算資源的激增需求。該設施位於德州阿比林,是美國首個「星門」數據中心。由OpenAI和軟銀支持,屬於建設大規模AI基礎設施的更廣泛計劃的一部分。該德州中心預計明年完工,將提供1.2吉瓦的運算能力,位列全球最大之列。甲骨文計劃採購約40
軟銀以6.76億美元收購夏普工廠用於日本AI數據中心 軟銀以6.76億美元收購夏普工廠用於日本AI數據中心 軟銀正推進其在日本建立主要AI中心的目標,獨立進行並透過與OpenAI等合作。該科技巨頭於週五確認,將投資6.76億美元收購一座前夏普LCD面板工廠,將其轉型為AI數據中心。軟銀與夏普的交易包括位於大阪的堺工廠的土地和建築物,購買價格為1000億日元(6.76億美元)。此次收購對軟銀來說是關鍵一步,因為數據中心對於生成式AI革命至關重要,需要大量容量來訓練模型並支持持續服務。當被問及該地點是否將支
NQ 8U Stephen AI Trader的深入分析每日利潤5284美元 NQ 8U Stephen AI Trader的深入分析每日利潤5284美元 在快節奏的算法交易領域中,掌握績效指標是持久成功的關鍵。本篇評論詳細解析NQ 8U Stephen AI自動交易者的每日記錄,突出今日5284美元的顯著收益。內容涵蓋交易細節、精確的進場與出場時點,以及這些成果背後的方法。此類審視揭示了人工智慧如何重塑交易實務。 關鍵要點NQ 8U Stephen系統透過AI自動交易者實現每日5284美元的收益。此系統仔細檢視市場數據,記錄進場與出場時點,精確至毫
評論 (26)
0/200
ThomasBaker
ThomasBaker 2025-07-31 09:41:20

Wow, Llama 3.1 sounds like a game-changer! Open-source and frontier-level? That’s huge for AI devs. Curious how it stacks up against closed models like GPT-4. 😎

AlbertThomas
AlbertThomas 2025-04-22 23:18:49

O Llama 3.1 é incrível! Adoro que seja de código aberto, é como ter um superpoder no meu arsenal de programação. No começo pode ser um pouco confuso, mas vale a pena experimentar se você gosta de IA! 🚀

GaryGonzalez
GaryGonzalez 2025-04-22 16:13:48

ラマ3.1は本当にすごい!オープンソースで使えるのが最高です。最初は少し圧倒されましたが、慣れると便利です。AIに興味があるなら、ぜひ試してみてください!🚀

AnthonyPerez
AnthonyPerez 2025-04-22 15:26:53

¡Llama 3.1 es una bestia! Me encanta que sea de código abierto, es como tener un superpoder en mi arsenal de programación. Al principio puede ser un poco abrumador, pero definitivamente vale la pena probarlo si te interesa la IA! 🚀

JustinAnderson
JustinAnderson 2025-04-21 05:42:32

¡Llama 3.1 de Meta es una maravilla! Me sorprende cómo están empujando los límites con la IA de código abierto. El rendimiento es genial, pero desearía que hubiera más documentación para principiantes. De todas formas, ¡es una herramienta que hay que probar! 💪

WilliamAllen
WilliamAllen 2025-04-20 09:52:01

Llama 3.1 is a beast! I've been playing around with it and the open-source aspect is just awesome. It's like having a superpower in my coding arsenal. But, it can be a bit overwhelming at first. Definitely worth checking out if you're into AI! 🚀

回到頂部
OR