Meta的Llama 3.1是AI代的進步

週二,Meta揭開了其Llama大型語言模型(LLMs)家族最新成員的面紗,推出了Llama 3.1。該公司自豪地宣稱Llama 3.1是首個開源的「前沿模型」,這個術語通常用於描述最先進的AI模型。
Llama 3.1有多種規模,但真正引人注目的還是其龐大的「405B」版本。憑藉驚人的4050億個神經「權重」或參數,它超越了其他知名的開源模型,如Nvidia的Nemotron 4、Google的Gemma 2和Mixtral。更引人入勝的是Meta團隊在打造這個巨型模型時做出的三個關鍵決策。
這些決策堪稱神經網絡工程的典範,構成了Llama 3.1 405B建構與訓練的支柱。它們也延續了Meta在Llama 2中展示的效率提升,顯示出降低深度學習總體計算預算的潛力。
首先,Llama 3.1 405B放棄了Google在其閉源Gemini 1.5和Mistral在其Mixtral中使用的「專家混合」方法。這種方法涉及創建不同的神經權重組合,其中一些可以關閉以簡化預測。相反,Meta的研究人員堅持使用自Google於2017年引入的經典「僅解碼器Transformer模型架構」。他們聲稱這一選擇帶來更穩定的訓練過程。
其次,為了提升這種簡單Transformer模型的性能,Meta的團隊提出了一種巧妙的多階段訓練方法。我們都知道,平衡訓練數據量和計算資源會顯著影響預測質量。但傳統的「規模法則」,即根據模型大小和數據預測性能的規則,並不一定能反映模型在「下游」任務(如推理測試)中的表現。
因此,Meta開發了自己的規模法則。他們增加了訓練數據和計算資源,通過多次迭代測試不同組合,觀察所得模型在關鍵下游任務中的表現。這一細緻的過程幫助他們找到最佳平衡點,最終選擇了4050億個參數作為旗艦模型。最終訓練由Meta的Grand Teton AI伺服器上的16,000個Nvidia H100 GPU晶片提供動力,並採用複雜的系統並行運行數據和權重。
第三項創新在於訓練後階段。每次訓練後,Llama 3.1都會經過嚴格的人類反饋引導過程,類似於OpenAI和其他公司用來優化模型輸出的方法。這包括「監督微調」,模型根據人類偏好學習區分理想與非理想的輸出。
Meta隨後引入了一個新變化,採用「直接偏好優化」(DPO),這是今年由Stanford University AI學者開創的更高效的人類反饋強化學習版本。他們還訓練Llama 3.1使用「工具」,如外部搜尋引擎,通過展示使用API調用解決的提示範例,提升其「零次學習」工具使用能力。
為了對抗「幻覺」,團隊精心挑選特定訓練數據並創建原始問答對,微調模型以僅回答其確知的內容,拒絕回答不確定的問題。
在整個開發過程中,Meta研究人員強調簡單性,指出高質量數據、規模和直接方法始終帶來最佳結果。儘管他們探索了更複雜的架構和訓練配方,但發現增加的複雜性並不能證明其效益。
Llama 3.1 405B的規模對於開源模型來說是一個里程碑,通常被商業閉源模型所壓倒。Meta的首席執行官Mark Zuckerberg強調了經濟優勢,指出開發者運行Llama 3.1 405B的推理成本僅為使用GPT-4o等模型的一半。
Zuckerberg還支持開源AI作為軟體的自然進展,將其比作Unix從專有到更先進、安全且更廣泛的生態系統的演變,這得益於開源開發。
然而,正如ZDNET的Steven Vaughan-Nichols指出,Meta在Hugging Face上發布的程式碼缺少一些細節,且程式碼許可證比典型的開源許可證更具限制性。因此,雖然Llama 3.1算是開源,但並未完全符合標準。然而,其訓練過程的詳細公開是一個令人振奮的變化,特別是當OpenAI和Google等巨頭對其閉源模型越來越守口如瓶時。
相關文章
Anthropic 解決 AI 產生盜版書籍的法律案件
Anthropic 已與美國作家就一宗重大版權糾紛達成和解,同意擬議的集體訴訟和解方案,以避免可能耗費巨資的審判。該協議於本週二在法庭文件中提交,源於該人工智能公司使用盜版文學作品訓練其 Claude 模型的指控。雖然此案源於作家 Andrea Bartz、Charles Graeber 和 Kirk Wallace Johnson 的訴訟,但和解細節仍然保密。他們於 2023 年提出訴訟,指控
文件顯示,Meta 與 Llama AI 模型的主機分享收入
雖然 Meta 執行長 Mark Zuckerberg 在 2023 年 7 月強調「銷售存取權」並非他們 Llama AI 模型的商業模式,但最新揭露的法庭文件顯示,Meta 與託管這些開放原始碼模型的雲端供應商進行收入分享合作。透過託管夥伴關係獲利未經刪除的 Kadrey v. Meta 訴訟文件顯示,Meta 從提供 Llama 模型給使用者的公司獲得營收分成,但具體合作夥伴並未具名。
解鎖 99% 的隱藏資料,現已針對 AI 進行最佳化
世世代代以來,各行各業的組織都瞭解到,他們累積的資訊代表了一種轉型資產 - 能夠以無與倫比的精準度增強客戶互動和塑造資料驅動的商業策略。如今,隨著人工智慧從理論潛力轉變為實際的商業解決方案,企業資料的策略價值已達到前所未有的高度。然而,要釋放這一價值,就必須對資料基礎設施給予一絲不苟的關注 - 從系統化的收集和清理,到從第一天開始就針對隱私、法規遵循和安全問題制定嚴格的治理協議。在與 IBM 美洲
評論 (27)
0/200
DavidRodriguez
2025-08-31 00:30:32
Interessant, dass Meta Llama 3.1 als erstes Open-Source-Modell bezeichnet. Aber wer kann so ein riesiges Modell eigentlich sinnvoll nutzen? Für kleine Unternehmen bestimmt zu teuer im Betrieb. 🧐
0
ThomasBaker
2025-07-31 09:41:20
Wow, Llama 3.1 sounds like a game-changer! Open-source and frontier-level? That’s huge for AI devs. Curious how it stacks up against closed models like GPT-4. 😎
0
AlbertThomas
2025-04-22 23:18:49
O Llama 3.1 é incrível! Adoro que seja de código aberto, é como ter um superpoder no meu arsenal de programação. No começo pode ser um pouco confuso, mas vale a pena experimentar se você gosta de IA! 🚀
0
GaryGonzalez
2025-04-22 16:13:48
ラマ3.1は本当にすごい!オープンソースで使えるのが最高です。最初は少し圧倒されましたが、慣れると便利です。AIに興味があるなら、ぜひ試してみてください!🚀
0
AnthonyPerez
2025-04-22 15:26:53
¡Llama 3.1 es una bestia! Me encanta que sea de código abierto, es como tener un superpoder en mi arsenal de programación. Al principio puede ser un poco abrumador, pero definitivamente vale la pena probarlo si te interesa la IA! 🚀
0
JustinAnderson
2025-04-21 05:42:32
¡Llama 3.1 de Meta es una maravilla! Me sorprende cómo están empujando los límites con la IA de código abierto. El rendimiento es genial, pero desearía que hubiera más documentación para principiantes. De todas formas, ¡es una herramienta que hay que probar! 💪
0
週二,Meta揭開了其Llama大型語言模型(LLMs)家族最新成員的面紗,推出了Llama 3.1。該公司自豪地宣稱Llama 3.1是首個開源的「前沿模型」,這個術語通常用於描述最先進的AI模型。
Llama 3.1有多種規模,但真正引人注目的還是其龐大的「405B」版本。憑藉驚人的4050億個神經「權重」或參數,它超越了其他知名的開源模型,如Nvidia的Nemotron 4、Google的Gemma 2和Mixtral。更引人入勝的是Meta團隊在打造這個巨型模型時做出的三個關鍵決策。
這些決策堪稱神經網絡工程的典範,構成了Llama 3.1 405B建構與訓練的支柱。它們也延續了Meta在Llama 2中展示的效率提升,顯示出降低深度學習總體計算預算的潛力。
首先,Llama 3.1 405B放棄了Google在其閉源Gemini 1.5和Mistral在其Mixtral中使用的「專家混合」方法。這種方法涉及創建不同的神經權重組合,其中一些可以關閉以簡化預測。相反,Meta的研究人員堅持使用自Google於2017年引入的經典「僅解碼器Transformer模型架構」。他們聲稱這一選擇帶來更穩定的訓練過程。
其次,為了提升這種簡單Transformer模型的性能,Meta的團隊提出了一種巧妙的多階段訓練方法。我們都知道,平衡訓練數據量和計算資源會顯著影響預測質量。但傳統的「規模法則」,即根據模型大小和數據預測性能的規則,並不一定能反映模型在「下游」任務(如推理測試)中的表現。
因此,Meta開發了自己的規模法則。他們增加了訓練數據和計算資源,通過多次迭代測試不同組合,觀察所得模型在關鍵下游任務中的表現。這一細緻的過程幫助他們找到最佳平衡點,最終選擇了4050億個參數作為旗艦模型。最終訓練由Meta的Grand Teton AI伺服器上的16,000個Nvidia H100 GPU晶片提供動力,並採用複雜的系統並行運行數據和權重。
第三項創新在於訓練後階段。每次訓練後,Llama 3.1都會經過嚴格的人類反饋引導過程,類似於OpenAI和其他公司用來優化模型輸出的方法。這包括「監督微調」,模型根據人類偏好學習區分理想與非理想的輸出。
Meta隨後引入了一個新變化,採用「直接偏好優化」(DPO),這是今年由Stanford University AI學者開創的更高效的人類反饋強化學習版本。他們還訓練Llama 3.1使用「工具」,如外部搜尋引擎,通過展示使用API調用解決的提示範例,提升其「零次學習」工具使用能力。
為了對抗「幻覺」,團隊精心挑選特定訓練數據並創建原始問答對,微調模型以僅回答其確知的內容,拒絕回答不確定的問題。
在整個開發過程中,Meta研究人員強調簡單性,指出高質量數據、規模和直接方法始終帶來最佳結果。儘管他們探索了更複雜的架構和訓練配方,但發現增加的複雜性並不能證明其效益。
Llama 3.1 405B的規模對於開源模型來說是一個里程碑,通常被商業閉源模型所壓倒。Meta的首席執行官Mark Zuckerberg強調了經濟優勢,指出開發者運行Llama 3.1 405B的推理成本僅為使用GPT-4o等模型的一半。
Zuckerberg還支持開源AI作為軟體的自然進展,將其比作Unix從專有到更先進、安全且更廣泛的生態系統的演變,這得益於開源開發。
然而,正如ZDNET的Steven Vaughan-Nichols指出,Meta在Hugging Face上發布的程式碼缺少一些細節,且程式碼許可證比典型的開源許可證更具限制性。因此,雖然Llama 3.1算是開源,但並未完全符合標準。然而,其訓練過程的詳細公開是一個令人振奮的變化,特別是當OpenAI和Google等巨頭對其閉源模型越來越守口如瓶時。



Interessant, dass Meta Llama 3.1 als erstes Open-Source-Modell bezeichnet. Aber wer kann so ein riesiges Modell eigentlich sinnvoll nutzen? Für kleine Unternehmen bestimmt zu teuer im Betrieb. 🧐




Wow, Llama 3.1 sounds like a game-changer! Open-source and frontier-level? That’s huge for AI devs. Curious how it stacks up against closed models like GPT-4. 😎




O Llama 3.1 é incrível! Adoro que seja de código aberto, é como ter um superpoder no meu arsenal de programação. No começo pode ser um pouco confuso, mas vale a pena experimentar se você gosta de IA! 🚀




ラマ3.1は本当にすごい!オープンソースで使えるのが最高です。最初は少し圧倒されましたが、慣れると便利です。AIに興味があるなら、ぜひ試してみてください!🚀




¡Llama 3.1 es una bestia! Me encanta que sea de código abierto, es como tener un superpoder en mi arsenal de programación. Al principio puede ser un poco abrumador, pero definitivamente vale la pena probarlo si te interesa la IA! 🚀




¡Llama 3.1 de Meta es una maravilla! Me sorprende cómo están empujando los límites con la IA de código abierto. El rendimiento es genial, pero desearía que hubiera más documentación para principiantes. De todas formas, ¡es una herramienta que hay que probar! 💪












