Meta的Llama 3.1是AI代的進步

週二,Meta揭開了其Llama大型語言模型(LLMs)家族最新成員的面紗,推出了Llama 3.1。該公司自豪地宣稱Llama 3.1是首個開源的「前沿模型」,這個術語通常用於描述最先進的AI模型。
Llama 3.1有多種規模,但真正引人注目的還是其龐大的「405B」版本。憑藉驚人的4050億個神經「權重」或參數,它超越了其他知名的開源模型,如Nvidia的Nemotron 4、Google的Gemma 2和Mixtral。更引人入勝的是Meta團隊在打造這個巨型模型時做出的三個關鍵決策。
這些決策堪稱神經網絡工程的典範,構成了Llama 3.1 405B建構與訓練的支柱。它們也延續了Meta在Llama 2中展示的效率提升,顯示出降低深度學習總體計算預算的潛力。
首先,Llama 3.1 405B放棄了Google在其閉源Gemini 1.5和Mistral在其Mixtral中使用的「專家混合」方法。這種方法涉及創建不同的神經權重組合,其中一些可以關閉以簡化預測。相反,Meta的研究人員堅持使用自Google於2017年引入的經典「僅解碼器Transformer模型架構」。他們聲稱這一選擇帶來更穩定的訓練過程。
其次,為了提升這種簡單Transformer模型的性能,Meta的團隊提出了一種巧妙的多階段訓練方法。我們都知道,平衡訓練數據量和計算資源會顯著影響預測質量。但傳統的「規模法則」,即根據模型大小和數據預測性能的規則,並不一定能反映模型在「下游」任務(如推理測試)中的表現。
因此,Meta開發了自己的規模法則。他們增加了訓練數據和計算資源,通過多次迭代測試不同組合,觀察所得模型在關鍵下游任務中的表現。這一細緻的過程幫助他們找到最佳平衡點,最終選擇了4050億個參數作為旗艦模型。最終訓練由Meta的Grand Teton AI伺服器上的16,000個Nvidia H100 GPU晶片提供動力,並採用複雜的系統並行運行數據和權重。
第三項創新在於訓練後階段。每次訓練後,Llama 3.1都會經過嚴格的人類反饋引導過程,類似於OpenAI和其他公司用來優化模型輸出的方法。這包括「監督微調」,模型根據人類偏好學習區分理想與非理想的輸出。
Meta隨後引入了一個新變化,採用「直接偏好優化」(DPO),這是今年由Stanford University AI學者開創的更高效的人類反饋強化學習版本。他們還訓練Llama 3.1使用「工具」,如外部搜尋引擎,通過展示使用API調用解決的提示範例,提升其「零次學習」工具使用能力。
為了對抗「幻覺」,團隊精心挑選特定訓練數據並創建原始問答對,微調模型以僅回答其確知的內容,拒絕回答不確定的問題。
在整個開發過程中,Meta研究人員強調簡單性,指出高質量數據、規模和直接方法始終帶來最佳結果。儘管他們探索了更複雜的架構和訓練配方,但發現增加的複雜性並不能證明其效益。
Llama 3.1 405B的規模對於開源模型來說是一個里程碑,通常被商業閉源模型所壓倒。Meta的首席執行官Mark Zuckerberg強調了經濟優勢,指出開發者運行Llama 3.1 405B的推理成本僅為使用GPT-4o等模型的一半。
Zuckerberg還支持開源AI作為軟體的自然進展,將其比作Unix從專有到更先進、安全且更廣泛的生態系統的演變,這得益於開源開發。
然而,正如ZDNET的Steven Vaughan-Nichols指出,Meta在Hugging Face上發布的程式碼缺少一些細節,且程式碼許可證比典型的開源許可證更具限制性。因此,雖然Llama 3.1算是開源,但並未完全符合標準。然而,其訓練過程的詳細公開是一個令人振奮的變化,特別是當OpenAI和Google等巨頭對其閉源模型越來越守口如瓶時。
相關文章
首個山東百度AI漫畫劇集創作基地在淄博正式啟動
4月27日,山東省在淄博師範學院正式啟動了該省首個「百度AI漫畫劇創作基地」,標誌著該省在數位文化創作領域邁出了重要一步。該基地開啟了校企合作的新篇章,旨在透過AI技術與文化創作教育的深度融合,探索培育數位文化創作人才的創新模式。在揭牌儀式上,校方代表強調,該基地將作為創新人才培育及深化政校企合作的重要平台。 展望未來,該校計劃將真實的專案案例引入課堂,擺脫傳統教學方法,建立一個完整的專案式教學循
桑德伯格與克萊格加入 Nscale 董事會,這家被譽為「挪威星際之門」的新創公司估值達 146 億美元
隨著市場對能大規模提供 AI 運算能力的資料中心需求激增,由 Nvidia 支持的英國 AI 基礎設施公司 Nscale 估值已達 146 億美元。這使該公司與 Helsing 及 Mistral AI 並列,成為歐洲最新的「獨角獸」企業之一。Nscale 的策略核心在於垂直整合,涵蓋能源、資料中心、運算及調度軟體等領域。 此次估值是基於一輪20億美元的C輪融資,該公司稱此為「歐洲史上最大規模」,
Runway 53 億美元估值挑戰 Google,其影片 AI 技術已超越語言 AI
儘管多數人工智慧巨頭已投入數十億美元於語言模型,生成式人工智慧影片新創公司 Runway 卻正沿著截然不同的道路勇往直前。根據 TechCrunch 報導,這家由藝術學院畢業生創立的年輕公司,目前估值已達 53 億美元。近期財務數據顯示,Runway 在 2026 年第二季新增了 4,000 萬美元的年度經常性收入(ARR)。憑藉其新推出的 Gen-4.5 影片生成模型,該公司不僅鞏固了在好萊塢電
相關專題推薦
評論 (27)
0/500
Interessant, dass Meta Llama 3.1 als erstes Open-Source-Modell bezeichnet. Aber wer kann so ein riesiges Modell eigentlich sinnvoll nutzen? Für kleine Unternehmen bestimmt zu teuer im Betrieb. 🧐
Wow, Llama 3.1 sounds like a game-changer! Open-source and frontier-level? That’s huge for AI devs. Curious how it stacks up against closed models like GPT-4. 😎
O Llama 3.1 é incrível! Adoro que seja de código aberto, é como ter um superpoder no meu arsenal de programação. No começo pode ser um pouco confuso, mas vale a pena experimentar se você gosta de IA! 🚀
¡Llama 3.1 es una bestia! Me encanta que sea de código abierto, es como tener un superpoder en mi arsenal de programación. Al principio puede ser un poco abrumador, pero definitivamente vale la pena probarlo si te interesa la IA! 🚀

週二,Meta揭開了其Llama大型語言模型(LLMs)家族最新成員的面紗,推出了Llama 3.1。該公司自豪地宣稱Llama 3.1是首個開源的「前沿模型」,這個術語通常用於描述最先進的AI模型。
Llama 3.1有多種規模,但真正引人注目的還是其龐大的「405B」版本。憑藉驚人的4050億個神經「權重」或參數,它超越了其他知名的開源模型,如Nvidia的Nemotron 4、Google的Gemma 2和Mixtral。更引人入勝的是Meta團隊在打造這個巨型模型時做出的三個關鍵決策。
這些決策堪稱神經網絡工程的典範,構成了Llama 3.1 405B建構與訓練的支柱。它們也延續了Meta在Llama 2中展示的效率提升,顯示出降低深度學習總體計算預算的潛力。
首先,Llama 3.1 405B放棄了Google在其閉源Gemini 1.5和Mistral在其Mixtral中使用的「專家混合」方法。這種方法涉及創建不同的神經權重組合,其中一些可以關閉以簡化預測。相反,Meta的研究人員堅持使用自Google於2017年引入的經典「僅解碼器Transformer模型架構」。他們聲稱這一選擇帶來更穩定的訓練過程。
其次,為了提升這種簡單Transformer模型的性能,Meta的團隊提出了一種巧妙的多階段訓練方法。我們都知道,平衡訓練數據量和計算資源會顯著影響預測質量。但傳統的「規模法則」,即根據模型大小和數據預測性能的規則,並不一定能反映模型在「下游」任務(如推理測試)中的表現。
因此,Meta開發了自己的規模法則。他們增加了訓練數據和計算資源,通過多次迭代測試不同組合,觀察所得模型在關鍵下游任務中的表現。這一細緻的過程幫助他們找到最佳平衡點,最終選擇了4050億個參數作為旗艦模型。最終訓練由Meta的Grand Teton AI伺服器上的16,000個Nvidia H100 GPU晶片提供動力,並採用複雜的系統並行運行數據和權重。
第三項創新在於訓練後階段。每次訓練後,Llama 3.1都會經過嚴格的人類反饋引導過程,類似於OpenAI和其他公司用來優化模型輸出的方法。這包括「監督微調」,模型根據人類偏好學習區分理想與非理想的輸出。
Meta隨後引入了一個新變化,採用「直接偏好優化」(DPO),這是今年由Stanford University AI學者開創的更高效的人類反饋強化學習版本。他們還訓練Llama 3.1使用「工具」,如外部搜尋引擎,通過展示使用API調用解決的提示範例,提升其「零次學習」工具使用能力。
為了對抗「幻覺」,團隊精心挑選特定訓練數據並創建原始問答對,微調模型以僅回答其確知的內容,拒絕回答不確定的問題。
在整個開發過程中,Meta研究人員強調簡單性,指出高質量數據、規模和直接方法始終帶來最佳結果。儘管他們探索了更複雜的架構和訓練配方,但發現增加的複雜性並不能證明其效益。
Llama 3.1 405B的規模對於開源模型來說是一個里程碑,通常被商業閉源模型所壓倒。Meta的首席執行官Mark Zuckerberg強調了經濟優勢,指出開發者運行Llama 3.1 405B的推理成本僅為使用GPT-4o等模型的一半。
Zuckerberg還支持開源AI作為軟體的自然進展,將其比作Unix從專有到更先進、安全且更廣泛的生態系統的演變,這得益於開源開發。
然而,正如ZDNET的Steven Vaughan-Nichols指出,Meta在Hugging Face上發布的程式碼缺少一些細節,且程式碼許可證比典型的開源許可證更具限制性。因此,雖然Llama 3.1算是開源,但並未完全符合標準。然而,其訓練過程的詳細公開是一個令人振奮的變化,特別是當OpenAI和Google等巨頭對其閉源模型越來越守口如瓶時。
首個山東百度AI漫畫劇集創作基地在淄博正式啟動
4月27日,山東省在淄博師範學院正式啟動了該省首個「百度AI漫畫劇創作基地」,標誌著該省在數位文化創作領域邁出了重要一步。該基地開啟了校企合作的新篇章,旨在透過AI技術與文化創作教育的深度融合,探索培育數位文化創作人才的創新模式。在揭牌儀式上,校方代表強調,該基地將作為創新人才培育及深化政校企合作的重要平台。 展望未來,該校計劃將真實的專案案例引入課堂,擺脫傳統教學方法,建立一個完整的專案式教學循
桑德伯格與克萊格加入 Nscale 董事會,這家被譽為「挪威星際之門」的新創公司估值達 146 億美元
隨著市場對能大規模提供 AI 運算能力的資料中心需求激增,由 Nvidia 支持的英國 AI 基礎設施公司 Nscale 估值已達 146 億美元。這使該公司與 Helsing 及 Mistral AI 並列,成為歐洲最新的「獨角獸」企業之一。Nscale 的策略核心在於垂直整合,涵蓋能源、資料中心、運算及調度軟體等領域。 此次估值是基於一輪20億美元的C輪融資,該公司稱此為「歐洲史上最大規模」,
Runway 53 億美元估值挑戰 Google,其影片 AI 技術已超越語言 AI
儘管多數人工智慧巨頭已投入數十億美元於語言模型,生成式人工智慧影片新創公司 Runway 卻正沿著截然不同的道路勇往直前。根據 TechCrunch 報導,這家由藝術學院畢業生創立的年輕公司,目前估值已達 53 億美元。近期財務數據顯示,Runway 在 2026 年第二季新增了 4,000 萬美元的年度經常性收入(ARR)。憑藉其新推出的 Gen-4.5 影片生成模型,該公司不僅鞏固了在好萊塢電
Interessant, dass Meta Llama 3.1 als erstes Open-Source-Modell bezeichnet. Aber wer kann so ein riesiges Modell eigentlich sinnvoll nutzen? Für kleine Unternehmen bestimmt zu teuer im Betrieb. 🧐
Wow, Llama 3.1 sounds like a game-changer! Open-source and frontier-level? That’s huge for AI devs. Curious how it stacks up against closed models like GPT-4. 😎
O Llama 3.1 é incrível! Adoro que seja de código aberto, é como ter um superpoder no meu arsenal de programação. No começo pode ser um pouco confuso, mas vale a pena experimentar se você gosta de IA! 🚀
¡Llama 3.1 es una bestia! Me encanta que sea de código abierto, es como tener un superpoder en mi arsenal de programación. Al principio puede ser un poco abrumador, pero definitivamente vale la pena probarlo si te interesa la IA! 🚀





首頁






