NVIDIA mới của Llama-3.1 Nemotron Ultra vượt trội hơn Deepseek R1 ở một nửa kích thước

Trong khi meta vật lộn với sự giám sát xung quanh gia đình mô hình Llama 4 mới nhất của mình, Nvidia đã lặng lẽ tung ra một mô hình ngôn ngữ lớn (LLM) mới, hoàn toàn mở dựa trên mô hình LLAMA-3.1-405B-INTRUST trước đó của Meta. Được đặt tên là Llama-3.1-Nemotron-Ultra-253B-V1, mô hình này tự hào có 253 tỷ tham số và được thiết kế để vượt trội trong lý luận nâng cao, hướng dẫn theo sau và quy trình làm việc trợ lý AI. NVIDIA lần đầu tiên gợi ý về mô hình này trong Hội nghị Công nghệ GPU hàng năm (GTC) vào tháng 3.
Bản phát hành nhấn mạnh cam kết liên tục của NVIDIA để tăng cường hiệu suất thông qua đổi mới kiến trúc và các quá trình sau đào tạo tỉ mỉ. Được công bố vào ngày 7 tháng 4 năm 2025, mã, trọng số và dữ liệu sau đào tạo của mô hình hiện có thể tự do truy cập trên khuôn mặt ôm. Nó được thiết kế để chuyển đổi liền mạch giữa các tác vụ lý luận phức tạp và đầu ra đơn giản hơn dựa trên các lời nhắc hệ thống, cung cấp cho các nhà phát triển linh hoạt trong các ứng dụng của họ.
Được thiết kế để suy luận hiệu quả
Dựa trên những nỗ lực trước đây của NVIDIA trong việc tối ưu hóa LLM cho suy luận, LLAMA-3.1-Nemotron-ULTRA-253B kết hợp quy trình tìm kiếm kiến trúc thần kinh (NAS) để tinh chỉnh kiến trúc của nó. Điều này bao gồm các tính năng sáng tạo như các lớp chú ý bị bỏ qua, các mạng FeedForward hợp nhất (FFN) và tỷ lệ nén FFN thay đổi. Các sửa đổi này làm giảm việc sử dụng bộ nhớ và các yêu cầu tính toán của mô hình, khiến nó có thể triển khai trên một nút GPU H100 8X mà không ảnh hưởng đến chất lượng đầu ra.
NVIDIA tuyên bố mô hình này cung cấp hiệu suất mạnh mẽ trong khi hiệu quả chi phí cho việc triển khai trung tâm dữ liệu. Nó tương thích với kiến trúc vi mô B100 và Hopper của NVIDIA và đã được thử nghiệm ở cả hai chế độ chính xác BF16 và FP8.
Đào tạo hậu cho lý luận và liên kết
Mô hình trải qua một chế độ sau đào tạo toàn diện. Điều này bao gồm tinh chỉnh được giám sát trên các lĩnh vực khác nhau như toán học, tạo mã, trò chuyện và sử dụng công cụ, tiếp theo là học tập củng cố với tối ưu hóa chính sách tương đối nhóm (GRPO) để tăng cường khả năng suy luận và suy luận của nó.
Việc hoàn thiện thêm đi qua giai đoạn chưng cất kiến thức trên 65 tỷ mã thông báo, và liên tục trả trước trên 88 tỷ mã thông báo. Các nguồn dữ liệu đào tạo bao gồm FineWeb, Buzz-V1.2 và Dolma, với các lời nhắc và phản hồi sau đào tạo được rút ra từ cả các phương pháp tạo tổng hợp công cộng và tổng hợp. Cách tiếp cận này đã giúp mô hình phân biệt giữa các chế độ lý luận của nó.
Cải thiện hiệu suất trên nhiều lĩnh vực và điểm chuẩn
Khi được kích hoạt để lý luận, mô hình cho thấy những cải tiến đáng kể về các điểm chuẩn khác nhau. Chẳng hạn, trên điểm chuẩn Math500, hiệu suất của nó tăng từ 80,40% ở chế độ tiêu chuẩn lên 97,00% với lý luận được bật. Tương tự, điểm AIME25 đã tăng từ 16,67% lên 72,50% và kết quả LiveCodeBench hơn gấp đôi, từ 29,03% lên 66,31%.
Mô hình này cũng xuất sắc trong các nhiệm vụ dựa trên công cụ và trả lời câu hỏi chung (GPQA), đạt 76,01% ở chế độ lý luận so với 56,60% mà không cần. Các điểm chuẩn này được tiến hành với độ dài trình tự tối đa là 32.000 mã thông báo và mỗi thử nghiệm được lặp lại lên tới 16 lần cho độ chính xác.
So với mô hình MOE hiện đại Deepseek R1, có 671 tỷ tham số, mô hình của NVIDIA vẫn giữ riêng của mình mặc dù có ít tham số hơn. Nó vượt trội so với DeepSeek R1 trong các nhiệm vụ như GPQA (76,01 so với 71.5), hướng dẫn ifeval theo sau (89,45 so với 83.3) và các tác vụ mã hóa LiveCodeBench (66,31 so với 65.9). Tuy nhiên, Deepseek R1 cạnh một chút trong các đánh giá toán học nhất định, đặc biệt là AIME25 (79,8 so với 72,50) và Math500 (97.3 so với 97.00).
Những kết quả này chỉ ra rằng mô hình dày đặc của NVIDIA có thể khớp hoặc vượt quá các mô hình MOE theo lý luận và căn chỉnh hướng dẫn chung, mặc dù nó bị tụt lại một chút trong các danh mục chuyên sâu về toán học.
Sử dụng và hội nhập
Mô hình tích hợp liền mạch với thư viện Hugging Face Transformers (phiên bản 4.48.3 được đề xuất) và hỗ trợ các chuỗi lên tới 128.000 mã thông báo. Các nhà phát triển có thể chuyển đổi hành vi lý luận bằng cách sử dụng lời nhắc hệ thống và chọn các chiến lược giải mã dựa trên nhu cầu nhiệm vụ. Đối với các nhiệm vụ lý luận, NVIDIA cho thấy sử dụng lấy mẫu nhiệt độ (0,6) với giá trị P trên là 0,95, trong khi giải mã tham lam được khuyến nghị cho đầu ra xác định.
Llama-3.1-nemotron-ultra-253B hỗ trợ các ứng dụng đa ngôn ngữ, bao gồm tiếng Anh, tiếng Đức, tiếng Pháp, tiếng Ý, tiếng Bồ Đào Nha, tiếng Hindi, tiếng Tây Ban Nha và tiếng Thái. Nó rất phù hợp cho các trường hợp sử dụng LLM khác nhau như phát triển chatbot, quy trình làm việc của AI, thế hệ được truy xuất (RAG) và tạo mã.
Được cấp phép sử dụng thương mại
Được phát hành theo giấy phép mô hình mở NVIDIA và được điều chỉnh bởi Thỏa thuận cấp phép cộng đồng Llama 3.1, mô hình đã sẵn sàng cho các ứng dụng thương mại. NVIDIA nhấn mạnh tầm quan trọng của sự phát triển AI có trách nhiệm, kêu gọi các nhóm đánh giá sự liên kết, an toàn và sai lệch của mô hình đối với các trường hợp sử dụng cụ thể của họ.
Oleksii Kuchaiev, giám đốc đào tạo mô hình AI của NVIDIA, đã chia sẻ sự phấn khích về bản phát hành mở này trên X, làm nổi bật thiết kế 253B dày đặc của nó với khả năng lý luận có thể thay đổi và bao gồm các trọng lượng và dữ liệu mở.
Bài viết liên quan
從 MIPS 到艾弗洛普僅僅數十年:計算能力正在爆炸,將改變 AI
在最近的 Nvidia GTC 大會上,這家科技巨頭揭露了一項突破性成就:首個單機架伺服器系統能達到一艾弗洛普。這是一個令人震驚的每秒十億億次浮點運算(FLOPS)。這項壯舉由 Nvidia 最新的 GB200 NVL72 系統驅動,搭載尖端的 Blackwell 圖形處理單元(GPU)。為了讓大家更直觀理解,這個系統安裝在一個標準電腦機架中,大約 6 英尺高,略超過 3 英尺深,寬度不到 2 英
谷歌AI躍升內幕:Gemini 2.5 思維更深、表達更智能且編碼更快
谷歌朝著通用AI助手的願景邁進一步在今年的Google I/O大會上,該公司揭示了其Gemini 2.5系列的重大升級,特別是在多個維度上提升其能力。最新的版本——Gemini 2.5 Flash和2.5 Pro——現在比以往更加聰明和高效。這些進步使谷歌更接近實現其創造通用AI助手的願景,這個助手能夠無縫理解情境、計劃並執行任務。### Gemini 2.
深度認知發布開源AI模型,已名列前茅
深度思睿推出革命性的人工智能模型旧金山一家尖端的人工智能研究初创公司深度思睿(Deep Cogito)正式发布了其首批开源大型语言模型(LLMs),命名为思睿v1。这些模型经过微调自Meta的Llama 3.2,具备混合推理能力,能够快速响应或进行内省思考——这一功能让人联想到OpenAI的“o”系列和DeepSeek R1。深度思睿旨在通过在其模型中促进迭
Nhận xét (50)
0/200
KeithNelson
00:00:00 GMT Ngày 14 tháng 4 năm 2025
Nvidia's new model is impressive, outperforming others at half the size. It's great for those who need efficiency without sacrificing performance. The only downside is the setup can be a bit tricky. Overall, a solid choice for AI enthusiasts!
0
RalphMitchell
00:00:00 GMT Ngày 14 tháng 4 năm 2025
Nvidiaの新しいモデルは、半分のサイズで他のモデルを上回るのが印象的です。効率を求める人には最適ですが、セットアップが少し難しいのが唯一の欠点です。全体的に、AI愛好者にとっては良い選択ですね!
0
GeorgeWilson
00:00:00 GMT Ngày 14 tháng 4 năm 2025
Nvidia의 새로운 모델은 반 크기에서도 다른 모델을 능가하는 것이 인상적입니다. 효율성을 희생하지 않고 성능을 원하는 사람들에게 좋습니다. 유일한 단점은 설정이 조금 까다롭다는 점입니다. 전반적으로 AI 애호가들에게 좋은 선택입니다!
0
GeorgeNelson
00:00:00 GMT Ngày 14 tháng 4 năm 2025
O novo modelo da Nvidia é impressionante, superando outros com metade do tamanho. É ótimo para quem precisa de eficiência sem sacrificar o desempenho. A única desvantagem é que a configuração pode ser um pouco complicada. No geral, uma boa escolha para entusiastas de IA!
0
GeorgeMiller
00:00:00 GMT Ngày 14 tháng 4 năm 2025
El nuevo modelo de Nvidia es impresionante, superando a otros con la mitad del tamaño. Es genial para aquellos que necesitan eficiencia sin sacrificar el rendimiento. La única desventaja es que la configuración puede ser un poco complicada. En general, una sólida opción para entusiastas de la IA!
0
BrianLewis
00:00:00 GMT Ngày 14 tháng 4 năm 2025
Nvidia's Llama-3.1 Nemotron Ultra is impressive! It outperforms DeepSeek R1 and is half the size, which is crazy. I've been using it for my projects and it's been a game-changer. The only downside is the setup can be a bit tricky, but once you get it running, it's smooth sailing!
0
Trong khi meta vật lộn với sự giám sát xung quanh gia đình mô hình Llama 4 mới nhất của mình, Nvidia đã lặng lẽ tung ra một mô hình ngôn ngữ lớn (LLM) mới, hoàn toàn mở dựa trên mô hình LLAMA-3.1-405B-INTRUST trước đó của Meta. Được đặt tên là Llama-3.1-Nemotron-Ultra-253B-V1, mô hình này tự hào có 253 tỷ tham số và được thiết kế để vượt trội trong lý luận nâng cao, hướng dẫn theo sau và quy trình làm việc trợ lý AI. NVIDIA lần đầu tiên gợi ý về mô hình này trong Hội nghị Công nghệ GPU hàng năm (GTC) vào tháng 3.
Bản phát hành nhấn mạnh cam kết liên tục của NVIDIA để tăng cường hiệu suất thông qua đổi mới kiến trúc và các quá trình sau đào tạo tỉ mỉ. Được công bố vào ngày 7 tháng 4 năm 2025, mã, trọng số và dữ liệu sau đào tạo của mô hình hiện có thể tự do truy cập trên khuôn mặt ôm. Nó được thiết kế để chuyển đổi liền mạch giữa các tác vụ lý luận phức tạp và đầu ra đơn giản hơn dựa trên các lời nhắc hệ thống, cung cấp cho các nhà phát triển linh hoạt trong các ứng dụng của họ.
Được thiết kế để suy luận hiệu quả
Dựa trên những nỗ lực trước đây của NVIDIA trong việc tối ưu hóa LLM cho suy luận, LLAMA-3.1-Nemotron-ULTRA-253B kết hợp quy trình tìm kiếm kiến trúc thần kinh (NAS) để tinh chỉnh kiến trúc của nó. Điều này bao gồm các tính năng sáng tạo như các lớp chú ý bị bỏ qua, các mạng FeedForward hợp nhất (FFN) và tỷ lệ nén FFN thay đổi. Các sửa đổi này làm giảm việc sử dụng bộ nhớ và các yêu cầu tính toán của mô hình, khiến nó có thể triển khai trên một nút GPU H100 8X mà không ảnh hưởng đến chất lượng đầu ra.
NVIDIA tuyên bố mô hình này cung cấp hiệu suất mạnh mẽ trong khi hiệu quả chi phí cho việc triển khai trung tâm dữ liệu. Nó tương thích với kiến trúc vi mô B100 và Hopper của NVIDIA và đã được thử nghiệm ở cả hai chế độ chính xác BF16 và FP8.
Đào tạo hậu cho lý luận và liên kết
Mô hình trải qua một chế độ sau đào tạo toàn diện. Điều này bao gồm tinh chỉnh được giám sát trên các lĩnh vực khác nhau như toán học, tạo mã, trò chuyện và sử dụng công cụ, tiếp theo là học tập củng cố với tối ưu hóa chính sách tương đối nhóm (GRPO) để tăng cường khả năng suy luận và suy luận của nó.
Việc hoàn thiện thêm đi qua giai đoạn chưng cất kiến thức trên 65 tỷ mã thông báo, và liên tục trả trước trên 88 tỷ mã thông báo. Các nguồn dữ liệu đào tạo bao gồm FineWeb, Buzz-V1.2 và Dolma, với các lời nhắc và phản hồi sau đào tạo được rút ra từ cả các phương pháp tạo tổng hợp công cộng và tổng hợp. Cách tiếp cận này đã giúp mô hình phân biệt giữa các chế độ lý luận của nó.
Cải thiện hiệu suất trên nhiều lĩnh vực và điểm chuẩn
Khi được kích hoạt để lý luận, mô hình cho thấy những cải tiến đáng kể về các điểm chuẩn khác nhau. Chẳng hạn, trên điểm chuẩn Math500, hiệu suất của nó tăng từ 80,40% ở chế độ tiêu chuẩn lên 97,00% với lý luận được bật. Tương tự, điểm AIME25 đã tăng từ 16,67% lên 72,50% và kết quả LiveCodeBench hơn gấp đôi, từ 29,03% lên 66,31%.
Mô hình này cũng xuất sắc trong các nhiệm vụ dựa trên công cụ và trả lời câu hỏi chung (GPQA), đạt 76,01% ở chế độ lý luận so với 56,60% mà không cần. Các điểm chuẩn này được tiến hành với độ dài trình tự tối đa là 32.000 mã thông báo và mỗi thử nghiệm được lặp lại lên tới 16 lần cho độ chính xác.
So với mô hình MOE hiện đại Deepseek R1, có 671 tỷ tham số, mô hình của NVIDIA vẫn giữ riêng của mình mặc dù có ít tham số hơn. Nó vượt trội so với DeepSeek R1 trong các nhiệm vụ như GPQA (76,01 so với 71.5), hướng dẫn ifeval theo sau (89,45 so với 83.3) và các tác vụ mã hóa LiveCodeBench (66,31 so với 65.9). Tuy nhiên, Deepseek R1 cạnh một chút trong các đánh giá toán học nhất định, đặc biệt là AIME25 (79,8 so với 72,50) và Math500 (97.3 so với 97.00).
Những kết quả này chỉ ra rằng mô hình dày đặc của NVIDIA có thể khớp hoặc vượt quá các mô hình MOE theo lý luận và căn chỉnh hướng dẫn chung, mặc dù nó bị tụt lại một chút trong các danh mục chuyên sâu về toán học.
Sử dụng và hội nhập
Mô hình tích hợp liền mạch với thư viện Hugging Face Transformers (phiên bản 4.48.3 được đề xuất) và hỗ trợ các chuỗi lên tới 128.000 mã thông báo. Các nhà phát triển có thể chuyển đổi hành vi lý luận bằng cách sử dụng lời nhắc hệ thống và chọn các chiến lược giải mã dựa trên nhu cầu nhiệm vụ. Đối với các nhiệm vụ lý luận, NVIDIA cho thấy sử dụng lấy mẫu nhiệt độ (0,6) với giá trị P trên là 0,95, trong khi giải mã tham lam được khuyến nghị cho đầu ra xác định.
Llama-3.1-nemotron-ultra-253B hỗ trợ các ứng dụng đa ngôn ngữ, bao gồm tiếng Anh, tiếng Đức, tiếng Pháp, tiếng Ý, tiếng Bồ Đào Nha, tiếng Hindi, tiếng Tây Ban Nha và tiếng Thái. Nó rất phù hợp cho các trường hợp sử dụng LLM khác nhau như phát triển chatbot, quy trình làm việc của AI, thế hệ được truy xuất (RAG) và tạo mã.
Được cấp phép sử dụng thương mại
Được phát hành theo giấy phép mô hình mở NVIDIA và được điều chỉnh bởi Thỏa thuận cấp phép cộng đồng Llama 3.1, mô hình đã sẵn sàng cho các ứng dụng thương mại. NVIDIA nhấn mạnh tầm quan trọng của sự phát triển AI có trách nhiệm, kêu gọi các nhóm đánh giá sự liên kết, an toàn và sai lệch của mô hình đối với các trường hợp sử dụng cụ thể của họ.
Oleksii Kuchaiev, giám đốc đào tạo mô hình AI của NVIDIA, đã chia sẻ sự phấn khích về bản phát hành mở này trên X, làm nổi bật thiết kế 253B dày đặc của nó với khả năng lý luận có thể thay đổi và bao gồm các trọng lượng và dữ liệu mở.




Nvidia's new model is impressive, outperforming others at half the size. It's great for those who need efficiency without sacrificing performance. The only downside is the setup can be a bit tricky. Overall, a solid choice for AI enthusiasts!




Nvidiaの新しいモデルは、半分のサイズで他のモデルを上回るのが印象的です。効率を求める人には最適ですが、セットアップが少し難しいのが唯一の欠点です。全体的に、AI愛好者にとっては良い選択ですね!




Nvidia의 새로운 모델은 반 크기에서도 다른 모델을 능가하는 것이 인상적입니다. 효율성을 희생하지 않고 성능을 원하는 사람들에게 좋습니다. 유일한 단점은 설정이 조금 까다롭다는 점입니다. 전반적으로 AI 애호가들에게 좋은 선택입니다!




O novo modelo da Nvidia é impressionante, superando outros com metade do tamanho. É ótimo para quem precisa de eficiência sem sacrificar o desempenho. A única desvantagem é que a configuração pode ser um pouco complicada. No geral, uma boa escolha para entusiastas de IA!




El nuevo modelo de Nvidia es impresionante, superando a otros con la mitad del tamaño. Es genial para aquellos que necesitan eficiencia sin sacrificar el rendimiento. La única desventaja es que la configuración puede ser un poco complicada. En general, una sólida opción para entusiastas de la IA!




Nvidia's Llama-3.1 Nemotron Ultra is impressive! It outperforms DeepSeek R1 and is half the size, which is crazy. I've been using it for my projects and it's been a game-changer. The only downside is the setup can be a bit tricky, but once you get it running, it's smooth sailing!












