

NVIDIA mới của Llama-3.1 Nemotron Ultra vượt trội hơn Deepseek R1 ở một nửa kích thước
Ngày 13 tháng 4 năm 2025
LarryMartinez
34

Trong khi meta vật lộn với sự giám sát xung quanh gia đình mô hình Llama 4 mới nhất của mình, Nvidia đã lặng lẽ tung ra một mô hình ngôn ngữ lớn (LLM) mới, hoàn toàn mở dựa trên mô hình LLAMA-3.1-405B-INTRUST trước đó của Meta. Được đặt tên là Llama-3.1-Nemotron-Ultra-253B-V1, mô hình này tự hào có 253 tỷ tham số và được thiết kế để vượt trội trong lý luận nâng cao, hướng dẫn theo sau và quy trình làm việc trợ lý AI. NVIDIA lần đầu tiên gợi ý về mô hình này trong Hội nghị Công nghệ GPU hàng năm (GTC) vào tháng 3.
Bản phát hành nhấn mạnh cam kết liên tục của NVIDIA để tăng cường hiệu suất thông qua đổi mới kiến trúc và các quá trình sau đào tạo tỉ mỉ. Được công bố vào ngày 7 tháng 4 năm 2025, mã, trọng số và dữ liệu sau đào tạo của mô hình hiện có thể tự do truy cập trên khuôn mặt ôm. Nó được thiết kế để chuyển đổi liền mạch giữa các tác vụ lý luận phức tạp và đầu ra đơn giản hơn dựa trên các lời nhắc hệ thống, cung cấp cho các nhà phát triển linh hoạt trong các ứng dụng của họ.
Được thiết kế để suy luận hiệu quả
Dựa trên những nỗ lực trước đây của NVIDIA trong việc tối ưu hóa LLM cho suy luận, LLAMA-3.1-Nemotron-ULTRA-253B kết hợp quy trình tìm kiếm kiến trúc thần kinh (NAS) để tinh chỉnh kiến trúc của nó. Điều này bao gồm các tính năng sáng tạo như các lớp chú ý bị bỏ qua, các mạng FeedForward hợp nhất (FFN) và tỷ lệ nén FFN thay đổi. Các sửa đổi này làm giảm việc sử dụng bộ nhớ và các yêu cầu tính toán của mô hình, khiến nó có thể triển khai trên một nút GPU H100 8X mà không ảnh hưởng đến chất lượng đầu ra.
NVIDIA tuyên bố mô hình này cung cấp hiệu suất mạnh mẽ trong khi hiệu quả chi phí cho việc triển khai trung tâm dữ liệu. Nó tương thích với kiến trúc vi mô B100 và Hopper của NVIDIA và đã được thử nghiệm ở cả hai chế độ chính xác BF16 và FP8.
Đào tạo hậu cho lý luận và liên kết
Mô hình trải qua một chế độ sau đào tạo toàn diện. Điều này bao gồm tinh chỉnh được giám sát trên các lĩnh vực khác nhau như toán học, tạo mã, trò chuyện và sử dụng công cụ, tiếp theo là học tập củng cố với tối ưu hóa chính sách tương đối nhóm (GRPO) để tăng cường khả năng suy luận và suy luận của nó.
Việc hoàn thiện thêm đi qua giai đoạn chưng cất kiến thức trên 65 tỷ mã thông báo, và liên tục trả trước trên 88 tỷ mã thông báo. Các nguồn dữ liệu đào tạo bao gồm FineWeb, Buzz-V1.2 và Dolma, với các lời nhắc và phản hồi sau đào tạo được rút ra từ cả các phương pháp tạo tổng hợp công cộng và tổng hợp. Cách tiếp cận này đã giúp mô hình phân biệt giữa các chế độ lý luận của nó.
Cải thiện hiệu suất trên nhiều lĩnh vực và điểm chuẩn
Khi được kích hoạt để lý luận, mô hình cho thấy những cải tiến đáng kể về các điểm chuẩn khác nhau. Chẳng hạn, trên điểm chuẩn Math500, hiệu suất của nó tăng từ 80,40% ở chế độ tiêu chuẩn lên 97,00% với lý luận được bật. Tương tự, điểm AIME25 đã tăng từ 16,67% lên 72,50% và kết quả LiveCodeBench hơn gấp đôi, từ 29,03% lên 66,31%.
Mô hình này cũng xuất sắc trong các nhiệm vụ dựa trên công cụ và trả lời câu hỏi chung (GPQA), đạt 76,01% ở chế độ lý luận so với 56,60% mà không cần. Các điểm chuẩn này được tiến hành với độ dài trình tự tối đa là 32.000 mã thông báo và mỗi thử nghiệm được lặp lại lên tới 16 lần cho độ chính xác.
So với mô hình MOE hiện đại Deepseek R1, có 671 tỷ tham số, mô hình của NVIDIA vẫn giữ riêng của mình mặc dù có ít tham số hơn. Nó vượt trội so với DeepSeek R1 trong các nhiệm vụ như GPQA (76,01 so với 71.5), hướng dẫn ifeval theo sau (89,45 so với 83.3) và các tác vụ mã hóa LiveCodeBench (66,31 so với 65.9). Tuy nhiên, Deepseek R1 cạnh một chút trong các đánh giá toán học nhất định, đặc biệt là AIME25 (79,8 so với 72,50) và Math500 (97.3 so với 97.00).
Những kết quả này chỉ ra rằng mô hình dày đặc của NVIDIA có thể khớp hoặc vượt quá các mô hình MOE theo lý luận và căn chỉnh hướng dẫn chung, mặc dù nó bị tụt lại một chút trong các danh mục chuyên sâu về toán học.
Sử dụng và hội nhập
Mô hình tích hợp liền mạch với thư viện Hugging Face Transformers (phiên bản 4.48.3 được đề xuất) và hỗ trợ các chuỗi lên tới 128.000 mã thông báo. Các nhà phát triển có thể chuyển đổi hành vi lý luận bằng cách sử dụng lời nhắc hệ thống và chọn các chiến lược giải mã dựa trên nhu cầu nhiệm vụ. Đối với các nhiệm vụ lý luận, NVIDIA cho thấy sử dụng lấy mẫu nhiệt độ (0,6) với giá trị P trên là 0,95, trong khi giải mã tham lam được khuyến nghị cho đầu ra xác định.
Llama-3.1-nemotron-ultra-253B hỗ trợ các ứng dụng đa ngôn ngữ, bao gồm tiếng Anh, tiếng Đức, tiếng Pháp, tiếng Ý, tiếng Bồ Đào Nha, tiếng Hindi, tiếng Tây Ban Nha và tiếng Thái. Nó rất phù hợp cho các trường hợp sử dụng LLM khác nhau như phát triển chatbot, quy trình làm việc của AI, thế hệ được truy xuất (RAG) và tạo mã.
Được cấp phép sử dụng thương mại
Được phát hành theo giấy phép mô hình mở NVIDIA và được điều chỉnh bởi Thỏa thuận cấp phép cộng đồng Llama 3.1, mô hình đã sẵn sàng cho các ứng dụng thương mại. NVIDIA nhấn mạnh tầm quan trọng của sự phát triển AI có trách nhiệm, kêu gọi các nhóm đánh giá sự liên kết, an toàn và sai lệch của mô hình đối với các trường hợp sử dụng cụ thể của họ.
Oleksii Kuchaiev, giám đốc đào tạo mô hình AI của NVIDIA, đã chia sẻ sự phấn khích về bản phát hành mở này trên X, làm nổi bật thiết kế 253B dày đặc của nó với khả năng lý luận có thể thay đổi và bao gồm các trọng lượng và dữ liệu mở.
Bài viết liên quan
Cựu cộng tác viên Deepseeker phát hành Phương pháp mới để đào tạo Đại lý AI đáng tin cậy: Ragen
Năm của các đại lý AI: Nhìn kỹ hơn về kỳ vọng và thực tế 20252025 đã được nhiều chuyên gia coi là năm khi các đại lý AI đặc biệt hóa các hệ thống AI được cung cấp bởi ngôn ngữ lớn và các mô hình đa phương thức từ các công ty như Openai, Anthropic, Google và Deepseek
Gaia giới thiệu điểm chuẩn mới để tìm kiếm trí thông minh thực sự ngoài ARC-AGI
Trí thông minh ở khắp mọi nơi, nhưng việc đánh giá chính xác nó có cảm giác như đang cố gắng bắt một đám mây bằng bàn tay trần của bạn. Chúng tôi sử dụng các bài kiểm tra và điểm chuẩn, như các kỳ thi tuyển sinh đại học, để có được một ý tưởng sơ bộ. Mỗi năm, sinh viên nhồi nhét cho các bài kiểm tra này, đôi khi thậm chí đạt 100%hoàn hảo. Nhưng điểm đó hoàn hảo đó m
Những người sáng lập Coreweave rút tiền từ 488 triệu đô la trước khi IPO 4 tỷ đô la tiềm năng
Hồ sơ IPO của CoreWeave cho thấy các chi tiết đáng ngạc nhiên và tài liệu S-1 của CoreWeave cao cho cung cấp công khai ban đầu dự kiến (IPO) được đóng gói với những tiết lộ hấp dẫn. Được hỗ trợ bởi NVIDIA, công ty vận hành dịch vụ đám mây AI chuyên dụng trên 32 trung tâm dữ liệu, tự hào hơn 250.000
Nhận xét (50)
0/200
KeithNelson
19:54:42 GMT Ngày 13 tháng 4 năm 2025
Nvidia's new model is impressive, outperforming others at half the size. It's great for those who need efficiency without sacrificing performance. The only downside is the setup can be a bit tricky. Overall, a solid choice for AI enthusiasts!
0
RalphMitchell
19:54:42 GMT Ngày 13 tháng 4 năm 2025
Nvidiaの新しいモデルは、半分のサイズで他のモデルを上回るのが印象的です。効率を求める人には最適ですが、セットアップが少し難しいのが唯一の欠点です。全体的に、AI愛好者にとっては良い選択ですね!
0
GeorgeWilson
19:54:42 GMT Ngày 13 tháng 4 năm 2025
Nvidia의 새로운 모델은 반 크기에서도 다른 모델을 능가하는 것이 인상적입니다. 효율성을 희생하지 않고 성능을 원하는 사람들에게 좋습니다. 유일한 단점은 설정이 조금 까다롭다는 점입니다. 전반적으로 AI 애호가들에게 좋은 선택입니다!
0
GeorgeNelson
19:54:42 GMT Ngày 13 tháng 4 năm 2025
O novo modelo da Nvidia é impressionante, superando outros com metade do tamanho. É ótimo para quem precisa de eficiência sem sacrificar o desempenho. A única desvantagem é que a configuração pode ser um pouco complicada. No geral, uma boa escolha para entusiastas de IA!
0
GeorgeMiller
19:54:42 GMT Ngày 13 tháng 4 năm 2025
El nuevo modelo de Nvidia es impresionante, superando a otros con la mitad del tamaño. Es genial para aquellos que necesitan eficiencia sin sacrificar el rendimiento. La única desventaja es que la configuración puede ser un poco complicada. En general, una sólida opción para entusiastas de la IA!
0
BrianLewis
17:40:08 GMT Ngày 13 tháng 4 năm 2025
Nvidia's Llama-3.1 Nemotron Ultra is impressive! It outperforms DeepSeek R1 and is half the size, which is crazy. I've been using it for my projects and it's been a game-changer. The only downside is the setup can be a bit tricky, but once you get it running, it's smooth sailing!
0






Trong khi meta vật lộn với sự giám sát xung quanh gia đình mô hình Llama 4 mới nhất của mình, Nvidia đã lặng lẽ tung ra một mô hình ngôn ngữ lớn (LLM) mới, hoàn toàn mở dựa trên mô hình LLAMA-3.1-405B-INTRUST trước đó của Meta. Được đặt tên là Llama-3.1-Nemotron-Ultra-253B-V1, mô hình này tự hào có 253 tỷ tham số và được thiết kế để vượt trội trong lý luận nâng cao, hướng dẫn theo sau và quy trình làm việc trợ lý AI. NVIDIA lần đầu tiên gợi ý về mô hình này trong Hội nghị Công nghệ GPU hàng năm (GTC) vào tháng 3.
Bản phát hành nhấn mạnh cam kết liên tục của NVIDIA để tăng cường hiệu suất thông qua đổi mới kiến trúc và các quá trình sau đào tạo tỉ mỉ. Được công bố vào ngày 7 tháng 4 năm 2025, mã, trọng số và dữ liệu sau đào tạo của mô hình hiện có thể tự do truy cập trên khuôn mặt ôm. Nó được thiết kế để chuyển đổi liền mạch giữa các tác vụ lý luận phức tạp và đầu ra đơn giản hơn dựa trên các lời nhắc hệ thống, cung cấp cho các nhà phát triển linh hoạt trong các ứng dụng của họ.
Được thiết kế để suy luận hiệu quả
Dựa trên những nỗ lực trước đây của NVIDIA trong việc tối ưu hóa LLM cho suy luận, LLAMA-3.1-Nemotron-ULTRA-253B kết hợp quy trình tìm kiếm kiến trúc thần kinh (NAS) để tinh chỉnh kiến trúc của nó. Điều này bao gồm các tính năng sáng tạo như các lớp chú ý bị bỏ qua, các mạng FeedForward hợp nhất (FFN) và tỷ lệ nén FFN thay đổi. Các sửa đổi này làm giảm việc sử dụng bộ nhớ và các yêu cầu tính toán của mô hình, khiến nó có thể triển khai trên một nút GPU H100 8X mà không ảnh hưởng đến chất lượng đầu ra.
NVIDIA tuyên bố mô hình này cung cấp hiệu suất mạnh mẽ trong khi hiệu quả chi phí cho việc triển khai trung tâm dữ liệu. Nó tương thích với kiến trúc vi mô B100 và Hopper của NVIDIA và đã được thử nghiệm ở cả hai chế độ chính xác BF16 và FP8.
Đào tạo hậu cho lý luận và liên kết
Mô hình trải qua một chế độ sau đào tạo toàn diện. Điều này bao gồm tinh chỉnh được giám sát trên các lĩnh vực khác nhau như toán học, tạo mã, trò chuyện và sử dụng công cụ, tiếp theo là học tập củng cố với tối ưu hóa chính sách tương đối nhóm (GRPO) để tăng cường khả năng suy luận và suy luận của nó.
Việc hoàn thiện thêm đi qua giai đoạn chưng cất kiến thức trên 65 tỷ mã thông báo, và liên tục trả trước trên 88 tỷ mã thông báo. Các nguồn dữ liệu đào tạo bao gồm FineWeb, Buzz-V1.2 và Dolma, với các lời nhắc và phản hồi sau đào tạo được rút ra từ cả các phương pháp tạo tổng hợp công cộng và tổng hợp. Cách tiếp cận này đã giúp mô hình phân biệt giữa các chế độ lý luận của nó.
Cải thiện hiệu suất trên nhiều lĩnh vực và điểm chuẩn
Khi được kích hoạt để lý luận, mô hình cho thấy những cải tiến đáng kể về các điểm chuẩn khác nhau. Chẳng hạn, trên điểm chuẩn Math500, hiệu suất của nó tăng từ 80,40% ở chế độ tiêu chuẩn lên 97,00% với lý luận được bật. Tương tự, điểm AIME25 đã tăng từ 16,67% lên 72,50% và kết quả LiveCodeBench hơn gấp đôi, từ 29,03% lên 66,31%.
Mô hình này cũng xuất sắc trong các nhiệm vụ dựa trên công cụ và trả lời câu hỏi chung (GPQA), đạt 76,01% ở chế độ lý luận so với 56,60% mà không cần. Các điểm chuẩn này được tiến hành với độ dài trình tự tối đa là 32.000 mã thông báo và mỗi thử nghiệm được lặp lại lên tới 16 lần cho độ chính xác.
So với mô hình MOE hiện đại Deepseek R1, có 671 tỷ tham số, mô hình của NVIDIA vẫn giữ riêng của mình mặc dù có ít tham số hơn. Nó vượt trội so với DeepSeek R1 trong các nhiệm vụ như GPQA (76,01 so với 71.5), hướng dẫn ifeval theo sau (89,45 so với 83.3) và các tác vụ mã hóa LiveCodeBench (66,31 so với 65.9). Tuy nhiên, Deepseek R1 cạnh một chút trong các đánh giá toán học nhất định, đặc biệt là AIME25 (79,8 so với 72,50) và Math500 (97.3 so với 97.00).
Những kết quả này chỉ ra rằng mô hình dày đặc của NVIDIA có thể khớp hoặc vượt quá các mô hình MOE theo lý luận và căn chỉnh hướng dẫn chung, mặc dù nó bị tụt lại một chút trong các danh mục chuyên sâu về toán học.
Sử dụng và hội nhập
Mô hình tích hợp liền mạch với thư viện Hugging Face Transformers (phiên bản 4.48.3 được đề xuất) và hỗ trợ các chuỗi lên tới 128.000 mã thông báo. Các nhà phát triển có thể chuyển đổi hành vi lý luận bằng cách sử dụng lời nhắc hệ thống và chọn các chiến lược giải mã dựa trên nhu cầu nhiệm vụ. Đối với các nhiệm vụ lý luận, NVIDIA cho thấy sử dụng lấy mẫu nhiệt độ (0,6) với giá trị P trên là 0,95, trong khi giải mã tham lam được khuyến nghị cho đầu ra xác định.
Llama-3.1-nemotron-ultra-253B hỗ trợ các ứng dụng đa ngôn ngữ, bao gồm tiếng Anh, tiếng Đức, tiếng Pháp, tiếng Ý, tiếng Bồ Đào Nha, tiếng Hindi, tiếng Tây Ban Nha và tiếng Thái. Nó rất phù hợp cho các trường hợp sử dụng LLM khác nhau như phát triển chatbot, quy trình làm việc của AI, thế hệ được truy xuất (RAG) và tạo mã.
Được cấp phép sử dụng thương mại
Được phát hành theo giấy phép mô hình mở NVIDIA và được điều chỉnh bởi Thỏa thuận cấp phép cộng đồng Llama 3.1, mô hình đã sẵn sàng cho các ứng dụng thương mại. NVIDIA nhấn mạnh tầm quan trọng của sự phát triển AI có trách nhiệm, kêu gọi các nhóm đánh giá sự liên kết, an toàn và sai lệch của mô hình đối với các trường hợp sử dụng cụ thể của họ.
Oleksii Kuchaiev, giám đốc đào tạo mô hình AI của NVIDIA, đã chia sẻ sự phấn khích về bản phát hành mở này trên X, làm nổi bật thiết kế 253B dày đặc của nó với khả năng lý luận có thể thay đổi và bao gồm các trọng lượng và dữ liệu mở.




Nvidia's new model is impressive, outperforming others at half the size. It's great for those who need efficiency without sacrificing performance. The only downside is the setup can be a bit tricky. Overall, a solid choice for AI enthusiasts!




Nvidiaの新しいモデルは、半分のサイズで他のモデルを上回るのが印象的です。効率を求める人には最適ですが、セットアップが少し難しいのが唯一の欠点です。全体的に、AI愛好者にとっては良い選択ですね!




Nvidia의 새로운 모델은 반 크기에서도 다른 모델을 능가하는 것이 인상적입니다. 효율성을 희생하지 않고 성능을 원하는 사람들에게 좋습니다. 유일한 단점은 설정이 조금 까다롭다는 점입니다. 전반적으로 AI 애호가들에게 좋은 선택입니다!




O novo modelo da Nvidia é impressionante, superando outros com metade do tamanho. É ótimo para quem precisa de eficiência sem sacrificar o desempenho. A única desvantagem é que a configuração pode ser um pouco complicada. No geral, uma boa escolha para entusiastas de IA!




El nuevo modelo de Nvidia es impresionante, superando a otros con la mitad del tamaño. Es genial para aquellos que necesitan eficiencia sin sacrificar el rendimiento. La única desventaja es que la configuración puede ser un poco complicada. En general, una sólida opción para entusiastas de la IA!




Nvidia's Llama-3.1 Nemotron Ultra is impressive! It outperforms DeepSeek R1 and is half the size, which is crazy. I've been using it for my projects and it's been a game-changer. The only downside is the setup can be a bit tricky, but once you get it running, it's smooth sailing!












