NVIDIA의 NEW LLAMA-3.1 NEMOTRON ULTRA SKIES의 절반으로 DEEPSEEK R1보다 성능
2025년 4월 13일
LarryMartinez
34

메타는 최신 LLAMA 4 모델 패밀리를 둘러싼 면밀한 조사를 포기하지만 Nvidia는 META의 초기 LLAMA-3.1-405B-instruct 모델을 기반으로 한 새로운 오픈 소스 대형 언어 모델 (LLM)을 조용히 출시했습니다. LLAMA-3.1-NEMOTRON-ULTRA-253B-V1이라는 이름 의이 모델은 2530 억 개의 매개 변수를 자랑하며 고급 추론, 지시 다음 및 AI 보조 워크 플로에서 탁월하게 설계되었습니다. NVIDIA는 3 월 연례 GPU 기술 컨퍼런스 (GTC) 에서이 모델을 먼저 암시했습니다.
이 릴리스는 건축 혁신과 세심한 훈련 프로세스를 통해 성능 향상에 대한 NVIDIA의 지속적인 노력을 강조합니다. 2025 년 4 월 7 일에 발표 된 모델의 코드, 가중치 및 훈련 후 데이터는 이제 포옹 얼굴에 자유롭게 액세스 할 수 있습니다. 시스템 프롬프트를 기반으로 복잡한 추론 작업과 더 간단한 출력을 원활하게 전환하도록 설계되어 개발자가 응용 프로그램의 유연성을 제공합니다.
효율적인 추론을 위해 설계되었습니다
LLAMA-3.1-NEMOTRON-ULTRA-253B는 NVIDIA의 이전 노력을 기반으로 NAS (Nemotron-Ultra-253B)가 아키텍처를 개선하기위한 NAS (Neural Architecture Search) 프로세스를 통합합니다. 여기에는 건너 뛰는주의 레이어, 융합 피드 포워드 네트워크 (FFN) 및 가변 FFN 압축 비율과 같은 혁신적인 기능이 포함됩니다. 이러한 수정은 모델의 메모리 사용 및 계산 요구 사항을 줄여 출력 품질을 손상시키지 않고 단일 8x H100 GPU 노드에 배포 할 수있게합니다.
NVIDIA는이 모델이 데이터 센터 배포에 비용 효율적으로 강력한 성능을 제공한다고 주장합니다. Nvidia의 B100 및 Hopper Microarchitectures와 호환되며 BF16 및 FP8 정밀 모드 모두에서 테스트되었습니다.
추론 및 조정에 대한 훈련 후
이 모델은 포괄적 인 교육 후 요법을 받았습니다. 여기에는 수학, 코드 생성, 채팅 및 도구 사용과 같은 다양한 도메인에 대한 감독 된 미세 조정이 포함되며, GRPO (Group Relative Policy Optimization)를 통한 강화 학습이 포함되어있어 지시-팔로우 및 추론 능력을 향상시킵니다.
추가 개선은 650 억 개의 토큰 이상의 지식 증류 단계를 통해 이루어졌으며 추가 880 억 개의 토큰에 대한 지속적인 사전 여지가 있습니다. 훈련 데이터 소스에는 FineWeb, Buzz-V1.2 및 Dolma가 포함되었으며, 공공 Corpora 및 합성 생성 방법 모두에서 추출한 사후 훈련 프롬프트 및 응답이 포함되었습니다. 이 접근법은 모델이 추론 모드를 구별하는 데 도움이되었습니다.
수많은 도메인 및 벤치 마크에서 성능 향상
추론을 가능하게 할 때이 모델은 다양한 벤치 마크에서 크게 개선되었습니다. 예를 들어 Math500 벤치 마크에서 성능은 표준 모드에서 80.40%에서 추론을 활성화하여 97.00%로 급증했습니다. 마찬가지로 AIME25 점수는 16.67%에서 72.50%로 증가했으며 LiveCodebench는 29.03%에서 66.31%로 두 배 이상 증가했습니다.
이 모델은 또한 도구 기반 작업 및 일반적인 질문 응답 (GPQA)에서도 뛰어 났으며, 56.60%에 비해 추론 모드에서 76.01%를 기록했습니다. 이러한 벤치 마크는 최대 시퀀스 길이 32,000 토큰으로 수행되었으며, 정확도를 위해 각 테스트를 최대 16 배까지 반복했습니다.
NVIDIA의 모델은 6,710 억 매개 변수를 보유한 최첨단 MOE 모델 DeepSeek R1과 비교하여 매개 변수가 적음에도 불구하고 자체적으로 보유하고 있습니다. GPQA (76.01 vs. 71.5), IFEVAL 명령 (89.45 vs. 83.3) 및 LiveCodeBench 코딩 작업 (66.31 vs. 65.9)과 같은 작업에서 Deepseek R1을 능가합니다. 그러나 특정 수학 평가, 특히 AIME25 (79.8 vs. 72.50) 및 MATH500 (97.3 vs. 97.00)에서 DeepSeek R1은 약간의 가장자리가 나옵니다.
이러한 결과는 NVIDIA의 밀집된 모델이 추론 및 일반적인 교육 정렬에서 MOE 모델을 일치 시키거나 초과 할 수 있음을 나타냅니다.
사용 및 통합
이 모델은 Hugging Face Transformers 라이브러리 (버전 4.48.3 권장)와 완벽하게 통합되며 최대 128,000 개의 토큰의 시퀀스를 지원합니다. 개발자는 시스템 프롬프트를 사용하여 추론 동작을 전환하고 작업 요구에 따라 디코딩 전략을 선택할 수 있습니다. 추론 작업의 경우 NVIDIA는 상위 P 값이 0.95 인 온도 샘플링 (0.6)을 사용하는 반면, 결정 론적 출력에는 욕심 많은 디코딩이 권장됩니다.
LLAMA-3.1-NEMOTRON-ULTRA-253B는 영어, 독일어, 프랑스어, 이탈리아, 포르투갈어, 힌디어, 스페인어 및 태국을 포함한 다국어 응용 프로그램을 지원합니다. 챗봇 개발, AI 에이전트 워크 플로우, 검색 세대 생성 (RAG) 및 코드 생성과 같은 다양한 LLM 사용 사례에 적합합니다.
상업용으로 라이센스가 부여되었습니다
NVIDIA Open Model 라이센스에 따라 릴리스되고 LLAMA 3.1 커뮤니티 라이센스 계약에 의해 관리되는이 모델은 상업용 응용 프로그램을위한 준비가되었습니다. NVIDIA는 책임있는 AI 개발의 중요성을 강조하여 팀이 특정 사용 사례에 대한 모델의 정렬, 안전 및 편견을 평가할 것을 촉구합니다.
NVIDIA의 AI 모델 후 훈련 담당 이사 인 Oleksii Kuchaiev는 X 에서이 오픈 릴리스에 대한 흥분을 공유했으며, 토갈 가능한 추론 기능과 개방형 가중치 및 데이터 포함으로 밀도가 높은 253B 디자인을 강조했습니다.
관련 기사
前Deepseeker和合作者發布了新的培訓可靠AI代理的方法:Ragen
人工智能代理年度:仔細研究2025年的期望和現實2025年被許多專家預示為當年的AI代理商(由高級大型語言和多式聯運公司提供支持的AI代理商),來自OpenAI,Anthropic,Google和Google和Deepseek等公司,最終將帶上中心中心中心中心。
蓋亞(Gaia
智力無處不在,但是準確地測量它就像試圖用裸手抓住雲。我們使用考試和基準(例如大學入學考試)來獲得一個大概的想法。每年,學生都會為這些測試做好準備,有時甚至得分完美的100%。但是那是完美的分數
Coreweave創始人兌現了4.88億美元,潛在的40億美元IPO
CoreWeave的IPO備案顯示出令人驚訝的細節,而High Stakes Coreweave的S-1文檔預計了其預期的首次公開募股(IPO),充滿了有趣的啟示。在NVIDIA的支持下,該公司在32個數據中心運營專門的AI雲服務,擁有超過250,000
의견 (50)
0/200
KeithNelson
2025년 4월 13일 오후 7시 54분 42초 GMT
Nvidia's new model is impressive, outperforming others at half the size. It's great for those who need efficiency without sacrificing performance. The only downside is the setup can be a bit tricky. Overall, a solid choice for AI enthusiasts!
0
RalphMitchell
2025년 4월 13일 오후 7시 54분 42초 GMT
Nvidiaの新しいモデルは、半分のサイズで他のモデルを上回るのが印象的です。効率を求める人には最適ですが、セットアップが少し難しいのが唯一の欠点です。全体的に、AI愛好者にとっては良い選択ですね!
0
GeorgeWilson
2025년 4월 13일 오후 7시 54분 42초 GMT
Nvidia의 새로운 모델은 반 크기에서도 다른 모델을 능가하는 것이 인상적입니다. 효율성을 희생하지 않고 성능을 원하는 사람들에게 좋습니다. 유일한 단점은 설정이 조금 까다롭다는 점입니다. 전반적으로 AI 애호가들에게 좋은 선택입니다!
0
GeorgeNelson
2025년 4월 13일 오후 7시 54분 42초 GMT
O novo modelo da Nvidia é impressionante, superando outros com metade do tamanho. É ótimo para quem precisa de eficiência sem sacrificar o desempenho. A única desvantagem é que a configuração pode ser um pouco complicada. No geral, uma boa escolha para entusiastas de IA!
0
GeorgeMiller
2025년 4월 13일 오후 7시 54분 42초 GMT
El nuevo modelo de Nvidia es impresionante, superando a otros con la mitad del tamaño. Es genial para aquellos que necesitan eficiencia sin sacrificar el rendimiento. La única desventaja es que la configuración puede ser un poco complicada. En general, una sólida opción para entusiastas de la IA!
0
BrianLewis
2025년 4월 13일 오후 5시 40분 8초 GMT
Nvidia's Llama-3.1 Nemotron Ultra is impressive! It outperforms DeepSeek R1 and is half the size, which is crazy. I've been using it for my projects and it's been a game-changer. The only downside is the setup can be a bit tricky, but once you get it running, it's smooth sailing!
0






메타는 최신 LLAMA 4 모델 패밀리를 둘러싼 면밀한 조사를 포기하지만 Nvidia는 META의 초기 LLAMA-3.1-405B-instruct 모델을 기반으로 한 새로운 오픈 소스 대형 언어 모델 (LLM)을 조용히 출시했습니다. LLAMA-3.1-NEMOTRON-ULTRA-253B-V1이라는 이름 의이 모델은 2530 억 개의 매개 변수를 자랑하며 고급 추론, 지시 다음 및 AI 보조 워크 플로에서 탁월하게 설계되었습니다. NVIDIA는 3 월 연례 GPU 기술 컨퍼런스 (GTC) 에서이 모델을 먼저 암시했습니다.
이 릴리스는 건축 혁신과 세심한 훈련 프로세스를 통해 성능 향상에 대한 NVIDIA의 지속적인 노력을 강조합니다. 2025 년 4 월 7 일에 발표 된 모델의 코드, 가중치 및 훈련 후 데이터는 이제 포옹 얼굴에 자유롭게 액세스 할 수 있습니다. 시스템 프롬프트를 기반으로 복잡한 추론 작업과 더 간단한 출력을 원활하게 전환하도록 설계되어 개발자가 응용 프로그램의 유연성을 제공합니다.
효율적인 추론을 위해 설계되었습니다
LLAMA-3.1-NEMOTRON-ULTRA-253B는 NVIDIA의 이전 노력을 기반으로 NAS (Nemotron-Ultra-253B)가 아키텍처를 개선하기위한 NAS (Neural Architecture Search) 프로세스를 통합합니다. 여기에는 건너 뛰는주의 레이어, 융합 피드 포워드 네트워크 (FFN) 및 가변 FFN 압축 비율과 같은 혁신적인 기능이 포함됩니다. 이러한 수정은 모델의 메모리 사용 및 계산 요구 사항을 줄여 출력 품질을 손상시키지 않고 단일 8x H100 GPU 노드에 배포 할 수있게합니다.
NVIDIA는이 모델이 데이터 센터 배포에 비용 효율적으로 강력한 성능을 제공한다고 주장합니다. Nvidia의 B100 및 Hopper Microarchitectures와 호환되며 BF16 및 FP8 정밀 모드 모두에서 테스트되었습니다.
추론 및 조정에 대한 훈련 후
이 모델은 포괄적 인 교육 후 요법을 받았습니다. 여기에는 수학, 코드 생성, 채팅 및 도구 사용과 같은 다양한 도메인에 대한 감독 된 미세 조정이 포함되며, GRPO (Group Relative Policy Optimization)를 통한 강화 학습이 포함되어있어 지시-팔로우 및 추론 능력을 향상시킵니다.
추가 개선은 650 억 개의 토큰 이상의 지식 증류 단계를 통해 이루어졌으며 추가 880 억 개의 토큰에 대한 지속적인 사전 여지가 있습니다. 훈련 데이터 소스에는 FineWeb, Buzz-V1.2 및 Dolma가 포함되었으며, 공공 Corpora 및 합성 생성 방법 모두에서 추출한 사후 훈련 프롬프트 및 응답이 포함되었습니다. 이 접근법은 모델이 추론 모드를 구별하는 데 도움이되었습니다.
수많은 도메인 및 벤치 마크에서 성능 향상
추론을 가능하게 할 때이 모델은 다양한 벤치 마크에서 크게 개선되었습니다. 예를 들어 Math500 벤치 마크에서 성능은 표준 모드에서 80.40%에서 추론을 활성화하여 97.00%로 급증했습니다. 마찬가지로 AIME25 점수는 16.67%에서 72.50%로 증가했으며 LiveCodebench는 29.03%에서 66.31%로 두 배 이상 증가했습니다.
이 모델은 또한 도구 기반 작업 및 일반적인 질문 응답 (GPQA)에서도 뛰어 났으며, 56.60%에 비해 추론 모드에서 76.01%를 기록했습니다. 이러한 벤치 마크는 최대 시퀀스 길이 32,000 토큰으로 수행되었으며, 정확도를 위해 각 테스트를 최대 16 배까지 반복했습니다.
NVIDIA의 모델은 6,710 억 매개 변수를 보유한 최첨단 MOE 모델 DeepSeek R1과 비교하여 매개 변수가 적음에도 불구하고 자체적으로 보유하고 있습니다. GPQA (76.01 vs. 71.5), IFEVAL 명령 (89.45 vs. 83.3) 및 LiveCodeBench 코딩 작업 (66.31 vs. 65.9)과 같은 작업에서 Deepseek R1을 능가합니다. 그러나 특정 수학 평가, 특히 AIME25 (79.8 vs. 72.50) 및 MATH500 (97.3 vs. 97.00)에서 DeepSeek R1은 약간의 가장자리가 나옵니다.
이러한 결과는 NVIDIA의 밀집된 모델이 추론 및 일반적인 교육 정렬에서 MOE 모델을 일치 시키거나 초과 할 수 있음을 나타냅니다.
사용 및 통합
이 모델은 Hugging Face Transformers 라이브러리 (버전 4.48.3 권장)와 완벽하게 통합되며 최대 128,000 개의 토큰의 시퀀스를 지원합니다. 개발자는 시스템 프롬프트를 사용하여 추론 동작을 전환하고 작업 요구에 따라 디코딩 전략을 선택할 수 있습니다. 추론 작업의 경우 NVIDIA는 상위 P 값이 0.95 인 온도 샘플링 (0.6)을 사용하는 반면, 결정 론적 출력에는 욕심 많은 디코딩이 권장됩니다.
LLAMA-3.1-NEMOTRON-ULTRA-253B는 영어, 독일어, 프랑스어, 이탈리아, 포르투갈어, 힌디어, 스페인어 및 태국을 포함한 다국어 응용 프로그램을 지원합니다. 챗봇 개발, AI 에이전트 워크 플로우, 검색 세대 생성 (RAG) 및 코드 생성과 같은 다양한 LLM 사용 사례에 적합합니다.
상업용으로 라이센스가 부여되었습니다
NVIDIA Open Model 라이센스에 따라 릴리스되고 LLAMA 3.1 커뮤니티 라이센스 계약에 의해 관리되는이 모델은 상업용 응용 프로그램을위한 준비가되었습니다. NVIDIA는 책임있는 AI 개발의 중요성을 강조하여 팀이 특정 사용 사례에 대한 모델의 정렬, 안전 및 편견을 평가할 것을 촉구합니다.
NVIDIA의 AI 모델 후 훈련 담당 이사 인 Oleksii Kuchaiev는 X 에서이 오픈 릴리스에 대한 흥분을 공유했으며, 토갈 가능한 추론 기능과 개방형 가중치 및 데이터 포함으로 밀도가 높은 253B 디자인을 강조했습니다.




Nvidia's new model is impressive, outperforming others at half the size. It's great for those who need efficiency without sacrificing performance. The only downside is the setup can be a bit tricky. Overall, a solid choice for AI enthusiasts!




Nvidiaの新しいモデルは、半分のサイズで他のモデルを上回るのが印象的です。効率を求める人には最適ですが、セットアップが少し難しいのが唯一の欠点です。全体的に、AI愛好者にとっては良い選択ですね!




Nvidia의 새로운 모델은 반 크기에서도 다른 모델을 능가하는 것이 인상적입니다. 효율성을 희생하지 않고 성능을 원하는 사람들에게 좋습니다. 유일한 단점은 설정이 조금 까다롭다는 점입니다. 전반적으로 AI 애호가들에게 좋은 선택입니다!




O novo modelo da Nvidia é impressionante, superando outros com metade do tamanho. É ótimo para quem precisa de eficiência sem sacrificar o desempenho. A única desvantagem é que a configuração pode ser um pouco complicada. No geral, uma boa escolha para entusiastas de IA!




El nuevo modelo de Nvidia es impresionante, superando a otros con la mitad del tamaño. Es genial para aquellos que necesitan eficiencia sin sacrificar el rendimiento. La única desventaja es que la configuración puede ser un poco complicada. En general, una sólida opción para entusiastas de la IA!




Nvidia's Llama-3.1 Nemotron Ultra is impressive! It outperforms DeepSeek R1 and is half the size, which is crazy. I've been using it for my projects and it's been a game-changer. The only downside is the setup can be a bit tricky, but once you get it running, it's smooth sailing!












