NVIDIA의 NEW LLAMA-3.1 NEMOTRON ULTRA SKIES의 절반으로 DEEPSEEK R1보다 성능

메타가 최신 Llama 4 모델 패밀리에 대한 조사를 받으며 어려움을 겪고 있는 가운데, Nvidia는 메타의 이전 Llama-3.1-405B-Instruct 모델을 기반으로 한 새로운 완전 오픈소스 대형 언어 모델(LLM)을 조용히 출시했습니다. Llama-3.1-Nemotron-Ultra-253B-v1이라는 이름의 이 모델은 2530억 개의 파라미터를 자랑하며, 고급 추론, 지시 따르기, AI 어시스턴트 워크플로우에서 탁월한 성능을 발휘하도록 설계되었습니다. Nvidia는 지난 3월 연례 GPU 기술 컨퍼런스(GTC)에서 이 모델을 처음 암시했습니다.
이번 출시는 Nvidia가 아키텍처 혁신과 세심한 사후 훈련 프로세스를 통해 성능을 향상시키려는 지속적인 노력을 강조합니다. 2025년 4월 7일에 발표된 이 모델의 코드, 가중치, 사후 훈련 데이터는 이제 Hugging Face에서 자유롭게 액세스할 수 있습니다. 이 모델은 시스템 프롬프트에 따라 복잡한 추론 작업과 간단한 출력 간을 원활하게 전환하도록 설계되어 개발자들에게 애플리케이션에서 유연성을 제공합니다.
효율적인 추론을 위해 설계됨
Nvidia의 LLM 추론 최적화 노력에 기반을 두고, Llama-3.1-Nemotron-Ultra-253B는 신경 아키텍처 검색(NAS) 프로세스를 통해 아키텍처를 개선했습니다. 여기에는 스킵된 어텐션 레이어, 융합된 피드포워드 네트워크(FFN), 가변 FFN 압축 비율과 같은 혁신적인 기능이 포함됩니다. 이러한 수정은 모델의 메모리 사용량과 계산 요구 사항을 줄여 출력 품질을 저하시키지 않으면서 단일 8x H100 GPU 노드에서 배포 가능하게 만듭니다.
Nvidia는 이 모델이 데이터 센터 배포에 비용 효율적이면서도 강력한 성능을 제공한다고 주장합니다. 이 모델은 Nvidia의 B100 및 Hopper 마이크로아키텍처와 호환되며, BF16 및 FP8 정밀도 모드에서 테스트되었습니다.
추론 및 정렬을 위한 사후 훈련
이 모델은 포괄적인 사후 훈련 과정을 거쳤습니다. 여기에는 수학, 코드 생성, 채팅, 도구 사용 등 다양한 도메인에 걸친 감독된 미세 조정과, 지시 따르기 및 추론 능력을 향상시키기 위한 그룹 상대 정책 최적화(GRPO)를 사용한 강화 학습이 포함되었습니다.
추가적인 정제는 650억 토큰에 걸친 지식 증류 단계와 추가 880억 토큰에 대한 지속적인 사전 훈련을 통해 이루어졌습니다. 훈련 데이터 소스는 FineWeb, Buzz-V1.2, Dolma를 포함하며, 사후 훈련 프롬프트와 응답은 공개 코퍼스와 합성 생성 방법에서 추출되었습니다. 이 접근 방식은 모델이 추론 모드를 구분하는 데 도움이 되었습니다.
다양한 도메인 및 벤치마크에서 향상된 성능
추론이 활성화되었을 때, 이 모델은 다양한 벤치마크에서 상당한 성능 향상을 보였습니다. 예를 들어, MATH500 벤치마크에서는 표준 모드에서 80.40%였던 성능이 추론 활성화 시 97.00%로 급상승했습니다. 마찬가지로 AIME25 점수는 16.67%에서 72.50%로, LiveCodeBench 결과는 29.03%에서 66.31%로 두 배 이상 증가했습니다.
이 모델은 도구 기반 작업과 일반 질문 응답(GPQA)에서도 뛰어난 성능을 보였으며, 추론 모드에서 76.01%를 기록해 비활성화 시 56.60%와 비교되었습니다. 이러한 벤치마크는 최대 시퀀스 길이 32,000 토큰으로 수행되었으며, 정확성을 위해 각 테스트는 최대 16번 반복되었습니다.
최첨단 MoE 모델 DeepSeek R1(6710억 파라미터)와 비교했을 때, Nvidia의 모델은 파라미터 수가 적음에도 불구하고 경쟁력을 유지합니다. GPQA(76.01 대 71.5), IFEval 지시 따르기(89.45 대 83.3), LiveCodeBench 코딩 작업(66.31 대 65.9)과 같은 작업에서 DeepSeek R1을 능가합니다. 그러나 DeepSeek R1은 AIME25(79.8 대 72.50) 및 MATH500(97.3 대 97.00)와 같은 특정 수학 평가에서 약간 앞섭니다.
이러한 결과는 Nvidia의 고밀도 모델이 추론 및 일반 지시 정렬에서 MoE 모델과 동등하거나 그 이상의 성능을 발휘할 수 있음을 나타내며, 수학 중심 카테고리에서는 약간 뒤처집니다.
사용 및 통합
이 모델은 Hugging Face Transformers 라이브러리(버전 4.48.3 권장)와 원활하게 통합되며, 최대 128,000 토큰의 시퀀스를 지원합니다. 개발자는 시스템 프롬프트를 사용하여 추론 동작을 전환하고 작업 요구에 따라 디코딩 전략을 선택할 수 있습니다. 추론 작업의 경우 Nvidia는 온도 샘플링(0.6)과 top-p 값 0.95를 사용할 것을 제안하며, 결정적 출력에는 탐욕적 디코딩을 권장합니다.
Llama-3.1-Nemotron-Ultra-253B는 영어, 독일어, 프랑스어, 이탈리아어, 포르투갈어, 힌디어, 스페인어, 태국어를 포함한 다국어 애플리케이션을 지원합니다. 챗봇 개발, AI 에이전트 워크플로우, 검색 증강 생성(RAG), 코드 생성과 같은 다양한 LLM 사용 사례에 적합합니다.
상업적 사용을 위한 라이선스
Nvidia 오픈 모델 라이선스 및 Llama 3.1 커뮤니티 라이선스 계약에 따라 출시된 이 모델은 상업적 애플리케이션에 바로 사용 가능합니다. Nvidia는 책임 있는 AI 개발의 중요성을 강조하며, 팀이 특정 사용 사례에 대해 모델의 정렬, 안전성, 편향을 평가할 것을 촉구합니다.
Nvidia의 AI 모델 사후 훈련 디렉터인 Oleksii Kuchaiev는 X에서 이번 오픈 출시에 대한 기쁨을 공유하며, 2530억의 고밀도 설계와 토글 가능한 추론 기능, 오픈 가중치 및 데이터 포함을 강조했습니다.
관련 기사
Salesforce, Slack에서 Microsoft Copilot과 경쟁하는 AI 디지털 팀메이트 공개
Salesforce는 새로운 직장 AI 전략을 공개하며 월요일, Slack 대화에 통합된 전문화된 “디지털 팀메이트”를 소개했습니다.새 도구인 Slack의 Agentforce는 기업이 직장 대화를 검색하고, 회사 데이터에 접근하며, 직원들이 매일 사용하는 메시징 플랫폼 내에서 작업을 실행하는 작업별 AI 에이전트를 만들고 배포할 수 있게 합니다.“전문화된
Oracle의 400억 달러 Nvidia 칩 투자로 텍사스 AI 데이터센터 강화
Oracle은 Financial Times에 따르면 OpenAI가 개발한 텍사스 주요 신규 데이터센터를 지원하기 위해 Nvidia 칩에 약 400억 달러를 투자할 예정입니다. 이는 지금까지 가장 큰 칩 인수 거래 중 하나로, AI 컴퓨팅 자원에 대한 급증하는 수요를 보여줍니다.텍사스 애빌린에 위치한 이 시설은 미국 최초의 “Stargate” 데이터센터입니다
Meta AI 앱, 프리미엄 티어 및 광고 도입
Meta의 AI 앱은 OpenAI, Google, Microsoft와 같은 경쟁사의 제품과 유사하게 유료 구독 서비스를 곧 선보일 예정입니다. 2025년 1분기 실적 발표에서 Meta CEO Mark Zuckerberg는 프리미엄 서비스 계획을 밝히며, 이를 통해 사용자가 Meta AI에서 향상된 컴퓨팅 파워나 추가 기능을 이용할 수 있다고 전했습니다.Ch
의견 (52)
0/200
DouglasMartínez
2025년 8월 19일 오전 12시 1분 0초 GMT+09:00
Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outperforms it? That's wild efficiency. Can't wait to see how devs play with this open-source gem! 🚀
0
StephenRoberts
2025년 8월 1일 오전 11시 48분 18초 GMT+09:00
Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outshines it? That's some serious tech flex. Can't wait to see how devs play with this open-source gem! 😎
0
AnthonyRoberts
2025년 4월 24일 오후 5시 35분 7초 GMT+09:00
Nvidia's new Llama-3.1 Nemotron Ultra is a beast! It's amazing how it outperforms DeepSeek R1 with half the size. I've been using it for my projects and the results are incredible. Just wish it was a bit faster, but overall, a solid choice! 🚀
0
JohnRoberts
2025년 4월 23일 오전 9시 3분 45초 GMT+09:00
¡El Llama-3.1 Nemotron Ultra de Nvidia es impresionante! Supera al DeepSeek R1 con la mitad del tamaño, lo cual es alucinante. Lo he estado usando en mis proyectos y es súper eficiente. Lo único es que puede ser un poco complicado de configurar. Aún así, una excelente opción para quien busque un LLM potente. 🚀
0
BillyAdams
2025년 4월 23일 오전 8시 54분 38초 GMT+09:00
O novo Llama-3.1 Nemotron Ultra da Nvidia é uma fera! É incrível como supera o DeepSeek R1 com metade do tamanho. Tenho usado para meus projetos e os resultados são incríveis. Só desejo que fosse um pouco mais rápido, mas no geral, uma escolha sólida! 🚀
0
ChristopherTaylor
2025년 4월 23일 오전 6시 27분 44초 GMT+09:00
¡El nuevo Llama-3.1 Nemotron Ultra de Nvidia es una maravilla! Me sorprende cómo supera a DeepSeek R1 con la mitad del tamaño. Lo he usado para mis proyectos y los resultados son increíbles. Solo desearía que fuera un poco más rápido, pero en general, una opción sólida. ¡🚀
0
메타가 최신 Llama 4 모델 패밀리에 대한 조사를 받으며 어려움을 겪고 있는 가운데, Nvidia는 메타의 이전 Llama-3.1-405B-Instruct 모델을 기반으로 한 새로운 완전 오픈소스 대형 언어 모델(LLM)을 조용히 출시했습니다. Llama-3.1-Nemotron-Ultra-253B-v1이라는 이름의 이 모델은 2530억 개의 파라미터를 자랑하며, 고급 추론, 지시 따르기, AI 어시스턴트 워크플로우에서 탁월한 성능을 발휘하도록 설계되었습니다. Nvidia는 지난 3월 연례 GPU 기술 컨퍼런스(GTC)에서 이 모델을 처음 암시했습니다.
이번 출시는 Nvidia가 아키텍처 혁신과 세심한 사후 훈련 프로세스를 통해 성능을 향상시키려는 지속적인 노력을 강조합니다. 2025년 4월 7일에 발표된 이 모델의 코드, 가중치, 사후 훈련 데이터는 이제 Hugging Face에서 자유롭게 액세스할 수 있습니다. 이 모델은 시스템 프롬프트에 따라 복잡한 추론 작업과 간단한 출력 간을 원활하게 전환하도록 설계되어 개발자들에게 애플리케이션에서 유연성을 제공합니다.
효율적인 추론을 위해 설계됨
Nvidia의 LLM 추론 최적화 노력에 기반을 두고, Llama-3.1-Nemotron-Ultra-253B는 신경 아키텍처 검색(NAS) 프로세스를 통해 아키텍처를 개선했습니다. 여기에는 스킵된 어텐션 레이어, 융합된 피드포워드 네트워크(FFN), 가변 FFN 압축 비율과 같은 혁신적인 기능이 포함됩니다. 이러한 수정은 모델의 메모리 사용량과 계산 요구 사항을 줄여 출력 품질을 저하시키지 않으면서 단일 8x H100 GPU 노드에서 배포 가능하게 만듭니다.
Nvidia는 이 모델이 데이터 센터 배포에 비용 효율적이면서도 강력한 성능을 제공한다고 주장합니다. 이 모델은 Nvidia의 B100 및 Hopper 마이크로아키텍처와 호환되며, BF16 및 FP8 정밀도 모드에서 테스트되었습니다.
추론 및 정렬을 위한 사후 훈련
이 모델은 포괄적인 사후 훈련 과정을 거쳤습니다. 여기에는 수학, 코드 생성, 채팅, 도구 사용 등 다양한 도메인에 걸친 감독된 미세 조정과, 지시 따르기 및 추론 능력을 향상시키기 위한 그룹 상대 정책 최적화(GRPO)를 사용한 강화 학습이 포함되었습니다.
추가적인 정제는 650억 토큰에 걸친 지식 증류 단계와 추가 880억 토큰에 대한 지속적인 사전 훈련을 통해 이루어졌습니다. 훈련 데이터 소스는 FineWeb, Buzz-V1.2, Dolma를 포함하며, 사후 훈련 프롬프트와 응답은 공개 코퍼스와 합성 생성 방법에서 추출되었습니다. 이 접근 방식은 모델이 추론 모드를 구분하는 데 도움이 되었습니다.
다양한 도메인 및 벤치마크에서 향상된 성능
추론이 활성화되었을 때, 이 모델은 다양한 벤치마크에서 상당한 성능 향상을 보였습니다. 예를 들어, MATH500 벤치마크에서는 표준 모드에서 80.40%였던 성능이 추론 활성화 시 97.00%로 급상승했습니다. 마찬가지로 AIME25 점수는 16.67%에서 72.50%로, LiveCodeBench 결과는 29.03%에서 66.31%로 두 배 이상 증가했습니다.
이 모델은 도구 기반 작업과 일반 질문 응답(GPQA)에서도 뛰어난 성능을 보였으며, 추론 모드에서 76.01%를 기록해 비활성화 시 56.60%와 비교되었습니다. 이러한 벤치마크는 최대 시퀀스 길이 32,000 토큰으로 수행되었으며, 정확성을 위해 각 테스트는 최대 16번 반복되었습니다.
최첨단 MoE 모델 DeepSeek R1(6710억 파라미터)와 비교했을 때, Nvidia의 모델은 파라미터 수가 적음에도 불구하고 경쟁력을 유지합니다. GPQA(76.01 대 71.5), IFEval 지시 따르기(89.45 대 83.3), LiveCodeBench 코딩 작업(66.31 대 65.9)과 같은 작업에서 DeepSeek R1을 능가합니다. 그러나 DeepSeek R1은 AIME25(79.8 대 72.50) 및 MATH500(97.3 대 97.00)와 같은 특정 수학 평가에서 약간 앞섭니다.
이러한 결과는 Nvidia의 고밀도 모델이 추론 및 일반 지시 정렬에서 MoE 모델과 동등하거나 그 이상의 성능을 발휘할 수 있음을 나타내며, 수학 중심 카테고리에서는 약간 뒤처집니다.
사용 및 통합
이 모델은 Hugging Face Transformers 라이브러리(버전 4.48.3 권장)와 원활하게 통합되며, 최대 128,000 토큰의 시퀀스를 지원합니다. 개발자는 시스템 프롬프트를 사용하여 추론 동작을 전환하고 작업 요구에 따라 디코딩 전략을 선택할 수 있습니다. 추론 작업의 경우 Nvidia는 온도 샘플링(0.6)과 top-p 값 0.95를 사용할 것을 제안하며, 결정적 출력에는 탐욕적 디코딩을 권장합니다.
Llama-3.1-Nemotron-Ultra-253B는 영어, 독일어, 프랑스어, 이탈리아어, 포르투갈어, 힌디어, 스페인어, 태국어를 포함한 다국어 애플리케이션을 지원합니다. 챗봇 개발, AI 에이전트 워크플로우, 검색 증강 생성(RAG), 코드 생성과 같은 다양한 LLM 사용 사례에 적합합니다.
상업적 사용을 위한 라이선스
Nvidia 오픈 모델 라이선스 및 Llama 3.1 커뮤니티 라이선스 계약에 따라 출시된 이 모델은 상업적 애플리케이션에 바로 사용 가능합니다. Nvidia는 책임 있는 AI 개발의 중요성을 강조하며, 팀이 특정 사용 사례에 대해 모델의 정렬, 안전성, 편향을 평가할 것을 촉구합니다.
Nvidia의 AI 모델 사후 훈련 디렉터인 Oleksii Kuchaiev는 X에서 이번 오픈 출시에 대한 기쁨을 공유하며, 2530억의 고밀도 설계와 토글 가능한 추론 기능, 오픈 가중치 및 데이터 포함을 강조했습니다.



Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outperforms it? That's wild efficiency. Can't wait to see how devs play with this open-source gem! 🚀




Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outshines it? That's some serious tech flex. Can't wait to see how devs play with this open-source gem! 😎




Nvidia's new Llama-3.1 Nemotron Ultra is a beast! It's amazing how it outperforms DeepSeek R1 with half the size. I've been using it for my projects and the results are incredible. Just wish it was a bit faster, but overall, a solid choice! 🚀




¡El Llama-3.1 Nemotron Ultra de Nvidia es impresionante! Supera al DeepSeek R1 con la mitad del tamaño, lo cual es alucinante. Lo he estado usando en mis proyectos y es súper eficiente. Lo único es que puede ser un poco complicado de configurar. Aún así, una excelente opción para quien busque un LLM potente. 🚀




O novo Llama-3.1 Nemotron Ultra da Nvidia é uma fera! É incrível como supera o DeepSeek R1 com metade do tamanho. Tenho usado para meus projetos e os resultados são incríveis. Só desejo que fosse um pouco mais rápido, mas no geral, uma escolha sólida! 🚀




¡El nuevo Llama-3.1 Nemotron Ultra de Nvidia es una maravilla! Me sorprende cómo supera a DeepSeek R1 con la mitad del tamaño. Lo he usado para mis proyectos y los resultados son increíbles. Solo desearía que fuera un poco más rápido, pero en general, una opción sólida. ¡🚀












