옵션
뉴스
NVIDIA의 NEW LLAMA-3.1 NEMOTRON ULTRA SKIES의 절반으로 DEEPSEEK R1보다 성능

NVIDIA의 NEW LLAMA-3.1 NEMOTRON ULTRA SKIES의 절반으로 DEEPSEEK R1보다 성능

2025년 4월 13일
104

NVIDIA의 NEW LLAMA-3.1 NEMOTRON ULTRA SKIES의 절반으로 DEEPSEEK R1보다 성능

메타가 최신 Llama 4 모델 패밀리에 대한 조사를 받으며 어려움을 겪고 있는 가운데, Nvidia는 메타의 이전 Llama-3.1-405B-Instruct 모델을 기반으로 한 새로운 완전 오픈소스 대형 언어 모델(LLM)을 조용히 출시했습니다. Llama-3.1-Nemotron-Ultra-253B-v1이라는 이름의 이 모델은 2530억 개의 파라미터를 자랑하며, 고급 추론, 지시 따르기, AI 어시스턴트 워크플로우에서 탁월한 성능을 발휘하도록 설계되었습니다. Nvidia는 지난 3월 연례 GPU 기술 컨퍼런스(GTC)에서 이 모델을 처음 암시했습니다.

이번 출시는 Nvidia가 아키텍처 혁신과 세심한 사후 훈련 프로세스를 통해 성능을 향상시키려는 지속적인 노력을 강조합니다. 2025년 4월 7일에 발표된 이 모델의 코드, 가중치, 사후 훈련 데이터는 이제 Hugging Face에서 자유롭게 액세스할 수 있습니다. 이 모델은 시스템 프롬프트에 따라 복잡한 추론 작업과 간단한 출력 간을 원활하게 전환하도록 설계되어 개발자들에게 애플리케이션에서 유연성을 제공합니다.

효율적인 추론을 위해 설계됨

Nvidia의 LLM 추론 최적화 노력에 기반을 두고, Llama-3.1-Nemotron-Ultra-253B는 신경 아키텍처 검색(NAS) 프로세스를 통해 아키텍처를 개선했습니다. 여기에는 스킵된 어텐션 레이어, 융합된 피드포워드 네트워크(FFN), 가변 FFN 압축 비율과 같은 혁신적인 기능이 포함됩니다. 이러한 수정은 모델의 메모리 사용량과 계산 요구 사항을 줄여 출력 품질을 저하시키지 않으면서 단일 8x H100 GPU 노드에서 배포 가능하게 만듭니다.

Nvidia는 이 모델이 데이터 센터 배포에 비용 효율적이면서도 강력한 성능을 제공한다고 주장합니다. 이 모델은 Nvidia의 B100 및 Hopper 마이크로아키텍처와 호환되며, BF16 및 FP8 정밀도 모드에서 테스트되었습니다.

추론 및 정렬을 위한 사후 훈련

이 모델은 포괄적인 사후 훈련 과정을 거쳤습니다. 여기에는 수학, 코드 생성, 채팅, 도구 사용 등 다양한 도메인에 걸친 감독된 미세 조정과, 지시 따르기 및 추론 능력을 향상시키기 위한 그룹 상대 정책 최적화(GRPO)를 사용한 강화 학습이 포함되었습니다.

추가적인 정제는 650억 토큰에 걸친 지식 증류 단계와 추가 880억 토큰에 대한 지속적인 사전 훈련을 통해 이루어졌습니다. 훈련 데이터 소스는 FineWeb, Buzz-V1.2, Dolma를 포함하며, 사후 훈련 프롬프트와 응답은 공개 코퍼스와 합성 생성 방법에서 추출되었습니다. 이 접근 방식은 모델이 추론 모드를 구분하는 데 도움이 되었습니다.

다양한 도메인 및 벤치마크에서 향상된 성능

추론이 활성화되었을 때, 이 모델은 다양한 벤치마크에서 상당한 성능 향상을 보였습니다. 예를 들어, MATH500 벤치마크에서는 표준 모드에서 80.40%였던 성능이 추론 활성화 시 97.00%로 급상승했습니다. 마찬가지로 AIME25 점수는 16.67%에서 72.50%로, LiveCodeBench 결과는 29.03%에서 66.31%로 두 배 이상 증가했습니다.

이 모델은 도구 기반 작업과 일반 질문 응답(GPQA)에서도 뛰어난 성능을 보였으며, 추론 모드에서 76.01%를 기록해 비활성화 시 56.60%와 비교되었습니다. 이러한 벤치마크는 최대 시퀀스 길이 32,000 토큰으로 수행되었으며, 정확성을 위해 각 테스트는 최대 16번 반복되었습니다.

최첨단 MoE 모델 DeepSeek R1(6710억 파라미터)와 비교했을 때, Nvidia의 모델은 파라미터 수가 적음에도 불구하고 경쟁력을 유지합니다. GPQA(76.01 대 71.5), IFEval 지시 따르기(89.45 대 83.3), LiveCodeBench 코딩 작업(66.31 대 65.9)과 같은 작업에서 DeepSeek R1을 능가합니다. 그러나 DeepSeek R1은 AIME25(79.8 대 72.50) 및 MATH500(97.3 대 97.00)와 같은 특정 수학 평가에서 약간 앞섭니다.

이러한 결과는 Nvidia의 고밀도 모델이 추론 및 일반 지시 정렬에서 MoE 모델과 동등하거나 그 이상의 성능을 발휘할 수 있음을 나타내며, 수학 중심 카테고리에서는 약간 뒤처집니다.

사용 및 통합

이 모델은 Hugging Face Transformers 라이브러리(버전 4.48.3 권장)와 원활하게 통합되며, 최대 128,000 토큰의 시퀀스를 지원합니다. 개발자는 시스템 프롬프트를 사용하여 추론 동작을 전환하고 작업 요구에 따라 디코딩 전략을 선택할 수 있습니다. 추론 작업의 경우 Nvidia는 온도 샘플링(0.6)과 top-p 값 0.95를 사용할 것을 제안하며, 결정적 출력에는 탐욕적 디코딩을 권장합니다.

Llama-3.1-Nemotron-Ultra-253B는 영어, 독일어, 프랑스어, 이탈리아어, 포르투갈어, 힌디어, 스페인어, 태국어를 포함한 다국어 애플리케이션을 지원합니다. 챗봇 개발, AI 에이전트 워크플로우, 검색 증강 생성(RAG), 코드 생성과 같은 다양한 LLM 사용 사례에 적합합니다.

상업적 사용을 위한 라이선스

Nvidia 오픈 모델 라이선스 및 Llama 3.1 커뮤니티 라이선스 계약에 따라 출시된 이 모델은 상업적 애플리케이션에 바로 사용 가능합니다. Nvidia는 책임 있는 AI 개발의 중요성을 강조하며, 팀이 특정 사용 사례에 대해 모델의 정렬, 안전성, 편향을 평가할 것을 촉구합니다.

Nvidia의 AI 모델 사후 훈련 디렉터인 Oleksii Kuchaiev는 X에서 이번 오픈 출시에 대한 기쁨을 공유하며, 2530억의 고밀도 설계와 토글 가능한 추론 기능, 오픈 가중치 및 데이터 포함을 강조했습니다.

관련 기사
텐서제로, 기업용 LLM 개발 간소화를 위해 730만 달러의 시드 펀딩 유치 텐서제로, 기업용 LLM 개발 간소화를 위해 730만 달러의 시드 펀딩 유치 AI 애플리케이션을 위한 오픈소스 인프라 제공업체로 떠오르고 있는 TensorZero는 FirstMark Capital이 주도하는 730만 달러의 시드 펀딩을 확보했으며, 베세머 벤처 파트너스, 베드락, DRW, Coalition 및 다수의 업계 엔젤이 참여했습니다.이번 투자는 최근 몇 달 동안 별 수가 3,000개에서 9,700개로 3배 가까이 증가하
메타, 라마 AI 모델 호스트와 수익 공유, 파일링 공개 메타, 라마 AI 모델 호스트와 수익 공유, 파일링 공개 2023년 7월 메타의 CEO인 마크 저커버그는 "액세스 권한 판매"가 라마 AI 모델의 비즈니스 모델이 아니라고 강조했지만, 새로 공개된 법원 서류에 따르면 메타는 이러한 오픈 소스 모델을 호스팅하는 클라우드 제공업체와 수익 공유 파트너십을 맺고 있는 것으로 밝혀졌습니다.호스팅 파트너십을 통한 수익 창출아직 수정되지 않은 Kadrey 대 Meta 소
Replit CEO, 소프트웨어의 미래 예측: '에이전트가 완전히 사라질 것' Replit CEO, 소프트웨어의 미래 예측: '에이전트가 완전히 사라질 것' 협업형 AI 개발 플랫폼으로 기업이 값비싼 SaaS 구독에서 벗어날 수 있을까요? Replit의 선구적인 CEO Amjad Masad는 "에이전트가 모든 것을 재귀적으로 처리하는" 생태계를 설명하면서 이러한 변화는 이미 진행 중이라고 믿습니다.마사드는 VB 트랜스폼 기조연설에서 Replit의 AI 에이전트를 통해 기술 전문가가 아닌 사용자가 간단한 텍스트
의견 (52)
0/200
DouglasMartínez
DouglasMartínez 2025년 8월 19일 오전 12시 1분 0초 GMT+09:00

Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outperforms it? That's wild efficiency. Can't wait to see how devs play with this open-source gem! 🚀

StephenRoberts
StephenRoberts 2025년 8월 1일 오전 11시 48분 18초 GMT+09:00

Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outshines it? That's some serious tech flex. Can't wait to see how devs play with this open-source gem! 😎

AnthonyRoberts
AnthonyRoberts 2025년 4월 24일 오후 5시 35분 7초 GMT+09:00

Nvidia's new Llama-3.1 Nemotron Ultra is a beast! It's amazing how it outperforms DeepSeek R1 with half the size. I've been using it for my projects and the results are incredible. Just wish it was a bit faster, but overall, a solid choice! 🚀

JohnRoberts
JohnRoberts 2025년 4월 23일 오전 9시 3분 45초 GMT+09:00

¡El Llama-3.1 Nemotron Ultra de Nvidia es impresionante! Supera al DeepSeek R1 con la mitad del tamaño, lo cual es alucinante. Lo he estado usando en mis proyectos y es súper eficiente. Lo único es que puede ser un poco complicado de configurar. Aún así, una excelente opción para quien busque un LLM potente. 🚀

BillyAdams
BillyAdams 2025년 4월 23일 오전 8시 54분 38초 GMT+09:00

O novo Llama-3.1 Nemotron Ultra da Nvidia é uma fera! É incrível como supera o DeepSeek R1 com metade do tamanho. Tenho usado para meus projetos e os resultados são incríveis. Só desejo que fosse um pouco mais rápido, mas no geral, uma escolha sólida! 🚀

ChristopherTaylor
ChristopherTaylor 2025년 4월 23일 오전 6시 27분 44초 GMT+09:00

¡El nuevo Llama-3.1 Nemotron Ultra de Nvidia es una maravilla! Me sorprende cómo supera a DeepSeek R1 con la mitad del tamaño. Lo he usado para mis proyectos y los resultados son increíbles. Solo desearía que fuera un poco más rápido, pero en general, una opción sólida. ¡🚀

위로 돌아갑니다
OR