NVIDIA의 NEW LLAMA-3.1 NEMOTRON ULTRA SKIES의 절반으로 DEEPSEEK R1보다 성능

메타가 최신 Llama 4 모델 패밀리에 대한 조사를 받으며 어려움을 겪고 있는 가운데, Nvidia는 메타의 이전 Llama-3.1-405B-Instruct 모델을 기반으로 한 새로운 완전 오픈소스 대형 언어 모델(LLM)을 조용히 출시했습니다. Llama-3.1-Nemotron-Ultra-253B-v1이라는 이름의 이 모델은 2530억 개의 파라미터를 자랑하며, 고급 추론, 지시 따르기, AI 어시스턴트 워크플로우에서 탁월한 성능을 발휘하도록 설계되었습니다. Nvidia는 지난 3월 연례 GPU 기술 컨퍼런스(GTC)에서 이 모델을 처음 암시했습니다.
이번 출시는 Nvidia가 아키텍처 혁신과 세심한 사후 훈련 프로세스를 통해 성능을 향상시키려는 지속적인 노력을 강조합니다. 2025년 4월 7일에 발표된 이 모델의 코드, 가중치, 사후 훈련 데이터는 이제 Hugging Face에서 자유롭게 액세스할 수 있습니다. 이 모델은 시스템 프롬프트에 따라 복잡한 추론 작업과 간단한 출력 간을 원활하게 전환하도록 설계되어 개발자들에게 애플리케이션에서 유연성을 제공합니다.
효율적인 추론을 위해 설계됨
Nvidia의 LLM 추론 최적화 노력에 기반을 두고, Llama-3.1-Nemotron-Ultra-253B는 신경 아키텍처 검색(NAS) 프로세스를 통해 아키텍처를 개선했습니다. 여기에는 스킵된 어텐션 레이어, 융합된 피드포워드 네트워크(FFN), 가변 FFN 압축 비율과 같은 혁신적인 기능이 포함됩니다. 이러한 수정은 모델의 메모리 사용량과 계산 요구 사항을 줄여 출력 품질을 저하시키지 않으면서 단일 8x H100 GPU 노드에서 배포 가능하게 만듭니다.
Nvidia는 이 모델이 데이터 센터 배포에 비용 효율적이면서도 강력한 성능을 제공한다고 주장합니다. 이 모델은 Nvidia의 B100 및 Hopper 마이크로아키텍처와 호환되며, BF16 및 FP8 정밀도 모드에서 테스트되었습니다.
추론 및 정렬을 위한 사후 훈련
이 모델은 포괄적인 사후 훈련 과정을 거쳤습니다. 여기에는 수학, 코드 생성, 채팅, 도구 사용 등 다양한 도메인에 걸친 감독된 미세 조정과, 지시 따르기 및 추론 능력을 향상시키기 위한 그룹 상대 정책 최적화(GRPO)를 사용한 강화 학습이 포함되었습니다.
추가적인 정제는 650억 토큰에 걸친 지식 증류 단계와 추가 880억 토큰에 대한 지속적인 사전 훈련을 통해 이루어졌습니다. 훈련 데이터 소스는 FineWeb, Buzz-V1.2, Dolma를 포함하며, 사후 훈련 프롬프트와 응답은 공개 코퍼스와 합성 생성 방법에서 추출되었습니다. 이 접근 방식은 모델이 추론 모드를 구분하는 데 도움이 되었습니다.
다양한 도메인 및 벤치마크에서 향상된 성능
추론이 활성화되었을 때, 이 모델은 다양한 벤치마크에서 상당한 성능 향상을 보였습니다. 예를 들어, MATH500 벤치마크에서는 표준 모드에서 80.40%였던 성능이 추론 활성화 시 97.00%로 급상승했습니다. 마찬가지로 AIME25 점수는 16.67%에서 72.50%로, LiveCodeBench 결과는 29.03%에서 66.31%로 두 배 이상 증가했습니다.
이 모델은 도구 기반 작업과 일반 질문 응답(GPQA)에서도 뛰어난 성능을 보였으며, 추론 모드에서 76.01%를 기록해 비활성화 시 56.60%와 비교되었습니다. 이러한 벤치마크는 최대 시퀀스 길이 32,000 토큰으로 수행되었으며, 정확성을 위해 각 테스트는 최대 16번 반복되었습니다.
최첨단 MoE 모델 DeepSeek R1(6710억 파라미터)와 비교했을 때, Nvidia의 모델은 파라미터 수가 적음에도 불구하고 경쟁력을 유지합니다. GPQA(76.01 대 71.5), IFEval 지시 따르기(89.45 대 83.3), LiveCodeBench 코딩 작업(66.31 대 65.9)과 같은 작업에서 DeepSeek R1을 능가합니다. 그러나 DeepSeek R1은 AIME25(79.8 대 72.50) 및 MATH500(97.3 대 97.00)와 같은 특정 수학 평가에서 약간 앞섭니다.
이러한 결과는 Nvidia의 고밀도 모델이 추론 및 일반 지시 정렬에서 MoE 모델과 동등하거나 그 이상의 성능을 발휘할 수 있음을 나타내며, 수학 중심 카테고리에서는 약간 뒤처집니다.
사용 및 통합
이 모델은 Hugging Face Transformers 라이브러리(버전 4.48.3 권장)와 원활하게 통합되며, 최대 128,000 토큰의 시퀀스를 지원합니다. 개발자는 시스템 프롬프트를 사용하여 추론 동작을 전환하고 작업 요구에 따라 디코딩 전략을 선택할 수 있습니다. 추론 작업의 경우 Nvidia는 온도 샘플링(0.6)과 top-p 값 0.95를 사용할 것을 제안하며, 결정적 출력에는 탐욕적 디코딩을 권장합니다.
Llama-3.1-Nemotron-Ultra-253B는 영어, 독일어, 프랑스어, 이탈리아어, 포르투갈어, 힌디어, 스페인어, 태국어를 포함한 다국어 애플리케이션을 지원합니다. 챗봇 개발, AI 에이전트 워크플로우, 검색 증강 생성(RAG), 코드 생성과 같은 다양한 LLM 사용 사례에 적합합니다.
상업적 사용을 위한 라이선스
Nvidia 오픈 모델 라이선스 및 Llama 3.1 커뮤니티 라이선스 계약에 따라 출시된 이 모델은 상업적 애플리케이션에 바로 사용 가능합니다. Nvidia는 책임 있는 AI 개발의 중요성을 강조하며, 팀이 특정 사용 사례에 대해 모델의 정렬, 안전성, 편향을 평가할 것을 촉구합니다.
Nvidia의 AI 모델 사후 훈련 디렉터인 Oleksii Kuchaiev는 X에서 이번 오픈 출시에 대한 기쁨을 공유하며, 2530억의 고밀도 설계와 토글 가능한 추론 기능, 오픈 가중치 및 데이터 포함을 강조했습니다.
관련 기사
ElevenLabs, 블랙록·제이미 폭스·에바 롱고리아를 신규 투자자로 선정
음성 AI 기업 일레븐랩스(ElevenLabs)는 지난 2월에 처음 발표했던 5억 달러 규모의 시리즈 D 투자 라운드에 참여한 추가 투자자들을 공개했다. 이번 투자자 명단에는 블랙록(BlackRock), 웰링턴(Wellington), D.E. 쇼(D.E. Shaw), 슈로더(Schroders)와 같은 기관 투자자들과 엔비디아(NVIDIA), 세일즈포스(Sa
메타 AI가 이제 페이스북 마켓플레이스에서 구매자의 메시지에 응답합니다
페이스북 마켓플레이스가 구매자 문의에 대한 자동 응답 기능을 포함한 새로운 메타 AI 기능을 도입한다고 목요일 회사 측이 발표했다. 또한 이 플랫폼은 AI를 활용해 상품 등록을 가속화하고 판매자 프로필을 요약하며, 이제 판매자가 상품 목록에 배송 옵션을 제공할 수 있도록 지원한다.판매자들은 종종 수많은 구매자 문의를 받기 때문에, 페이스북은 메타 AI 기반
메타, 아마존 AI용 CPU 수백만 대 공급 계약 체결
아마존은 자체 설계 칩을 다시 한번 앞세워 메타(Meta)와 중요한 파트너십을 체결했다. 아마존은 금요일, 메타가 확대되는 AI 수요를 충족하기 위해 수백만 개의 AWS 그래비톤(Graviton) 칩을 도입하기로 합의했다고 밝혔다.참고로 AWS 그래비톤은 GPU(그래픽 처리 장치)가 아닌 ARM 기반 CPU(일반 컴퓨팅용으로 설계된 중앙 처리 장치)입니다.
관련 특별 주제 추천
의견 (54)
0/500
Интересно, как Nvidia удалось упаковать все эти параметры в модель размером вдвое меньше. Выходит, вложения в архитектуру дают больше преимуществ, чем просто увеличение данных? Хотя, конечно, с учётом их вычислительных ресурсов не стоит удивляться. Что особенно ценно, так это тот факт, что модель открыта. На этом фоне заявления Meta порой звучат слишком громко и с многочисленными оговорками 🤔 Это может изменить правила игры для независимых исследователей!
¿Nvidia saca otro modelo open-source más potente que DeepSeek R1? 🤔 Me pregunto si esto realmente marcará una diferencia práctica para los desarrolladores o es solo otra carrera por los números en los benchmarks. ¡253 mil millones de parámetros parece excesivo!
Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outperforms it? That's wild efficiency. Can't wait to see how devs play with this open-source gem! 🚀
Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outshines it? That's some serious tech flex. Can't wait to see how devs play with this open-source gem! 😎
Nvidia's new Llama-3.1 Nemotron Ultra is a beast! It's amazing how it outperforms DeepSeek R1 with half the size. I've been using it for my projects and the results are incredible. Just wish it was a bit faster, but overall, a solid choice! 🚀
¡El Llama-3.1 Nemotron Ultra de Nvidia es impresionante! Supera al DeepSeek R1 con la mitad del tamaño, lo cual es alucinante. Lo he estado usando en mis proyectos y es súper eficiente. Lo único es que puede ser un poco complicado de configurar. Aún así, una excelente opción para quien busque un LLM potente. 🚀

메타가 최신 Llama 4 모델 패밀리에 대한 조사를 받으며 어려움을 겪고 있는 가운데, Nvidia는 메타의 이전 Llama-3.1-405B-Instruct 모델을 기반으로 한 새로운 완전 오픈소스 대형 언어 모델(LLM)을 조용히 출시했습니다. Llama-3.1-Nemotron-Ultra-253B-v1이라는 이름의 이 모델은 2530억 개의 파라미터를 자랑하며, 고급 추론, 지시 따르기, AI 어시스턴트 워크플로우에서 탁월한 성능을 발휘하도록 설계되었습니다. Nvidia는 지난 3월 연례 GPU 기술 컨퍼런스(GTC)에서 이 모델을 처음 암시했습니다.
이번 출시는 Nvidia가 아키텍처 혁신과 세심한 사후 훈련 프로세스를 통해 성능을 향상시키려는 지속적인 노력을 강조합니다. 2025년 4월 7일에 발표된 이 모델의 코드, 가중치, 사후 훈련 데이터는 이제 Hugging Face에서 자유롭게 액세스할 수 있습니다. 이 모델은 시스템 프롬프트에 따라 복잡한 추론 작업과 간단한 출력 간을 원활하게 전환하도록 설계되어 개발자들에게 애플리케이션에서 유연성을 제공합니다.
효율적인 추론을 위해 설계됨
Nvidia의 LLM 추론 최적화 노력에 기반을 두고, Llama-3.1-Nemotron-Ultra-253B는 신경 아키텍처 검색(NAS) 프로세스를 통해 아키텍처를 개선했습니다. 여기에는 스킵된 어텐션 레이어, 융합된 피드포워드 네트워크(FFN), 가변 FFN 압축 비율과 같은 혁신적인 기능이 포함됩니다. 이러한 수정은 모델의 메모리 사용량과 계산 요구 사항을 줄여 출력 품질을 저하시키지 않으면서 단일 8x H100 GPU 노드에서 배포 가능하게 만듭니다.
Nvidia는 이 모델이 데이터 센터 배포에 비용 효율적이면서도 강력한 성능을 제공한다고 주장합니다. 이 모델은 Nvidia의 B100 및 Hopper 마이크로아키텍처와 호환되며, BF16 및 FP8 정밀도 모드에서 테스트되었습니다.
추론 및 정렬을 위한 사후 훈련
이 모델은 포괄적인 사후 훈련 과정을 거쳤습니다. 여기에는 수학, 코드 생성, 채팅, 도구 사용 등 다양한 도메인에 걸친 감독된 미세 조정과, 지시 따르기 및 추론 능력을 향상시키기 위한 그룹 상대 정책 최적화(GRPO)를 사용한 강화 학습이 포함되었습니다.
추가적인 정제는 650억 토큰에 걸친 지식 증류 단계와 추가 880억 토큰에 대한 지속적인 사전 훈련을 통해 이루어졌습니다. 훈련 데이터 소스는 FineWeb, Buzz-V1.2, Dolma를 포함하며, 사후 훈련 프롬프트와 응답은 공개 코퍼스와 합성 생성 방법에서 추출되었습니다. 이 접근 방식은 모델이 추론 모드를 구분하는 데 도움이 되었습니다.
다양한 도메인 및 벤치마크에서 향상된 성능
추론이 활성화되었을 때, 이 모델은 다양한 벤치마크에서 상당한 성능 향상을 보였습니다. 예를 들어, MATH500 벤치마크에서는 표준 모드에서 80.40%였던 성능이 추론 활성화 시 97.00%로 급상승했습니다. 마찬가지로 AIME25 점수는 16.67%에서 72.50%로, LiveCodeBench 결과는 29.03%에서 66.31%로 두 배 이상 증가했습니다.
이 모델은 도구 기반 작업과 일반 질문 응답(GPQA)에서도 뛰어난 성능을 보였으며, 추론 모드에서 76.01%를 기록해 비활성화 시 56.60%와 비교되었습니다. 이러한 벤치마크는 최대 시퀀스 길이 32,000 토큰으로 수행되었으며, 정확성을 위해 각 테스트는 최대 16번 반복되었습니다.
최첨단 MoE 모델 DeepSeek R1(6710억 파라미터)와 비교했을 때, Nvidia의 모델은 파라미터 수가 적음에도 불구하고 경쟁력을 유지합니다. GPQA(76.01 대 71.5), IFEval 지시 따르기(89.45 대 83.3), LiveCodeBench 코딩 작업(66.31 대 65.9)과 같은 작업에서 DeepSeek R1을 능가합니다. 그러나 DeepSeek R1은 AIME25(79.8 대 72.50) 및 MATH500(97.3 대 97.00)와 같은 특정 수학 평가에서 약간 앞섭니다.
이러한 결과는 Nvidia의 고밀도 모델이 추론 및 일반 지시 정렬에서 MoE 모델과 동등하거나 그 이상의 성능을 발휘할 수 있음을 나타내며, 수학 중심 카테고리에서는 약간 뒤처집니다.
사용 및 통합
이 모델은 Hugging Face Transformers 라이브러리(버전 4.48.3 권장)와 원활하게 통합되며, 최대 128,000 토큰의 시퀀스를 지원합니다. 개발자는 시스템 프롬프트를 사용하여 추론 동작을 전환하고 작업 요구에 따라 디코딩 전략을 선택할 수 있습니다. 추론 작업의 경우 Nvidia는 온도 샘플링(0.6)과 top-p 값 0.95를 사용할 것을 제안하며, 결정적 출력에는 탐욕적 디코딩을 권장합니다.
Llama-3.1-Nemotron-Ultra-253B는 영어, 독일어, 프랑스어, 이탈리아어, 포르투갈어, 힌디어, 스페인어, 태국어를 포함한 다국어 애플리케이션을 지원합니다. 챗봇 개발, AI 에이전트 워크플로우, 검색 증강 생성(RAG), 코드 생성과 같은 다양한 LLM 사용 사례에 적합합니다.
상업적 사용을 위한 라이선스
Nvidia 오픈 모델 라이선스 및 Llama 3.1 커뮤니티 라이선스 계약에 따라 출시된 이 모델은 상업적 애플리케이션에 바로 사용 가능합니다. Nvidia는 책임 있는 AI 개발의 중요성을 강조하며, 팀이 특정 사용 사례에 대해 모델의 정렬, 안전성, 편향을 평가할 것을 촉구합니다.
Nvidia의 AI 모델 사후 훈련 디렉터인 Oleksii Kuchaiev는 X에서 이번 오픈 출시에 대한 기쁨을 공유하며, 2530억의 고밀도 설계와 토글 가능한 추론 기능, 오픈 가중치 및 데이터 포함을 강조했습니다.
ElevenLabs, 블랙록·제이미 폭스·에바 롱고리아를 신규 투자자로 선정
음성 AI 기업 일레븐랩스(ElevenLabs)는 지난 2월에 처음 발표했던 5억 달러 규모의 시리즈 D 투자 라운드에 참여한 추가 투자자들을 공개했다. 이번 투자자 명단에는 블랙록(BlackRock), 웰링턴(Wellington), D.E. 쇼(D.E. Shaw), 슈로더(Schroders)와 같은 기관 투자자들과 엔비디아(NVIDIA), 세일즈포스(Sa
메타 AI가 이제 페이스북 마켓플레이스에서 구매자의 메시지에 응답합니다
페이스북 마켓플레이스가 구매자 문의에 대한 자동 응답 기능을 포함한 새로운 메타 AI 기능을 도입한다고 목요일 회사 측이 발표했다. 또한 이 플랫폼은 AI를 활용해 상품 등록을 가속화하고 판매자 프로필을 요약하며, 이제 판매자가 상품 목록에 배송 옵션을 제공할 수 있도록 지원한다.판매자들은 종종 수많은 구매자 문의를 받기 때문에, 페이스북은 메타 AI 기반
메타, 아마존 AI용 CPU 수백만 대 공급 계약 체결
아마존은 자체 설계 칩을 다시 한번 앞세워 메타(Meta)와 중요한 파트너십을 체결했다. 아마존은 금요일, 메타가 확대되는 AI 수요를 충족하기 위해 수백만 개의 AWS 그래비톤(Graviton) 칩을 도입하기로 합의했다고 밝혔다.참고로 AWS 그래비톤은 GPU(그래픽 처리 장치)가 아닌 ARM 기반 CPU(일반 컴퓨팅용으로 설계된 중앙 처리 장치)입니다.
Интересно, как Nvidia удалось упаковать все эти параметры в модель размером вдвое меньше. Выходит, вложения в архитектуру дают больше преимуществ, чем просто увеличение данных? Хотя, конечно, с учётом их вычислительных ресурсов не стоит удивляться. Что особенно ценно, так это тот факт, что модель открыта. На этом фоне заявления Meta порой звучат слишком громко и с многочисленными оговорками 🤔 Это может изменить правила игры для независимых исследователей!
¿Nvidia saca otro modelo open-source más potente que DeepSeek R1? 🤔 Me pregunto si esto realmente marcará una diferencia práctica para los desarrolladores o es solo otra carrera por los números en los benchmarks. ¡253 mil millones de parámetros parece excesivo!
Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outperforms it? That's wild efficiency. Can't wait to see how devs play with this open-source gem! 🚀
Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outshines it? That's some serious tech flex. Can't wait to see how devs play with this open-source gem! 😎
Nvidia's new Llama-3.1 Nemotron Ultra is a beast! It's amazing how it outperforms DeepSeek R1 with half the size. I've been using it for my projects and the results are incredible. Just wish it was a bit faster, but overall, a solid choice! 🚀
¡El Llama-3.1 Nemotron Ultra de Nvidia es impresionante! Supera al DeepSeek R1 con la mitad del tamaño, lo cual es alucinante. Lo he estado usando en mis proyectos y es súper eficiente. Lo único es que puede ser un poco complicado de configurar. Aún así, una excelente opción para quien busque un LLM potente. 🚀





집






