메타의 llama 3.1은 3 가지 방법 Gen AI의 발전입니다.

집

뉴스

2025년 4월 15일

MichaelAdams

107

메타의 llama 3.1은 3 가지 방법 Gen AI의 발전입니다.

화요일, Meta는 대형 언어 모델(LLM) Llama 계열의 최신 추가 모델인 Llama 3.1을 공개했습니다. 이 회사는 Llama 3.1을 최초의 오픈소스 "프론티어 모델"로 자랑스럽게 소개했으며, 이 용어는 일반적으로 가장 발전된 AI 모델에 사용됩니다.

Llama 3.1은 다양한 크기로 제공되지만, 단연 돋보이는 것은 거대한 "405B" 모델입니다. 놀라운 4050억 개의 신경 "가중치" 또는 파라미터를 가진 이 모델은 Nvidia의 Nemotron 4, Google의 Gemma 2, Mixtral과 같은 다른 주목할 만한 오픈소스 모델들을 능가합니다. 더욱 흥미로운 점은 Meta 팀이 이 거대한 모델을 제작하면서 내린 세 가지 핵심 결정입니다.

이 결정들은 신경망 공학의 마스터클래스 그 이상이며, Llama 3.1 405B가 구축되고 훈련된 방식의 핵심을 이룹니다. 또한 Meta가 Llama 2에서 보여준 효율성 향상을 바탕으로, 딥러닝의 전체 컴퓨팅 예산을 줄이는 유망한 방법을 제시했습니다.

첫째, Llama 3.1 405B는 Google이 비공개 소스 Gemini 1.5에, Mistral이 Mixtral에 사용하는 "전문가 혼합" 방식을 배제했습니다. 이 방식은 신경 가중치의 다양한 조합을 만들고, 예측을 간소화하기 위해 일부를 비활성화하는 것을 포함합니다. 대신 Meta의 연구자들은 Google이 2017년에 도입한 이래로 표준이 된 "디코더 전용 트랜스포머 모델 아키텍처"를 고수했습니다. 그들은 이 선택이 더 안정적인 훈련 과정을 이끈다고 주장합니다.

둘째, 이 간단한 트랜스포머 기반 모델의 성능을 높이기 위해 Meta 팀은 영리한 다단계 훈련 방식을 고안했습니다. 훈련 데이터와 컴퓨팅의 균형을 맞추는 것이 예측 품질에 큰 영향을 미친다는 것은 잘 알려져 있습니다. 하지만 모델 크기와 데이터에 따라 성능을 예측하는 전통적인 "스케일링 법칙"은 추론 테스트와 같은 "다운스트림" 작업에서 모델이 얼마나 잘 수행할지를 반드시 반영하지는 않습니다.

그래서 Meta는 자체 스케일링 법칙을 개발했습니다. 그들은 훈련 데이터와 컴퓨팅을 모두 늘리고, 여러 반복을 통해 다양한 조합을 테스트하여 결과 모델이 중요한 다운스트림 작업에서 얼마나 잘 수행하는지 확인했습니다. 이 세심한 과정은 최적의 지점을 찾아내는 데 도움을 주었고, 그 결과 주력 모델로 4050억 개의 파라미터를 선택하게 되었습니다. 최종 훈련은 Meta의 Grand Teton AI 서버에 있는 16,000개의 Nvidia H100 GPU 칩으로 구동되었으며, 데이터와 가중치를 병렬로 실행하는 복잡한 시스템을 사용했습니다.

세 번째 혁신은 사후 훈련 단계에 있습니다. 각 훈련 라운드 후, Llama 3.1은 OpenAI 등이 모델 출력을 개선하기 위해 사용하는 것과 유사한 인간 피드백에 의해 안내되는 엄격한 과정을 거칩니다. 여기에는 모델이 인간의 선호도에 따라 바람직한 출력과 바람직하지 않은 출력을 구별하도록 학습하는 "지도 미세 조정"이 포함됩니다.

그런 다음 Meta는 스탠퍼드 대학교 AI 학자들이 올해 개척한 인간 피드백을 통한 강화 학습의 더 효율적인 버전인 "직접 선호도 최적화"(DPO)를 추가했습니다. 또한 Llama 3.1이 외부 검색 엔진과 같은 "도구"를 사용하도록 훈련시키기 위해 API 호출로 해결된 프롬프트 예제를 보여주며, "제로샷" 도구 사용 능력을 향상시켰습니다.

"환각"을 방지하기 위해 팀은 특정 훈련 데이터를 선별하고 원본 질문-답변 쌍을 만들어 모델이 아는 것만 답하고 확실하지 않은 것은 거부하도록 미세 조정했습니다.

개발 전반에 걸쳐 Meta 연구자들은 단순성을 강조하며, 고품질 데이터, 규모, 그리고 간단한 접근 방식이 일관되게 최상의 결과를 제공한다고 밝혔습니다. 더 복잡한 아키텍처와 훈련 레시피를 탐구했음에도 불구하고, 추가된 복잡성이 이점을 정당화하지 않는다고 판단했습니다.

Llama 3.1 405B의 규모는 상업적 비공개 소스 모델에 비해 일반적으로 작았던 오픈소스 모델에 있어서 획기적인 전환점입니다. Meta의 CEO인 Mark Zuckerberg는 경제적 이점을 강조하며, 개발자들이 GPT-4o 같은 모델을 사용할 때보다 절반 비용으로 Llama 3.1 405B에서 추론을 실행할 수 있다고 언급했습니다.

Zuckerberg는 또한 오픈소스 AI를 소프트웨어의 자연스러운 발전으로 옹호하며, 독점적인 Unix에서 오픈소스 개발 덕분에 더 발전되고 안전하며 광범위한 생태계로 진화한 것에 비유했습니다.

그러나 ZDNET의 Steven Vaughan-Nichols가 지적했듯이, Meta의 Hugging Face 코드 게시에는 일부 세부 사항이 누락되어 있으며, 코드 라이선스는 일반적인 오픈소스 라이선스보다 더 제한적입니다. 따라서 Llama 3.1은 오픈소스라고 할 수 있지만 완전히 그렇지는 않습니다. 그럼에도 불구하고, 훈련 과정에 대한 세부 사항의 양은 특히 OpenAI와 Google 같은 거대 기업이 비공개 소스 모델에 대해 점점 더 입을 다물고 있는 상황에서 상쾌한 변화입니다.

관련 기사

교육용 인포그래픽 제작을 위한 최고의 AI 도구 - 디자인 팁 및 기술 오늘날의 디지털 중심 교육 환경에서 인포그래픽은 복잡한 정보를 시각적으로 매력적이고 이해하기 쉬운 형식으로 변환하는 혁신적인 커뮤니케이션 매체로 부상했습니다. AI 기술은 교육자가 이러한 시각적 학습 보조 자료를 제작하는 방식을 혁신하여 누구나 전문가 수준의 디자인을 이용할 수 있게 하는 동시에 제작 시간을 획기적으로 단축하고 있습니다. 이 탐구에서는 간소

토파즈 디노이즈 AI: 2025년 최고의 노이즈 감소 도구 - 전체 가이드 경쟁이 치열한 디지털 사진의 세계에서 이미지 선명도는 여전히 가장 중요한 요소입니다. 모든 수준의 사진가들은 뛰어난 사진을 손상시키는 디지털 노이즈와 싸우고 있습니다. 토파즈 디노이즈 AI는 인공 지능을 활용하여 중요한 디테일을 보존하면서 노이즈 감소 문제를 해결하는 최첨단 솔루션으로 떠오르고 있습니다. 이 심층 리뷰에서는 이 혁신적인 소프트웨어가 2025

마스터 에메랄드 카이조 누즐로크: 궁극의 생존 & 전략 가이드 에메랄드 카이조는 지금까지 고안된 가장 강력한 포켓몬 ROM 해킹 중 하나입니다. 누즈락을 시도하면 난이도가 기하급수적으로 증가하지만, 세심한 계획과 전략적인 실행을 통해 승리를 거둘 수 있습니다. 이 최종 가이드는 하드코어 누즐로크 규칙에 따라 에메랄드 카이조를 정복하기 위한 필수 도구, 실전 테스트를 거친 전술, 심층적인 AI 분석을 제공합니다. 포켓몬

의견 (27)

0/200

제출하다

DavidRodriguez

2025년 8월 31일 오전 1시 30분 32초 GMT+09:00

Interessant, dass Meta Llama 3.1 als erstes Open-Source-Modell bezeichnet. Aber wer kann so ein riesiges Modell eigentlich sinnvoll nutzen? Für kleine Unternehmen bestimmt zu teuer im Betrieb. 🧐

ThomasBaker

2025년 7월 31일 오전 10시 41분 20초 GMT+09:00

Wow, Llama 3.1 sounds like a game-changer! Open-source and frontier-level? That’s huge for AI devs. Curious how it stacks up against closed models like GPT-4. 😎

AlbertThomas

2025년 4월 23일 오전 12시 18분 49초 GMT+09:00

O Llama 3.1 é incrível! Adoro que seja de código aberto, é como ter um superpoder no meu arsenal de programação. No começo pode ser um pouco confuso, mas vale a pena experimentar se você gosta de IA! 🚀

GaryGonzalez

2025년 4월 22일 오후 5시 13분 48초 GMT+09:00

ラマ3.1は本当にすごい！オープンソースで使えるのが最高です。最初は少し圧倒されましたが、慣れると便利です。AIに興味があるなら、ぜひ試してみてください！🚀

AnthonyPerez

2025년 4월 22일 오후 4시 26분 53초 GMT+09:00

¡Llama 3.1 es una bestia! Me encanta que sea de código abierto, es como tener un superpoder en mi arsenal de programación. Al principio puede ser un poco abrumador, pero definitivamente vale la pena probarlo si te interesa la IA! 🚀

JustinAnderson

2025년 4월 21일 오전 6시 42분 32초 GMT+09:00

¡Llama 3.1 de Meta es una maravilla! Me sorprende cómo están empujando los límites con la IA de código abierto. El rendimiento es genial, pero desearía que hubiera más documentación para principiantes. De todas formas, ¡es una herramienta que hay que probar! 💪

최고의 뉴스

2025 최고 AI 비디오 생성기: Pika Labs 대 비교 Gemini 2.5 Pro는 이제 Claude보다 무제한과 저렴한 GPT-4O AI 목소리: 현실적인 목소리 제작 궁극 가이드 Cambium의 AI는 폐기물을 목재로 변형시킵니다 AI Builder와 Power Automate가 문서 요약을 혁신하다 OpenAi는 더 나은 채팅을 위해 AI 음성 어시스턴트를 향상시킵니다 AI 통합에 데이터가 신뢰할 수 있는지 확인하는 방법 Notebooklm은 전 세계적으로 확장하고 슬라이드와 향상된 사실 확인을 추가합니다 미국에 대한 조정은 76GW의 새로운 전력 용량을 잠금 해제 할 수 있습니다. Google은 AI를 사용하여 사기의 의심에 대한 3,900 만 광고 계정을 중단합니다.

더