옵션
뉴스
메타의 llama 3.1은 3 가지 방법 Gen AI의 발전입니다.

메타의 llama 3.1은 3 가지 방법 Gen AI의 발전입니다.

2025년 4월 15일
107

메타의 llama 3.1은 3 가지 방법 Gen AI의 발전입니다.

화요일, Meta는 대형 언어 모델(LLM) Llama 계열의 최신 추가 모델인 Llama 3.1을 공개했습니다. 이 회사는 Llama 3.1을 최초의 오픈소스 "프론티어 모델"로 자랑스럽게 소개했으며, 이 용어는 일반적으로 가장 발전된 AI 모델에 사용됩니다.

Llama 3.1은 다양한 크기로 제공되지만, 단연 돋보이는 것은 거대한 "405B" 모델입니다. 놀라운 4050억 개의 신경 "가중치" 또는 파라미터를 가진 이 모델은 Nvidia의 Nemotron 4, Google의 Gemma 2, Mixtral과 같은 다른 주목할 만한 오픈소스 모델들을 능가합니다. 더욱 흥미로운 점은 Meta 팀이 이 거대한 모델을 제작하면서 내린 세 가지 핵심 결정입니다.

이 결정들은 신경망 공학의 마스터클래스 그 이상이며, Llama 3.1 405B가 구축되고 훈련된 방식의 핵심을 이룹니다. 또한 Meta가 Llama 2에서 보여준 효율성 향상을 바탕으로, 딥러닝의 전체 컴퓨팅 예산을 줄이는 유망한 방법을 제시했습니다.

첫째, Llama 3.1 405B는 Google이 비공개 소스 Gemini 1.5에, Mistral이 Mixtral에 사용하는 "전문가 혼합" 방식을 배제했습니다. 이 방식은 신경 가중치의 다양한 조합을 만들고, 예측을 간소화하기 위해 일부를 비활성화하는 것을 포함합니다. 대신 Meta의 연구자들은 Google이 2017년에 도입한 이래로 표준이 된 "디코더 전용 트랜스포머 모델 아키텍처"를 고수했습니다. 그들은 이 선택이 더 안정적인 훈련 과정을 이끈다고 주장합니다.

둘째, 이 간단한 트랜스포머 기반 모델의 성능을 높이기 위해 Meta 팀은 영리한 다단계 훈련 방식을 고안했습니다. 훈련 데이터와 컴퓨팅의 균형을 맞추는 것이 예측 품질에 큰 영향을 미친다는 것은 잘 알려져 있습니다. 하지만 모델 크기와 데이터에 따라 성능을 예측하는 전통적인 "스케일링 법칙"은 추론 테스트와 같은 "다운스트림" 작업에서 모델이 얼마나 잘 수행할지를 반드시 반영하지는 않습니다.

그래서 Meta는 자체 스케일링 법칙을 개발했습니다. 그들은 훈련 데이터와 컴퓨팅을 모두 늘리고, 여러 반복을 통해 다양한 조합을 테스트하여 결과 모델이 중요한 다운스트림 작업에서 얼마나 잘 수행하는지 확인했습니다. 이 세심한 과정은 최적의 지점을 찾아내는 데 도움을 주었고, 그 결과 주력 모델로 4050억 개의 파라미터를 선택하게 되었습니다. 최종 훈련은 Meta의 Grand Teton AI 서버에 있는 16,000개의 Nvidia H100 GPU 칩으로 구동되었으며, 데이터와 가중치를 병렬로 실행하는 복잡한 시스템을 사용했습니다.

세 번째 혁신은 사후 훈련 단계에 있습니다. 각 훈련 라운드 후, Llama 3.1은 OpenAI 등이 모델 출력을 개선하기 위해 사용하는 것과 유사한 인간 피드백에 의해 안내되는 엄격한 과정을 거칩니다. 여기에는 모델이 인간의 선호도에 따라 바람직한 출력과 바람직하지 않은 출력을 구별하도록 학습하는 "지도 미세 조정"이 포함됩니다.

그런 다음 Meta는 스탠퍼드 대학교 AI 학자들이 올해 개척한 인간 피드백을 통한 강화 학습의 더 효율적인 버전인 "직접 선호도 최적화"(DPO)를 추가했습니다. 또한 Llama 3.1이 외부 검색 엔진과 같은 "도구"를 사용하도록 훈련시키기 위해 API 호출로 해결된 프롬프트 예제를 보여주며, "제로샷" 도구 사용 능력을 향상시켰습니다.

"환각"을 방지하기 위해 팀은 특정 훈련 데이터를 선별하고 원본 질문-답변 쌍을 만들어 모델이 아는 것만 답하고 확실하지 않은 것은 거부하도록 미세 조정했습니다.

개발 전반에 걸쳐 Meta 연구자들은 단순성을 강조하며, 고품질 데이터, 규모, 그리고 간단한 접근 방식이 일관되게 최상의 결과를 제공한다고 밝혔습니다. 더 복잡한 아키텍처와 훈련 레시피를 탐구했음에도 불구하고, 추가된 복잡성이 이점을 정당화하지 않는다고 판단했습니다.

Llama 3.1 405B의 규모는 상업적 비공개 소스 모델에 비해 일반적으로 작았던 오픈소스 모델에 있어서 획기적인 전환점입니다. Meta의 CEO인 Mark Zuckerberg는 경제적 이점을 강조하며, 개발자들이 GPT-4o 같은 모델을 사용할 때보다 절반 비용으로 Llama 3.1 405B에서 추론을 실행할 수 있다고 언급했습니다.

Zuckerberg는 또한 오픈소스 AI를 소프트웨어의 자연스러운 발전으로 옹호하며, 독점적인 Unix에서 오픈소스 개발 덕분에 더 발전되고 안전하며 광범위한 생태계로 진화한 것에 비유했습니다.

그러나 ZDNET의 Steven Vaughan-Nichols가 지적했듯이, Meta의 Hugging Face 코드 게시에는 일부 세부 사항이 누락되어 있으며, 코드 라이선스는 일반적인 오픈소스 라이선스보다 더 제한적입니다. 따라서 Llama 3.1은 오픈소스라고 할 수 있지만 완전히 그렇지는 않습니다. 그럼에도 불구하고, 훈련 과정에 대한 세부 사항의 양은 특히 OpenAI와 Google 같은 거대 기업이 비공개 소스 모델에 대해 점점 더 입을 다물고 있는 상황에서 상쾌한 변화입니다.

관련 기사
AI의 힙합에서의 역할: 혁신 도구인가 창의적 지름길인가? AI의 힙합에서의 역할: 혁신 도구인가 창의적 지름길인가? 인공지능은 일상생활을 재편하고 있으며, 음악 현장도 그 변화를 느끼고 있다. 힙합에서 새로운 AI 시스템은 트랙 제작, 가사 창작, 라이브 공연을 변화시키려 한다. 이 글은 힙합에서 AI의 위치를 탐구하며, 이것이 아티스트에게 도움이 되는지, 아니면 진정한 창의성을 약화시키는 도구인지 평가한다. 장점, 윤리적 문제, 그리고 앞으로 힙합의 분위기를 어떻게 형
Oracle의 400억 달러 Nvidia 칩 투자로 텍사스 AI 데이터센터 강화 Oracle의 400억 달러 Nvidia 칩 투자로 텍사스 AI 데이터센터 강화 Oracle은 Financial Times에 따르면 OpenAI가 개발한 텍사스 주요 신규 데이터센터를 지원하기 위해 Nvidia 칩에 약 400억 달러를 투자할 예정입니다. 이는 지금까지 가장 큰 칩 인수 거래 중 하나로, AI 컴퓨팅 자원에 대한 급증하는 수요를 보여줍니다.텍사스 애빌린에 위치한 이 시설은 미국 최초의 “Stargate” 데이터센터입니다
소프트뱅크, 일본 AI 데이터센터를 위해 6억7600만 달러 샤프 공장 인수 소프트뱅크, 일본 AI 데이터센터를 위해 6억7600만 달러 샤프 공장 인수 소프트뱅크는 독립적으로 그리고 OpenAI와의 파트너십을 통해 일본에 주요 AI 허브를 설립하려는 목표를 추진하고 있다. 이 기술 대기업은 금요일, 6억7600만 달러를 투자해 샤프의 LCD 패널 공장을 인수해 AI 데이터센터로 전환한다고 확인했다.소프트뱅크와 샤프의 거래에는 오사카의 사카이 공장의 토지와 건물이 포함되며, 1000억 엔(6억7600만 달러
의견 (26)
0/200
ThomasBaker
ThomasBaker 2025년 7월 31일 오전 10시 41분 20초 GMT+09:00

Wow, Llama 3.1 sounds like a game-changer! Open-source and frontier-level? That’s huge for AI devs. Curious how it stacks up against closed models like GPT-4. 😎

AlbertThomas
AlbertThomas 2025년 4월 23일 오전 12시 18분 49초 GMT+09:00

O Llama 3.1 é incrível! Adoro que seja de código aberto, é como ter um superpoder no meu arsenal de programação. No começo pode ser um pouco confuso, mas vale a pena experimentar se você gosta de IA! 🚀

GaryGonzalez
GaryGonzalez 2025년 4월 22일 오후 5시 13분 48초 GMT+09:00

ラマ3.1は本当にすごい!オープンソースで使えるのが最高です。最初は少し圧倒されましたが、慣れると便利です。AIに興味があるなら、ぜひ試してみてください!🚀

AnthonyPerez
AnthonyPerez 2025년 4월 22일 오후 4시 26분 53초 GMT+09:00

¡Llama 3.1 es una bestia! Me encanta que sea de código abierto, es como tener un superpoder en mi arsenal de programación. Al principio puede ser un poco abrumador, pero definitivamente vale la pena probarlo si te interesa la IA! 🚀

JustinAnderson
JustinAnderson 2025년 4월 21일 오전 6시 42분 32초 GMT+09:00

¡Llama 3.1 de Meta es una maravilla! Me sorprende cómo están empujando los límites con la IA de código abierto. El rendimiento es genial, pero desearía que hubiera más documentación para principiantes. De todas formas, ¡es una herramienta que hay que probar! 💪

WilliamAllen
WilliamAllen 2025년 4월 20일 오전 10시 52분 1초 GMT+09:00

Llama 3.1 is a beast! I've been playing around with it and the open-source aspect is just awesome. It's like having a superpower in my coding arsenal. But, it can be a bit overwhelming at first. Definitely worth checking out if you're into AI! 🚀

위로 돌아갑니다
OR