메타의 llama 3.1은 3 가지 방법 Gen AI의 발전입니다.

화요일, Meta는 대형 언어 모델(LLM) Llama 계열의 최신 추가 모델인 Llama 3.1을 공개했습니다. 이 회사는 Llama 3.1을 최초의 오픈소스 "프론티어 모델"로 자랑스럽게 소개했으며, 이 용어는 일반적으로 가장 발전된 AI 모델에 사용됩니다.
Llama 3.1은 다양한 크기로 제공되지만, 단연 돋보이는 것은 거대한 "405B" 모델입니다. 놀라운 4050억 개의 신경 "가중치" 또는 파라미터를 가진 이 모델은 Nvidia의 Nemotron 4, Google의 Gemma 2, Mixtral과 같은 다른 주목할 만한 오픈소스 모델들을 능가합니다. 더욱 흥미로운 점은 Meta 팀이 이 거대한 모델을 제작하면서 내린 세 가지 핵심 결정입니다.
이 결정들은 신경망 공학의 마스터클래스 그 이상이며, Llama 3.1 405B가 구축되고 훈련된 방식의 핵심을 이룹니다. 또한 Meta가 Llama 2에서 보여준 효율성 향상을 바탕으로, 딥러닝의 전체 컴퓨팅 예산을 줄이는 유망한 방법을 제시했습니다.
첫째, Llama 3.1 405B는 Google이 비공개 소스 Gemini 1.5에, Mistral이 Mixtral에 사용하는 "전문가 혼합" 방식을 배제했습니다. 이 방식은 신경 가중치의 다양한 조합을 만들고, 예측을 간소화하기 위해 일부를 비활성화하는 것을 포함합니다. 대신 Meta의 연구자들은 Google이 2017년에 도입한 이래로 표준이 된 "디코더 전용 트랜스포머 모델 아키텍처"를 고수했습니다. 그들은 이 선택이 더 안정적인 훈련 과정을 이끈다고 주장합니다.
둘째, 이 간단한 트랜스포머 기반 모델의 성능을 높이기 위해 Meta 팀은 영리한 다단계 훈련 방식을 고안했습니다. 훈련 데이터와 컴퓨팅의 균형을 맞추는 것이 예측 품질에 큰 영향을 미친다는 것은 잘 알려져 있습니다. 하지만 모델 크기와 데이터에 따라 성능을 예측하는 전통적인 "스케일링 법칙"은 추론 테스트와 같은 "다운스트림" 작업에서 모델이 얼마나 잘 수행할지를 반드시 반영하지는 않습니다.
그래서 Meta는 자체 스케일링 법칙을 개발했습니다. 그들은 훈련 데이터와 컴퓨팅을 모두 늘리고, 여러 반복을 통해 다양한 조합을 테스트하여 결과 모델이 중요한 다운스트림 작업에서 얼마나 잘 수행하는지 확인했습니다. 이 세심한 과정은 최적의 지점을 찾아내는 데 도움을 주었고, 그 결과 주력 모델로 4050억 개의 파라미터를 선택하게 되었습니다. 최종 훈련은 Meta의 Grand Teton AI 서버에 있는 16,000개의 Nvidia H100 GPU 칩으로 구동되었으며, 데이터와 가중치를 병렬로 실행하는 복잡한 시스템을 사용했습니다.
세 번째 혁신은 사후 훈련 단계에 있습니다. 각 훈련 라운드 후, Llama 3.1은 OpenAI 등이 모델 출력을 개선하기 위해 사용하는 것과 유사한 인간 피드백에 의해 안내되는 엄격한 과정을 거칩니다. 여기에는 모델이 인간의 선호도에 따라 바람직한 출력과 바람직하지 않은 출력을 구별하도록 학습하는 "지도 미세 조정"이 포함됩니다.
그런 다음 Meta는 스탠퍼드 대학교 AI 학자들이 올해 개척한 인간 피드백을 통한 강화 학습의 더 효율적인 버전인 "직접 선호도 최적화"(DPO)를 추가했습니다. 또한 Llama 3.1이 외부 검색 엔진과 같은 "도구"를 사용하도록 훈련시키기 위해 API 호출로 해결된 프롬프트 예제를 보여주며, "제로샷" 도구 사용 능력을 향상시켰습니다.
"환각"을 방지하기 위해 팀은 특정 훈련 데이터를 선별하고 원본 질문-답변 쌍을 만들어 모델이 아는 것만 답하고 확실하지 않은 것은 거부하도록 미세 조정했습니다.
개발 전반에 걸쳐 Meta 연구자들은 단순성을 강조하며, 고품질 데이터, 규모, 그리고 간단한 접근 방식이 일관되게 최상의 결과를 제공한다고 밝혔습니다. 더 복잡한 아키텍처와 훈련 레시피를 탐구했음에도 불구하고, 추가된 복잡성이 이점을 정당화하지 않는다고 판단했습니다.
Llama 3.1 405B의 규모는 상업적 비공개 소스 모델에 비해 일반적으로 작았던 오픈소스 모델에 있어서 획기적인 전환점입니다. Meta의 CEO인 Mark Zuckerberg는 경제적 이점을 강조하며, 개발자들이 GPT-4o 같은 모델을 사용할 때보다 절반 비용으로 Llama 3.1 405B에서 추론을 실행할 수 있다고 언급했습니다.
Zuckerberg는 또한 오픈소스 AI를 소프트웨어의 자연스러운 발전으로 옹호하며, 독점적인 Unix에서 오픈소스 개발 덕분에 더 발전되고 안전하며 광범위한 생태계로 진화한 것에 비유했습니다.
그러나 ZDNET의 Steven Vaughan-Nichols가 지적했듯이, Meta의 Hugging Face 코드 게시에는 일부 세부 사항이 누락되어 있으며, 코드 라이선스는 일반적인 오픈소스 라이선스보다 더 제한적입니다. 따라서 Llama 3.1은 오픈소스라고 할 수 있지만 완전히 그렇지는 않습니다. 그럼에도 불구하고, 훈련 과정에 대한 세부 사항의 양은 특히 OpenAI와 Google 같은 거대 기업이 비공개 소스 모델에 대해 점점 더 입을 다물고 있는 상황에서 상쾌한 변화입니다.
관련 기사
오픈AI CEO 알트먼, 앤트로픽의 ‘공황에 휩싸인’ 마케팅 전략을 맹비난
AI 업계의 선두주자인 오픈AI(OpenAI)와 앤트로픽(Anthropic) 간의 공개적 공방이 더욱 격화되고 있다. 오픈AI의 CEO인 샘 알트먼은 최근 한 팟캐스트에서 경쟁사의 최신 안전 모델에 의문을 제기했다.알트먼은 앤트로픽이 기술에 대한 대중의 두려움을 이용해 자사 제품의 실제 성능을 과대포장하고 있다고 주장한다. 그는 이러한 접근 방식을 진정한
커서 AI 코딩 스타트업, 스페이스X로부터 대규모 투자 유치 후 아시아태평양 지역에서 200명 채용 예정
AI 코딩 스타트업 커서(Cursor)가 향후 6개월 동안 아시아 태평양 지역 전역에서 200명의 직원을 채용할 계획이라고 밝히며 대규모 글로벌 확장 계획을 발표했다. 주요 채용 직종으로는 마케팅 엔지니어, 현장 엔지니어, AI 배포 엔지니어 등이 포함된다. 이번 조치는 샌프란시스코에 본사를 둔 이 유니콘 기업이 자사의 핵심 기술을 국제 시장에 진출시키려는
클로드(Claude)가 악성 npm 패키지 제작에 악용됨: 670개 이상의 패키지가 해킹당해 오픈소스 생태계에 위협
최근 발생한 사이버 보안 사고를 통해 대규모 언어 모델(LLM)이 악성 소프트웨어 개발에 악용되고 있는 실태가 드러났다. 보안 연구원 시비 무사(Sibi Moosa)는 ‘mousie-5212-super-formatter’라는 가명을 사용하는 공격자가 앤트로픽(Anthropic)의 클로드(Claude) AI를 활용해 유해한 코드를 생성하고 npm 패키지 생태
관련 특별 주제 추천
의견 (27)
0/500
Interessant, dass Meta Llama 3.1 als erstes Open-Source-Modell bezeichnet. Aber wer kann so ein riesiges Modell eigentlich sinnvoll nutzen? Für kleine Unternehmen bestimmt zu teuer im Betrieb. 🧐
Wow, Llama 3.1 sounds like a game-changer! Open-source and frontier-level? That’s huge for AI devs. Curious how it stacks up against closed models like GPT-4. 😎
O Llama 3.1 é incrível! Adoro que seja de código aberto, é como ter um superpoder no meu arsenal de programação. No começo pode ser um pouco confuso, mas vale a pena experimentar se você gosta de IA! 🚀
¡Llama 3.1 es una bestia! Me encanta que sea de código abierto, es como tener un superpoder en mi arsenal de programación. Al principio puede ser un poco abrumador, pero definitivamente vale la pena probarlo si te interesa la IA! 🚀

화요일, Meta는 대형 언어 모델(LLM) Llama 계열의 최신 추가 모델인 Llama 3.1을 공개했습니다. 이 회사는 Llama 3.1을 최초의 오픈소스 "프론티어 모델"로 자랑스럽게 소개했으며, 이 용어는 일반적으로 가장 발전된 AI 모델에 사용됩니다.
Llama 3.1은 다양한 크기로 제공되지만, 단연 돋보이는 것은 거대한 "405B" 모델입니다. 놀라운 4050억 개의 신경 "가중치" 또는 파라미터를 가진 이 모델은 Nvidia의 Nemotron 4, Google의 Gemma 2, Mixtral과 같은 다른 주목할 만한 오픈소스 모델들을 능가합니다. 더욱 흥미로운 점은 Meta 팀이 이 거대한 모델을 제작하면서 내린 세 가지 핵심 결정입니다.
이 결정들은 신경망 공학의 마스터클래스 그 이상이며, Llama 3.1 405B가 구축되고 훈련된 방식의 핵심을 이룹니다. 또한 Meta가 Llama 2에서 보여준 효율성 향상을 바탕으로, 딥러닝의 전체 컴퓨팅 예산을 줄이는 유망한 방법을 제시했습니다.
첫째, Llama 3.1 405B는 Google이 비공개 소스 Gemini 1.5에, Mistral이 Mixtral에 사용하는 "전문가 혼합" 방식을 배제했습니다. 이 방식은 신경 가중치의 다양한 조합을 만들고, 예측을 간소화하기 위해 일부를 비활성화하는 것을 포함합니다. 대신 Meta의 연구자들은 Google이 2017년에 도입한 이래로 표준이 된 "디코더 전용 트랜스포머 모델 아키텍처"를 고수했습니다. 그들은 이 선택이 더 안정적인 훈련 과정을 이끈다고 주장합니다.
둘째, 이 간단한 트랜스포머 기반 모델의 성능을 높이기 위해 Meta 팀은 영리한 다단계 훈련 방식을 고안했습니다. 훈련 데이터와 컴퓨팅의 균형을 맞추는 것이 예측 품질에 큰 영향을 미친다는 것은 잘 알려져 있습니다. 하지만 모델 크기와 데이터에 따라 성능을 예측하는 전통적인 "스케일링 법칙"은 추론 테스트와 같은 "다운스트림" 작업에서 모델이 얼마나 잘 수행할지를 반드시 반영하지는 않습니다.
그래서 Meta는 자체 스케일링 법칙을 개발했습니다. 그들은 훈련 데이터와 컴퓨팅을 모두 늘리고, 여러 반복을 통해 다양한 조합을 테스트하여 결과 모델이 중요한 다운스트림 작업에서 얼마나 잘 수행하는지 확인했습니다. 이 세심한 과정은 최적의 지점을 찾아내는 데 도움을 주었고, 그 결과 주력 모델로 4050억 개의 파라미터를 선택하게 되었습니다. 최종 훈련은 Meta의 Grand Teton AI 서버에 있는 16,000개의 Nvidia H100 GPU 칩으로 구동되었으며, 데이터와 가중치를 병렬로 실행하는 복잡한 시스템을 사용했습니다.
세 번째 혁신은 사후 훈련 단계에 있습니다. 각 훈련 라운드 후, Llama 3.1은 OpenAI 등이 모델 출력을 개선하기 위해 사용하는 것과 유사한 인간 피드백에 의해 안내되는 엄격한 과정을 거칩니다. 여기에는 모델이 인간의 선호도에 따라 바람직한 출력과 바람직하지 않은 출력을 구별하도록 학습하는 "지도 미세 조정"이 포함됩니다.
그런 다음 Meta는 스탠퍼드 대학교 AI 학자들이 올해 개척한 인간 피드백을 통한 강화 학습의 더 효율적인 버전인 "직접 선호도 최적화"(DPO)를 추가했습니다. 또한 Llama 3.1이 외부 검색 엔진과 같은 "도구"를 사용하도록 훈련시키기 위해 API 호출로 해결된 프롬프트 예제를 보여주며, "제로샷" 도구 사용 능력을 향상시켰습니다.
"환각"을 방지하기 위해 팀은 특정 훈련 데이터를 선별하고 원본 질문-답변 쌍을 만들어 모델이 아는 것만 답하고 확실하지 않은 것은 거부하도록 미세 조정했습니다.
개발 전반에 걸쳐 Meta 연구자들은 단순성을 강조하며, 고품질 데이터, 규모, 그리고 간단한 접근 방식이 일관되게 최상의 결과를 제공한다고 밝혔습니다. 더 복잡한 아키텍처와 훈련 레시피를 탐구했음에도 불구하고, 추가된 복잡성이 이점을 정당화하지 않는다고 판단했습니다.
Llama 3.1 405B의 규모는 상업적 비공개 소스 모델에 비해 일반적으로 작았던 오픈소스 모델에 있어서 획기적인 전환점입니다. Meta의 CEO인 Mark Zuckerberg는 경제적 이점을 강조하며, 개발자들이 GPT-4o 같은 모델을 사용할 때보다 절반 비용으로 Llama 3.1 405B에서 추론을 실행할 수 있다고 언급했습니다.
Zuckerberg는 또한 오픈소스 AI를 소프트웨어의 자연스러운 발전으로 옹호하며, 독점적인 Unix에서 오픈소스 개발 덕분에 더 발전되고 안전하며 광범위한 생태계로 진화한 것에 비유했습니다.
그러나 ZDNET의 Steven Vaughan-Nichols가 지적했듯이, Meta의 Hugging Face 코드 게시에는 일부 세부 사항이 누락되어 있으며, 코드 라이선스는 일반적인 오픈소스 라이선스보다 더 제한적입니다. 따라서 Llama 3.1은 오픈소스라고 할 수 있지만 완전히 그렇지는 않습니다. 그럼에도 불구하고, 훈련 과정에 대한 세부 사항의 양은 특히 OpenAI와 Google 같은 거대 기업이 비공개 소스 모델에 대해 점점 더 입을 다물고 있는 상황에서 상쾌한 변화입니다.
오픈AI CEO 알트먼, 앤트로픽의 ‘공황에 휩싸인’ 마케팅 전략을 맹비난
AI 업계의 선두주자인 오픈AI(OpenAI)와 앤트로픽(Anthropic) 간의 공개적 공방이 더욱 격화되고 있다. 오픈AI의 CEO인 샘 알트먼은 최근 한 팟캐스트에서 경쟁사의 최신 안전 모델에 의문을 제기했다.알트먼은 앤트로픽이 기술에 대한 대중의 두려움을 이용해 자사 제품의 실제 성능을 과대포장하고 있다고 주장한다. 그는 이러한 접근 방식을 진정한
커서 AI 코딩 스타트업, 스페이스X로부터 대규모 투자 유치 후 아시아태평양 지역에서 200명 채용 예정
AI 코딩 스타트업 커서(Cursor)가 향후 6개월 동안 아시아 태평양 지역 전역에서 200명의 직원을 채용할 계획이라고 밝히며 대규모 글로벌 확장 계획을 발표했다. 주요 채용 직종으로는 마케팅 엔지니어, 현장 엔지니어, AI 배포 엔지니어 등이 포함된다. 이번 조치는 샌프란시스코에 본사를 둔 이 유니콘 기업이 자사의 핵심 기술을 국제 시장에 진출시키려는
클로드(Claude)가 악성 npm 패키지 제작에 악용됨: 670개 이상의 패키지가 해킹당해 오픈소스 생태계에 위협
최근 발생한 사이버 보안 사고를 통해 대규모 언어 모델(LLM)이 악성 소프트웨어 개발에 악용되고 있는 실태가 드러났다. 보안 연구원 시비 무사(Sibi Moosa)는 ‘mousie-5212-super-formatter’라는 가명을 사용하는 공격자가 앤트로픽(Anthropic)의 클로드(Claude) AI를 활용해 유해한 코드를 생성하고 npm 패키지 생태
Interessant, dass Meta Llama 3.1 als erstes Open-Source-Modell bezeichnet. Aber wer kann so ein riesiges Modell eigentlich sinnvoll nutzen? Für kleine Unternehmen bestimmt zu teuer im Betrieb. 🧐
Wow, Llama 3.1 sounds like a game-changer! Open-source and frontier-level? That’s huge for AI devs. Curious how it stacks up against closed models like GPT-4. 😎
O Llama 3.1 é incrível! Adoro que seja de código aberto, é como ter um superpoder no meu arsenal de programação. No começo pode ser um pouco confuso, mas vale a pena experimentar se você gosta de IA! 🚀
¡Llama 3.1 es una bestia! Me encanta que sea de código abierto, es como tener un superpoder en mi arsenal de programación. Al principio puede ser un poco abrumador, pero definitivamente vale la pena probarlo si te interesa la IA! 🚀





집






