소식 Google의 Gemma 3은 단 하나의 GPU로 DeepSeek 정확도의 98%를 달성합니다.

Google의 Gemma 3은 단 하나의 GPU로 DeepSeek 정확도의 98%를 달성합니다.

2025년 5월 1일
RichardJackson
0

인공 지능의 경제학은 최근 GPU 칩 사용에있어 인상적인 규모의 경제를 보여주는 스타트 업 Deepseek AI가 최근에 중점을두고 있습니다. 그러나 Google은 능가하지 않습니다. 수요일, Tech Giant는 최신 오픈 소스 대형 언어 모델 인 Gemma 3을 공개했는데, 이는 DeepSeek의 R1 모델의 정확도와 거의 일치하지만 크게 덜 컴퓨팅 성능을 사용합니다.

Google은 체스 및 스포츠에서 일반적으로 사용되는 시스템 인 "ELO"점수를 사용 하여이 성능을 측정했습니다. Gemma 3은 R1의 1363에서 단지 1338 점을 기록했는데, 이는 R1이 기술적으로 Gemma 3을 능가하는 것을 의미합니다. 그러나 Google은 NVIDIA의 H100 GPU 칩 중 32 개가 R1의 점수에 도달 할 것으로 추정하는 반면, Gemma 3은 H100 GPU만으로 결과를 달성 할 것이라고 추정합니다. Google은 Compute와 ELO 점수의 균형을 "스위트 스팟"으로 선전합니다.

블로그 게시물에서 Google은 Gemma 3을 "단일 GPU 또는 TPU에서 실행할 수있는 가장 유능한 모델"이라고 설명합니다. 자체 사용자 지정 AI 칩 인 "텐서 처리 장치"를 나타냅니다. 이 회사는 Gemma 3이 LLAMA-405B, DeepSeek-V3 및 O3-MINI와 같은 LMARENA의 리더 보드에서 인간 선호도 평가에서 O3-MINI와 같은 모델을 아는 최신 성능을 제공한다고 주장합니다. 이 성능을 통해 단일 GPU 또는 TPU 호스트에서 매력적인 사용자 경험을보다 쉽게 ​​만들 수 있습니다.

Google 2025 Gemma 3 ELO 비교 Google

Google의 모델은 또한 ELO 점수의 Meta의 LLAMA 3을 능가하며 Google 추정치에는 16 GPU가 필요합니다. 경쟁 모델에 대한 이러한 수치는 Google의 추정치라는 점은 주목할 가치가 있습니다. DeepSeek AI는 R1 용 NVIDIA의 덜 강력한 H800 GPU의 1,814를 사용하여 공개했습니다.

더 심층적 인 정보는 Gemma 3 저장소를 사용할 수있는 Huggingface의 개발자 블로그 게시물에서 찾을 수 있습니다. 데이터 센터보다는 사후 사용을 위해 설계된 Gemma 3은 R1 및 기타 오픈 소스 모델에 비해 상당히 적은 수의 매개 변수를 가지고 있습니다. 매개 변수 수는 10 억에서 270 억의 범위로, Gemma 3은 현재 표준에 의해 상당히 겸손하지만 R1은 6,710 억 개의 매개 변수를 자랑하지만 370 억을 선택적으로 사용할 수 있습니다.

Gemma 3의 효율성의 핵심은 증류라고하는 널리 사용되는 AI 기술로, 더 큰 모델에서 훈련 된 모델 가중치가 더 작은 모델로 전송되어 기능을 향상시킵니다. 또한 증류 모델은 인간 피드백 (RLHF)의 강화 학습, 기계 피드백 (RLMF)의 강화 학습 및 실행 피드백 (RLEF)의 세 가지 품질 관리 조치를 거칩니다. 이를 통해 모델의 출력을 개선하여 수학 및 코딩 능력을보다 도움이되고 개선됩니다.

Google의 개발자 블로그는 이러한 접근 방식을 자세히 설명하고 다른 게시물은 모바일 장치를 목표로하는 가장 작은 10 억 매개 변수 모델에 대한 최적화 기술에 대해 설명합니다. 여기에는 양자화, 키 값 캐시 레이아웃 업데이트, 가변 로딩 시간 개선 및 GPU 중량 공유가 포함됩니다.

Google은 ELO 점수뿐만 아니라 전임자 인 Gemma 2 및 LiveCodeBench와 같은 다양한 벤치 마크에서 폐쇄 소스 Gemini 모델과 Gemma 3을 비교합니다. Gemma 3은 일반적으로 Gemini 1.5와 Gemini 2.0에 미치지 못한 반면, Google은 매개 변수가 적음에도 불구하고 "폐쇄 된 Gemini 모델과 비교하여 경쟁력있는 성능을 보여줍니다"라고 지적합니다.

Google 2025 Gemma 3 및 Gemma 2 비교 Google

Gemma 2를 통해 Gemma 3의 상당한 업그레이드는 더 긴 "컨텍스트 창"이며, 8,000에서 128,000의 토큰으로 확장됩니다. 이를 통해 모델은 전체 논문이나 책과 같은 더 큰 텍스트를 처리 할 수 ​​있습니다. Gemma 3은 또한 전임자와 달리 텍스트 및 이미지 입력을 모두 처리 할 수있는 멀티 모달입니다. 또한 140 개가 넘는 언어를 지원하며 Gemma 2의 영어 전용 기능보다 크게 개선됩니다.

이러한 주요 기능 외에도 Gemma 3에는 몇 가지 다른 흥미로운 측면이 있습니다. 큰 언어 모델의 한 가지 문제는 교육 데이터의 일부를 암기 할 수있는 잠재력으로 개인 정보 보호 위반으로 이어질 수 있습니다. Google의 연구원들은 이에 대해 Gemma 3을 테스트 한 후 이전 모델보다 낮은 속도로 장식 텍스트를 외우면서 개인 정보 보호 개선을 제안했습니다.

Nitty-Gritty에 관심이있는 사람들을 위해 Gemma 3 기술 논문은 모델의 기능과 개발에 대한 철저한 분석을 제공합니다.

관련 기사
chatgpt를 사용하여 우수한 커버 레터를 제작하십시오 : 팁과 요령 chatgpt를 사용하여 우수한 커버 레터를 제작하십시오 : 팁과 요령 경력을 완벽하게 요약하는 이력서를 만드는 것은 충분히 도전적이지만 구직 응용 프로그램에는 종종 커버 레터가 필요합니다. 이 편지는 회사에 관심이있는 이유, 직책에 대한 자격이있는 이유, 그리고 당신이 최고의 솔직한 이유에 대한 세부 사항에 뛰어들 수있는 기회입니다.
11 개의 실험실의 AI 음성 생성 문제를 해결하기위한 세 가지 솔루션 11 개의 실험실의 AI 음성 생성 문제를 해결하기위한 세 가지 솔루션 당신이 11 개의 실험실 인 팬이라면 AI 음성 생성기를 팬이라면 그 과정에서 딸꾹질이 발생했을 수 있습니다. 그래도 걱정하지 마십시오. 이 기사는 좌절하는 문제를 탐색하고 AI 음성 콘텐츠를 원활하게 유지하는 데 도움이됩니다. IP 주소 제한을 다루는 것에서 Veri로
pika.art는 새로운 AI 비디오 기능 및 업데이트를 재 설계로 공개합니다. pika.art는 새로운 AI 비디오 기능 및 업데이트를 재 설계로 공개합니다. AI 구동 비디오 생성 장면의 선구자 인 Pika.art는 막 주요 성형 수술을 출시했습니다. 플랫폼의 웹 사이트는 완전히 재 설계되었으며 비디오 제작 경험을 향상시킬 수있는 게임 변화 기능을 도입했습니다. 이 업데이트는 모두 제작에 관한 것입니다
의견 (0)
0/200
Back to Top
OR