옵션
소식
메타는 LLAMA 4 릴리스를 방어하고 혼합 품질 보고서의 원인으로 버그를 인용합니다.

메타는 LLAMA 4 릴리스를 방어하고 혼합 품질 보고서의 원인으로 버그를 인용합니다.

2025년 4월 23일
72

주말 동안, Facebook, Instagram, Whatsapp 및 Quest VR 뒤에있는 Meta는 최신 AI 언어 모델 인 LLAMA 4를 공개하여 모든 사람들을 놀라게했습니다. 하나뿐만 아니라 3 개의 새로운 버전이 소개되었으며, 각각 "믹스 터트"아키텍처와 Metap이라는 새로운 훈련 접근 방식으로 고정 된 hyperametters를 포함하는 새로운 훈련 접근 방식을 자랑했습니다. 또한 세 가지 모델 모두 광범위한 컨텍스트 Windows가 제공되므로 단일 상호 작용으로 더 많은 정보를 처리 할 수 ​​있습니다.

석방의 흥분에도 불구하고, AI 공동체의 반응은 기껏해야 미지근했습니다. 토요일에 메타는이 모델 인 Llama 4 Scout과 Llama 4 Maverick 중 두 가지를 만들었지 만 다운로드 및 사용 가능했지만 응답은 열정적이지 않았습니다.

Llama 4 AI 사용자들 사이의 혼란과 비판

북아메리카의 인기있는 중국어 커뮤니티 인 1Point3ACRES 포럼 (1Point3Acres Forum)에 대한 검증 된 게시물은 Reddit의 R/Localllama Subreddit로 향했습니다. Meta의 Genai Organization의 연구원의이 게시물은 LLAMA 4가 내부 타사 벤치 마크에서 실적이 저조했다고 주장했다. Meta의 리더십은 훈련시 테스트 세트를 혼합하여 다양한 메트릭을 충족시키고 유리한 결과를 제시함으로써 결과를 조작했다고 제안했습니다. 이 주장의 진위는 회의론에 충족되었으며 Meta는 아직 VentureBeat의 문의에 응답하지 않았습니다.

그러나 Llama 4의 공연에 대한 의심은 거기서 멈추지 않았습니다. X에서 사용자 @CTO_JUNIOR는 모델의 성능에 불신을 표현했으며 LLAMA 4 MAVERICK가 Aider Polyglot 벤치 마크에서 16%를 기록하여 코딩 작업을 테스트 한 독립적 인 테스트를 인용했습니다. 이 점수는 DeepSeek V3 및 Claude 3.7 Sonnet과 같은 구형 크기의 모델보다 훨씬 낮습니다.

AI PhD와 저자 Andriy Burkov는 또한 LLAMA 4 스카우트에 대한 모델의 광고 된 1 천만 번의 컨텍스트 창에 의문을 제기하기 위해 X를 가져갔습니다. 그는 더 긴 프롬프트를 보내면 품질이 낮은 결과를 초래할 수 있다고 경고했다.

R/Localllama Subreddit에서 사용자 DR_Karminski는 LLAMA 4와 실망을 공유했으며, 불량 성능을 Heptagon 내에서 볼 움직임을 시뮬레이션하는 것과 같은 작업에 대한 DeepSeek의 비 계급 V3 모델과 비교했습니다.

AI2의 전 메타 연구원이자 현재 수석 연구 과학자 인 Nathan Lambert는 그의 상호 연결 Subsack 블로그에서 Meta의 벤치 마크 비교를 비판했습니다. 그는 Meta의 홍보 자료에 사용 된 LLAMA 4 MAVERICK 모델은 대화 성을 위해 최적화 된 공개 된 자료와 다르다고 지적했다. Lambert는 불일치에 대해 다음과 같이 지적했다. 그는 홍보 모델이 "캐릭터가 청소년이기 때문에 릴리스의 기술적 명성을 탱킹하는 동안"다른 플랫폼에서 사용할 수있는 실제 모델은 "상당히 똑똑하고 합리적인 톤을 가지고있다"고 덧붙였다.

Meta는 응답, '테스트 세트에 대한 교육'을 거부하고 빠른 롤아웃으로 인해 구현중인 버그를 인용합니다.

비판과 고발에 대한 응답으로, 메타의 부사장이자 제나이 책임자 인 Ahmad al-Dahle은 우려 사항을 해결하기 위해 X에 가져 갔다. 그는 Llama 4와의 지역 사회의 참여에 대한 열정을 표명했지만 다양한 서비스에서 일관되지 않은 품질에 대한 보고서를 인정했습니다. 그는 이러한 문제가 급속한 롤아웃과 공개 구현이 안정화되는 데 필요한 시간에 기인했다고 생각했습니다. Al-Dahle은 가변 품질이 위법 행위보다는 구현 버그 때문이라고 강조하면서 시험 세트에 대한 훈련 혐의를 확고히 거부했습니다. 그는 라마 4 모델의 중요한 발전에 대한 메타의 믿음과 그들의 잠재력을 실현하기 위해 지역 사회와 협력하겠다는 약속을 재확인했다.

그러나이 대응은 커뮤니티의 좌절을 진압하는 데 거의 도움이되지 않았으며, 많은 사람들이 여전히 성과가 좋지 않은 성과를보고하고 모델의 교육 프로세스에 대한 더 많은 기술적 인 문서를 요구하고 있습니다. 이 릴리스는 이전 LLAMA 버전보다 더 많은 문제에 직면하여 개발 및 롤아웃에 대한 의문을 제기했습니다.

이번 릴리스의시기는 메타의 연구 부사장 인 Joelle Pineau가 출발 한 후 지난 주 Linkedin에서 출구로 회사에서 그녀의 시간에 감사를 표한다고 발표 한 후 주목할 만하다. Pineau는 또한 주말 동안 Llama 4 모델 패밀리를 홍보했습니다.

LLAMA 4가 혼합 된 결과를 가진 다른 추론 제공 업체가 계속 채택함에 따라, 초기 릴리스가 성공적인 메타가 기대했던 것이 아니라는 것은 분명합니다. 4 월 29 일에 Meta Llamacon은 Model Family의 제 3 자 개발자를위한 첫 번째 모임이 될 Meta Llamacon은 토론과 토론의 온상 일 것입니다. 우리는 개발을 면밀히 주시 할 것이므로 계속 지켜봐 주시기 바랍니다.

관련 기사
谷歌AI躍升內幕:Gemini 2.5 思維更深、表達更智能且編碼更快 谷歌AI躍升內幕:Gemini 2.5 思維更深、表達更智能且編碼更快 谷歌朝著通用AI助手的願景邁進一步在今年的Google I/O大會上,該公司揭示了其Gemini 2.5系列的重大升級,特別是在多個維度上提升其能力。最新的版本——Gemini 2.5 Flash和2.5 Pro——現在比以往更加聰明和高效。這些進步使谷歌更接近實現其創造通用AI助手的願景,這個助手能夠無縫理解情境、計劃並執行任務。### Gemini 2.
深度認知發布開源AI模型,已名列前茅 深度認知發布開源AI模型,已名列前茅 深度思睿推出革命性的人工智能模型旧金山一家尖端的人工智能研究初创公司深度思睿(Deep Cogito)正式发布了其首批开源大型语言模型(LLMs),命名为思睿v1。这些模型经过微调自Meta的Llama 3.2,具备混合推理能力,能够快速响应或进行内省思考——这一功能让人联想到OpenAI的“o”系列和DeepSeek R1。深度思睿旨在通过在其模型中促进迭
微軟在Build 2025大會上宣布推出超過50款AI工具打造『主動網路』 微軟在Build 2025大會上宣布推出超過50款AI工具打造『主動網路』 微軟於Build大會揭開開放式自主網路願景今天早上,微軟在其年度Build大會上發表了一項大膽宣言:「開放式自主網路」的黎明已經到來。在超過50項公告的廣泛陣容中,這家科技巨頭概述了一項全面策略,將自己置於這個轉型運動的核心位置。從GitHub到Azure,從Windows到Microsoft 365,每條產品線都收到了旨在推動AI代理技術進步的更新。這些代
의견 (0)
0/200
위로 돌아갑니다
OR