Meta defende a liberação do llama 4, cita bugs como causa de relatórios de qualidade mista
No fim de semana, Meta, a potência por trás do Facebook, Instagram, WhatsApp e Quest VR, surpreendeu a todos ao revelar seu mais recente modelo de idioma de IA, LLAMA 4. Não apenas um, mas três novas versões foram introduzidas, cada uma delas de manutenção de capacidades aprimoradas graças à arquitetura "Mixture-of-Experts" e uma nova abordagem de treinamento chamada METAP, que envolve o Hyperpõe Florporam Hyper Hyperty Hypers Hypers Hypers. Além disso, todos os três modelos vêm com janelas de contexto expansivas, permitindo que eles processem mais informações em uma única interação.
Apesar da emoção do lançamento, a reação da comunidade de IA foi morna na melhor das hipóteses. No sábado, a Meta fez dois desses modelos, o Llama 4 Scout e o Llama 4 Maverick, disponíveis para download e uso, mas a resposta está longe de ser entusiasmada.
LLAMA 4 Sparks confusão e crítica entre usuários de IA
Um post não verificado no fórum 1Point3ACRES, uma popular comunidade de idiomas chineses na América do Norte, encontrou seu caminho para o subreddit R/Localllama no Reddit. O post, supostamente de um pesquisador da Organização Genai da Meta, afirmou que o LLAMA 4 teve um desempenho inferior em benchmarks internos de terceiros. Sugeriu que a liderança da Meta manipulou os resultados, misturando conjuntos de testes durante o pós-treinamento para atender a várias métricas e apresentar um resultado favorável. A autenticidade dessa reivindicação foi recebida com ceticismo, e a Meta ainda não respondeu às perguntas da VentureBeat.
No entanto, as dúvidas sobre o desempenho do Llama 4 não pararam por aí. Em X, o usuário @cto_junior expressou descrença no desempenho do modelo, citando um teste independente em que o lhama 4 Maverick obteve apenas 16% no benchmark de poliglot da Aider, que testa tarefas de codificação. Essa pontuação é significativamente menor que a dos modelos mais antigos e de tamanho semelhante, como Deepseek V3 e Claude 3,7 sonetos.
O PhD da IA e o autor Andriy Burkov também levou a X para questionar a janela de contexto de 10 milhões de toques do modelo para Llama 4 Scout, afirmando que é "virtual" porque o modelo não foi treinado em instruções com mais de 256 mil tokens. Ele alertou que o envio de instruções mais longas provavelmente resultaria em saídas de baixa qualidade.
No subreddit R/Localllama, o usuário DR_KARMINSKI compartilhou decepção com a LLAMA 4, comparando seu fraco desempenho com o modelo V3 sem renamentação da Deepseek em tarefas como simular movimentos de bola dentro de um heptagon.
Nathan Lambert, ex -pesquisador de meta e atual cientista sênior da AI2, criticou as comparações de referência de Meta em seu blog de interconexões Substack. Ele ressaltou que o modelo Maverick Llama 4 usado nos materiais promocionais da Meta era diferente daquele lançado publicamente, otimizado em vez de conversação. Lambert observou a discrepância, dizendo: "Sneaky. Os resultados abaixo são falsos e é uma das principais comunidades da Meta da Meta para não liberar o modelo que eles usaram para criar seu grande impulso de marketing". Ele acrescentou que, embora o modelo promocional estivesse "afundando a reputação técnica do lançamento porque seu personagem é juvenil", o modelo real disponível em outras plataformas era "bastante inteligente e tem um tom razoável".

Meta responde, negando 'treinamento em conjuntos de testes' e citando bugs na implementação devido ao lançamento rápido
Em resposta às críticas e acusações, o vice-presidente e chefe de Genai, de Meta, Ahmad al-Dahle, levou a X para abordar as preocupações. Ele expressou entusiasmo pelo envolvimento da comunidade com a LLAMA 4, mas reconheceu relatos de qualidade inconsistente em diferentes serviços. Ele atribuiu esses problemas ao lançamento rápido e ao tempo necessário para que as implementações públicas se estabilizem. Al-Dahle negou firmemente as alegações de treinamento em conjuntos de testes, enfatizando que a qualidade variável se devia a bugs de implementação, e não a qualquer má conduta. Ele reafirmou a crença de Meta nos avanços significativos dos modelos LLAMA 4 e seu compromisso de trabalhar com a comunidade para realizar seu potencial.
No entanto, a resposta pouco fez para reprimir as frustrações da comunidade, com muitos ainda relatando um desempenho ruim e exigindo mais documentação técnica sobre os processos de treinamento dos modelos. Este lançamento enfrentou mais questões do que as versões anteriores de llama, levantando questões sobre seu desenvolvimento e lançamento.
O momento deste lançamento é notável, pois segue a saída de Joelle Pineau, vice -presidente de pesquisa da Meta, que anunciou sua saída no LinkedIn na semana passada com gratidão por seu tempo na empresa. Pineau também promoveu a família Model Llama 4 no fim de semana.
Como o LLAMA 4 continua a ser adotado por outros provedores de inferência com resultados mistos, fica claro que a liberação inicial não foi o que a Meta de sucesso pode ter esperado. O próximo Meta Llamacon, em 29 de abril, que será o primeiro encontro para desenvolvedores de terceiros da família modelo, provavelmente será um viveiro de discussões e debates. Estaremos de olho nos desenvolvimentos, portanto, fique atento.
Artigo relacionado
谷歌AI躍升內幕:Gemini 2.5 思維更深、表達更智能且編碼更快
谷歌朝著通用AI助手的願景邁進一步在今年的Google I/O大會上,該公司揭示了其Gemini 2.5系列的重大升級,特別是在多個維度上提升其能力。最新的版本——Gemini 2.5 Flash和2.5 Pro——現在比以往更加聰明和高效。這些進步使谷歌更接近實現其創造通用AI助手的願景,這個助手能夠無縫理解情境、計劃並執行任務。### Gemini 2.
深度認知發布開源AI模型,已名列前茅
深度思睿推出革命性的人工智能模型旧金山一家尖端的人工智能研究初创公司深度思睿(Deep Cogito)正式发布了其首批开源大型语言模型(LLMs),命名为思睿v1。这些模型经过微调自Meta的Llama 3.2,具备混合推理能力,能够快速响应或进行内省思考——这一功能让人联想到OpenAI的“o”系列和DeepSeek R1。深度思睿旨在通过在其模型中促进迭
微軟在Build 2025大會上宣布推出超過50款AI工具打造『主動網路』
微軟於Build大會揭開開放式自主網路願景今天早上,微軟在其年度Build大會上發表了一項大膽宣言:「開放式自主網路」的黎明已經到來。在超過50項公告的廣泛陣容中,這家科技巨頭概述了一項全面策略,將自己置於這個轉型運動的核心位置。從GitHub到Azure,從Windows到Microsoft 365,每條產品線都收到了旨在推動AI代理技術進步的更新。這些代
Comentários (0)
0/200
No fim de semana, Meta, a potência por trás do Facebook, Instagram, WhatsApp e Quest VR, surpreendeu a todos ao revelar seu mais recente modelo de idioma de IA, LLAMA 4. Não apenas um, mas três novas versões foram introduzidas, cada uma delas de manutenção de capacidades aprimoradas graças à arquitetura "Mixture-of-Experts" e uma nova abordagem de treinamento chamada METAP, que envolve o Hyperpõe Florporam Hyper Hyperty Hypers Hypers Hypers. Além disso, todos os três modelos vêm com janelas de contexto expansivas, permitindo que eles processem mais informações em uma única interação.
Apesar da emoção do lançamento, a reação da comunidade de IA foi morna na melhor das hipóteses. No sábado, a Meta fez dois desses modelos, o Llama 4 Scout e o Llama 4 Maverick, disponíveis para download e uso, mas a resposta está longe de ser entusiasmada.
LLAMA 4 Sparks confusão e crítica entre usuários de IA
Um post não verificado no fórum 1Point3ACRES, uma popular comunidade de idiomas chineses na América do Norte, encontrou seu caminho para o subreddit R/Localllama no Reddit. O post, supostamente de um pesquisador da Organização Genai da Meta, afirmou que o LLAMA 4 teve um desempenho inferior em benchmarks internos de terceiros. Sugeriu que a liderança da Meta manipulou os resultados, misturando conjuntos de testes durante o pós-treinamento para atender a várias métricas e apresentar um resultado favorável. A autenticidade dessa reivindicação foi recebida com ceticismo, e a Meta ainda não respondeu às perguntas da VentureBeat.
No entanto, as dúvidas sobre o desempenho do Llama 4 não pararam por aí. Em X, o usuário @cto_junior expressou descrença no desempenho do modelo, citando um teste independente em que o lhama 4 Maverick obteve apenas 16% no benchmark de poliglot da Aider, que testa tarefas de codificação. Essa pontuação é significativamente menor que a dos modelos mais antigos e de tamanho semelhante, como Deepseek V3 e Claude 3,7 sonetos.
O PhD da IA e o autor Andriy Burkov também levou a X para questionar a janela de contexto de 10 milhões de toques do modelo para Llama 4 Scout, afirmando que é "virtual" porque o modelo não foi treinado em instruções com mais de 256 mil tokens. Ele alertou que o envio de instruções mais longas provavelmente resultaria em saídas de baixa qualidade.
No subreddit R/Localllama, o usuário DR_KARMINSKI compartilhou decepção com a LLAMA 4, comparando seu fraco desempenho com o modelo V3 sem renamentação da Deepseek em tarefas como simular movimentos de bola dentro de um heptagon.
Nathan Lambert, ex -pesquisador de meta e atual cientista sênior da AI2, criticou as comparações de referência de Meta em seu blog de interconexões Substack. Ele ressaltou que o modelo Maverick Llama 4 usado nos materiais promocionais da Meta era diferente daquele lançado publicamente, otimizado em vez de conversação. Lambert observou a discrepância, dizendo: "Sneaky. Os resultados abaixo são falsos e é uma das principais comunidades da Meta da Meta para não liberar o modelo que eles usaram para criar seu grande impulso de marketing". Ele acrescentou que, embora o modelo promocional estivesse "afundando a reputação técnica do lançamento porque seu personagem é juvenil", o modelo real disponível em outras plataformas era "bastante inteligente e tem um tom razoável".
Meta responde, negando 'treinamento em conjuntos de testes' e citando bugs na implementação devido ao lançamento rápido
Em resposta às críticas e acusações, o vice-presidente e chefe de Genai, de Meta, Ahmad al-Dahle, levou a X para abordar as preocupações. Ele expressou entusiasmo pelo envolvimento da comunidade com a LLAMA 4, mas reconheceu relatos de qualidade inconsistente em diferentes serviços. Ele atribuiu esses problemas ao lançamento rápido e ao tempo necessário para que as implementações públicas se estabilizem. Al-Dahle negou firmemente as alegações de treinamento em conjuntos de testes, enfatizando que a qualidade variável se devia a bugs de implementação, e não a qualquer má conduta. Ele reafirmou a crença de Meta nos avanços significativos dos modelos LLAMA 4 e seu compromisso de trabalhar com a comunidade para realizar seu potencial.
No entanto, a resposta pouco fez para reprimir as frustrações da comunidade, com muitos ainda relatando um desempenho ruim e exigindo mais documentação técnica sobre os processos de treinamento dos modelos. Este lançamento enfrentou mais questões do que as versões anteriores de llama, levantando questões sobre seu desenvolvimento e lançamento.
O momento deste lançamento é notável, pois segue a saída de Joelle Pineau, vice -presidente de pesquisa da Meta, que anunciou sua saída no LinkedIn na semana passada com gratidão por seu tempo na empresa. Pineau também promoveu a família Model Llama 4 no fim de semana.
Como o LLAMA 4 continua a ser adotado por outros provedores de inferência com resultados mistos, fica claro que a liberação inicial não foi o que a Meta de sucesso pode ter esperado. O próximo Meta Llamacon, em 29 de abril, que será o primeiro encontro para desenvolvedores de terceiros da família modelo, provavelmente será um viveiro de discussões e debates. Estaremos de olho nos desenvolvimentos, portanto, fique atento.












