

Meta defende a liberação do llama 4, cita bugs como causa de relatórios de qualidade mista
22 de Abril de 2025
BillyAdams
29
No fim de semana, Meta, a potência por trás do Facebook, Instagram, WhatsApp e Quest VR, surpreendeu a todos ao revelar seu mais recente modelo de idioma de IA, LLAMA 4. Não apenas um, mas três novas versões foram introduzidas, cada uma delas de manutenção de capacidades aprimoradas graças à arquitetura "Mixture-of-Experts" e uma nova abordagem de treinamento chamada METAP, que envolve o Hyperpõe Florporam Hyper Hyperty Hypers Hypers Hypers. Além disso, todos os três modelos vêm com janelas de contexto expansivas, permitindo que eles processem mais informações em uma única interação.
Apesar da emoção do lançamento, a reação da comunidade de IA foi morna na melhor das hipóteses. No sábado, a Meta fez dois desses modelos, o Llama 4 Scout e o Llama 4 Maverick, disponíveis para download e uso, mas a resposta está longe de ser entusiasmada.
LLAMA 4 Sparks confusão e crítica entre usuários de IA
Um post não verificado no fórum 1Point3ACRES, uma popular comunidade de idiomas chineses na América do Norte, encontrou seu caminho para o subreddit R/Localllama no Reddit. O post, supostamente de um pesquisador da Organização Genai da Meta, afirmou que o LLAMA 4 teve um desempenho inferior em benchmarks internos de terceiros. Sugeriu que a liderança da Meta manipulou os resultados, misturando conjuntos de testes durante o pós-treinamento para atender a várias métricas e apresentar um resultado favorável. A autenticidade dessa reivindicação foi recebida com ceticismo, e a Meta ainda não respondeu às perguntas da VentureBeat.
No entanto, as dúvidas sobre o desempenho do Llama 4 não pararam por aí. Em X, o usuário @cto_junior expressou descrença no desempenho do modelo, citando um teste independente em que o lhama 4 Maverick obteve apenas 16% no benchmark de poliglot da Aider, que testa tarefas de codificação. Essa pontuação é significativamente menor que a dos modelos mais antigos e de tamanho semelhante, como Deepseek V3 e Claude 3,7 sonetos.
O PhD da IA e o autor Andriy Burkov também levou a X para questionar a janela de contexto de 10 milhões de toques do modelo para Llama 4 Scout, afirmando que é "virtual" porque o modelo não foi treinado em instruções com mais de 256 mil tokens. Ele alertou que o envio de instruções mais longas provavelmente resultaria em saídas de baixa qualidade.
No subreddit R/Localllama, o usuário DR_KARMINSKI compartilhou decepção com a LLAMA 4, comparando seu fraco desempenho com o modelo V3 sem renamentação da Deepseek em tarefas como simular movimentos de bola dentro de um heptagon.
Nathan Lambert, ex -pesquisador de meta e atual cientista sênior da AI2, criticou as comparações de referência de Meta em seu blog de interconexões Substack. Ele ressaltou que o modelo Maverick Llama 4 usado nos materiais promocionais da Meta era diferente daquele lançado publicamente, otimizado em vez de conversação. Lambert observou a discrepância, dizendo: "Sneaky. Os resultados abaixo são falsos e é uma das principais comunidades da Meta da Meta para não liberar o modelo que eles usaram para criar seu grande impulso de marketing". Ele acrescentou que, embora o modelo promocional estivesse "afundando a reputação técnica do lançamento porque seu personagem é juvenil", o modelo real disponível em outras plataformas era "bastante inteligente e tem um tom razoável".

Meta responde, negando 'treinamento em conjuntos de testes' e citando bugs na implementação devido ao lançamento rápido
Em resposta às críticas e acusações, o vice-presidente e chefe de Genai, de Meta, Ahmad al-Dahle, levou a X para abordar as preocupações. Ele expressou entusiasmo pelo envolvimento da comunidade com a LLAMA 4, mas reconheceu relatos de qualidade inconsistente em diferentes serviços. Ele atribuiu esses problemas ao lançamento rápido e ao tempo necessário para que as implementações públicas se estabilizem. Al-Dahle negou firmemente as alegações de treinamento em conjuntos de testes, enfatizando que a qualidade variável se devia a bugs de implementação, e não a qualquer má conduta. Ele reafirmou a crença de Meta nos avanços significativos dos modelos LLAMA 4 e seu compromisso de trabalhar com a comunidade para realizar seu potencial.
No entanto, a resposta pouco fez para reprimir as frustrações da comunidade, com muitos ainda relatando um desempenho ruim e exigindo mais documentação técnica sobre os processos de treinamento dos modelos. Este lançamento enfrentou mais questões do que as versões anteriores de llama, levantando questões sobre seu desenvolvimento e lançamento.
O momento deste lançamento é notável, pois segue a saída de Joelle Pineau, vice -presidente de pesquisa da Meta, que anunciou sua saída no LinkedIn na semana passada com gratidão por seu tempo na empresa. Pineau também promoveu a família Model Llama 4 no fim de semana.
Como o LLAMA 4 continua a ser adotado por outros provedores de inferência com resultados mistos, fica claro que a liberação inicial não foi o que a Meta de sucesso pode ter esperado. O próximo Meta Llamacon, em 29 de abril, que será o primeiro encontro para desenvolvedores de terceiros da família modelo, provavelmente será um viveiro de discussões e debates. Estaremos de olho nos desenvolvimentos, portanto, fique atento.
Artigo relacionado
Gaia führt einen neuen Benchmark in der Suche nach wahrer Intelligenz jenseits von Arc-Agi ein
Intelligenz ist überall, aber das Messen Sie es genau so, als würde man versuchen, eine Wolke mit bloßen Händen zu fangen. Wir verwenden Tests und Benchmarks wie College -Aufnahmeprüfungen, um eine grobe Idee zu bekommen. Jedes Jahr drehen die Schüler für diese Tests und erzielen manchmal sogar eine perfekte 100%. Aber macht diese perfekte Punktzahl m
Das KI -Startup sichert 7,5 Millionen US
1Fort, ein in New York ansässiger Startup, hat eine Saatgut-Finanzierungsrunde in Höhe von 7,5 Millionen US-Dollar gesichert, um zu revolutionieren, wie kleine Unternehmen eine kommerzielle Versicherung durch seine KI-gesteuerte Plattform abschließen. Mit einem erstaunlichen Umsatzwachstum von 200% monatlich im Monat im Jahr 2024 soll 1Fort die veralteten manuellen Prozesse überarbeiten
Rechtsprofessoren unterstützen Autoren im KI -Urheberrecht gegen Meta.
Eine Gruppe von Copyright-Rechtsprofessoren hat ihre Unterstützung hinter Autoren verklagt, die Meta verklagen, und behauptet, der Tech-Riese habe seine LLAMA-AI-Modelle auf E-Books ohne Zustimmung der Autoren ausgebildet. Die Professoren haben am Freitag einen Amicus -Brief eingereicht
Comentários (0)
0/200






No fim de semana, Meta, a potência por trás do Facebook, Instagram, WhatsApp e Quest VR, surpreendeu a todos ao revelar seu mais recente modelo de idioma de IA, LLAMA 4. Não apenas um, mas três novas versões foram introduzidas, cada uma delas de manutenção de capacidades aprimoradas graças à arquitetura "Mixture-of-Experts" e uma nova abordagem de treinamento chamada METAP, que envolve o Hyperpõe Florporam Hyper Hyperty Hypers Hypers Hypers. Além disso, todos os três modelos vêm com janelas de contexto expansivas, permitindo que eles processem mais informações em uma única interação.
Apesar da emoção do lançamento, a reação da comunidade de IA foi morna na melhor das hipóteses. No sábado, a Meta fez dois desses modelos, o Llama 4 Scout e o Llama 4 Maverick, disponíveis para download e uso, mas a resposta está longe de ser entusiasmada.
LLAMA 4 Sparks confusão e crítica entre usuários de IA
Um post não verificado no fórum 1Point3ACRES, uma popular comunidade de idiomas chineses na América do Norte, encontrou seu caminho para o subreddit R/Localllama no Reddit. O post, supostamente de um pesquisador da Organização Genai da Meta, afirmou que o LLAMA 4 teve um desempenho inferior em benchmarks internos de terceiros. Sugeriu que a liderança da Meta manipulou os resultados, misturando conjuntos de testes durante o pós-treinamento para atender a várias métricas e apresentar um resultado favorável. A autenticidade dessa reivindicação foi recebida com ceticismo, e a Meta ainda não respondeu às perguntas da VentureBeat.
No entanto, as dúvidas sobre o desempenho do Llama 4 não pararam por aí. Em X, o usuário @cto_junior expressou descrença no desempenho do modelo, citando um teste independente em que o lhama 4 Maverick obteve apenas 16% no benchmark de poliglot da Aider, que testa tarefas de codificação. Essa pontuação é significativamente menor que a dos modelos mais antigos e de tamanho semelhante, como Deepseek V3 e Claude 3,7 sonetos.
O PhD da IA e o autor Andriy Burkov também levou a X para questionar a janela de contexto de 10 milhões de toques do modelo para Llama 4 Scout, afirmando que é "virtual" porque o modelo não foi treinado em instruções com mais de 256 mil tokens. Ele alertou que o envio de instruções mais longas provavelmente resultaria em saídas de baixa qualidade.
No subreddit R/Localllama, o usuário DR_KARMINSKI compartilhou decepção com a LLAMA 4, comparando seu fraco desempenho com o modelo V3 sem renamentação da Deepseek em tarefas como simular movimentos de bola dentro de um heptagon.
Nathan Lambert, ex -pesquisador de meta e atual cientista sênior da AI2, criticou as comparações de referência de Meta em seu blog de interconexões Substack. Ele ressaltou que o modelo Maverick Llama 4 usado nos materiais promocionais da Meta era diferente daquele lançado publicamente, otimizado em vez de conversação. Lambert observou a discrepância, dizendo: "Sneaky. Os resultados abaixo são falsos e é uma das principais comunidades da Meta da Meta para não liberar o modelo que eles usaram para criar seu grande impulso de marketing". Ele acrescentou que, embora o modelo promocional estivesse "afundando a reputação técnica do lançamento porque seu personagem é juvenil", o modelo real disponível em outras plataformas era "bastante inteligente e tem um tom razoável".
Meta responde, negando 'treinamento em conjuntos de testes' e citando bugs na implementação devido ao lançamento rápido
Em resposta às críticas e acusações, o vice-presidente e chefe de Genai, de Meta, Ahmad al-Dahle, levou a X para abordar as preocupações. Ele expressou entusiasmo pelo envolvimento da comunidade com a LLAMA 4, mas reconheceu relatos de qualidade inconsistente em diferentes serviços. Ele atribuiu esses problemas ao lançamento rápido e ao tempo necessário para que as implementações públicas se estabilizem. Al-Dahle negou firmemente as alegações de treinamento em conjuntos de testes, enfatizando que a qualidade variável se devia a bugs de implementação, e não a qualquer má conduta. Ele reafirmou a crença de Meta nos avanços significativos dos modelos LLAMA 4 e seu compromisso de trabalhar com a comunidade para realizar seu potencial.
No entanto, a resposta pouco fez para reprimir as frustrações da comunidade, com muitos ainda relatando um desempenho ruim e exigindo mais documentação técnica sobre os processos de treinamento dos modelos. Este lançamento enfrentou mais questões do que as versões anteriores de llama, levantando questões sobre seu desenvolvimento e lançamento.
O momento deste lançamento é notável, pois segue a saída de Joelle Pineau, vice -presidente de pesquisa da Meta, que anunciou sua saída no LinkedIn na semana passada com gratidão por seu tempo na empresa. Pineau também promoveu a família Model Llama 4 no fim de semana.
Como o LLAMA 4 continua a ser adotado por outros provedores de inferência com resultados mistos, fica claro que a liberação inicial não foi o que a Meta de sucesso pode ter esperado. O próximo Meta Llamacon, em 29 de abril, que será o primeiro encontro para desenvolvedores de terceiros da família modelo, provavelmente será um viveiro de discussões e debates. Estaremos de olho nos desenvolvimentos, portanto, fique atento.












