Open Source LLMS incluído no roteiro da soberania digital da Europa

Na última semana, a agenda de soberania digital da Europa recebeu um impulso significativo com o anúncio de uma nova iniciativa voltada para o desenvolvimento de uma série de modelos de linguagem de grande escala (LLMs) totalmente de código aberto, que atendem a todas as línguas da União Europeia. Este ambicioso projeto, chamado OpenEuroLLM, visa não apenas as 24 línguas oficiais da UE, mas também se estende a línguas de países que negociam a entrada na UE, como a Albânia, enfatizando a preparação para o futuro.
O OpenEuroLLM é um esforço colaborativo envolvendo cerca de 20 organizações, co-liderado por Jan Hajič, um linguista computacional da Universidade Charles em Praga, e Peter Sarlin, CEO e co-fundador do laboratório de IA finlandês Silo AI, que foi adquirido pela AMD por 665 milhões de dólares no último ano. Esta iniciativa está alinhada com o impulso mais amplo da Europa para a soberania digital, visando manter a infraestrutura e ferramentas críticas dentro do continente. Esse movimento ecoa as ações de grandes provedores de nuvem e empresas de IA como a OpenAI, que têm investido em infraestrutura local para garantir que os dados da UE permaneçam em solo europeu.
Além disso, a UE assinou recentemente um acordo de 11 bilhões de dólares para estabelecer uma constelação de satélites soberana, posicionando-se como concorrente do Starlink de Elon Musk. O OpenEuroLLM se encaixa perfeitamente nessa narrativa, focando na manutenção da autonomia tecnológica da Europa.
Financiamento e Desafios
Apesar de seus objetivos ambiciosos, o orçamento alocado para o desenvolvimento dos modelos é de 37,4 milhões de euros, com aproximadamente 20 milhões de euros provenientes do Programa Digital Europe da UE. Esse montante é pequeno em comparação com os investimentos feitos por gigantes corporativos de IA, embora o orçamento total aumente quando considerado o financiamento para trabalhos relacionados. Uma parte significativa da despesa é o poder de computação, com o OpenEuroLLM fazendo parceria com centros de supercomputadores EuroHPC na Espanha, Itália, Finlândia e Países Baixos, que fazem parte de um projeto EuroHPC mais amplo de 7 bilhões de euros.
O grupo diversificado de participantes, que vai desde a academia até corporações, levanta questões sobre a viabilidade do projeto. Anastasia Stasenko, co-fundadora da empresa de LLM Pleias, expressou ceticismo sobre a eficácia de um consórcio tão grande em comparação com empresas de IA privadas mais ágeis e focadas, como a Mistral AI e a LightOn. Essas equipes menores, ela argumenta, têm uma responsabilidade mais direta e podem reagir mais rapidamente aos desafios.
Construir do Zero ou Aproveitar o Trabalho Existente?
O ponto de partida do OpenEuroLLM é um tanto ambíguo. Desde 2022, Jan Hajič tem coordenado o projeto de Tecnologias de Linguagem de Alta Performance (HPLT), que se concentra no desenvolvimento de conjuntos de dados, modelos e fluxos de trabalho gratuitos e reutilizáveis usando computação de alto desempenho. Este projeto, previsto para terminar no final de 2025, compartilha muitos parceiros com o OpenEuroLLM, exceto aqueles do Reino Unido.
Hajič vê o HPLT como um precursor do OpenEuroLLM, observando que ele fornece uma base sólida em dados, expertise, ferramentas e experiência em computação. Ele prevê o lançamento das primeiras versões do OpenEuroLLM até meados de 2026, com as versões finais esperadas para a conclusão do projeto em 2028. No entanto, o perfil do projeto no GitHub permanece escasso, indicando um início do zero em alguns aspectos. Hajič mencionou que o projeto começou oficialmente em 1º de fevereiro de 2024, após um ano de preparação.
O consórcio OpenEuroLLM inclui organizações da Tchéquia, Países Baixos, Alemanha, Suécia, Finlândia e Noruega, ao lado de entidades corporativas como Silo AI, Aleph Alpha, Ellamind, Prompsit Language Engineering e LightOn. Notavelmente ausente está a Mistral, um unicórnio de IA francês, apesar das tentativas de Hajič de envolvê-los em discussões.
Metas e Entregáveis
O objetivo principal do projeto é criar uma série de modelos de fundação para uma IA transparente na Europa, preservando a diversidade linguística e cultural de todas as línguas da UE, tanto atuais quanto futuras. Os entregáveis ainda estão sendo finalizados, mas espera-se que incluam um LLM multilíngue central para tarefas de propósito geral e versões menores e quantizadas para aplicações de borda, onde a eficiência é fundamental.
Hajič enfatizou a importância da qualidade, afirmando que o projeto visa evitar a liberação de soluções mal acabadas, dado o alto risco e o financiamento público envolvido. Alcançar proficiência igual em todas as línguas, especialmente aquelas com recursos digitais limitados, continua sendo um desafio. O projeto planeja usar benchmarks que representem com precisão essas línguas e culturas.
Dados do projeto HPLT, incluindo um conjunto de dados de 4,5 petabytes de rastreamentos da web e mais de 20 bilhões de documentos, serão utilizados, complementados por dados do Common Crawl.
Dilemas de Código Aberto
O debate sobre o que constitui "código aberto" em IA está em andamento. A Iniciativa de Código Aberto (OSI) definiu "IA de código aberto", mas alguns argumentam que ela deve incluir não apenas modelos, mas também conjuntos de dados, modelos pré-treinados e pesos. O OpenEuroLLM pretende ser "verdadeiramente aberto", mas Hajič reconhece possíveis limitações devido às leis de direitos autorais europeias e restrições de redistribuição de dados. Alguns dados de treinamento podem precisar ser mantidos confidenciais, mas disponíveis para auditoria conforme a Lei de IA da UE.
Sobreposição com Projetos Existentes
O lançamento do OpenEuroLLM foi comparado ao EuroLLM, lançado recentemente, que compartilha metas semelhantes e também é co-financiado pela UE. O EuroLLM, que lançou seu primeiro modelo em setembro e um segundo em dezembro, gerou preocupações sobre redundância e a necessidade de colaboração em vez de competição. Andre Martins, chefe de pesquisa da Unbabel, destacou essas semelhanças nas redes sociais, pedindo uma colaboração aberta entre as diferentes comunidades.
Hajič reconheceu a sobreposição infeliz, mas expressou esperança por cooperação, observando que as restrições de financiamento do OpenEuroLLM limitam colaborações com entidades não pertencentes à UE, incluindo universidades do Reino Unido.
Financiamento e Expectativas
A emergência do DeepSeek da China, com sua promissora relação custo-desempenho, levantou questões sobre os verdadeiros custos de construção de modelos de IA. Peter Sarlin, co-líder técnico do OpenEuroLLM, observou a falta de informações detalhadas sobre o desenvolvimento do DeepSeek, mas permanece confiante no financiamento do OpenEuroLLM, que cobre principalmente os custos de pessoal. As despesas de computação devem ser cobertas pelos centros EuroHPC.
Sarlin enfatizou que o OpenEuroLLM não tem como objetivo criar um produto para consumidores ou empresas, mas sim fornecer um modelo de fundação de código aberto como infraestrutura de IA para empresas europeias. Ele acredita que o orçamento alocado é suficiente para esse propósito, baseando-se em sua experiência com a Silo AI, que já desenvolveu modelos que suportam várias línguas europeias e está se preparando para lançar os modelos "Europa" cobrindo todas as línguas europeias.
Soberania Digital e Colaboração
Apesar dos desafios e críticas, Hajič permanece otimista sobre o potencial de projetos colaborativos como o OpenEuroLLM. Ele acredita que combinar a expertise acadêmica com o foco corporativo pode levar a resultados inovadores. O objetivo final não é competir com grandes empresas de tecnologia ou startups de IA de bilhões de dólares, mas fortalecer a soberania digital da Europa, desenvolvendo LLMs de fundação construídos por e para a Europa.
Mesmo que o OpenEuroLLM não produza o modelo de melhor desempenho, Hajič vê valor em ter um modelo "bom" que seja inteiramente baseado na Europa, contribuindo positivamente para a autonomia tecnológica do continente.
Artigo relacionado
Modo para adultos do ChatGPT é adiado novamente; Ultraman: priorize a inteligência em primeiro lugar
OpenAI adia novamente recurso polêmico e se concentra na personalização e na interação proativaA questão de saber se “conteúdo impróprio” deve fazer parte de uma ferramenta de IA produtiva há muito te
A Baidu Health testa internamente o DoctorClaw, um assistente médico baseado em IA, para pesquisa acadêmica e assistência administrativa a curto prazo
A Baidu Health teria iniciado testes internos de um assistente inteligente com IA profissional, projetado para médicos. Conhecido internamente como “DoctorClaw” (a versão “Lobster Doctor”), esse produ
Cursor Composer 2 x Claude Opus 4.6: Teste de desempenho reacende o debate sobre programação com IA
Em 19 de março, a Cursor lançou oficialmente seu modelo de programação desenvolvido internamente, o Composer 2. O anúncio gerou discussão imediata na comunidade de desenvolvedores – segundo a Cursor,
Recomendações de tópicos especiais relacionados
Comentários (23)
A bold plan, but the practicality worries me. Training LLMs for dozens of languages with nuanced cultural contexts sounds massively resource-intensive. Can this truly compete with existing centralized models, or will it be more of a symbolic sovereignty project?
Iniciativa bacana, mas será que a Europa vai conseguir acompanhar o ritmo de IA quando o foco é espalhar os recursos por tantos idiomas? 🤔 Pode ficar defasado antes de ficar pronto...
欧洲在AI基础设施上的自主布局确实明智,开源大语言模型能降低对单一技术供应商的依赖,不过资金和人才招募可能会是现实挑战。希望这个OpenEuroLLM项目能真正考虑小语种使用者的需求,而不仅仅是英法德这些主流语言 🌍
¡Vaya, esto sí es interesante! Un modelo de IA europeo y de código abierto... ¿Será la respuesta a la dependencia tecnológica que tenemos con EE.UU. y China? Me pregunto si realmente tendrá la misma potencia que los modelos cerrados de las grandes empresas. 🤔 Si logran cubrir todos los idiomas de la UE, sería un logro enorme para la diversidad cultural digital. ¡Ojalá vaya más allá de lo político y tenga un impacto real! 😊

Na última semana, a agenda de soberania digital da Europa recebeu um impulso significativo com o anúncio de uma nova iniciativa voltada para o desenvolvimento de uma série de modelos de linguagem de grande escala (LLMs) totalmente de código aberto, que atendem a todas as línguas da União Europeia. Este ambicioso projeto, chamado OpenEuroLLM, visa não apenas as 24 línguas oficiais da UE, mas também se estende a línguas de países que negociam a entrada na UE, como a Albânia, enfatizando a preparação para o futuro.
O OpenEuroLLM é um esforço colaborativo envolvendo cerca de 20 organizações, co-liderado por Jan Hajič, um linguista computacional da Universidade Charles em Praga, e Peter Sarlin, CEO e co-fundador do laboratório de IA finlandês Silo AI, que foi adquirido pela AMD por 665 milhões de dólares no último ano. Esta iniciativa está alinhada com o impulso mais amplo da Europa para a soberania digital, visando manter a infraestrutura e ferramentas críticas dentro do continente. Esse movimento ecoa as ações de grandes provedores de nuvem e empresas de IA como a OpenAI, que têm investido em infraestrutura local para garantir que os dados da UE permaneçam em solo europeu.
Além disso, a UE assinou recentemente um acordo de 11 bilhões de dólares para estabelecer uma constelação de satélites soberana, posicionando-se como concorrente do Starlink de Elon Musk. O OpenEuroLLM se encaixa perfeitamente nessa narrativa, focando na manutenção da autonomia tecnológica da Europa.
Financiamento e Desafios
Apesar de seus objetivos ambiciosos, o orçamento alocado para o desenvolvimento dos modelos é de 37,4 milhões de euros, com aproximadamente 20 milhões de euros provenientes do Programa Digital Europe da UE. Esse montante é pequeno em comparação com os investimentos feitos por gigantes corporativos de IA, embora o orçamento total aumente quando considerado o financiamento para trabalhos relacionados. Uma parte significativa da despesa é o poder de computação, com o OpenEuroLLM fazendo parceria com centros de supercomputadores EuroHPC na Espanha, Itália, Finlândia e Países Baixos, que fazem parte de um projeto EuroHPC mais amplo de 7 bilhões de euros.
O grupo diversificado de participantes, que vai desde a academia até corporações, levanta questões sobre a viabilidade do projeto. Anastasia Stasenko, co-fundadora da empresa de LLM Pleias, expressou ceticismo sobre a eficácia de um consórcio tão grande em comparação com empresas de IA privadas mais ágeis e focadas, como a Mistral AI e a LightOn. Essas equipes menores, ela argumenta, têm uma responsabilidade mais direta e podem reagir mais rapidamente aos desafios.
Construir do Zero ou Aproveitar o Trabalho Existente?
O ponto de partida do OpenEuroLLM é um tanto ambíguo. Desde 2022, Jan Hajič tem coordenado o projeto de Tecnologias de Linguagem de Alta Performance (HPLT), que se concentra no desenvolvimento de conjuntos de dados, modelos e fluxos de trabalho gratuitos e reutilizáveis usando computação de alto desempenho. Este projeto, previsto para terminar no final de 2025, compartilha muitos parceiros com o OpenEuroLLM, exceto aqueles do Reino Unido.
Hajič vê o HPLT como um precursor do OpenEuroLLM, observando que ele fornece uma base sólida em dados, expertise, ferramentas e experiência em computação. Ele prevê o lançamento das primeiras versões do OpenEuroLLM até meados de 2026, com as versões finais esperadas para a conclusão do projeto em 2028. No entanto, o perfil do projeto no GitHub permanece escasso, indicando um início do zero em alguns aspectos. Hajič mencionou que o projeto começou oficialmente em 1º de fevereiro de 2024, após um ano de preparação.
O consórcio OpenEuroLLM inclui organizações da Tchéquia, Países Baixos, Alemanha, Suécia, Finlândia e Noruega, ao lado de entidades corporativas como Silo AI, Aleph Alpha, Ellamind, Prompsit Language Engineering e LightOn. Notavelmente ausente está a Mistral, um unicórnio de IA francês, apesar das tentativas de Hajič de envolvê-los em discussões.
Metas e Entregáveis
O objetivo principal do projeto é criar uma série de modelos de fundação para uma IA transparente na Europa, preservando a diversidade linguística e cultural de todas as línguas da UE, tanto atuais quanto futuras. Os entregáveis ainda estão sendo finalizados, mas espera-se que incluam um LLM multilíngue central para tarefas de propósito geral e versões menores e quantizadas para aplicações de borda, onde a eficiência é fundamental.
Hajič enfatizou a importância da qualidade, afirmando que o projeto visa evitar a liberação de soluções mal acabadas, dado o alto risco e o financiamento público envolvido. Alcançar proficiência igual em todas as línguas, especialmente aquelas com recursos digitais limitados, continua sendo um desafio. O projeto planeja usar benchmarks que representem com precisão essas línguas e culturas.
Dados do projeto HPLT, incluindo um conjunto de dados de 4,5 petabytes de rastreamentos da web e mais de 20 bilhões de documentos, serão utilizados, complementados por dados do Common Crawl.
Dilemas de Código Aberto
O debate sobre o que constitui "código aberto" em IA está em andamento. A Iniciativa de Código Aberto (OSI) definiu "IA de código aberto", mas alguns argumentam que ela deve incluir não apenas modelos, mas também conjuntos de dados, modelos pré-treinados e pesos. O OpenEuroLLM pretende ser "verdadeiramente aberto", mas Hajič reconhece possíveis limitações devido às leis de direitos autorais europeias e restrições de redistribuição de dados. Alguns dados de treinamento podem precisar ser mantidos confidenciais, mas disponíveis para auditoria conforme a Lei de IA da UE.
Sobreposição com Projetos Existentes
O lançamento do OpenEuroLLM foi comparado ao EuroLLM, lançado recentemente, que compartilha metas semelhantes e também é co-financiado pela UE. O EuroLLM, que lançou seu primeiro modelo em setembro e um segundo em dezembro, gerou preocupações sobre redundância e a necessidade de colaboração em vez de competição. Andre Martins, chefe de pesquisa da Unbabel, destacou essas semelhanças nas redes sociais, pedindo uma colaboração aberta entre as diferentes comunidades.
Hajič reconheceu a sobreposição infeliz, mas expressou esperança por cooperação, observando que as restrições de financiamento do OpenEuroLLM limitam colaborações com entidades não pertencentes à UE, incluindo universidades do Reino Unido.
Financiamento e Expectativas
A emergência do DeepSeek da China, com sua promissora relação custo-desempenho, levantou questões sobre os verdadeiros custos de construção de modelos de IA. Peter Sarlin, co-líder técnico do OpenEuroLLM, observou a falta de informações detalhadas sobre o desenvolvimento do DeepSeek, mas permanece confiante no financiamento do OpenEuroLLM, que cobre principalmente os custos de pessoal. As despesas de computação devem ser cobertas pelos centros EuroHPC.
Sarlin enfatizou que o OpenEuroLLM não tem como objetivo criar um produto para consumidores ou empresas, mas sim fornecer um modelo de fundação de código aberto como infraestrutura de IA para empresas europeias. Ele acredita que o orçamento alocado é suficiente para esse propósito, baseando-se em sua experiência com a Silo AI, que já desenvolveu modelos que suportam várias línguas europeias e está se preparando para lançar os modelos "Europa" cobrindo todas as línguas europeias.
Soberania Digital e Colaboração
Apesar dos desafios e críticas, Hajič permanece otimista sobre o potencial de projetos colaborativos como o OpenEuroLLM. Ele acredita que combinar a expertise acadêmica com o foco corporativo pode levar a resultados inovadores. O objetivo final não é competir com grandes empresas de tecnologia ou startups de IA de bilhões de dólares, mas fortalecer a soberania digital da Europa, desenvolvendo LLMs de fundação construídos por e para a Europa.
Mesmo que o OpenEuroLLM não produza o modelo de melhor desempenho, Hajič vê valor em ter um modelo "bom" que seja inteiramente baseado na Europa, contribuindo positivamente para a autonomia tecnológica do continente.
Modo para adultos do ChatGPT é adiado novamente; Ultraman: priorize a inteligência em primeiro lugar
OpenAI adia novamente recurso polêmico e se concentra na personalização e na interação proativaA questão de saber se “conteúdo impróprio” deve fazer parte de uma ferramenta de IA produtiva há muito te
A Baidu Health testa internamente o DoctorClaw, um assistente médico baseado em IA, para pesquisa acadêmica e assistência administrativa a curto prazo
A Baidu Health teria iniciado testes internos de um assistente inteligente com IA profissional, projetado para médicos. Conhecido internamente como “DoctorClaw” (a versão “Lobster Doctor”), esse produ
Cursor Composer 2 x Claude Opus 4.6: Teste de desempenho reacende o debate sobre programação com IA
Em 19 de março, a Cursor lançou oficialmente seu modelo de programação desenvolvido internamente, o Composer 2. O anúncio gerou discussão imediata na comunidade de desenvolvedores – segundo a Cursor,
A bold plan, but the practicality worries me. Training LLMs for dozens of languages with nuanced cultural contexts sounds massively resource-intensive. Can this truly compete with existing centralized models, or will it be more of a symbolic sovereignty project?
Iniciativa bacana, mas será que a Europa vai conseguir acompanhar o ritmo de IA quando o foco é espalhar os recursos por tantos idiomas? 🤔 Pode ficar defasado antes de ficar pronto...
欧洲在AI基础设施上的自主布局确实明智,开源大语言模型能降低对单一技术供应商的依赖,不过资金和人才招募可能会是现实挑战。希望这个OpenEuroLLM项目能真正考虑小语种使用者的需求,而不仅仅是英法德这些主流语言 🌍
¡Vaya, esto sí es interesante! Un modelo de IA europeo y de código abierto... ¿Será la respuesta a la dependencia tecnológica que tenemos con EE.UU. y China? Me pregunto si realmente tendrá la misma potencia que los modelos cerrados de las grandes empresas. 🤔 Si logran cubrir todos los idiomas de la UE, sería un logro enorme para la diversidad cultural digital. ¡Ojalá vaya más allá de lo político y tenga un impacto real! 😊





Lar






