LLM de código abierto incluidas en la hoja de ruta de soberanía digital de Europa

La semana pasada, la agenda de soberanía digital de Europa recibió un impulso significativo con el anuncio de una nueva iniciativa destinada a desarrollar una serie de modelos de lenguaje de gran escala (LLMs) completamente de código abierto que abarquen todos los idiomas de la Unión Europea. Este ambicioso proyecto, denominado OpenEuroLLM, no solo se centra en los 24 idiomas oficiales de la UE, sino que también se extiende a idiomas de países que negocian su entrada en la UE, como Albania, enfatizando la preparación para el futuro.
OpenEuroLLM es un esfuerzo colaborativo que involucra a unas 20 organizaciones, co-liderado por Jan Hajič, un lingüista computacional de la Universidad Charles en Praga, y Peter Sarlin, el CEO y cofundador del laboratorio de IA finlandés Silo AI, que fue adquirido por AMD por 665 millones de dólares el año pasado. Esta iniciativa se alinea con el impulso más amplio de Europa hacia la soberanía digital, buscando mantener la infraestructura y herramientas críticas dentro del continente. Este movimiento refleja las acciones de los principales proveedores de nube y empresas de IA como OpenAI, que han estado invirtiendo en infraestructura local para asegurar que los datos de la UE permanezcan en suelo europeo.
Además, la UE ha firmado recientemente un acuerdo de 11 mil millones de dólares para establecer una constelación de satélites soberana, posicionándose como competidor de Starlink de Elon Musk. OpenEuroLLM encaja perfectamente en esta narrativa, enfocándose en mantener la autonomía tecnológica de Europa.
Financiación y Desafíos
A pesar de sus ambiciosos objetivos, el presupuesto asignado para desarrollar los modelos es de 37.4 millones de euros, con aproximadamente 20 millones provenientes del Programa Digital Europe de la UE. Esta cantidad palidece en comparación con las inversiones realizadas por gigantes corporativos de IA, aunque el presupuesto total aumenta al considerar la financiación para trabajos relacionados. Una parte significativa del gasto es la potencia de cómputo, con OpenEuroLLM asociándose con centros de supercomputación EuroHPC en España, Italia, Finlandia y los Países Bajos, que forman parte de un proyecto EuroHPC más amplio de 7 mil millones de euros.
El grupo diverso de participantes, que abarca desde la academia hasta corporaciones, plantea preguntas sobre la viabilidad del proyecto. Anastasia Stasenko, cofundadora de la empresa de LLM Pleias, expresó escepticismo sobre la efectividad de un consorcio tan grande en comparación con firmas de IA privadas más ágiles y enfocadas como Mistral AI y LightOn. Estos equipos más pequeños, argumenta, tienen una responsabilidad más directa y pueden reaccionar más rápidamente a los desafíos.
¿Construir desde cero o aprovechar el trabajo existente?
El punto de partida de OpenEuroLLM es algo ambiguo. Desde 2022, Jan Hajič ha estado coordinando el proyecto de Tecnologías de Lenguaje de Alto Rendimiento (HPLT), que se centra en desarrollar conjuntos de datos, modelos y flujos de trabajo gratuitos y reutilizables utilizando computación de alto rendimiento. Este proyecto, que finalizará a finales de 2025, comparte muchos socios con OpenEuroLLM, excluyendo a aquellos del Reino Unido.
Hajič considera a HPLT como un precursor de OpenEuroLLM, señalando que proporciona una base sólida en datos, experiencia, herramientas y experiencia en computación. Anticipa lanzar las primeras versiones de OpenEuroLLM a mediados de 2026, con las versiones finales esperadas para la conclusión del proyecto en 2028. Sin embargo, el perfil de GitHub del proyecto permanece escaso, indicando un inicio desde cero en algunos aspectos. Hajič mencionó que el proyecto comenzó oficialmente el 1 de febrero de 2024, tras un año de preparación.
El consorcio OpenEuroLLM incluye organizaciones de Chequia, los Países Bajos, Alemania, Suecia, Finlandia y Noruega, junto con entidades corporativas como Silo AI, Aleph Alpha, Ellamind, Prompsit Language Engineering y LightOn. Notablemente ausente está Mistral, un unicornio de IA francés, a pesar de los intentos de Hajič por involucrarlos en discusiones.
Objetivos y Entregables
El objetivo principal del proyecto es crear una serie de modelos fundacionales para una IA transparente en Europa, preservando la diversidad lingüística y cultural de todos los idiomas de la UE, tanto actuales como futuros. Los entregables aún están siendo finalizados, pero se espera que incluyan un LLM multilingüe central para tareas de propósito general y versiones más pequeñas y cuantizadas para aplicaciones en el borde donde la eficiencia es clave.
Hajič enfatizó la importancia de la calidad, afirmando que el proyecto busca evitar lanzar soluciones a medio hacer, dado el alto riesgo y la financiación pública involucrada. Lograr una competencia igual en todos los idiomas, especialmente en aquellos con recursos digitales limitados, sigue siendo un desafío. El proyecto planea usar puntos de referencia que representen con precisión estos idiomas y culturas.
Los datos del proyecto HPLT, incluido un conjunto de datos de 4.5 petabytes de rastreos web y más de 20 mil millones de documentos, serán utilizados, complementados con datos de Common Crawl.
Dilemas de Código Abierto
El debate sobre qué constituye "código abierto" en IA continúa. La Iniciativa de Código Abierto (OSI) ha definido "IA de código abierto", pero algunos argumentan que debería incluir no solo modelos, sino también conjuntos de datos, modelos preentrenados y pesos. OpenEuroLLM busca ser "verdaderamente abierto", pero Hajič reconoce posibles limitaciones debido a las leyes de derechos de autor europeas y restricciones de redistribución de datos. Algunos datos de entrenamiento podrían necesitar mantenerse confidenciales pero disponibles para auditoría según la Ley de IA de la UE.
Superposición con Proyectos Existentes
El lanzamiento de OpenEuroLLM ha generado comparaciones con el recientemente lanzado EuroLLM, que comparte objetivos similares y también está cofinanciado por la UE. EuroLLM, que lanzó su primer modelo en septiembre y un seguimiento en diciembre, ha generado preocupaciones sobre redundancia y la necesidad de colaboración en lugar de competencia. Andre Martins, jefe de investigación en Unbabel, destacó estas similitudes en redes sociales, instando a una colaboración abierta entre las diferentes comunidades.
Hajič reconoció la superposición desafortunada pero expresó esperanza en la cooperación, señalando que las restricciones de financiación de OpenEuroLLM limitan las colaboraciones con entidades no pertenecientes a la UE, incluidas las universidades del Reino Unido.
Financiación y Expectativas
El surgimiento de DeepSeek de China, con su prometedora relación costo-rendimiento, ha planteado preguntas sobre los verdaderos costos de construir modelos de IA. Peter Sarlin, colíder técnico de OpenEuroLLM, señaló la falta de información detallada sobre el desarrollo de DeepSeek, pero sigue confiado en la financiación de OpenEuroLLM, que cubre principalmente los costos de personal. Se espera que los gastos de cómputo sean cubiertos por los centros EuroHPC.
Sarlin enfatizó que OpenEuroLLM no busca crear un producto para consumidores o empresas, sino proporcionar un modelo fundacional de código abierto como infraestructura de IA para empresas europeas. Cree que el presupuesto asignado es suficiente para este propósito, basándose en su experiencia con Silo AI, que ya ha desarrollado modelos que soportan varios idiomas europeos y se prepara para lanzar los modelos "Europa" que cubrirán todos los idiomas europeos.
Soberanía Digital y Colaboración
A pesar de los desafíos y críticas, Hajič sigue siendo optimista sobre el potencial de proyectos colaborativos como OpenEuroLLM. Cree que combinar la experiencia académica con el enfoque corporativo podría llevar a resultados innovadores. El objetivo final no es competir con Big Tech o startups de IA de mil millones de dólares, sino mejorar la soberanía digital de Europa mediante el desarrollo de LLMs fundacionales construidos por y para Europa.
Incluso si OpenEuroLLM no produce el modelo de mayor rendimiento, Hajič ve valor en tener un modelo "bueno" que esté completamente basado en Europa, contribuyendo positivamente a la autonomía tecnológica del continente.
Artículo relacionado
Creación de Música con IA: Crea Canciones y Videos sin Esfuerzo
La creación de música puede ser compleja, requiriendo tiempo, recursos y experiencia. La inteligencia artificial ha transformado este proceso, haciéndolo simple y accesible. Esta guía destaca cómo la
Creación de Libros para Colorear Impulsados por IA: Una Guía Completa
Diseñar libros para colorear es una actividad gratificante que combina la expresión artística con experiencias relajantes para los usuarios. Sin embargo, el proceso puede ser intensivo en trabajo. Afo
Qodo se asocia con Google Cloud para ofrecer herramientas gratuitas de revisión de código de IA para desarrolladores
Qodo, una startup de codificación de IA con sede en Israel enfocada en la calidad del código, ha iniciado una asociación con Google Cloud para mejorar la integridad del software generado por IA.A medi
comentario (18)
0/200
StevenMartin
16 de agosto de 2025 19:00:59 GMT+02:00
Wow, OpenEuroLLM sounds like a game-changer for Europe's tech scene! Building LLMs for all EU languages is ambitious—imagine the boost for local AI startups. But can they keep up with the big players like OpenAI? 🤔
0
PaulHill
7 de agosto de 2025 20:01:06 GMT+02:00
Super cool to see Europe pushing for open-source LLMs! Can't wait to see how OpenEuroLLM handles all those languages. 🌍
0
ElijahCollins
23 de julio de 2025 06:59:29 GMT+02:00
Wow, OpenEuroLLM sounds like a game-changer for Europe’s tech scene! Building open-source LLMs for all EU languages is ambitious—imagine the possibilities for local businesses and multilingual AI apps. But I wonder, will they keep up with the pace of global AI giants? 🤔
0
PeterYoung
22 de abril de 2025 05:11:01 GMT+02:00
OpenEuroLLM sounds like a game-changer for Europe! Finally, we're getting open-source LLMs that cover all EU languages. It's about time we took control of our digital future. Can't wait to see how this develops! 🚀
0
CharlesThomas
22 de abril de 2025 02:18:24 GMT+02:00
オープンソースのLLMがEU全言語に対応するなんて素晴らしい!これでデジタルの未来を自分たちでコントロールできるようになるね。どう発展していくか楽しみだよ!🌟
0
MatthewGonzalez
22 de abril de 2025 02:16:04 GMT+02:00
OpenEuroLLM parece ser uma grande mudança para a Europa! Finalmente, LLMs de código aberto que cobrem todos os idiomas da UE. Está na hora de assumirmos o controle do nosso futuro digital. Mal posso esperar para ver como isso vai se desenvolver! 🚀
0
La semana pasada, la agenda de soberanía digital de Europa recibió un impulso significativo con el anuncio de una nueva iniciativa destinada a desarrollar una serie de modelos de lenguaje de gran escala (LLMs) completamente de código abierto que abarquen todos los idiomas de la Unión Europea. Este ambicioso proyecto, denominado OpenEuroLLM, no solo se centra en los 24 idiomas oficiales de la UE, sino que también se extiende a idiomas de países que negocian su entrada en la UE, como Albania, enfatizando la preparación para el futuro.
OpenEuroLLM es un esfuerzo colaborativo que involucra a unas 20 organizaciones, co-liderado por Jan Hajič, un lingüista computacional de la Universidad Charles en Praga, y Peter Sarlin, el CEO y cofundador del laboratorio de IA finlandés Silo AI, que fue adquirido por AMD por 665 millones de dólares el año pasado. Esta iniciativa se alinea con el impulso más amplio de Europa hacia la soberanía digital, buscando mantener la infraestructura y herramientas críticas dentro del continente. Este movimiento refleja las acciones de los principales proveedores de nube y empresas de IA como OpenAI, que han estado invirtiendo en infraestructura local para asegurar que los datos de la UE permanezcan en suelo europeo.
Además, la UE ha firmado recientemente un acuerdo de 11 mil millones de dólares para establecer una constelación de satélites soberana, posicionándose como competidor de Starlink de Elon Musk. OpenEuroLLM encaja perfectamente en esta narrativa, enfocándose en mantener la autonomía tecnológica de Europa.
Financiación y Desafíos
A pesar de sus ambiciosos objetivos, el presupuesto asignado para desarrollar los modelos es de 37.4 millones de euros, con aproximadamente 20 millones provenientes del Programa Digital Europe de la UE. Esta cantidad palidece en comparación con las inversiones realizadas por gigantes corporativos de IA, aunque el presupuesto total aumenta al considerar la financiación para trabajos relacionados. Una parte significativa del gasto es la potencia de cómputo, con OpenEuroLLM asociándose con centros de supercomputación EuroHPC en España, Italia, Finlandia y los Países Bajos, que forman parte de un proyecto EuroHPC más amplio de 7 mil millones de euros.
El grupo diverso de participantes, que abarca desde la academia hasta corporaciones, plantea preguntas sobre la viabilidad del proyecto. Anastasia Stasenko, cofundadora de la empresa de LLM Pleias, expresó escepticismo sobre la efectividad de un consorcio tan grande en comparación con firmas de IA privadas más ágiles y enfocadas como Mistral AI y LightOn. Estos equipos más pequeños, argumenta, tienen una responsabilidad más directa y pueden reaccionar más rápidamente a los desafíos.
¿Construir desde cero o aprovechar el trabajo existente?
El punto de partida de OpenEuroLLM es algo ambiguo. Desde 2022, Jan Hajič ha estado coordinando el proyecto de Tecnologías de Lenguaje de Alto Rendimiento (HPLT), que se centra en desarrollar conjuntos de datos, modelos y flujos de trabajo gratuitos y reutilizables utilizando computación de alto rendimiento. Este proyecto, que finalizará a finales de 2025, comparte muchos socios con OpenEuroLLM, excluyendo a aquellos del Reino Unido.
Hajič considera a HPLT como un precursor de OpenEuroLLM, señalando que proporciona una base sólida en datos, experiencia, herramientas y experiencia en computación. Anticipa lanzar las primeras versiones de OpenEuroLLM a mediados de 2026, con las versiones finales esperadas para la conclusión del proyecto en 2028. Sin embargo, el perfil de GitHub del proyecto permanece escaso, indicando un inicio desde cero en algunos aspectos. Hajič mencionó que el proyecto comenzó oficialmente el 1 de febrero de 2024, tras un año de preparación.
El consorcio OpenEuroLLM incluye organizaciones de Chequia, los Países Bajos, Alemania, Suecia, Finlandia y Noruega, junto con entidades corporativas como Silo AI, Aleph Alpha, Ellamind, Prompsit Language Engineering y LightOn. Notablemente ausente está Mistral, un unicornio de IA francés, a pesar de los intentos de Hajič por involucrarlos en discusiones.
Objetivos y Entregables
El objetivo principal del proyecto es crear una serie de modelos fundacionales para una IA transparente en Europa, preservando la diversidad lingüística y cultural de todos los idiomas de la UE, tanto actuales como futuros. Los entregables aún están siendo finalizados, pero se espera que incluyan un LLM multilingüe central para tareas de propósito general y versiones más pequeñas y cuantizadas para aplicaciones en el borde donde la eficiencia es clave.
Hajič enfatizó la importancia de la calidad, afirmando que el proyecto busca evitar lanzar soluciones a medio hacer, dado el alto riesgo y la financiación pública involucrada. Lograr una competencia igual en todos los idiomas, especialmente en aquellos con recursos digitales limitados, sigue siendo un desafío. El proyecto planea usar puntos de referencia que representen con precisión estos idiomas y culturas.
Los datos del proyecto HPLT, incluido un conjunto de datos de 4.5 petabytes de rastreos web y más de 20 mil millones de documentos, serán utilizados, complementados con datos de Common Crawl.
Dilemas de Código Abierto
El debate sobre qué constituye "código abierto" en IA continúa. La Iniciativa de Código Abierto (OSI) ha definido "IA de código abierto", pero algunos argumentan que debería incluir no solo modelos, sino también conjuntos de datos, modelos preentrenados y pesos. OpenEuroLLM busca ser "verdaderamente abierto", pero Hajič reconoce posibles limitaciones debido a las leyes de derechos de autor europeas y restricciones de redistribución de datos. Algunos datos de entrenamiento podrían necesitar mantenerse confidenciales pero disponibles para auditoría según la Ley de IA de la UE.
Superposición con Proyectos Existentes
El lanzamiento de OpenEuroLLM ha generado comparaciones con el recientemente lanzado EuroLLM, que comparte objetivos similares y también está cofinanciado por la UE. EuroLLM, que lanzó su primer modelo en septiembre y un seguimiento en diciembre, ha generado preocupaciones sobre redundancia y la necesidad de colaboración en lugar de competencia. Andre Martins, jefe de investigación en Unbabel, destacó estas similitudes en redes sociales, instando a una colaboración abierta entre las diferentes comunidades.
Hajič reconoció la superposición desafortunada pero expresó esperanza en la cooperación, señalando que las restricciones de financiación de OpenEuroLLM limitan las colaboraciones con entidades no pertenecientes a la UE, incluidas las universidades del Reino Unido.
Financiación y Expectativas
El surgimiento de DeepSeek de China, con su prometedora relación costo-rendimiento, ha planteado preguntas sobre los verdaderos costos de construir modelos de IA. Peter Sarlin, colíder técnico de OpenEuroLLM, señaló la falta de información detallada sobre el desarrollo de DeepSeek, pero sigue confiado en la financiación de OpenEuroLLM, que cubre principalmente los costos de personal. Se espera que los gastos de cómputo sean cubiertos por los centros EuroHPC.
Sarlin enfatizó que OpenEuroLLM no busca crear un producto para consumidores o empresas, sino proporcionar un modelo fundacional de código abierto como infraestructura de IA para empresas europeas. Cree que el presupuesto asignado es suficiente para este propósito, basándose en su experiencia con Silo AI, que ya ha desarrollado modelos que soportan varios idiomas europeos y se prepara para lanzar los modelos "Europa" que cubrirán todos los idiomas europeos.
Soberanía Digital y Colaboración
A pesar de los desafíos y críticas, Hajič sigue siendo optimista sobre el potencial de proyectos colaborativos como OpenEuroLLM. Cree que combinar la experiencia académica con el enfoque corporativo podría llevar a resultados innovadores. El objetivo final no es competir con Big Tech o startups de IA de mil millones de dólares, sino mejorar la soberanía digital de Europa mediante el desarrollo de LLMs fundacionales construidos por y para Europa.
Incluso si OpenEuroLLM no produce el modelo de mayor rendimiento, Hajič ve valor en tener un modelo "bueno" que esté completamente basado en Europa, contribuyendo positivamente a la autonomía tecnológica del continente.




Wow, OpenEuroLLM sounds like a game-changer for Europe's tech scene! Building LLMs for all EU languages is ambitious—imagine the boost for local AI startups. But can they keep up with the big players like OpenAI? 🤔




Super cool to see Europe pushing for open-source LLMs! Can't wait to see how OpenEuroLLM handles all those languages. 🌍




Wow, OpenEuroLLM sounds like a game-changer for Europe’s tech scene! Building open-source LLMs for all EU languages is ambitious—imagine the possibilities for local businesses and multilingual AI apps. But I wonder, will they keep up with the pace of global AI giants? 🤔




OpenEuroLLM sounds like a game-changer for Europe! Finally, we're getting open-source LLMs that cover all EU languages. It's about time we took control of our digital future. Can't wait to see how this develops! 🚀




オープンソースのLLMがEU全言語に対応するなんて素晴らしい!これでデジタルの未来を自分たちでコントロールできるようになるね。どう発展していくか楽しみだよ!🌟




OpenEuroLLM parece ser uma grande mudança para a Europa! Finalmente, LLMs de código aberto que cobrem todos os idiomas da UE. Está na hora de assumirmos o controle do nosso futuro digital. Mal posso esperar para ver como isso vai se desenvolver! 🚀












