LLM de código abierto incluidas en la hoja de ruta de soberanía digital de Europa

La semana pasada, la agenda de soberanía digital de Europa recibió un impulso significativo con el anuncio de una nueva iniciativa destinada a desarrollar una serie de modelos de lenguaje de gran escala (LLMs) completamente de código abierto que abarquen todos los idiomas de la Unión Europea. Este ambicioso proyecto, denominado OpenEuroLLM, no solo se centra en los 24 idiomas oficiales de la UE, sino que también se extiende a idiomas de países que negocian su entrada en la UE, como Albania, enfatizando la preparación para el futuro.
OpenEuroLLM es un esfuerzo colaborativo que involucra a unas 20 organizaciones, co-liderado por Jan Hajič, un lingüista computacional de la Universidad Charles en Praga, y Peter Sarlin, el CEO y cofundador del laboratorio de IA finlandés Silo AI, que fue adquirido por AMD por 665 millones de dólares el año pasado. Esta iniciativa se alinea con el impulso más amplio de Europa hacia la soberanía digital, buscando mantener la infraestructura y herramientas críticas dentro del continente. Este movimiento refleja las acciones de los principales proveedores de nube y empresas de IA como OpenAI, que han estado invirtiendo en infraestructura local para asegurar que los datos de la UE permanezcan en suelo europeo.
Además, la UE ha firmado recientemente un acuerdo de 11 mil millones de dólares para establecer una constelación de satélites soberana, posicionándose como competidor de Starlink de Elon Musk. OpenEuroLLM encaja perfectamente en esta narrativa, enfocándose en mantener la autonomía tecnológica de Europa.
Financiación y Desafíos
A pesar de sus ambiciosos objetivos, el presupuesto asignado para desarrollar los modelos es de 37.4 millones de euros, con aproximadamente 20 millones provenientes del Programa Digital Europe de la UE. Esta cantidad palidece en comparación con las inversiones realizadas por gigantes corporativos de IA, aunque el presupuesto total aumenta al considerar la financiación para trabajos relacionados. Una parte significativa del gasto es la potencia de cómputo, con OpenEuroLLM asociándose con centros de supercomputación EuroHPC en España, Italia, Finlandia y los Países Bajos, que forman parte de un proyecto EuroHPC más amplio de 7 mil millones de euros.
El grupo diverso de participantes, que abarca desde la academia hasta corporaciones, plantea preguntas sobre la viabilidad del proyecto. Anastasia Stasenko, cofundadora de la empresa de LLM Pleias, expresó escepticismo sobre la efectividad de un consorcio tan grande en comparación con firmas de IA privadas más ágiles y enfocadas como Mistral AI y LightOn. Estos equipos más pequeños, argumenta, tienen una responsabilidad más directa y pueden reaccionar más rápidamente a los desafíos.
¿Construir desde cero o aprovechar el trabajo existente?
El punto de partida de OpenEuroLLM es algo ambiguo. Desde 2022, Jan Hajič ha estado coordinando el proyecto de Tecnologías de Lenguaje de Alto Rendimiento (HPLT), que se centra en desarrollar conjuntos de datos, modelos y flujos de trabajo gratuitos y reutilizables utilizando computación de alto rendimiento. Este proyecto, que finalizará a finales de 2025, comparte muchos socios con OpenEuroLLM, excluyendo a aquellos del Reino Unido.
Hajič considera a HPLT como un precursor de OpenEuroLLM, señalando que proporciona una base sólida en datos, experiencia, herramientas y experiencia en computación. Anticipa lanzar las primeras versiones de OpenEuroLLM a mediados de 2026, con las versiones finales esperadas para la conclusión del proyecto en 2028. Sin embargo, el perfil de GitHub del proyecto permanece escaso, indicando un inicio desde cero en algunos aspectos. Hajič mencionó que el proyecto comenzó oficialmente el 1 de febrero de 2024, tras un año de preparación.
El consorcio OpenEuroLLM incluye organizaciones de Chequia, los Países Bajos, Alemania, Suecia, Finlandia y Noruega, junto con entidades corporativas como Silo AI, Aleph Alpha, Ellamind, Prompsit Language Engineering y LightOn. Notablemente ausente está Mistral, un unicornio de IA francés, a pesar de los intentos de Hajič por involucrarlos en discusiones.
Objetivos y Entregables
El objetivo principal del proyecto es crear una serie de modelos fundacionales para una IA transparente en Europa, preservando la diversidad lingüística y cultural de todos los idiomas de la UE, tanto actuales como futuros. Los entregables aún están siendo finalizados, pero se espera que incluyan un LLM multilingüe central para tareas de propósito general y versiones más pequeñas y cuantizadas para aplicaciones en el borde donde la eficiencia es clave.
Hajič enfatizó la importancia de la calidad, afirmando que el proyecto busca evitar lanzar soluciones a medio hacer, dado el alto riesgo y la financiación pública involucrada. Lograr una competencia igual en todos los idiomas, especialmente en aquellos con recursos digitales limitados, sigue siendo un desafío. El proyecto planea usar puntos de referencia que representen con precisión estos idiomas y culturas.
Los datos del proyecto HPLT, incluido un conjunto de datos de 4.5 petabytes de rastreos web y más de 20 mil millones de documentos, serán utilizados, complementados con datos de Common Crawl.
Dilemas de Código Abierto
El debate sobre qué constituye "código abierto" en IA continúa. La Iniciativa de Código Abierto (OSI) ha definido "IA de código abierto", pero algunos argumentan que debería incluir no solo modelos, sino también conjuntos de datos, modelos preentrenados y pesos. OpenEuroLLM busca ser "verdaderamente abierto", pero Hajič reconoce posibles limitaciones debido a las leyes de derechos de autor europeas y restricciones de redistribución de datos. Algunos datos de entrenamiento podrían necesitar mantenerse confidenciales pero disponibles para auditoría según la Ley de IA de la UE.
Superposición con Proyectos Existentes
El lanzamiento de OpenEuroLLM ha generado comparaciones con el recientemente lanzado EuroLLM, que comparte objetivos similares y también está cofinanciado por la UE. EuroLLM, que lanzó su primer modelo en septiembre y un seguimiento en diciembre, ha generado preocupaciones sobre redundancia y la necesidad de colaboración en lugar de competencia. Andre Martins, jefe de investigación en Unbabel, destacó estas similitudes en redes sociales, instando a una colaboración abierta entre las diferentes comunidades.
Hajič reconoció la superposición desafortunada pero expresó esperanza en la cooperación, señalando que las restricciones de financiación de OpenEuroLLM limitan las colaboraciones con entidades no pertenecientes a la UE, incluidas las universidades del Reino Unido.
Financiación y Expectativas
El surgimiento de DeepSeek de China, con su prometedora relación costo-rendimiento, ha planteado preguntas sobre los verdaderos costos de construir modelos de IA. Peter Sarlin, colíder técnico de OpenEuroLLM, señaló la falta de información detallada sobre el desarrollo de DeepSeek, pero sigue confiado en la financiación de OpenEuroLLM, que cubre principalmente los costos de personal. Se espera que los gastos de cómputo sean cubiertos por los centros EuroHPC.
Sarlin enfatizó que OpenEuroLLM no busca crear un producto para consumidores o empresas, sino proporcionar un modelo fundacional de código abierto como infraestructura de IA para empresas europeas. Cree que el presupuesto asignado es suficiente para este propósito, basándose en su experiencia con Silo AI, que ya ha desarrollado modelos que soportan varios idiomas europeos y se prepara para lanzar los modelos "Europa" que cubrirán todos los idiomas europeos.
Soberanía Digital y Colaboración
A pesar de los desafíos y críticas, Hajič sigue siendo optimista sobre el potencial de proyectos colaborativos como OpenEuroLLM. Cree que combinar la experiencia académica con el enfoque corporativo podría llevar a resultados innovadores. El objetivo final no es competir con Big Tech o startups de IA de mil millones de dólares, sino mejorar la soberanía digital de Europa mediante el desarrollo de LLMs fundacionales construidos por y para Europa.
Incluso si OpenEuroLLM no produce el modelo de mayor rendimiento, Hajič ve valor en tener un modelo "bueno" que esté completamente basado en Europa, contribuyendo positivamente a la autonomía tecnológica del continente.
Artículo relacionado
El modo para adultos de ChatGPT se retrasa de nuevo; Ultraman: la inteligencia es lo primero
OpenAI vuelve a retrasar una función controvertida y se centra en la personalización y la interacción proactivaLa cuestión de si el «contenido inapropiado» debe formar parte de una herramienta de IA p
Baidu Health prueba internamente el asistente médico basado en IA «DoctorClaw» para la búsqueda de información académica y la asistencia administrativa a corto plazo
Según se ha informado, Baidu Health ha iniciado las pruebas internas de un asistente inteligente con IA profesional diseñado para médicos. Conocido internamente como «DoctorClaw» (la versión «Lobster
Cursor Composer 2 frente a Claude Opus 4.6: una prueba de rendimiento reaviva el debate sobre la programación con IA
El 19 de marzo, Cursor lanzó oficialmente su modelo de programación propio, Composer 2. El anuncio desató un debate inmediato en la comunidad de desarrolladores: según Cursor, Composer 2 obtuvo una pu
Recomendaciones de temas especiales relacionados
comentario (23)
0/500
A bold plan, but the practicality worries me. Training LLMs for dozens of languages with nuanced cultural contexts sounds massively resource-intensive. Can this truly compete with existing centralized models, or will it be more of a symbolic sovereignty project?
Iniciativa bacana, mas será que a Europa vai conseguir acompanhar o ritmo de IA quando o foco é espalhar os recursos por tantos idiomas? 🤔 Pode ficar defasado antes de ficar pronto...
欧洲在AI基础设施上的自主布局确实明智,开源大语言模型能降低对单一技术供应商的依赖,不过资金和人才招募可能会是现实挑战。希望这个OpenEuroLLM项目能真正考虑小语种使用者的需求,而不仅仅是英法德这些主流语言 🌍
¡Vaya, esto sí es interesante! Un modelo de IA europeo y de código abierto... ¿Será la respuesta a la dependencia tecnológica que tenemos con EE.UU. y China? Me pregunto si realmente tendrá la misma potencia que los modelos cerrados de las grandes empresas. 🤔 Si logran cubrir todos los idiomas de la UE, sería un logro enorme para la diversidad cultural digital. ¡Ojalá vaya más allá de lo político y tenga un impacto real! 😊

La semana pasada, la agenda de soberanía digital de Europa recibió un impulso significativo con el anuncio de una nueva iniciativa destinada a desarrollar una serie de modelos de lenguaje de gran escala (LLMs) completamente de código abierto que abarquen todos los idiomas de la Unión Europea. Este ambicioso proyecto, denominado OpenEuroLLM, no solo se centra en los 24 idiomas oficiales de la UE, sino que también se extiende a idiomas de países que negocian su entrada en la UE, como Albania, enfatizando la preparación para el futuro.
OpenEuroLLM es un esfuerzo colaborativo que involucra a unas 20 organizaciones, co-liderado por Jan Hajič, un lingüista computacional de la Universidad Charles en Praga, y Peter Sarlin, el CEO y cofundador del laboratorio de IA finlandés Silo AI, que fue adquirido por AMD por 665 millones de dólares el año pasado. Esta iniciativa se alinea con el impulso más amplio de Europa hacia la soberanía digital, buscando mantener la infraestructura y herramientas críticas dentro del continente. Este movimiento refleja las acciones de los principales proveedores de nube y empresas de IA como OpenAI, que han estado invirtiendo en infraestructura local para asegurar que los datos de la UE permanezcan en suelo europeo.
Además, la UE ha firmado recientemente un acuerdo de 11 mil millones de dólares para establecer una constelación de satélites soberana, posicionándose como competidor de Starlink de Elon Musk. OpenEuroLLM encaja perfectamente en esta narrativa, enfocándose en mantener la autonomía tecnológica de Europa.
Financiación y Desafíos
A pesar de sus ambiciosos objetivos, el presupuesto asignado para desarrollar los modelos es de 37.4 millones de euros, con aproximadamente 20 millones provenientes del Programa Digital Europe de la UE. Esta cantidad palidece en comparación con las inversiones realizadas por gigantes corporativos de IA, aunque el presupuesto total aumenta al considerar la financiación para trabajos relacionados. Una parte significativa del gasto es la potencia de cómputo, con OpenEuroLLM asociándose con centros de supercomputación EuroHPC en España, Italia, Finlandia y los Países Bajos, que forman parte de un proyecto EuroHPC más amplio de 7 mil millones de euros.
El grupo diverso de participantes, que abarca desde la academia hasta corporaciones, plantea preguntas sobre la viabilidad del proyecto. Anastasia Stasenko, cofundadora de la empresa de LLM Pleias, expresó escepticismo sobre la efectividad de un consorcio tan grande en comparación con firmas de IA privadas más ágiles y enfocadas como Mistral AI y LightOn. Estos equipos más pequeños, argumenta, tienen una responsabilidad más directa y pueden reaccionar más rápidamente a los desafíos.
¿Construir desde cero o aprovechar el trabajo existente?
El punto de partida de OpenEuroLLM es algo ambiguo. Desde 2022, Jan Hajič ha estado coordinando el proyecto de Tecnologías de Lenguaje de Alto Rendimiento (HPLT), que se centra en desarrollar conjuntos de datos, modelos y flujos de trabajo gratuitos y reutilizables utilizando computación de alto rendimiento. Este proyecto, que finalizará a finales de 2025, comparte muchos socios con OpenEuroLLM, excluyendo a aquellos del Reino Unido.
Hajič considera a HPLT como un precursor de OpenEuroLLM, señalando que proporciona una base sólida en datos, experiencia, herramientas y experiencia en computación. Anticipa lanzar las primeras versiones de OpenEuroLLM a mediados de 2026, con las versiones finales esperadas para la conclusión del proyecto en 2028. Sin embargo, el perfil de GitHub del proyecto permanece escaso, indicando un inicio desde cero en algunos aspectos. Hajič mencionó que el proyecto comenzó oficialmente el 1 de febrero de 2024, tras un año de preparación.
El consorcio OpenEuroLLM incluye organizaciones de Chequia, los Países Bajos, Alemania, Suecia, Finlandia y Noruega, junto con entidades corporativas como Silo AI, Aleph Alpha, Ellamind, Prompsit Language Engineering y LightOn. Notablemente ausente está Mistral, un unicornio de IA francés, a pesar de los intentos de Hajič por involucrarlos en discusiones.
Objetivos y Entregables
El objetivo principal del proyecto es crear una serie de modelos fundacionales para una IA transparente en Europa, preservando la diversidad lingüística y cultural de todos los idiomas de la UE, tanto actuales como futuros. Los entregables aún están siendo finalizados, pero se espera que incluyan un LLM multilingüe central para tareas de propósito general y versiones más pequeñas y cuantizadas para aplicaciones en el borde donde la eficiencia es clave.
Hajič enfatizó la importancia de la calidad, afirmando que el proyecto busca evitar lanzar soluciones a medio hacer, dado el alto riesgo y la financiación pública involucrada. Lograr una competencia igual en todos los idiomas, especialmente en aquellos con recursos digitales limitados, sigue siendo un desafío. El proyecto planea usar puntos de referencia que representen con precisión estos idiomas y culturas.
Los datos del proyecto HPLT, incluido un conjunto de datos de 4.5 petabytes de rastreos web y más de 20 mil millones de documentos, serán utilizados, complementados con datos de Common Crawl.
Dilemas de Código Abierto
El debate sobre qué constituye "código abierto" en IA continúa. La Iniciativa de Código Abierto (OSI) ha definido "IA de código abierto", pero algunos argumentan que debería incluir no solo modelos, sino también conjuntos de datos, modelos preentrenados y pesos. OpenEuroLLM busca ser "verdaderamente abierto", pero Hajič reconoce posibles limitaciones debido a las leyes de derechos de autor europeas y restricciones de redistribución de datos. Algunos datos de entrenamiento podrían necesitar mantenerse confidenciales pero disponibles para auditoría según la Ley de IA de la UE.
Superposición con Proyectos Existentes
El lanzamiento de OpenEuroLLM ha generado comparaciones con el recientemente lanzado EuroLLM, que comparte objetivos similares y también está cofinanciado por la UE. EuroLLM, que lanzó su primer modelo en septiembre y un seguimiento en diciembre, ha generado preocupaciones sobre redundancia y la necesidad de colaboración en lugar de competencia. Andre Martins, jefe de investigación en Unbabel, destacó estas similitudes en redes sociales, instando a una colaboración abierta entre las diferentes comunidades.
Hajič reconoció la superposición desafortunada pero expresó esperanza en la cooperación, señalando que las restricciones de financiación de OpenEuroLLM limitan las colaboraciones con entidades no pertenecientes a la UE, incluidas las universidades del Reino Unido.
Financiación y Expectativas
El surgimiento de DeepSeek de China, con su prometedora relación costo-rendimiento, ha planteado preguntas sobre los verdaderos costos de construir modelos de IA. Peter Sarlin, colíder técnico de OpenEuroLLM, señaló la falta de información detallada sobre el desarrollo de DeepSeek, pero sigue confiado en la financiación de OpenEuroLLM, que cubre principalmente los costos de personal. Se espera que los gastos de cómputo sean cubiertos por los centros EuroHPC.
Sarlin enfatizó que OpenEuroLLM no busca crear un producto para consumidores o empresas, sino proporcionar un modelo fundacional de código abierto como infraestructura de IA para empresas europeas. Cree que el presupuesto asignado es suficiente para este propósito, basándose en su experiencia con Silo AI, que ya ha desarrollado modelos que soportan varios idiomas europeos y se prepara para lanzar los modelos "Europa" que cubrirán todos los idiomas europeos.
Soberanía Digital y Colaboración
A pesar de los desafíos y críticas, Hajič sigue siendo optimista sobre el potencial de proyectos colaborativos como OpenEuroLLM. Cree que combinar la experiencia académica con el enfoque corporativo podría llevar a resultados innovadores. El objetivo final no es competir con Big Tech o startups de IA de mil millones de dólares, sino mejorar la soberanía digital de Europa mediante el desarrollo de LLMs fundacionales construidos por y para Europa.
Incluso si OpenEuroLLM no produce el modelo de mayor rendimiento, Hajič ve valor en tener un modelo "bueno" que esté completamente basado en Europa, contribuyendo positivamente a la autonomía tecnológica del continente.
El modo para adultos de ChatGPT se retrasa de nuevo; Ultraman: la inteligencia es lo primero
OpenAI vuelve a retrasar una función controvertida y se centra en la personalización y la interacción proactivaLa cuestión de si el «contenido inapropiado» debe formar parte de una herramienta de IA p
Baidu Health prueba internamente el asistente médico basado en IA «DoctorClaw» para la búsqueda de información académica y la asistencia administrativa a corto plazo
Según se ha informado, Baidu Health ha iniciado las pruebas internas de un asistente inteligente con IA profesional diseñado para médicos. Conocido internamente como «DoctorClaw» (la versión «Lobster
Cursor Composer 2 frente a Claude Opus 4.6: una prueba de rendimiento reaviva el debate sobre la programación con IA
El 19 de marzo, Cursor lanzó oficialmente su modelo de programación propio, Composer 2. El anuncio desató un debate inmediato en la comunidad de desarrolladores: según Cursor, Composer 2 obtuvo una pu
A bold plan, but the practicality worries me. Training LLMs for dozens of languages with nuanced cultural contexts sounds massively resource-intensive. Can this truly compete with existing centralized models, or will it be more of a symbolic sovereignty project?
Iniciativa bacana, mas será que a Europa vai conseguir acompanhar o ritmo de IA quando o foco é espalhar os recursos por tantos idiomas? 🤔 Pode ficar defasado antes de ficar pronto...
欧洲在AI基础设施上的自主布局确实明智,开源大语言模型能降低对单一技术供应商的依赖,不过资金和人才招募可能会是现实挑战。希望这个OpenEuroLLM项目能真正考虑小语种使用者的需求,而不仅仅是英法德这些主流语言 🌍
¡Vaya, esto sí es interesante! Un modelo de IA europeo y de código abierto... ¿Será la respuesta a la dependencia tecnológica que tenemos con EE.UU. y China? Me pregunto si realmente tendrá la misma potencia que los modelos cerrados de las grandes empresas. 🤔 Si logran cubrir todos los idiomas de la UE, sería un logro enorme para la diversidad cultural digital. ¡Ojalá vaya más allá de lo político y tenga un impacto real! 😊





Hogar






