

El procesamiento de datos por lotes es demasiado lento para la IA en tiempo real: cómo Apache Airflow 3.0 de código abierto resuelve el desafío con la orquestación de datos basada en eventos
7 de mayo de 2025
BenGarcía
0

Mover datos de varias fuentes al lugar apropiado para aplicaciones AI no es una hazaña pequeña. Aquí es donde entran en juego herramientas de orquestación de datos como Apache Airflow, lo que hace que el proceso sea más suave y eficiente.
La comunidad Airflow Apache acaba de publicar su actualización más significativa en años con el lanzamiento de la versión 3.0. Esto marca la primera actualización importante en cuatro años, luego de mejoras constantes en la serie 2.x, incluidas las versiones 2.9 y 2.10 en 2024, que se centraron en gran medida en las mejoras de IA.
Apache Airflow se ha convertido en la herramienta de referencia para los ingenieros de datos, consolidando su lugar como la plataforma de orquestación de flujo de trabajo de código abierto superior. Con más de 3.000 contribuyentes y un uso generalizado entre las empresas Fortune 500, está claro por qué es tan popular. También hay varios servicios comerciales construidos sobre él, como Astronomer Astro, Google Cloud Composer, Amazon Managed Flows para Apache Airflow (MWAA) y Microsoft Azure Data Factory Managed Airflow, por nombrar algunos.
A medida que las empresas se enfrentan a la coordinación de flujos de trabajo de datos en diferentes sistemas, nubes y cargas de trabajo cada vez más IA, crece la necesidad de soluciones robustas. Apache Airflow 3.0 pasa para satisfacer estas necesidades empresariales con una revisión arquitectónica que promete mejorar cómo las organizaciones desarrollan e implementan aplicaciones de datos.
"Para mí, Airflow 3 es un nuevo comienzo, una base para un conjunto de capacidades mucho más amplio", Vikram Koka, miembro de Apache Airflow PMC (Comité de Gestión de Proyectos) y director de estrategia en Astronomer, compartió una entrevista exclusiva con VentureBeat. "Este es casi un refactor completo basado en lo que las empresas nos dijeron que necesitaban para el siguiente nivel de adopción crítica de la misión".
La complejidad de los datos empresariales ha cambiado las necesidades de orquestación de datos
Con las empresas que dependen cada vez más de los datos para la toma de decisiones, la complejidad de los flujos de trabajo de datos se ha disparado. Las empresas ahora hacen malabares con tuberías complejas que abarcan múltiples entornos en la nube, diversas fuentes de datos y cargas de trabajo de IA cada vez más sofisticadas.
Airflow 3.0 se adapta para abordar estas necesidades empresariales en evolución. A diferencia de sus predecesores, esta versión se aleja de una estructura monolítica a un modelo de cliente distribuido, que ofrece una mayor flexibilidad y seguridad. Esta nueva arquitectura empodera a las empresas para:
- Ejecutar tareas en múltiples entornos en la nube.
- Implementar controles de seguridad detallados.
- Admite una variedad de lenguajes de programación.
- Habilite las verdaderas implementaciones de múltiples nubes.
El soporte de lenguaje ampliado en el flujo de aire 3.0 es particularmente notable. Si bien las versiones anteriores se centraron principalmente en Python, la nueva versión ahora admite de forma nativa múltiples lenguajes de programación. Airflow 3.0 actualmente es compatible con Python y Go, con planes de incluir Java, TypeScript y Rust. Esta flexibilidad significa que los ingenieros de datos pueden usar su lenguaje de programación preferido, haciendo que el desarrollo del flujo de trabajo y la integración sean más suaves.
Capacidades basadas en eventos transformar flujos de trabajo de datos
Tradicionalmente, el flujo de aire ha sido excelente en el procesamiento de lotes programado, pero las empresas ahora exigen capacidades de procesamiento de datos en tiempo real. Airflow 3.0 pasa para satisfacer esta demanda.
"Un cambio clave en Airflow 3 es lo que llamamos programación basada en eventos", explicó Koka.
En lugar de ejecutar un trabajo de procesamiento de datos en un horario establecido, como cada hora, el flujo de aire ahora puede activar el trabajo cuando ocurre un evento específico, como cuando un archivo de datos se carga en un cubo de Amazon S3 o aparece un mensaje en Apache Kafka. Esta programación basada en eventos une la brecha entre las herramientas tradicionales de ETL (extracto, transformación y carga) y marcos de procesamiento de flujo como Apache Flink o Apache Spark Spring String estructurada, lo que permite a las organizaciones administrar flujos de trabajo programados y activados por eventos con una sola capa de orquestación.
El flujo de aire acelerará la ejecución de inferencia de IA Enterprise y la IA compuesto
La introducción de la orquestación de datos basada en eventos también aumentará la capacidad de Airflow para apoyar la ejecución rápida de inferencia de IA.
Koka proporcionó un ejemplo de uso de inferencia en tiempo real para servicios profesionales como el seguimiento de tiempo legal. En este escenario, Airflow ayuda a recopilar datos sin procesar de fuentes como calendarios, correos electrónicos y documentos. Un modelo de lenguaje grande (LLM) luego transforma estos datos no estructurados en información estructurada. Otro modelo previamente capacitado puede analizar estos datos de seguimiento de tiempo estructurado, determinar si el trabajo es facturable y asignar códigos y tarifas de facturación apropiados.
Koka se refiere a esto como un sistema de IA compuesto, un flujo de trabajo que combina diferentes modelos de IA para completar de manera eficiente e inteligente una tarea compleja. La arquitectura basada en eventos de Airflow 3.0 hace que este tipo de proceso de inferencia de varios pasos en tiempo real sea factible en varios casos de uso empresarial.
El compuesto AI, un concepto definido por primera vez por el Centro de Investigación de Inteligencia Artificial de Berkeley en 2024, difiere de la IA de Agente. Koka explicó que, si bien la IA Agentic permite la toma de decisiones autónomos de IA, la IA compuesta sigue flujos de trabajo predefinidos que son más predecibles y confiables para las aplicaciones comerciales.
Jugar a la pelota con flujo de aire, cómo los Rangers de Texas buscan beneficiarse
El equipo de béisbol de las Grandes Ligas de Texas Rangers se encuentra entre los muchos usuarios de Air Flow. Oliver Dykstra, un ingeniero de datos de pila completa en el Texas Rangers Baseball Club, compartió con VentureBeat que el equipo usa Airflow, alojado en la plataforma Astro de Astronomer, como el 'centro nervioso' de sus operaciones de datos de béisbol. Todos los datos de desarrollo, contratos, análisis y juegos de jugadores se orquestan a través del flujo de aire.
"Estamos ansiosos por actualizar a Airflow 3 y sus mejoras para la programación, la observabilidad y el linaje de datos basados en eventos", dijo Dykstra. "Como ya confiamos en el flujo de aire para administrar nuestras tuberías críticas de IA/ML, la eficiencia adicional y la confiabilidad del flujo de aire 3 ayudará a aumentar la confianza y la resistencia de estos productos de datos dentro de toda nuestra organización".
Lo que esto significa para la adopción empresarial de IA
Para los tomadores de decisiones técnicas que evalúan su estrategia de orquestación de datos, Airflow 3.0 ofrece beneficios tangibles que se pueden implementar gradualmente.
El primer paso es evaluar los flujos de trabajo de datos actuales que podrían beneficiarse de las nuevas capacidades basadas en eventos. Las organizaciones pueden identificar las tuberías de datos que actualmente utilizan trabajos programados, pero serían más eficientes con los desencadenantes basados en eventos. Este cambio puede reducir significativamente la latencia de procesamiento y eliminar las operaciones de votación innecesarias.
A continuación, los líderes de tecnología deben revisar sus entornos de desarrollo para ver si el soporte de lenguaje ampliado de Airflow podría ayudar a consolidar herramientas de orquestación fragmentadas. Los equipos que actualmente administran herramientas de orquestación separadas para diferentes entornos de idiomas pueden comenzar a planificar una estrategia de migración para optimizar su pila de tecnología.
Para las empresas a la vanguardia de la implementación de IA, Airflow 3.0 representa un componente de infraestructura crucial que aborda un desafío clave en la adopción de IA: orquestación de flujos de trabajo de IA de varias etapas a escala empresarial. La capacidad de la plataforma para coordinar los sistemas de IA compuestos podría ayudar a las organizaciones a ir más allá de la prueba de concepto para el despliegue de IA de toda la empresa, asegurando la gobernanza, la seguridad y la confiabilidad adecuadas.
Artículo relacionado
Top 10 Python -Bibliotheken zur Verbesserung der Verarbeitung natürlicher Sprache
Python wird oft als Spitzenwahl für die Programmierung gefeiert, insbesondere wenn es um künstliche Intelligenz (KI) und maschinelles Lernen geht. Seine Effizienz fällt unter anderen beliebten Sprachen auf, und seine Syntax, die Englisch ähnelt, macht es zu einer perfekten Startersprache für Anfänger. Was wirklich se
Was ist im LLM? AI2 Olmotrace wird die Quelle "verfolgen"
Das Verständnis der Verbindung zwischen der Ausgabe eines großen Sprachmodells (LLM) und seinen Trainingsdaten war schon immer ein Rätsel für Unternehmen. Diese Woche hat das Allen Institute for AI (AI2) eine aufregende neue Open-Source-Initiative namens Olmotrace gestartet, die darauf abzielt, dieses Relati zu entmystifizieren
Meta, um KI -Modelle mit EU -Benutzerdaten zu trainieren
Meta hat kürzlich seine Absicht angekündigt, die öffentlichen Inhalte von erwachsenen Nutzern der Europäischen Union (EU) zu nutzen, um seine KI -Modelle zu verbessern. Dieser Schritt folgt dem Start von Meta -KI
comentario (0)
0/200






Mover datos de varias fuentes al lugar apropiado para aplicaciones AI no es una hazaña pequeña. Aquí es donde entran en juego herramientas de orquestación de datos como Apache Airflow, lo que hace que el proceso sea más suave y eficiente.
La comunidad Airflow Apache acaba de publicar su actualización más significativa en años con el lanzamiento de la versión 3.0. Esto marca la primera actualización importante en cuatro años, luego de mejoras constantes en la serie 2.x, incluidas las versiones 2.9 y 2.10 en 2024, que se centraron en gran medida en las mejoras de IA.
Apache Airflow se ha convertido en la herramienta de referencia para los ingenieros de datos, consolidando su lugar como la plataforma de orquestación de flujo de trabajo de código abierto superior. Con más de 3.000 contribuyentes y un uso generalizado entre las empresas Fortune 500, está claro por qué es tan popular. También hay varios servicios comerciales construidos sobre él, como Astronomer Astro, Google Cloud Composer, Amazon Managed Flows para Apache Airflow (MWAA) y Microsoft Azure Data Factory Managed Airflow, por nombrar algunos.
A medida que las empresas se enfrentan a la coordinación de flujos de trabajo de datos en diferentes sistemas, nubes y cargas de trabajo cada vez más IA, crece la necesidad de soluciones robustas. Apache Airflow 3.0 pasa para satisfacer estas necesidades empresariales con una revisión arquitectónica que promete mejorar cómo las organizaciones desarrollan e implementan aplicaciones de datos.
"Para mí, Airflow 3 es un nuevo comienzo, una base para un conjunto de capacidades mucho más amplio", Vikram Koka, miembro de Apache Airflow PMC (Comité de Gestión de Proyectos) y director de estrategia en Astronomer, compartió una entrevista exclusiva con VentureBeat. "Este es casi un refactor completo basado en lo que las empresas nos dijeron que necesitaban para el siguiente nivel de adopción crítica de la misión".
La complejidad de los datos empresariales ha cambiado las necesidades de orquestación de datos
Con las empresas que dependen cada vez más de los datos para la toma de decisiones, la complejidad de los flujos de trabajo de datos se ha disparado. Las empresas ahora hacen malabares con tuberías complejas que abarcan múltiples entornos en la nube, diversas fuentes de datos y cargas de trabajo de IA cada vez más sofisticadas.
Airflow 3.0 se adapta para abordar estas necesidades empresariales en evolución. A diferencia de sus predecesores, esta versión se aleja de una estructura monolítica a un modelo de cliente distribuido, que ofrece una mayor flexibilidad y seguridad. Esta nueva arquitectura empodera a las empresas para:
- Ejecutar tareas en múltiples entornos en la nube.
- Implementar controles de seguridad detallados.
- Admite una variedad de lenguajes de programación.
- Habilite las verdaderas implementaciones de múltiples nubes.
El soporte de lenguaje ampliado en el flujo de aire 3.0 es particularmente notable. Si bien las versiones anteriores se centraron principalmente en Python, la nueva versión ahora admite de forma nativa múltiples lenguajes de programación. Airflow 3.0 actualmente es compatible con Python y Go, con planes de incluir Java, TypeScript y Rust. Esta flexibilidad significa que los ingenieros de datos pueden usar su lenguaje de programación preferido, haciendo que el desarrollo del flujo de trabajo y la integración sean más suaves.
Capacidades basadas en eventos transformar flujos de trabajo de datos
Tradicionalmente, el flujo de aire ha sido excelente en el procesamiento de lotes programado, pero las empresas ahora exigen capacidades de procesamiento de datos en tiempo real. Airflow 3.0 pasa para satisfacer esta demanda.
"Un cambio clave en Airflow 3 es lo que llamamos programación basada en eventos", explicó Koka.
En lugar de ejecutar un trabajo de procesamiento de datos en un horario establecido, como cada hora, el flujo de aire ahora puede activar el trabajo cuando ocurre un evento específico, como cuando un archivo de datos se carga en un cubo de Amazon S3 o aparece un mensaje en Apache Kafka. Esta programación basada en eventos une la brecha entre las herramientas tradicionales de ETL (extracto, transformación y carga) y marcos de procesamiento de flujo como Apache Flink o Apache Spark Spring String estructurada, lo que permite a las organizaciones administrar flujos de trabajo programados y activados por eventos con una sola capa de orquestación.
El flujo de aire acelerará la ejecución de inferencia de IA Enterprise y la IA compuesto
La introducción de la orquestación de datos basada en eventos también aumentará la capacidad de Airflow para apoyar la ejecución rápida de inferencia de IA.
Koka proporcionó un ejemplo de uso de inferencia en tiempo real para servicios profesionales como el seguimiento de tiempo legal. En este escenario, Airflow ayuda a recopilar datos sin procesar de fuentes como calendarios, correos electrónicos y documentos. Un modelo de lenguaje grande (LLM) luego transforma estos datos no estructurados en información estructurada. Otro modelo previamente capacitado puede analizar estos datos de seguimiento de tiempo estructurado, determinar si el trabajo es facturable y asignar códigos y tarifas de facturación apropiados.
Koka se refiere a esto como un sistema de IA compuesto, un flujo de trabajo que combina diferentes modelos de IA para completar de manera eficiente e inteligente una tarea compleja. La arquitectura basada en eventos de Airflow 3.0 hace que este tipo de proceso de inferencia de varios pasos en tiempo real sea factible en varios casos de uso empresarial.
El compuesto AI, un concepto definido por primera vez por el Centro de Investigación de Inteligencia Artificial de Berkeley en 2024, difiere de la IA de Agente. Koka explicó que, si bien la IA Agentic permite la toma de decisiones autónomos de IA, la IA compuesta sigue flujos de trabajo predefinidos que son más predecibles y confiables para las aplicaciones comerciales.
Jugar a la pelota con flujo de aire, cómo los Rangers de Texas buscan beneficiarse
El equipo de béisbol de las Grandes Ligas de Texas Rangers se encuentra entre los muchos usuarios de Air Flow. Oliver Dykstra, un ingeniero de datos de pila completa en el Texas Rangers Baseball Club, compartió con VentureBeat que el equipo usa Airflow, alojado en la plataforma Astro de Astronomer, como el 'centro nervioso' de sus operaciones de datos de béisbol. Todos los datos de desarrollo, contratos, análisis y juegos de jugadores se orquestan a través del flujo de aire.
"Estamos ansiosos por actualizar a Airflow 3 y sus mejoras para la programación, la observabilidad y el linaje de datos basados en eventos", dijo Dykstra. "Como ya confiamos en el flujo de aire para administrar nuestras tuberías críticas de IA/ML, la eficiencia adicional y la confiabilidad del flujo de aire 3 ayudará a aumentar la confianza y la resistencia de estos productos de datos dentro de toda nuestra organización".
Lo que esto significa para la adopción empresarial de IA
Para los tomadores de decisiones técnicas que evalúan su estrategia de orquestación de datos, Airflow 3.0 ofrece beneficios tangibles que se pueden implementar gradualmente.
El primer paso es evaluar los flujos de trabajo de datos actuales que podrían beneficiarse de las nuevas capacidades basadas en eventos. Las organizaciones pueden identificar las tuberías de datos que actualmente utilizan trabajos programados, pero serían más eficientes con los desencadenantes basados en eventos. Este cambio puede reducir significativamente la latencia de procesamiento y eliminar las operaciones de votación innecesarias.
A continuación, los líderes de tecnología deben revisar sus entornos de desarrollo para ver si el soporte de lenguaje ampliado de Airflow podría ayudar a consolidar herramientas de orquestación fragmentadas. Los equipos que actualmente administran herramientas de orquestación separadas para diferentes entornos de idiomas pueden comenzar a planificar una estrategia de migración para optimizar su pila de tecnología.
Para las empresas a la vanguardia de la implementación de IA, Airflow 3.0 representa un componente de infraestructura crucial que aborda un desafío clave en la adopción de IA: orquestación de flujos de trabajo de IA de varias etapas a escala empresarial. La capacidad de la plataforma para coordinar los sistemas de IA compuestos podría ayudar a las organizaciones a ir más allá de la prueba de concepto para el despliegue de IA de toda la empresa, asegurando la gobernanza, la seguridad y la confiabilidad adecuadas.










