El procesamiento de datos por lotes es demasiado lento para la IA en tiempo real: cómo Apache Airflow 3.0 de código abierto resuelve el desafío con la orquestación de datos basada en eventos

Mover datos de varias fuentes al lugar adecuado para aplicaciones de IA no es tarea fácil. Aquí es donde entran en juego herramientas de orquestación de datos como Apache Airflow, haciendo el proceso más fluido y eficiente.
La comunidad de Apache Airflow acaba de lanzar su actualización más significativa en años con el lanzamiento de la versión 3.0. Esto marca la primera gran actualización en cuatro años, tras mejoras constantes en la serie 2.x, incluidas las versiones 2.9 y 2.10 en 2024, que se enfocaron intensamente en mejoras para IA.
Apache Airflow se ha convertido en la herramienta preferida para ingenieros de datos, consolidando su lugar como la principal plataforma de orquestación de flujos de trabajo de código abierto. Con más de 3,000 colaboradores y un uso generalizado entre empresas de Fortune 500, es evidente por qué es tan popular. También hay varios servicios comerciales construidos sobre esta, como Astronomer Astro, Google Cloud Composer, Amazon Managed Workflows for Apache Airflow (MWAA) y Microsoft Azure Data Factory Managed Airflow, por nombrar algunos.
A medida que las empresas lidian con la coordinación de flujos de trabajo de datos en diferentes sistemas, nubes y, cada vez más, cargas de trabajo de IA, crece la necesidad de soluciones robustas. Apache Airflow 3.0 da un paso adelante para satisfacer estas necesidades empresariales con una renovación arquitectónica que promete mejorar cómo las organizaciones desarrollan y despliegan aplicaciones de datos.
"Para mí, Airflow 3 es un nuevo comienzo, una base para un conjunto mucho más amplio de capacidades," compartió Vikram Koka, miembro del comité de gestión de proyectos de Apache Airflow y Director de Estrategia en Astronomer, en una entrevista exclusiva con VentureBeat. "Esto es casi una refactorización completa basada en lo que las empresas nos dijeron que necesitaban para el próximo nivel de adopción crítica."
La Complejidad de los Datos Empresariales Ha Cambiado las Necesidades de Orquestación de Datos
Con las empresas dependiendo cada vez más de los datos para la toma de decisiones, la complejidad de los flujos de trabajo de datos ha aumentado vertiginosamente. Las empresas ahora manejan pipelines complejos que abarcan múltiples entornos de nube, fuentes de datos diversas y cargas de trabajo de IA cada vez más sofisticadas.
Airflow 3.0 está diseñado para abordar estas necesidades empresariales en evolución. A diferencia de sus predecesores, esta versión se aleja de una estructura monolítica hacia un modelo de cliente distribuido, ofreciendo mayor flexibilidad y seguridad. Esta nueva arquitectura permite a las empresas:
- Ejecutar tareas en múltiples entornos de nube.
- Implementar controles de seguridad detallados.
- Soportar una variedad de lenguajes de programación.
- Habilitar despliegues verdaderamente multi-nube.
El soporte ampliado de lenguajes en Airflow 3.0 es particularmente notable. Mientras que las versiones anteriores se centraban principalmente en Python, la nueva versión ahora soporta de manera nativa múltiples lenguajes de programación. Airflow 3.0 actualmente soporta Python y Go, con planes para incluir Java, TypeScript y Rust. Esta flexibilidad significa que los ingenieros de datos pueden usar su lenguaje de programación preferido, haciendo que el desarrollo e integración de flujos de trabajo sea más fluido.
Capacidades Basadas en Eventos Transforman los Flujos de Trabajo de Datos
Tradicionalmente, Airflow ha sido excelente en el procesamiento por lotes programado, pero las empresas ahora exigen capacidades de procesamiento de datos en tiempo real. Airflow 3.0 da un paso adelante para satisfacer esta demanda.
"Un cambio clave en Airflow 3 es lo que llamamos programación basada en eventos," explicó Koka.
En lugar de ejecutar un trabajo de procesamiento de datos en un horario fijo, como cada hora, Airflow ahora puede activar el trabajo cuando ocurre un evento específico, como cuando se carga un archivo de datos en un bucket de Amazon S3 o aparece un mensaje en Apache Kafka. Esta programación basada en eventos cierra la brecha entre las herramientas tradicionales de ETL (Extraer, Transformar y Cargar) y los marcos de procesamiento de flujos como Apache Flink o Apache Spark Structured Streaming, permitiendo a las organizaciones gestionar flujos de trabajo programados y activados por eventos con una sola capa de orquestación.
Airflow Acelerará la Ejecución de Inferencias de IA Empresarial y la IA Compuesta
La introducción de la orquestación de datos basada en eventos también potenciará la capacidad de Airflow para soportar la ejecución rápida de inferencias de IA.
Koka proporcionó un ejemplo de uso de inferencia en tiempo real para servicios profesionales como el seguimiento del tiempo legal. En este escenario, Airflow ayuda a recopilar datos crudos de fuentes como calendarios, correos electrónicos y documentos. Un modelo de lenguaje grande (LLM) luego transforma estos datos no estructurados en información estructurada. Otro modelo preentrenado puede analizar estos datos de seguimiento de tiempo estructurado, determinar si el trabajo es facturable y asignar los códigos y tarifas de facturación adecuados.
Koka se refiere a esto como un sistema de IA compuesta – un flujo de trabajo que combina diferentes modelos de IA para completar una tarea compleja de manera eficiente e inteligente. La arquitectura basada en eventos de Airflow 3.0 hace que este tipo de proceso de inferencia en tiempo real y de múltiples pasos sea factible en diversos casos de uso empresarial.
La IA compuesta, un concepto definido por primera vez por el Berkeley Artificial Intelligence Research Center en 2024, difiere de la IA agentiva. Koka explicó que mientras la IA agentiva permite la toma de decisiones autónomas de IA, la IA compuesta sigue flujos de trabajo predefinidos que son más predecibles y confiables para aplicaciones empresariales.
Jugando con Airflow, Cómo los Texas Rangers Buscan Beneficiarse
El equipo de béisbol de las grandes ligas, los Texas Rangers, está entre los muchos usuarios de Airflow. Oliver Dykstra, un ingeniero de datos full-stack en el Texas Rangers Baseball Club, compartió con VentureBeat que el equipo usa Airflow, alojado en la plataforma Astro de Astronomer, como el 'centro neurálgico' de sus operaciones de datos de béisbol. Todo el desarrollo de jugadores, contratos, análisis y datos de juegos se orquestan a través de Airflow.
"Esperamos con interés actualizar a Airflow 3 y sus mejoras en la programación basada en eventos, la observabilidad y el linaje de datos," dijo Dykstra. "Como ya dependemos de Airflow para gestionar nuestros pipelines críticos de IA/ML, la eficiencia y confiabilidad añadidas de Airflow 3 ayudarán a aumentar la confianza y la resiliencia de estos productos de datos en toda nuestra organización."
Qué Significa Esto para la Adopción de IA Empresarial
Para los tomadores de decisiones técnicas que evalúan su estrategia de orquestación de datos, Airflow 3.0 ofrece beneficios tangibles que pueden implementarse gradualmente.
El primer paso es evaluar los flujos de trabajo de datos actuales que podrían beneficiarse de las nuevas capacidades basadas en eventos. Las organizaciones pueden identificar pipelines de datos que actualmente usan trabajos programados pero que serían más eficientes con desencadenantes basados en eventos. Este cambio puede reducir significativamente la latencia de procesamiento y eliminar operaciones de sondeo innecesarias.
A continuación, los líderes tecnológicos deben revisar sus entornos de desarrollo para ver si el soporte ampliado de lenguajes de Airflow podría ayudar a consolidar herramientas de orquestación fragmentadas. Los equipos que actualmente gestionan herramientas de orquestación separadas para diferentes entornos de lenguajes pueden comenzar a planificar una estrategia de migración para simplificar su pila tecnológica.
Para las empresas a la vanguardia de la implementación de IA, Airflow 3.0 representa un componente crucial de infraestructura que aborda un desafío clave en la adopción de IA: orquestar flujos de trabajo de IA complejos y de múltiples etapas a escala empresarial. La capacidad de la plataforma para coordinar sistemas de IA compuesta podría ayudar a las organizaciones a pasar de pruebas de concepto a un despliegue de IA a nivel empresarial, asegurando una gobernanza, seguridad y confiabilidad adecuadas.
Artículo relacionado
Estrategia de IA de Adobe: Ganadores y perdedores en la carrera tecnológica
En el mundo rápidamente cambiante de la inteligencia artificial (IA), los inversores observan de cerca qué empresas prosperarán en esta transformación tecnológica. Este artículo examina el enfoque de
Perspectiva de las acciones de BigBear.ai (BBAI): ¿Puede persistir su impulso de crecimiento en IA?
En el vertiginoso mundo de la inteligencia artificial (IA) y la ciberseguridad, BigBear.ai (BBAI) está captando el interés de los inversores. Este artículo ofrece un análisis en profundidad de las acc
Akamai Reduce Costos de Nube en un 70% con Automatización de Kubernetes Impulsada por IA
En la era de la IA generativa, los gastos en la nube están aumentando. Se proyecta que las empresas desperdicien $44.5 mil millones en gastos innecesarios en la nube este año debido al uso ineficiente
comentario (6)
0/200
DonaldYoung
31 de julio de 2025 03:41:20 GMT+02:00
Airflow 3.0 sounds like a game-changer for real-time AI! 🚀 Super curious how its event-driven approach speeds things up compared to traditional batch processing.
0
RobertRoberts
9 de mayo de 2025 10:12:28 GMT+02:00
Apache Airflow 3.0 thực sự đã tăng tốc quá trình xử lý dữ liệu của tôi cho AI! Cách tiếp cận dựa trên sự kiện là một bước đột phá. Tuy nhiên, nó không hoàn hảo; đường cong học tập rất dốc. Nhưng khi bạn làm quen được, nó cực kỳ hiệu quả. 🚀
0
RobertMartin
9 de mayo de 2025 08:26:27 GMT+02:00
Apache Airflow 3.0は、私のAI向けデータ処理を本当にスピードアップしました!イベント駆動のアプローチはゲームチェンジャーです。ただし、完璧ではありません。学習曲線が急です。でも、一度慣れれば超効率的です。🚀
0
BillyThomas
8 de mayo de 2025 23:15:07 GMT+02:00
Apache Airflow 3.0 realmente ha acelerado mi procesamiento de datos para IA. El enfoque basado en eventos es un cambio de juego. No es perfecto, la curva de aprendizaje es empinada. Pero una vez que lo dominas, es súper eficiente. 🚀
0
KevinScott
8 de mayo de 2025 18:41:27 GMT+02:00
Apache Airflow 3.0 has really sped up my data processing for AI! The event-driven approach is a game-changer. It's not perfect, though; the learning curve is steep. But once you get the hang of it, it's super efficient. 🚀
0
PaulGonzalez
8 de mayo de 2025 16:09:20 GMT+02:00
Apache Airflow 3.0 hat meinen Datenverarbeitungsprozess für KI wirklich beschleunigt! Der ereignisgesteuerte Ansatz ist ein Game-Changer. Es ist nicht perfekt; die Lernkurve ist steil. Aber sobald man es beherrscht, ist es super effizient. 🚀
0
Mover datos de varias fuentes al lugar adecuado para aplicaciones de IA no es tarea fácil. Aquí es donde entran en juego herramientas de orquestación de datos como Apache Airflow, haciendo el proceso más fluido y eficiente.
La comunidad de Apache Airflow acaba de lanzar su actualización más significativa en años con el lanzamiento de la versión 3.0. Esto marca la primera gran actualización en cuatro años, tras mejoras constantes en la serie 2.x, incluidas las versiones 2.9 y 2.10 en 2024, que se enfocaron intensamente en mejoras para IA.
Apache Airflow se ha convertido en la herramienta preferida para ingenieros de datos, consolidando su lugar como la principal plataforma de orquestación de flujos de trabajo de código abierto. Con más de 3,000 colaboradores y un uso generalizado entre empresas de Fortune 500, es evidente por qué es tan popular. También hay varios servicios comerciales construidos sobre esta, como Astronomer Astro, Google Cloud Composer, Amazon Managed Workflows for Apache Airflow (MWAA) y Microsoft Azure Data Factory Managed Airflow, por nombrar algunos.
A medida que las empresas lidian con la coordinación de flujos de trabajo de datos en diferentes sistemas, nubes y, cada vez más, cargas de trabajo de IA, crece la necesidad de soluciones robustas. Apache Airflow 3.0 da un paso adelante para satisfacer estas necesidades empresariales con una renovación arquitectónica que promete mejorar cómo las organizaciones desarrollan y despliegan aplicaciones de datos.
"Para mí, Airflow 3 es un nuevo comienzo, una base para un conjunto mucho más amplio de capacidades," compartió Vikram Koka, miembro del comité de gestión de proyectos de Apache Airflow y Director de Estrategia en Astronomer, en una entrevista exclusiva con VentureBeat. "Esto es casi una refactorización completa basada en lo que las empresas nos dijeron que necesitaban para el próximo nivel de adopción crítica."
La Complejidad de los Datos Empresariales Ha Cambiado las Necesidades de Orquestación de Datos
Con las empresas dependiendo cada vez más de los datos para la toma de decisiones, la complejidad de los flujos de trabajo de datos ha aumentado vertiginosamente. Las empresas ahora manejan pipelines complejos que abarcan múltiples entornos de nube, fuentes de datos diversas y cargas de trabajo de IA cada vez más sofisticadas.
Airflow 3.0 está diseñado para abordar estas necesidades empresariales en evolución. A diferencia de sus predecesores, esta versión se aleja de una estructura monolítica hacia un modelo de cliente distribuido, ofreciendo mayor flexibilidad y seguridad. Esta nueva arquitectura permite a las empresas:
- Ejecutar tareas en múltiples entornos de nube.
- Implementar controles de seguridad detallados.
- Soportar una variedad de lenguajes de programación.
- Habilitar despliegues verdaderamente multi-nube.
El soporte ampliado de lenguajes en Airflow 3.0 es particularmente notable. Mientras que las versiones anteriores se centraban principalmente en Python, la nueva versión ahora soporta de manera nativa múltiples lenguajes de programación. Airflow 3.0 actualmente soporta Python y Go, con planes para incluir Java, TypeScript y Rust. Esta flexibilidad significa que los ingenieros de datos pueden usar su lenguaje de programación preferido, haciendo que el desarrollo e integración de flujos de trabajo sea más fluido.
Capacidades Basadas en Eventos Transforman los Flujos de Trabajo de Datos
Tradicionalmente, Airflow ha sido excelente en el procesamiento por lotes programado, pero las empresas ahora exigen capacidades de procesamiento de datos en tiempo real. Airflow 3.0 da un paso adelante para satisfacer esta demanda.
"Un cambio clave en Airflow 3 es lo que llamamos programación basada en eventos," explicó Koka.
En lugar de ejecutar un trabajo de procesamiento de datos en un horario fijo, como cada hora, Airflow ahora puede activar el trabajo cuando ocurre un evento específico, como cuando se carga un archivo de datos en un bucket de Amazon S3 o aparece un mensaje en Apache Kafka. Esta programación basada en eventos cierra la brecha entre las herramientas tradicionales de ETL (Extraer, Transformar y Cargar) y los marcos de procesamiento de flujos como Apache Flink o Apache Spark Structured Streaming, permitiendo a las organizaciones gestionar flujos de trabajo programados y activados por eventos con una sola capa de orquestación.
Airflow Acelerará la Ejecución de Inferencias de IA Empresarial y la IA Compuesta
La introducción de la orquestación de datos basada en eventos también potenciará la capacidad de Airflow para soportar la ejecución rápida de inferencias de IA.
Koka proporcionó un ejemplo de uso de inferencia en tiempo real para servicios profesionales como el seguimiento del tiempo legal. En este escenario, Airflow ayuda a recopilar datos crudos de fuentes como calendarios, correos electrónicos y documentos. Un modelo de lenguaje grande (LLM) luego transforma estos datos no estructurados en información estructurada. Otro modelo preentrenado puede analizar estos datos de seguimiento de tiempo estructurado, determinar si el trabajo es facturable y asignar los códigos y tarifas de facturación adecuados.
Koka se refiere a esto como un sistema de IA compuesta – un flujo de trabajo que combina diferentes modelos de IA para completar una tarea compleja de manera eficiente e inteligente. La arquitectura basada en eventos de Airflow 3.0 hace que este tipo de proceso de inferencia en tiempo real y de múltiples pasos sea factible en diversos casos de uso empresarial.
La IA compuesta, un concepto definido por primera vez por el Berkeley Artificial Intelligence Research Center en 2024, difiere de la IA agentiva. Koka explicó que mientras la IA agentiva permite la toma de decisiones autónomas de IA, la IA compuesta sigue flujos de trabajo predefinidos que son más predecibles y confiables para aplicaciones empresariales.
Jugando con Airflow, Cómo los Texas Rangers Buscan Beneficiarse
El equipo de béisbol de las grandes ligas, los Texas Rangers, está entre los muchos usuarios de Airflow. Oliver Dykstra, un ingeniero de datos full-stack en el Texas Rangers Baseball Club, compartió con VentureBeat que el equipo usa Airflow, alojado en la plataforma Astro de Astronomer, como el 'centro neurálgico' de sus operaciones de datos de béisbol. Todo el desarrollo de jugadores, contratos, análisis y datos de juegos se orquestan a través de Airflow.
"Esperamos con interés actualizar a Airflow 3 y sus mejoras en la programación basada en eventos, la observabilidad y el linaje de datos," dijo Dykstra. "Como ya dependemos de Airflow para gestionar nuestros pipelines críticos de IA/ML, la eficiencia y confiabilidad añadidas de Airflow 3 ayudarán a aumentar la confianza y la resiliencia de estos productos de datos en toda nuestra organización."
Qué Significa Esto para la Adopción de IA Empresarial
Para los tomadores de decisiones técnicas que evalúan su estrategia de orquestación de datos, Airflow 3.0 ofrece beneficios tangibles que pueden implementarse gradualmente.
El primer paso es evaluar los flujos de trabajo de datos actuales que podrían beneficiarse de las nuevas capacidades basadas en eventos. Las organizaciones pueden identificar pipelines de datos que actualmente usan trabajos programados pero que serían más eficientes con desencadenantes basados en eventos. Este cambio puede reducir significativamente la latencia de procesamiento y eliminar operaciones de sondeo innecesarias.
A continuación, los líderes tecnológicos deben revisar sus entornos de desarrollo para ver si el soporte ampliado de lenguajes de Airflow podría ayudar a consolidar herramientas de orquestación fragmentadas. Los equipos que actualmente gestionan herramientas de orquestación separadas para diferentes entornos de lenguajes pueden comenzar a planificar una estrategia de migración para simplificar su pila tecnológica.
Para las empresas a la vanguardia de la implementación de IA, Airflow 3.0 representa un componente crucial de infraestructura que aborda un desafío clave en la adopción de IA: orquestar flujos de trabajo de IA complejos y de múltiples etapas a escala empresarial. La capacidad de la plataforma para coordinar sistemas de IA compuesta podría ayudar a las organizaciones a pasar de pruebas de concepto a un despliegue de IA a nivel empresarial, asegurando una gobernanza, seguridad y confiabilidad adecuadas.




Airflow 3.0 sounds like a game-changer for real-time AI! 🚀 Super curious how its event-driven approach speeds things up compared to traditional batch processing.




Apache Airflow 3.0 thực sự đã tăng tốc quá trình xử lý dữ liệu của tôi cho AI! Cách tiếp cận dựa trên sự kiện là một bước đột phá. Tuy nhiên, nó không hoàn hảo; đường cong học tập rất dốc. Nhưng khi bạn làm quen được, nó cực kỳ hiệu quả. 🚀




Apache Airflow 3.0は、私のAI向けデータ処理を本当にスピードアップしました!イベント駆動のアプローチはゲームチェンジャーです。ただし、完璧ではありません。学習曲線が急です。でも、一度慣れれば超効率的です。🚀




Apache Airflow 3.0 realmente ha acelerado mi procesamiento de datos para IA. El enfoque basado en eventos es un cambio de juego. No es perfecto, la curva de aprendizaje es empinada. Pero una vez que lo dominas, es súper eficiente. 🚀




Apache Airflow 3.0 has really sped up my data processing for AI! The event-driven approach is a game-changer. It's not perfect, though; the learning curve is steep. But once you get the hang of it, it's super efficient. 🚀




Apache Airflow 3.0 hat meinen Datenverarbeitungsprozess für KI wirklich beschleunigt! Der ereignisgesteuerte Ansatz ist ein Game-Changer. Es ist nicht perfekt; die Lernkurve ist steil. Aber sobald man es beherrscht, ist es super effizient. 🚀












