Le traitement des données par lots est trop lente pour l'IA en temps réel: comment l'Open-source Air Airflow 3.0 résout le défi avec l'orchestration de données axée sur l'événement

Transférer des données de diverses sources vers l'endroit approprié pour les applications d'IA n'est pas une mince affaire. C'est là qu'interviennent les outils d'orchestration de données comme Apache Airflow, qui rendent le processus plus fluide et plus efficace.
La communauté Apache Airflow vient de publier sa mise à jour la plus importante depuis des années avec le lancement de la version 3.0. Cela marque la première mise à jour majeure en quatre ans, après des améliorations constantes dans la série 2.x, y compris les versions 2.9 et 2.10 en 2024, qui se sont fortement concentrées sur les améliorations pour l'IA.
Apache Airflow est devenu l'outil de prédilection pour les ingénieurs de données, consolidant sa place en tant que principale plateforme d'orchestration de flux de travail open-source. Avec plus de 3 000 contributeurs et une utilisation répandue parmi les entreprises du Fortune 500, il est clair pourquoi il est si populaire. Il existe également plusieurs services commerciaux construits autour, tels qu'Astronomer Astro, Google Cloud Composer, Amazon Managed Workflows for Apache Airflow (MWAA) et Microsoft Azure Data Factory Managed Airflow, pour n'en nommer que quelques-uns.
Alors que les entreprises luttent pour coordonner les flux de travail de données à travers différents systèmes, nuages et charges de travail d'IA de plus en plus nombreuses, le besoin de solutions robustes croît. Apache Airflow 3.0 répond à ces besoins d'entreprise avec une refonte architecturale qui promet d'améliorer la manière dont les organisations développent et déploient des applications de données.
« Pour moi, Airflow 3 est un nouveau départ, une base pour un ensemble beaucoup plus large de capacités », a partagé Vikram Koka, membre du comité de gestion de projet Apache Airflow et directeur de la stratégie chez Astronomer, dans une interview exclusive avec VentureBeat. « C'est presque une refonte complète basée sur ce que les entreprises nous ont dit qu'elles avaient besoin pour le prochain niveau d'adoption critique. »
La complexité des données d'entreprise a modifié les besoins en orchestration de données
Avec les entreprises qui dépendent de plus en plus des données pour la prise de décision, la complexité des flux de travail de données a explosé. Les entreprises jonglent désormais avec des pipelines complexes qui couvrent plusieurs environnements cloud, des sources de données diverses et des charges de travail d'IA de plus en plus sophistiquées.
Airflow 3.0 est conçu pour répondre à ces besoins d'entreprise en évolution. Contrairement à ses prédécesseurs, cette version s'éloigne d'une structure monolithique vers un modèle client distribué, offrant plus de flexibilité et de sécurité. Cette nouvelle architecture permet aux entreprises de :
- Exécuter des tâches sur plusieurs environnements cloud.
- Mettre en œuvre des contrôles de sécurité détaillés.
- Supporter une variété de langages de programmation.
- Permettre de véritables déploiements multi勉
Le support élargi des langages dans Airflow 3.0 est particulièrement notable. Alors que les versions précédentes étaient principalement axées sur Python, la nouvelle version prend désormais en charge nativement plusieurs langages de programmation. Airflow 3.0 supporte actuellement Python et Go, avec des plans pour inclure Java, TypeScript et Rust. Cette flexibilité signifie que les ingénieurs de données peuvent utiliser leur langage de programmation préféré, rendant le développement et l'intégration des flux de travail plus fluides.
Les capacités événementielles transforment les flux de travail de données
Traditionnellement, Airflow excellait dans le traitement par lots programmé, mais les entreprises exigent maintenant des capacités de traitement de données en temps réel. Airflow 3.0 répond à cette demande.
« Un changement clé dans Airflow 3 est ce que nous appelons la planification événementielle », a expliqué Koka.
Au lieu de lancer une tâche de traitement de données selon un calendrier fixe, comme toutes les heures, Airflow peut désormais déclencher la tâche lorsqu'un événement spécifique se produit, comme lorsqu'un fichier de données est téléchargé sur un bucket Amazon S3 ou qu'un message apparaît dans Apache Kafka. Cette planification événementielle comble le fossé entre les outils ETL (Extract, Transform, and Load) traditionnels et les frameworks de traitement de flux comme Apache Flink ou Apache Spark Structured Streaming, permettant aux organisations de gérer à la fois les flux de travail programmés et déclenchés par des événements avec une seule couche d'orchestration.
Airflow accélérera l'exécution d'inférences d'IA en entreprise et l'IA composée
L'introduction de l'orchestration de données événementielle renforcera également la capacité d'Airflow à supporter une exécution rapide d'inférences d'IA.
Koka a fourni un exemple d'utilisation de l'inférence en temps réel pour des services professionnels comme le suivi du temps juridique. Dans ce scénario, Airflow aide à collecter des données brutes à partir de sources comme les calendriers, les emails et les documents. Un grand modèle de langage (LLM) transforme ensuite ces données non structurées en informations structurées. Un autre modèle pré-entraîné peut analyser ces données de suivi du temps structurées, déterminer si le travail est facturable et attribuer les codes de facturation et les tarifs appropriés.
Koka appelle cela un système d'IA composé – un flux de travail qui combine différents modèles d'IA pour accomplir une tâche complexe de manière efficace et intelligente. L'architecture événementielle d'Airflow 3.0 rend ce type de processus d'inférence multi-étapes en temps réel réalisable pour divers cas d'utilisation en entreprise.
L'IA composée, un concept défini pour la première fois par le Berkeley Artificial Intelligence Research Center en 2024, diffère de l'IA agentique. Koka a expliqué que tandis que l'IA agentique permet une prise de décision autonome par l'IA, l'IA composée suit des flux de travail prédéfinis qui sont plus prévisibles et fiables pour les applications commerciales.
Jouer la balle avec Airflow, comment les Texas Rangers comptent en bénéficier
L'équipe de baseball de la ligue majeure des Texas Rangers fait partie des nombreux utilisateurs d'Airflow. Oliver Dykstra, ingénieur de données full-stack au Texas Rangers Baseball Club, a partagé avec VentureBeat que l'équipe utilise Airflow, hébergé sur la plateforme Astro d'Astronomer, comme le « centre névralgique » de leurs opérations de données de baseball. Tout le développement des joueurs, les contrats, les analyses et les données de jeu sont orchestrés via Airflow.
« Nous sommes impatients de passer à Airflow 3 et à ses améliorations en matière de planification événementielle, d'observabilité et de traçabilité des données », a déclaré Dykstra. « Comme nous dépendons déjà d'Airflow pour gérer nos pipelines AI/ML critiques, l'efficacité et la fiabilité accrues d'Airflow 3 aideront à augmenter la confiance et la résilience de ces produits de données au sein de toute notre organisation. »
Ce que cela signifie pour l'adoption de l'IA en entreprise
Pour les décideurs techniques évaluant leur stratégie d'orchestration de données, Airflow 3.0 offre des avantages tangibles qui peuvent être mis en œuvre progressivement.
La première étape consiste à évaluer les flux de travail de données actuels qui pourraient bénéficier des nouvelles capacités événementielles. Les organisations peuvent identifier les pipelines de données utilisant actuellement des tâches programmées mais qui seraient plus efficaces avec des déclencheurs basés sur des événements. Ce changement peut réduire considérablement la latence de traitement et éliminer les opérations de sondage inutiles.
Ensuite, les leaders technologiques devraient examiner leurs environnements de développement pour voir si le support élargi des langages d'Airflow pourrait aider à consolider les outils d'orchestration fragmentés. Les équipes gérant actuellement des outils d'orchestration séparés pour différents environnements de langage peuvent commencer à planifier une stratégie de migration pour rationaliser leur pile technologique.
Pour les entreprises à la pointe de la mise en œuvre de l'IA, Airflow 3.0 représente un composant d'infrastructure crucial qui répond à un défi clé dans l'adoption de l'IA : orchestrer des flux de travail d'IA complexes et multi-étapes à l'échelle de l'entreprise. La capacité de la plateforme à coordonner des systèmes d'IA composés pourrait aider les organisations à passer de la preuve de concept à un déploiement d'IA à l'échelle de l'entreprise, en garantissant une gouvernance, une sécurité et une fiabilité appropriées.
Article connexe
Stratégie d'IA d'Adobe : Gagnants et perdants dans la course technologique
Dans le monde en rapide évolution de l'intelligence artificielle (IA), les investisseurs surveillent de près quelles entreprises prospéreront dans cette transformation technologique. Cet article exami
BigBear.ai (BBAI) Perspectives boursières : La dynamique de croissance de l'IA peut-elle perdurer ?
Dans le monde en rapide évolution de l'intelligence artificielle (IA) et de la cybersécurité, BigBear.ai (BBAI) attire l'intérêt des investisseurs. Cet article propose une analyse approfondie de l'act
Akamai réduit les coûts cloud de 70 % avec l'automatisation Kubernetes pilotée par l'IA
À l'ère de l'IA générative, les dépenses cloud explosent. Les entreprises devraient gaspiller 44,5 milliards de dollars en dépenses cloud inutiles cette année en raison d'une utilisation inefficace de
commentaires (6)
0/200
DonaldYoung
31 juillet 2025 03:41:20 UTC+02:00
Airflow 3.0 sounds like a game-changer for real-time AI! 🚀 Super curious how its event-driven approach speeds things up compared to traditional batch processing.
0
RobertRoberts
9 mai 2025 10:12:28 UTC+02:00
Apache Airflow 3.0 thực sự đã tăng tốc quá trình xử lý dữ liệu của tôi cho AI! Cách tiếp cận dựa trên sự kiện là một bước đột phá. Tuy nhiên, nó không hoàn hảo; đường cong học tập rất dốc. Nhưng khi bạn làm quen được, nó cực kỳ hiệu quả. 🚀
0
RobertMartin
9 mai 2025 08:26:27 UTC+02:00
Apache Airflow 3.0は、私のAI向けデータ処理を本当にスピードアップしました!イベント駆動のアプローチはゲームチェンジャーです。ただし、完璧ではありません。学習曲線が急です。でも、一度慣れれば超効率的です。🚀
0
BillyThomas
8 mai 2025 23:15:07 UTC+02:00
Apache Airflow 3.0 realmente ha acelerado mi procesamiento de datos para IA. El enfoque basado en eventos es un cambio de juego. No es perfecto, la curva de aprendizaje es empinada. Pero una vez que lo dominas, es súper eficiente. 🚀
0
KevinScott
8 mai 2025 18:41:27 UTC+02:00
Apache Airflow 3.0 has really sped up my data processing for AI! The event-driven approach is a game-changer. It's not perfect, though; the learning curve is steep. But once you get the hang of it, it's super efficient. 🚀
0
PaulGonzalez
8 mai 2025 16:09:20 UTC+02:00
Apache Airflow 3.0 hat meinen Datenverarbeitungsprozess für KI wirklich beschleunigt! Der ereignisgesteuerte Ansatz ist ein Game-Changer. Es ist nicht perfekt; die Lernkurve ist steil. Aber sobald man es beherrscht, ist es super effizient. 🚀
0
Transférer des données de diverses sources vers l'endroit approprié pour les applications d'IA n'est pas une mince affaire. C'est là qu'interviennent les outils d'orchestration de données comme Apache Airflow, qui rendent le processus plus fluide et plus efficace.
La communauté Apache Airflow vient de publier sa mise à jour la plus importante depuis des années avec le lancement de la version 3.0. Cela marque la première mise à jour majeure en quatre ans, après des améliorations constantes dans la série 2.x, y compris les versions 2.9 et 2.10 en 2024, qui se sont fortement concentrées sur les améliorations pour l'IA.
Apache Airflow est devenu l'outil de prédilection pour les ingénieurs de données, consolidant sa place en tant que principale plateforme d'orchestration de flux de travail open-source. Avec plus de 3 000 contributeurs et une utilisation répandue parmi les entreprises du Fortune 500, il est clair pourquoi il est si populaire. Il existe également plusieurs services commerciaux construits autour, tels qu'Astronomer Astro, Google Cloud Composer, Amazon Managed Workflows for Apache Airflow (MWAA) et Microsoft Azure Data Factory Managed Airflow, pour n'en nommer que quelques-uns.
Alors que les entreprises luttent pour coordonner les flux de travail de données à travers différents systèmes, nuages et charges de travail d'IA de plus en plus nombreuses, le besoin de solutions robustes croît. Apache Airflow 3.0 répond à ces besoins d'entreprise avec une refonte architecturale qui promet d'améliorer la manière dont les organisations développent et déploient des applications de données.
« Pour moi, Airflow 3 est un nouveau départ, une base pour un ensemble beaucoup plus large de capacités », a partagé Vikram Koka, membre du comité de gestion de projet Apache Airflow et directeur de la stratégie chez Astronomer, dans une interview exclusive avec VentureBeat. « C'est presque une refonte complète basée sur ce que les entreprises nous ont dit qu'elles avaient besoin pour le prochain niveau d'adoption critique. »
La complexité des données d'entreprise a modifié les besoins en orchestration de données
Avec les entreprises qui dépendent de plus en plus des données pour la prise de décision, la complexité des flux de travail de données a explosé. Les entreprises jonglent désormais avec des pipelines complexes qui couvrent plusieurs environnements cloud, des sources de données diverses et des charges de travail d'IA de plus en plus sophistiquées.
Airflow 3.0 est conçu pour répondre à ces besoins d'entreprise en évolution. Contrairement à ses prédécesseurs, cette version s'éloigne d'une structure monolithique vers un modèle client distribué, offrant plus de flexibilité et de sécurité. Cette nouvelle architecture permet aux entreprises de :
- Exécuter des tâches sur plusieurs environnements cloud.
- Mettre en œuvre des contrôles de sécurité détaillés.
- Supporter une variété de langages de programmation.
- Permettre de véritables déploiements multi勉
Le support élargi des langages dans Airflow 3.0 est particulièrement notable. Alors que les versions précédentes étaient principalement axées sur Python, la nouvelle version prend désormais en charge nativement plusieurs langages de programmation. Airflow 3.0 supporte actuellement Python et Go, avec des plans pour inclure Java, TypeScript et Rust. Cette flexibilité signifie que les ingénieurs de données peuvent utiliser leur langage de programmation préféré, rendant le développement et l'intégration des flux de travail plus fluides.
Les capacités événementielles transforment les flux de travail de données
Traditionnellement, Airflow excellait dans le traitement par lots programmé, mais les entreprises exigent maintenant des capacités de traitement de données en temps réel. Airflow 3.0 répond à cette demande.
« Un changement clé dans Airflow 3 est ce que nous appelons la planification événementielle », a expliqué Koka.
Au lieu de lancer une tâche de traitement de données selon un calendrier fixe, comme toutes les heures, Airflow peut désormais déclencher la tâche lorsqu'un événement spécifique se produit, comme lorsqu'un fichier de données est téléchargé sur un bucket Amazon S3 ou qu'un message apparaît dans Apache Kafka. Cette planification événementielle comble le fossé entre les outils ETL (Extract, Transform, and Load) traditionnels et les frameworks de traitement de flux comme Apache Flink ou Apache Spark Structured Streaming, permettant aux organisations de gérer à la fois les flux de travail programmés et déclenchés par des événements avec une seule couche d'orchestration.
Airflow accélérera l'exécution d'inférences d'IA en entreprise et l'IA composée
L'introduction de l'orchestration de données événementielle renforcera également la capacité d'Airflow à supporter une exécution rapide d'inférences d'IA.
Koka a fourni un exemple d'utilisation de l'inférence en temps réel pour des services professionnels comme le suivi du temps juridique. Dans ce scénario, Airflow aide à collecter des données brutes à partir de sources comme les calendriers, les emails et les documents. Un grand modèle de langage (LLM) transforme ensuite ces données non structurées en informations structurées. Un autre modèle pré-entraîné peut analyser ces données de suivi du temps structurées, déterminer si le travail est facturable et attribuer les codes de facturation et les tarifs appropriés.
Koka appelle cela un système d'IA composé – un flux de travail qui combine différents modèles d'IA pour accomplir une tâche complexe de manière efficace et intelligente. L'architecture événementielle d'Airflow 3.0 rend ce type de processus d'inférence multi-étapes en temps réel réalisable pour divers cas d'utilisation en entreprise.
L'IA composée, un concept défini pour la première fois par le Berkeley Artificial Intelligence Research Center en 2024, diffère de l'IA agentique. Koka a expliqué que tandis que l'IA agentique permet une prise de décision autonome par l'IA, l'IA composée suit des flux de travail prédéfinis qui sont plus prévisibles et fiables pour les applications commerciales.
Jouer la balle avec Airflow, comment les Texas Rangers comptent en bénéficier
L'équipe de baseball de la ligue majeure des Texas Rangers fait partie des nombreux utilisateurs d'Airflow. Oliver Dykstra, ingénieur de données full-stack au Texas Rangers Baseball Club, a partagé avec VentureBeat que l'équipe utilise Airflow, hébergé sur la plateforme Astro d'Astronomer, comme le « centre névralgique » de leurs opérations de données de baseball. Tout le développement des joueurs, les contrats, les analyses et les données de jeu sont orchestrés via Airflow.
« Nous sommes impatients de passer à Airflow 3 et à ses améliorations en matière de planification événementielle, d'observabilité et de traçabilité des données », a déclaré Dykstra. « Comme nous dépendons déjà d'Airflow pour gérer nos pipelines AI/ML critiques, l'efficacité et la fiabilité accrues d'Airflow 3 aideront à augmenter la confiance et la résilience de ces produits de données au sein de toute notre organisation. »
Ce que cela signifie pour l'adoption de l'IA en entreprise
Pour les décideurs techniques évaluant leur stratégie d'orchestration de données, Airflow 3.0 offre des avantages tangibles qui peuvent être mis en œuvre progressivement.
La première étape consiste à évaluer les flux de travail de données actuels qui pourraient bénéficier des nouvelles capacités événementielles. Les organisations peuvent identifier les pipelines de données utilisant actuellement des tâches programmées mais qui seraient plus efficaces avec des déclencheurs basés sur des événements. Ce changement peut réduire considérablement la latence de traitement et éliminer les opérations de sondage inutiles.
Ensuite, les leaders technologiques devraient examiner leurs environnements de développement pour voir si le support élargi des langages d'Airflow pourrait aider à consolider les outils d'orchestration fragmentés. Les équipes gérant actuellement des outils d'orchestration séparés pour différents environnements de langage peuvent commencer à planifier une stratégie de migration pour rationaliser leur pile technologique.
Pour les entreprises à la pointe de la mise en œuvre de l'IA, Airflow 3.0 représente un composant d'infrastructure crucial qui répond à un défi clé dans l'adoption de l'IA : orchestrer des flux de travail d'IA complexes et multi-étapes à l'échelle de l'entreprise. La capacité de la plateforme à coordonner des systèmes d'IA composés pourrait aider les organisations à passer de la preuve de concept à un déploiement d'IA à l'échelle de l'entreprise, en garantissant une gouvernance, une sécurité et une fiabilité appropriées.




Airflow 3.0 sounds like a game-changer for real-time AI! 🚀 Super curious how its event-driven approach speeds things up compared to traditional batch processing.




Apache Airflow 3.0 thực sự đã tăng tốc quá trình xử lý dữ liệu của tôi cho AI! Cách tiếp cận dựa trên sự kiện là một bước đột phá. Tuy nhiên, nó không hoàn hảo; đường cong học tập rất dốc. Nhưng khi bạn làm quen được, nó cực kỳ hiệu quả. 🚀




Apache Airflow 3.0は、私のAI向けデータ処理を本当にスピードアップしました!イベント駆動のアプローチはゲームチェンジャーです。ただし、完璧ではありません。学習曲線が急です。でも、一度慣れれば超効率的です。🚀




Apache Airflow 3.0 realmente ha acelerado mi procesamiento de datos para IA. El enfoque basado en eventos es un cambio de juego. No es perfecto, la curva de aprendizaje es empinada. Pero una vez que lo dominas, es súper eficiente. 🚀




Apache Airflow 3.0 has really sped up my data processing for AI! The event-driven approach is a game-changer. It's not perfect, though; the learning curve is steep. But once you get the hang of it, it's super efficient. 🚀




Apache Airflow 3.0 hat meinen Datenverarbeitungsprozess für KI wirklich beschleunigt! Der ereignisgesteuerte Ansatz ist ein Game-Changer. Es ist nicht perfekt; die Lernkurve ist steil. Aber sobald man es beherrscht, ist es super effizient. 🚀












