Le traitement des données par lots est trop lente pour l'IA en temps réel: comment l'Open-source Air Airflow 3.0 résout le défi avec l'orchestration de données axée sur l'événement

Le déplacement des données de diverses sources à l'endroit approprié pour les applications d'IA n'est pas une mince affaire. C'est là que les outils d'orchestration de données comme le flux d'air Apache entrent en jeu, ce qui rend le processus plus lisse et plus efficace.
La communauté Airflow Apache vient de publier sa mise à jour la plus importante depuis des années avec le lancement de la version 3.0. Cela marque la première mise à jour majeure en quatre ans, à la suite d'améliorations régulières de la série 2.x, y compris les versions 2.9 et 2.10 en 2024, qui se sont fortement concentrées sur les améliorations de l'IA.
Apache Air Flow est devenu l'outil incontournable pour les ingénieurs de données, cimentant sa place en tant que plate-forme d'orchestration de flux de travail open source supérieure. Avec plus de 3 000 contributeurs et une utilisation généralisée parmi les sociétés du Fortune 500, il est clair pourquoi il est si populaire. Il existe également plusieurs services commerciaux construits au-dessus de celui-ci, tels que l'astronome Astro, Google Cloud Composer, Amazon Managed Workflows for Apache Airflow (MWAA) et Microsoft Azure Data Factory Managed Airflow, pour n'en nommer que quelques-uns.
Alors que les entreprises se confrontent à la coordination des flux de travail de données sur différents systèmes, nuages et charges de travail de plus en plus d'IA, le besoin de solutions robustes augmente. Apache Airflow 3.0 accélère pour répondre à ces besoins d'entreprise avec une refonte architecturale qui promet d'améliorer la façon dont les organisations développent et déploient des applications de données.
"Pour moi, Airflow 3 est un nouveau départ, une base pour un ensemble de capacités beaucoup plus large", a partagé Vikram Koka, un membre d'Apache Airflow PMC (comité de gestion de projet) et directeur de la stratégie d'astronome, partagé dans une interview exclusive avec VentureBeat. "Il s'agit presque d'un refacteur complet basé sur ce que les entreprises nous ont dit qu'ils avaient besoin pour le prochain niveau d'adoption critique."
La complexité des données de l'entreprise a changé les besoins en orchestration des données
Les entreprises s'appuyant de plus en plus sur les données pour la prise de décision, la complexité des flux de travail des données a monté en flèche. Les entreprises jonglent désormais avec des pipelines complexes qui s'étendent sur plusieurs environnements cloud, diverses sources de données et des charges de travail de l'IA de plus en plus sophistiquées.
Airflow 3.0 est adapté pour répondre à ces besoins en évolution des entreprises. Contrairement à ses prédécesseurs, cette version s'éloigne d'une structure monolithique à un modèle client distribué, offrant une plus grande flexibilité et sécurité. Cette nouvelle architecture habilite les entreprises à:
- Exécutez des tâches sur plusieurs environnements cloud.
- Implémenter des contrôles de sécurité détaillés.
- Soutenez une variété de langages de programmation.
- Activez les véritables déploiements multi-nuages.
Le support linguistique élargi dans Airflow 3.0 est particulièrement remarquable. Alors que les versions antérieures étaient principalement axées sur Python, la nouvelle version prend désormais nativement plusieurs langages de programmation. Airflow 3.0 prend actuellement en charge Python et GO, avec des plans pour inclure Java, TypeScript et Rust. Cette flexibilité signifie que les ingénieurs de données peuvent utiliser leur langage de programmation préféré, rendant le développement de workflow et l'intégration plus fluide.
Les capacités motivées d'événements transforment les workflows de données
Traditionnellement, le flux d'air a été excellent dans le traitement par lots planifié, mais les entreprises exigent désormais des capacités de traitement des données en temps réel. Le flux d'air 3,0 accélère pour répondre à cette demande.
"Un changement clé dans Airflow 3 est ce que nous appelons la planification axée sur les événements", a expliqué Koka.
Au lieu d'exécuter un travail de traitement des données sur un calendrier défini, comme chaque heure, Airflow peut désormais déclencher le travail lorsqu'un événement spécifique se produit, par exemple lorsqu'un fichier de données est téléchargé dans un seau Amazon S3 ou un message apparaît dans Apache Kafka. Cette planification axée sur les événements comble les écarts entre les outils traditionnels de l'ETL (extraire, transformée et charge) et des frameworks de traitement de flux comme le streaming structuré Apache Flink ou Apache Spark, permettant aux organisations de gérer à la fois des flux de travail planifiés et déclenchés par événement avec une seule couche d'orchestration.
Le flux d'air accélérera l'exécution de l'inférence de l'IA d'entreprise et le composé AI
L'introduction de l'orchestration de données pilotée par des événements augmentera également la capacité du flux d'air à soutenir l'exécution rapide de l'inférence de l'IA.
Koka a fourni un exemple d'utilisation de l'inférence en temps réel pour les services professionnels comme le suivi du temps légal. Dans ce scénario, Air Flow aide à recueillir des données brutes à partir de sources telles que des calendriers, des e-mails et des documents. Un modèle grand langage (LLM) transforme ensuite ces données non structurées en informations structurées. Un autre modèle pré-formé peut analyser ces données de suivi du temps structurées, déterminer si le travail est facturé et attribuer des codes et des taux de facturation appropriés.
Koka fait référence à cela comme un système d'IA composé - un flux de travail qui combine différents modèles d'IA pour effectuer efficacement et intelligemment une tâche complexe. L'architecture axée sur les événements d'Airflow 3.0 rend réalisable ce type de processus d'inférence en plusieurs étapes en temps réel dans divers cas d'utilisation de l'entreprise.
Composé AI, un concept défini pour la première fois par le Berkeley Artificial Intelligence Research Center en 2024, diffère de l'agent AI. Koka a expliqué que si l'agent AI permet la prise de décision autonome de l'IA, l'IA composé suit des flux de travail prédéfinis qui sont plus prévisibles et fiables pour les applications commerciales.
Jouer au ballon avec le flux d'air, comment les Rangers du Texas cherchent à bénéficier
L'équipe de baseball de la Ligue majeure des Texas Rangers fait partie des nombreux utilisateurs de flux d'air. Oliver Dykstra, un ingénieur de données complet au Texas Rangers Baseball Club, a partagé avec VentureBeat que l'équipe utilise le flux d'air, animé sur la plate-forme Astro d'astronome, en tant que `` centre nerveux '' de leurs opérations de données de baseball. Tous le développement des joueurs, les contrats, l'analyse et les données de jeu sont orchestrés via le flux d'air.
"Nous sommes impatients de passer à Airflow 3 et ses améliorations à la planification, à l'observabilité et à la lignée de données axées sur les événements", a déclaré Dykstra. "Comme nous comptons déjà sur le flux d'air pour gérer nos pipelines AI / ML critiques, l'efficacité et la fiabilité supplémentaires du flux d'air 3 contribueront à accroître la confiance et la résilience de ces produits de données au sein de toute notre organisation."
Ce que cela signifie pour l'adoption de l'IA d'entreprise
Pour les décideurs techniques évaluant leur stratégie d'orchestration de données, Airflow 3.0 offre des avantages tangibles qui peuvent être mis en œuvre progressivement.
La première étape consiste à évaluer les flux de travail actuels des données qui pourraient bénéficier des nouvelles capacités motivées par des événements. Les organisations peuvent identifier les pipelines de données en utilisant actuellement des travaux planifiés, mais seraient plus efficaces avec les déclencheurs basés sur des événements. Ce changement peut réduire considérablement la latence de traitement et éliminer les opérations de sondage inutiles.
Ensuite, les leaders de la technologie devraient examiner leurs environnements de développement pour voir si le soutien linguistique élargi du flux d'air pourrait aider à consolider les outils d'orchestration fragmentés. Les équipes gérant actuellement des outils d'orchestration distinctes pour différents environnements linguistiques peuvent commencer à planifier une stratégie de migration pour rationaliser leur pile technologique.
Pour les entreprises à l'avant-garde de la mise en œuvre de l'IA, Airflow 3.0 représente un composant d'infrastructure crucial qui relève un défi clé dans l'adoption de l'IA: des flux de travail complexes en plusieurs étapes complexes et en plusieurs étapes à une échelle d'entreprise. La capacité de la plate-forme à coordonner les systèmes d'IA composés pourrait aider les organisations à aller au-delà de la preuve de concept au déploiement d'IA à l'échelle de l'entreprise, garantissant une bonne gouvernance, une sécurité et une fiabilité.
Article connexe
Julius AI : 계산 인텔리전스로 데이터 분석을 혁신합니다
오늘날의 데이터 중심 세계에서 데이터 분석은 정보에 입각 한 결정을 내리는 데 중추적 인 역할을합니다. 그러나 많은 사람들에게 프로세스는 여전히 어려움을 겪고 시간이 많이 걸립니다. 데이터 분석을 탈취하고 사용자 수준의 통찰력을 가진 사용자에게 권한을 부여하도록 설계된 혁신적인 계산 AI 도구 인 Julius AI를 입력하십시오.
인공지능 기반 주식 분석: 기술적 분석 자동화
AI를 활용한 주식 시장 분석의 힘을 해방시키기인공지능을 활용하여 더 똑똑한 투자 결정을 내릴 수 있는 방법을 궁금해 본 적이 있으신가요? AI 기반 대시보드를 사용하여 기술적 주식 분석을 자동화하는 이 포괄적인 가이드로 들어가 보세요. 당신이 데이 트레이더이든 장기 투자자이든, 트레이딩 전략을 향상시킬 수 있는 실용적인
Vizly: 박사 연구자를 위한 종합 인공지능 데이터 분석 도구
데이터 분석은 박사 연구의 필수 요소지만, 그것을 어렵게 느껴질 필요는 없습니다. 코드 학습의 높은 난이도를 넘어서 바로 데이터에서 통찰력을 얻을 수 있다면 어떨까요? 그것이 AI 기반 도구인 Vizly가 등장하는 이유이며, 데이터 분석 과정을 단순화하겠다고 약속합니다. 이번 종합 리뷰에서는 Vizly의 기능, 사용성,
commentaires (5)
0/200
KevinScott
9 mai 2025 00:00:00 UTC
Apache Airflow 3.0 has really sped up my data processing for AI! The event-driven approach is a game-changer. It's not perfect, though; the learning curve is steep. But once you get the hang of it, it's super efficient. 🚀
0
BillyThomas
9 mai 2025 00:00:00 UTC
Apache Airflow 3.0 realmente ha acelerado mi procesamiento de datos para IA. El enfoque basado en eventos es un cambio de juego. No es perfecto, la curva de aprendizaje es empinada. Pero una vez que lo dominas, es súper eficiente. 🚀
0
RobertMartin
9 mai 2025 00:00:00 UTC
Apache Airflow 3.0は、私のAI向けデータ処理を本当にスピードアップしました!イベント駆動のアプローチはゲームチェンジャーです。ただし、完璧ではありません。学習曲線が急です。でも、一度慣れれば超効率的です。🚀
0
PaulGonzalez
8 mai 2025 00:00:00 UTC
Apache Airflow 3.0 hat meinen Datenverarbeitungsprozess für KI wirklich beschleunigt! Der ereignisgesteuerte Ansatz ist ein Game-Changer. Es ist nicht perfekt; die Lernkurve ist steil. Aber sobald man es beherrscht, ist es super effizient. 🚀
0
RobertRoberts
9 mai 2025 00:00:00 UTC
Apache Airflow 3.0 thực sự đã tăng tốc quá trình xử lý dữ liệu của tôi cho AI! Cách tiếp cận dựa trên sự kiện là một bước đột phá. Tuy nhiên, nó không hoàn hảo; đường cong học tập rất dốc. Nhưng khi bạn làm quen được, nó cực kỳ hiệu quả. 🚀
0
Le déplacement des données de diverses sources à l'endroit approprié pour les applications d'IA n'est pas une mince affaire. C'est là que les outils d'orchestration de données comme le flux d'air Apache entrent en jeu, ce qui rend le processus plus lisse et plus efficace.
La communauté Airflow Apache vient de publier sa mise à jour la plus importante depuis des années avec le lancement de la version 3.0. Cela marque la première mise à jour majeure en quatre ans, à la suite d'améliorations régulières de la série 2.x, y compris les versions 2.9 et 2.10 en 2024, qui se sont fortement concentrées sur les améliorations de l'IA.
Apache Air Flow est devenu l'outil incontournable pour les ingénieurs de données, cimentant sa place en tant que plate-forme d'orchestration de flux de travail open source supérieure. Avec plus de 3 000 contributeurs et une utilisation généralisée parmi les sociétés du Fortune 500, il est clair pourquoi il est si populaire. Il existe également plusieurs services commerciaux construits au-dessus de celui-ci, tels que l'astronome Astro, Google Cloud Composer, Amazon Managed Workflows for Apache Airflow (MWAA) et Microsoft Azure Data Factory Managed Airflow, pour n'en nommer que quelques-uns.
Alors que les entreprises se confrontent à la coordination des flux de travail de données sur différents systèmes, nuages et charges de travail de plus en plus d'IA, le besoin de solutions robustes augmente. Apache Airflow 3.0 accélère pour répondre à ces besoins d'entreprise avec une refonte architecturale qui promet d'améliorer la façon dont les organisations développent et déploient des applications de données.
"Pour moi, Airflow 3 est un nouveau départ, une base pour un ensemble de capacités beaucoup plus large", a partagé Vikram Koka, un membre d'Apache Airflow PMC (comité de gestion de projet) et directeur de la stratégie d'astronome, partagé dans une interview exclusive avec VentureBeat. "Il s'agit presque d'un refacteur complet basé sur ce que les entreprises nous ont dit qu'ils avaient besoin pour le prochain niveau d'adoption critique."
La complexité des données de l'entreprise a changé les besoins en orchestration des données
Les entreprises s'appuyant de plus en plus sur les données pour la prise de décision, la complexité des flux de travail des données a monté en flèche. Les entreprises jonglent désormais avec des pipelines complexes qui s'étendent sur plusieurs environnements cloud, diverses sources de données et des charges de travail de l'IA de plus en plus sophistiquées.
Airflow 3.0 est adapté pour répondre à ces besoins en évolution des entreprises. Contrairement à ses prédécesseurs, cette version s'éloigne d'une structure monolithique à un modèle client distribué, offrant une plus grande flexibilité et sécurité. Cette nouvelle architecture habilite les entreprises à:
- Exécutez des tâches sur plusieurs environnements cloud.
- Implémenter des contrôles de sécurité détaillés.
- Soutenez une variété de langages de programmation.
- Activez les véritables déploiements multi-nuages.
Le support linguistique élargi dans Airflow 3.0 est particulièrement remarquable. Alors que les versions antérieures étaient principalement axées sur Python, la nouvelle version prend désormais nativement plusieurs langages de programmation. Airflow 3.0 prend actuellement en charge Python et GO, avec des plans pour inclure Java, TypeScript et Rust. Cette flexibilité signifie que les ingénieurs de données peuvent utiliser leur langage de programmation préféré, rendant le développement de workflow et l'intégration plus fluide.
Les capacités motivées d'événements transforment les workflows de données
Traditionnellement, le flux d'air a été excellent dans le traitement par lots planifié, mais les entreprises exigent désormais des capacités de traitement des données en temps réel. Le flux d'air 3,0 accélère pour répondre à cette demande.
"Un changement clé dans Airflow 3 est ce que nous appelons la planification axée sur les événements", a expliqué Koka.
Au lieu d'exécuter un travail de traitement des données sur un calendrier défini, comme chaque heure, Airflow peut désormais déclencher le travail lorsqu'un événement spécifique se produit, par exemple lorsqu'un fichier de données est téléchargé dans un seau Amazon S3 ou un message apparaît dans Apache Kafka. Cette planification axée sur les événements comble les écarts entre les outils traditionnels de l'ETL (extraire, transformée et charge) et des frameworks de traitement de flux comme le streaming structuré Apache Flink ou Apache Spark, permettant aux organisations de gérer à la fois des flux de travail planifiés et déclenchés par événement avec une seule couche d'orchestration.
Le flux d'air accélérera l'exécution de l'inférence de l'IA d'entreprise et le composé AI
L'introduction de l'orchestration de données pilotée par des événements augmentera également la capacité du flux d'air à soutenir l'exécution rapide de l'inférence de l'IA.
Koka a fourni un exemple d'utilisation de l'inférence en temps réel pour les services professionnels comme le suivi du temps légal. Dans ce scénario, Air Flow aide à recueillir des données brutes à partir de sources telles que des calendriers, des e-mails et des documents. Un modèle grand langage (LLM) transforme ensuite ces données non structurées en informations structurées. Un autre modèle pré-formé peut analyser ces données de suivi du temps structurées, déterminer si le travail est facturé et attribuer des codes et des taux de facturation appropriés.
Koka fait référence à cela comme un système d'IA composé - un flux de travail qui combine différents modèles d'IA pour effectuer efficacement et intelligemment une tâche complexe. L'architecture axée sur les événements d'Airflow 3.0 rend réalisable ce type de processus d'inférence en plusieurs étapes en temps réel dans divers cas d'utilisation de l'entreprise.
Composé AI, un concept défini pour la première fois par le Berkeley Artificial Intelligence Research Center en 2024, diffère de l'agent AI. Koka a expliqué que si l'agent AI permet la prise de décision autonome de l'IA, l'IA composé suit des flux de travail prédéfinis qui sont plus prévisibles et fiables pour les applications commerciales.
Jouer au ballon avec le flux d'air, comment les Rangers du Texas cherchent à bénéficier
L'équipe de baseball de la Ligue majeure des Texas Rangers fait partie des nombreux utilisateurs de flux d'air. Oliver Dykstra, un ingénieur de données complet au Texas Rangers Baseball Club, a partagé avec VentureBeat que l'équipe utilise le flux d'air, animé sur la plate-forme Astro d'astronome, en tant que `` centre nerveux '' de leurs opérations de données de baseball. Tous le développement des joueurs, les contrats, l'analyse et les données de jeu sont orchestrés via le flux d'air.
"Nous sommes impatients de passer à Airflow 3 et ses améliorations à la planification, à l'observabilité et à la lignée de données axées sur les événements", a déclaré Dykstra. "Comme nous comptons déjà sur le flux d'air pour gérer nos pipelines AI / ML critiques, l'efficacité et la fiabilité supplémentaires du flux d'air 3 contribueront à accroître la confiance et la résilience de ces produits de données au sein de toute notre organisation."
Ce que cela signifie pour l'adoption de l'IA d'entreprise
Pour les décideurs techniques évaluant leur stratégie d'orchestration de données, Airflow 3.0 offre des avantages tangibles qui peuvent être mis en œuvre progressivement.
La première étape consiste à évaluer les flux de travail actuels des données qui pourraient bénéficier des nouvelles capacités motivées par des événements. Les organisations peuvent identifier les pipelines de données en utilisant actuellement des travaux planifiés, mais seraient plus efficaces avec les déclencheurs basés sur des événements. Ce changement peut réduire considérablement la latence de traitement et éliminer les opérations de sondage inutiles.
Ensuite, les leaders de la technologie devraient examiner leurs environnements de développement pour voir si le soutien linguistique élargi du flux d'air pourrait aider à consolider les outils d'orchestration fragmentés. Les équipes gérant actuellement des outils d'orchestration distinctes pour différents environnements linguistiques peuvent commencer à planifier une stratégie de migration pour rationaliser leur pile technologique.
Pour les entreprises à l'avant-garde de la mise en œuvre de l'IA, Airflow 3.0 représente un composant d'infrastructure crucial qui relève un défi clé dans l'adoption de l'IA: des flux de travail complexes en plusieurs étapes complexes et en plusieurs étapes à une échelle d'entreprise. La capacité de la plate-forme à coordonner les systèmes d'IA composés pourrait aider les organisations à aller au-delà de la preuve de concept au déploiement d'IA à l'échelle de l'entreprise, garantissant une bonne gouvernance, une sécurité et une fiabilité.




Apache Airflow 3.0 has really sped up my data processing for AI! The event-driven approach is a game-changer. It's not perfect, though; the learning curve is steep. But once you get the hang of it, it's super efficient. 🚀




Apache Airflow 3.0 realmente ha acelerado mi procesamiento de datos para IA. El enfoque basado en eventos es un cambio de juego. No es perfecto, la curva de aprendizaje es empinada. Pero una vez que lo dominas, es súper eficiente. 🚀




Apache Airflow 3.0は、私のAI向けデータ処理を本当にスピードアップしました!イベント駆動のアプローチはゲームチェンジャーです。ただし、完璧ではありません。学習曲線が急です。でも、一度慣れれば超効率的です。🚀




Apache Airflow 3.0 hat meinen Datenverarbeitungsprozess für KI wirklich beschleunigt! Der ereignisgesteuerte Ansatz ist ein Game-Changer. Es ist nicht perfekt; die Lernkurve ist steil. Aber sobald man es beherrscht, ist es super effizient. 🚀




Apache Airflow 3.0 thực sự đã tăng tốc quá trình xử lý dữ liệu của tôi cho AI! Cách tiếp cận dựa trên sự kiện là một bước đột phá. Tuy nhiên, nó không hoàn hảo; đường cong học tập rất dốc. Nhưng khi bạn làm quen được, nó cực kỳ hiệu quả. 🚀












