option
Maison Nouvelles Le traitement des données par lots est trop lente pour l'IA en temps réel: comment l'Open-source Air Airflow 3.0 résout le défi avec l'orchestration de données axée sur l'événement

Le traitement des données par lots est trop lente pour l'IA en temps réel: comment l'Open-source Air Airflow 3.0 résout le défi avec l'orchestration de données axée sur l'événement

date de sortie date de sortie 7 mai 2025
Auteur Auteur BenGarcía
vues vues 0

Le traitement des données par lots est trop lente pour l'IA en temps réel: comment l'Open-source Air Airflow 3.0 résout le défi avec l'orchestration de données axée sur l'événement

Le déplacement des données de diverses sources à l'endroit approprié pour les applications d'IA n'est pas une mince affaire. C'est là que les outils d'orchestration de données comme le flux d'air Apache entrent en jeu, ce qui rend le processus plus lisse et plus efficace.

La communauté Airflow Apache vient de publier sa mise à jour la plus importante depuis des années avec le lancement de la version 3.0. Cela marque la première mise à jour majeure en quatre ans, à la suite d'améliorations régulières de la série 2.x, y compris les versions 2.9 et 2.10 en 2024, qui se sont fortement concentrées sur les améliorations de l'IA.

Apache Air Flow est devenu l'outil incontournable pour les ingénieurs de données, cimentant sa place en tant que plate-forme d'orchestration de flux de travail open source supérieure. Avec plus de 3 000 contributeurs et une utilisation généralisée parmi les sociétés du Fortune 500, il est clair pourquoi il est si populaire. Il existe également plusieurs services commerciaux construits au-dessus de celui-ci, tels que l'astronome Astro, Google Cloud Composer, Amazon Managed Workflows for Apache Airflow (MWAA) et Microsoft Azure Data Factory Managed Airflow, pour n'en nommer que quelques-uns.

Alors que les entreprises se confrontent à la coordination des flux de travail de données sur différents systèmes, nuages ​​et charges de travail de plus en plus d'IA, le besoin de solutions robustes augmente. Apache Airflow 3.0 accélère pour répondre à ces besoins d'entreprise avec une refonte architecturale qui promet d'améliorer la façon dont les organisations développent et déploient des applications de données.

"Pour moi, Airflow 3 est un nouveau départ, une base pour un ensemble de capacités beaucoup plus large", a partagé Vikram Koka, un membre d'Apache Airflow PMC (comité de gestion de projet) et directeur de la stratégie d'astronome, partagé dans une interview exclusive avec VentureBeat. "Il s'agit presque d'un refacteur complet basé sur ce que les entreprises nous ont dit qu'ils avaient besoin pour le prochain niveau d'adoption critique."

La complexité des données de l'entreprise a changé les besoins en orchestration des données

Les entreprises s'appuyant de plus en plus sur les données pour la prise de décision, la complexité des flux de travail des données a monté en flèche. Les entreprises jonglent désormais avec des pipelines complexes qui s'étendent sur plusieurs environnements cloud, diverses sources de données et des charges de travail de l'IA de plus en plus sophistiquées.

Airflow 3.0 est adapté pour répondre à ces besoins en évolution des entreprises. Contrairement à ses prédécesseurs, cette version s'éloigne d'une structure monolithique à un modèle client distribué, offrant une plus grande flexibilité et sécurité. Cette nouvelle architecture habilite les entreprises à:

  1. Exécutez des tâches sur plusieurs environnements cloud.
  2. Implémenter des contrôles de sécurité détaillés.
  3. Soutenez une variété de langages de programmation.
  4. Activez les véritables déploiements multi-nuages.

Le support linguistique élargi dans Airflow 3.0 est particulièrement remarquable. Alors que les versions antérieures étaient principalement axées sur Python, la nouvelle version prend désormais nativement plusieurs langages de programmation. Airflow 3.0 prend actuellement en charge Python et GO, avec des plans pour inclure Java, TypeScript et Rust. Cette flexibilité signifie que les ingénieurs de données peuvent utiliser leur langage de programmation préféré, rendant le développement de workflow et l'intégration plus fluide.

Les capacités motivées d'événements transforment les workflows de données

Traditionnellement, le flux d'air a été excellent dans le traitement par lots planifié, mais les entreprises exigent désormais des capacités de traitement des données en temps réel. Le flux d'air 3,0 accélère pour répondre à cette demande.

"Un changement clé dans Airflow 3 est ce que nous appelons la planification axée sur les événements", a expliqué Koka.

Au lieu d'exécuter un travail de traitement des données sur un calendrier défini, comme chaque heure, Airflow peut désormais déclencher le travail lorsqu'un événement spécifique se produit, par exemple lorsqu'un fichier de données est téléchargé dans un seau Amazon S3 ou un message apparaît dans Apache Kafka. Cette planification axée sur les événements comble les écarts entre les outils traditionnels de l'ETL (extraire, transformée et charge) et des frameworks de traitement de flux comme le streaming structuré Apache Flink ou Apache Spark, permettant aux organisations de gérer à la fois des flux de travail planifiés et déclenchés par événement avec une seule couche d'orchestration.

Le flux d'air accélérera l'exécution de l'inférence de l'IA d'entreprise et le composé AI

L'introduction de l'orchestration de données pilotée par des événements augmentera également la capacité du flux d'air à soutenir l'exécution rapide de l'inférence de l'IA.

Koka a fourni un exemple d'utilisation de l'inférence en temps réel pour les services professionnels comme le suivi du temps légal. Dans ce scénario, Air Flow aide à recueillir des données brutes à partir de sources telles que des calendriers, des e-mails et des documents. Un modèle grand langage (LLM) transforme ensuite ces données non structurées en informations structurées. Un autre modèle pré-formé peut analyser ces données de suivi du temps structurées, déterminer si le travail est facturé et attribuer des codes et des taux de facturation appropriés.

Koka fait référence à cela comme un système d'IA composé - un flux de travail qui combine différents modèles d'IA pour effectuer efficacement et intelligemment une tâche complexe. L'architecture axée sur les événements d'Airflow 3.0 rend réalisable ce type de processus d'inférence en plusieurs étapes en temps réel dans divers cas d'utilisation de l'entreprise.

Composé AI, un concept défini pour la première fois par le Berkeley Artificial Intelligence Research Center en 2024, diffère de l'agent AI. Koka a expliqué que si l'agent AI permet la prise de décision autonome de l'IA, l'IA composé suit des flux de travail prédéfinis qui sont plus prévisibles et fiables pour les applications commerciales.

Jouer au ballon avec le flux d'air, comment les Rangers du Texas cherchent à bénéficier

L'équipe de baseball de la Ligue majeure des Texas Rangers fait partie des nombreux utilisateurs de flux d'air. Oliver Dykstra, un ingénieur de données complet au Texas Rangers Baseball Club, a partagé avec VentureBeat que l'équipe utilise le flux d'air, animé sur la plate-forme Astro d'astronome, en tant que `` centre nerveux '' de leurs opérations de données de baseball. Tous le développement des joueurs, les contrats, l'analyse et les données de jeu sont orchestrés via le flux d'air.

"Nous sommes impatients de passer à Airflow 3 et ses améliorations à la planification, à l'observabilité et à la lignée de données axées sur les événements", a déclaré Dykstra. "Comme nous comptons déjà sur le flux d'air pour gérer nos pipelines AI / ML critiques, l'efficacité et la fiabilité supplémentaires du flux d'air 3 contribueront à accroître la confiance et la résilience de ces produits de données au sein de toute notre organisation."

Ce que cela signifie pour l'adoption de l'IA d'entreprise

Pour les décideurs techniques évaluant leur stratégie d'orchestration de données, Airflow 3.0 offre des avantages tangibles qui peuvent être mis en œuvre progressivement.

La première étape consiste à évaluer les flux de travail actuels des données qui pourraient bénéficier des nouvelles capacités motivées par des événements. Les organisations peuvent identifier les pipelines de données en utilisant actuellement des travaux planifiés, mais seraient plus efficaces avec les déclencheurs basés sur des événements. Ce changement peut réduire considérablement la latence de traitement et éliminer les opérations de sondage inutiles.

Ensuite, les leaders de la technologie devraient examiner leurs environnements de développement pour voir si le soutien linguistique élargi du flux d'air pourrait aider à consolider les outils d'orchestration fragmentés. Les équipes gérant actuellement des outils d'orchestration distinctes pour différents environnements linguistiques peuvent commencer à planifier une stratégie de migration pour rationaliser leur pile technologique.

Pour les entreprises à l'avant-garde de la mise en œuvre de l'IA, Airflow 3.0 représente un composant d'infrastructure crucial qui relève un défi clé dans l'adoption de l'IA: des flux de travail complexes en plusieurs étapes complexes et en plusieurs étapes à une échelle d'entreprise. La capacité de la plate-forme à coordonner les systèmes d'IA composés pourrait aider les organisations à aller au-delà de la preuve de concept au déploiement d'IA à l'échelle de l'entreprise, garantissant une bonne gouvernance, une sécurité et une fiabilité.

Article connexe
Top 10 Python -Bibliotheken zur Verbesserung der Verarbeitung natürlicher Sprache Top 10 Python -Bibliotheken zur Verbesserung der Verarbeitung natürlicher Sprache Python wird oft als Spitzenwahl für die Programmierung gefeiert, insbesondere wenn es um künstliche Intelligenz (KI) und maschinelles Lernen geht. Seine Effizienz fällt unter anderen beliebten Sprachen auf, und seine Syntax, die Englisch ähnelt, macht es zu einer perfekten Startersprache für Anfänger. Was wirklich se
Was ist im LLM? AI2 Olmotrace wird die Quelle Was ist im LLM? AI2 Olmotrace wird die Quelle "verfolgen" Das Verständnis der Verbindung zwischen der Ausgabe eines großen Sprachmodells (LLM) und seinen Trainingsdaten war schon immer ein Rätsel für Unternehmen. Diese Woche hat das Allen Institute for AI (AI2) eine aufregende neue Open-Source-Initiative namens Olmotrace gestartet, die darauf abzielt, dieses Relati zu entmystifizieren
Meta, um KI -Modelle mit EU -Benutzerdaten zu trainieren Meta, um KI -Modelle mit EU -Benutzerdaten zu trainieren Meta hat kürzlich seine Absicht angekündigt, die öffentlichen Inhalte von erwachsenen Nutzern der Europäischen Union (EU) zu nutzen, um seine KI -Modelle zu verbessern. Dieser Schritt folgt dem Start von Meta -KI
commentaires (0)
0/200
Retour en haut
OR