

Die Verarbeitung von Stapeldaten ist für Echtzeit-KI zu langsam: Wie Open-Source-Airflow 3.0 die Herausforderung mit ereignisgesteuerter Datenorchestrierung löst
7. Mai 2025
BenGarcía
0

Das Verschieben von Daten aus verschiedenen Quellen an den geeigneten Ort für AI -Anwendungen ist keine geringe Leistung. Hier werden Datenorchestrierungs -Tools wie Apache Airstrow ins Spiel kommen, wodurch der Prozess reibungsloser und effizienter wird.
Die Apache Airflow Community hat gerade ihr bedeutendes Update seit Jahren mit dem Start von Version 3.0 veröffentlicht. Dies ist das erste große Update seit vier Jahren, nachdem die 2.x -Serie stetig verbessert wurde, einschließlich der Release von 2,9 und 2.10 im Jahr 2024, die sich stark auf KI -Verbesserungen konzentrierten.
Apache Airflow ist zum Anlaufwerk für Dateningenieure geworden und festigt seinen Platz als oberste Open-Source-Workflow-Orchestrierungsplattform. Mit über 3.000 Mitwirkenden und weit verbreiteter Verwendung bei Fortune 500 -Unternehmen ist klar, warum es so beliebt ist. Darüber hinaus basieren mehrere kommerzielle Dienste wie Astronomer Astro, Google Cloud Composer, Amazon Managed Workflows für Apache Airflow (MWAA) und Microsoft Azure Data Factory Managed Airflow, um nur einige zu nennen.
Während sich Unternehmen mit den Koordinierung von Datenworkflows über verschiedene Systeme, Wolken und zunehmend KI -Workloads auseinandersetzen, wächst die Notwendigkeit robuster Lösungen. Apache Airflow 3.0 Schritte, um diese Unternehmensbedürfnisse mit einer architektonischen Überarbeitung zu erfüllen, die verspricht, die Entwicklung und Bereitstellung von Datenanwendungen zu verbessern.
"Für mich ist Airflow 3 ein neuer Anfang, eine Grundlage für eine viel breitere Reihe von Fähigkeiten", Vikram Koka, ein Mitglied des Airflow -PMC (Projektmanagementausschusses) und Chief Strategy Officer bei Astronomer, teilte in einem exklusiven Interview mit Venturebeat. "Dies ist fast ein vollständiger Refaktor, der darauf basiert, was Unternehmen uns mitgeteilt haben, dass sie für die nächste Ebene der missionskritischen Adoption benötigt werden."
Unternehmensdatenkomplexität hat die Datenorchestrierungsanforderungen geändert
Da Unternehmen zunehmend auf Daten zur Entscheidungsfindung angewiesen sind, ist die Komplexität von Datenworkflows in die Höhe geschossen. Unternehmen jonglieren jetzt komplexe Pipelines, die mehrere Cloud -Umgebungen, verschiedene Datenquellen und zunehmend ausgefeiltere KI -Workloads umfassen.
Der Airflow 3.0 ist auf diese sich entwickelnden Unternehmensanforderungen zugeschnitten. Im Gegensatz zu seinen Vorgängern wechselt diese Veröffentlichung von einer monolithischen Struktur zu einem verteilten Kundenmodell und bietet eine größere Flexibilität und Sicherheit. Diese neue Architektur befähigt Unternehmen:
- Führen Sie Aufgaben in mehreren Cloud -Umgebungen aus.
- Detaillierte Sicherheitskontrollen implementieren.
- Unterstützen Sie eine Vielzahl von Programmiersprachen.
- Aktivieren Sie echte Multi-Cloud-Bereitstellungen.
Die erweiterte Sprachunterstützung in Airflow 3.0 ist besonders bemerkenswert. Während frühere Versionen hauptsächlich pythonorientiert waren, unterstützt die neue Veröffentlichung nun mehrere Programmiersprachen. Airflow 3.0 unterstützt derzeit Python und Go mit den Plänen, Java, Typscript und Rost zu enthalten. Diese Flexibilität bedeutet, dass Dateningenieure ihre bevorzugte Programmiersprache verwenden können, wodurch Workflow -Entwicklung und Integration reibungsloser werden können.
Ereignisgesteuerte Funktionen transformieren Datenworkflows
Traditionell war der Luftstrom in der geplanten Stapelverarbeitung großartig, aber Unternehmen fordern nun Echtzeit-Datenverarbeitungsfunktionen. Luftstrom 3.0 Schritte, um diese Nachfrage zu befriedigen.
"Eine wichtige Änderung des Airflow 3 ist das, was wir als ereignisgesteuerte Planung bezeichnen", erklärte Koka.
Anstatt einen Datenverarbeitungsjob in einem festgelegten Zeitplan auszuführen, wie jede Stunde, kann der Air -Flow nun den Job auslösen, wenn ein bestimmtes Ereignis auftritt, z. Diese ereignisgesteuerte Planung überbrückt die Lücke zwischen herkömmlichen ETL-Tools (Extrakt-, Transformations- und Lade-) Tools und Stream-Verarbeitungs-Frameworks wie Apache Flink oder Apache Spark Structured Streaming, mit der Unternehmen sowohl geplante als auch ereignisgestützte Workflows mit einer einzelnen Orchestrierungsschicht verwalten können.
Der Luftstrom beschleunigt die Ausführung der Unternehmens -Inferenz von Unternehmen und die Verbesserung von AI
Die Einführung ereignisgesteuerter Datenorchestrierung wird auch die Fähigkeit von Airflow erhöhen, eine schnelle Ausführung von AI-Inferenz zu unterstützen.
Koka gab ein Beispiel für die Verwendung von Echtzeit-Inferenz für professionelle Dienste wie die Verfolgung von Rechtszeiten. In diesem Szenario hilft Airflow dabei, Rohdaten aus Quellen wie Kalendern, E -Mails und Dokumenten zu sammeln. Ein großes Sprachmodell (LLM) verwandelt diese unstrukturierten Daten dann in strukturierte Informationen. Ein weiteres vorgebildetes Modell kann diese strukturierten Zeitverfolgungsdaten analysieren, feststellen, ob die Arbeiten abrechnungsfähig sind, und entsprechende Abrechnungscodes und -raten zuweisen.
Koka bezeichnet dies als ein zusammengesetzendes KI -System - einen Workflow, der verschiedene KI -Modelle kombiniert, um eine komplexe Aufgabe effizient und intelligent zu erledigen. Die ereignisorientierte Architektur von Airflow 3.0 macht diese Art von Multi-Schritt-Inferenzprozess in Echtzeit in verschiedenen Unternehmensnutzungsfällen durchführbar.
Compound AI, ein Konzept, das erstmals vom Berkeley Artificial Intelligence Research Center im Jahr 2024 definiert wurde, unterscheidet sich von der Agentic AI. Koka erklärte, dass die Agent-KI zwar autonomes KI-Entscheidungsfindung ermöglicht, die zusammengestellte AI vordefinierte Workflows folgt, die für Geschäftsanwendungen vorhersehbarer und zuverlässig sind.
Ball mit Luftstrom spielen, wie die Texas Rangers profitieren wollen
Das Baseballteam der Texas Rangers Major League gehört zu den vielen Nutzern von Airflow. Oliver Dykstra, ein Full-Stack-Dateningenieur im Texas Rangers Baseball Club, teilte VentureBeat mit, dass das Team Airflow verwendet, das auf der Astro-Plattform des Astronomen als "Nervenzentrum" ihrer Baseball-Datenbetriebe gehostet wird. Alle Spielerentwicklung, Verträge, Analysen und Spieldaten werden durch den Luftstrom orchestriert.
"Wir freuen uns darauf, auf Airflow 3 und seine Verbesserungen zu ereignisgesteuerter Planung, Beobachtbarkeit und Datenlinie zu verbessern", sagte Dykstra. "Da wir uns bereits auf den Luftstrom verlassen, um unsere kritischen KI/ML -Pipelines zu verwalten, wird die zusätzliche Effizienz und Zuverlässigkeit von Luftstrom 3 dazu beitragen, das Vertrauen und die Ausfallsicherheit dieser Datenprodukte in unserer gesamten Organisation zu erhöhen."
Was dies für die Einführung von Unternehmen KI bedeutet
Für technische Entscheidungsträger, die ihre Datenorchestrierungsstrategie bewerten, bietet Airflow 3.0 greifbare Vorteile, die schrittweise implementiert werden können.
Der erste Schritt besteht darin, aktuelle Datenworkflows zu bewerten, die von den neuen ereignisgesteuerten Funktionen profitieren könnten. Unternehmen können Datenpipelines derzeit mit geplanten Jobs bestimmen, wären jedoch mit ereignisbasierten Auslösern effizienter. Diese Verschiebung kann die Verarbeitungslatenz erheblich verringern und unnötige Wahlbetriebe beseitigen.
Als nächstes sollten Technologieführer ihre Entwicklungsumgebungen überprüfen, um festzustellen, ob die erweiterte Sprachunterstützung von Airflow dazu beitragen könnte, fragmentierte Orchestrierungswerkzeuge zu konsolidieren. Teams, die derzeit separate Orchestrierungs -Tools für verschiedene Sprachumgebungen verwalten, können mit der Planung einer Migrationsstrategie beginnen, um ihren Technologie -Stack zu rationalisieren.
Für Unternehmen an der Spitze der KI-Implementierung stellt Airflow 3.0 eine entscheidende Infrastrukturkomponente dar, die eine wichtige Herausforderung in der KI-Einführung angeht: komplexe, mehrstufige KI-Workflows auf einer Enterprise-Skala orchestrieren. Die Fähigkeit der Plattform, zusammengesetzte KI-Systeme zu koordinieren, könnte Organisationen helfen, über den Proof-of-Concept für unternehmensweite KI-Bereitstellungen hinauszugehen und die ordnungsgemäße Governance, Sicherheit und Zuverlässigkeit sicherzustellen.
Verwandter Artikel
Top 10 Python -Bibliotheken zur Verbesserung der Verarbeitung natürlicher Sprache
Python wird oft als Spitzenwahl für die Programmierung gefeiert, insbesondere wenn es um künstliche Intelligenz (KI) und maschinelles Lernen geht. Seine Effizienz fällt unter anderen beliebten Sprachen auf, und seine Syntax, die Englisch ähnelt, macht es zu einer perfekten Startersprache für Anfänger. Was wirklich se
Was ist im LLM? AI2 Olmotrace wird die Quelle "verfolgen"
Das Verständnis der Verbindung zwischen der Ausgabe eines großen Sprachmodells (LLM) und seinen Trainingsdaten war schon immer ein Rätsel für Unternehmen. Diese Woche hat das Allen Institute for AI (AI2) eine aufregende neue Open-Source-Initiative namens Olmotrace gestartet, die darauf abzielt, dieses Relati zu entmystifizieren
Meta, um KI -Modelle mit EU -Benutzerdaten zu trainieren
Meta hat kürzlich seine Absicht angekündigt, die öffentlichen Inhalte von erwachsenen Nutzern der Europäischen Union (EU) zu nutzen, um seine KI -Modelle zu verbessern. Dieser Schritt folgt dem Start von Meta -KI
Kommentare (0)
0/200






Das Verschieben von Daten aus verschiedenen Quellen an den geeigneten Ort für AI -Anwendungen ist keine geringe Leistung. Hier werden Datenorchestrierungs -Tools wie Apache Airstrow ins Spiel kommen, wodurch der Prozess reibungsloser und effizienter wird.
Die Apache Airflow Community hat gerade ihr bedeutendes Update seit Jahren mit dem Start von Version 3.0 veröffentlicht. Dies ist das erste große Update seit vier Jahren, nachdem die 2.x -Serie stetig verbessert wurde, einschließlich der Release von 2,9 und 2.10 im Jahr 2024, die sich stark auf KI -Verbesserungen konzentrierten.
Apache Airflow ist zum Anlaufwerk für Dateningenieure geworden und festigt seinen Platz als oberste Open-Source-Workflow-Orchestrierungsplattform. Mit über 3.000 Mitwirkenden und weit verbreiteter Verwendung bei Fortune 500 -Unternehmen ist klar, warum es so beliebt ist. Darüber hinaus basieren mehrere kommerzielle Dienste wie Astronomer Astro, Google Cloud Composer, Amazon Managed Workflows für Apache Airflow (MWAA) und Microsoft Azure Data Factory Managed Airflow, um nur einige zu nennen.
Während sich Unternehmen mit den Koordinierung von Datenworkflows über verschiedene Systeme, Wolken und zunehmend KI -Workloads auseinandersetzen, wächst die Notwendigkeit robuster Lösungen. Apache Airflow 3.0 Schritte, um diese Unternehmensbedürfnisse mit einer architektonischen Überarbeitung zu erfüllen, die verspricht, die Entwicklung und Bereitstellung von Datenanwendungen zu verbessern.
"Für mich ist Airflow 3 ein neuer Anfang, eine Grundlage für eine viel breitere Reihe von Fähigkeiten", Vikram Koka, ein Mitglied des Airflow -PMC (Projektmanagementausschusses) und Chief Strategy Officer bei Astronomer, teilte in einem exklusiven Interview mit Venturebeat. "Dies ist fast ein vollständiger Refaktor, der darauf basiert, was Unternehmen uns mitgeteilt haben, dass sie für die nächste Ebene der missionskritischen Adoption benötigt werden."
Unternehmensdatenkomplexität hat die Datenorchestrierungsanforderungen geändert
Da Unternehmen zunehmend auf Daten zur Entscheidungsfindung angewiesen sind, ist die Komplexität von Datenworkflows in die Höhe geschossen. Unternehmen jonglieren jetzt komplexe Pipelines, die mehrere Cloud -Umgebungen, verschiedene Datenquellen und zunehmend ausgefeiltere KI -Workloads umfassen.
Der Airflow 3.0 ist auf diese sich entwickelnden Unternehmensanforderungen zugeschnitten. Im Gegensatz zu seinen Vorgängern wechselt diese Veröffentlichung von einer monolithischen Struktur zu einem verteilten Kundenmodell und bietet eine größere Flexibilität und Sicherheit. Diese neue Architektur befähigt Unternehmen:
- Führen Sie Aufgaben in mehreren Cloud -Umgebungen aus.
- Detaillierte Sicherheitskontrollen implementieren.
- Unterstützen Sie eine Vielzahl von Programmiersprachen.
- Aktivieren Sie echte Multi-Cloud-Bereitstellungen.
Die erweiterte Sprachunterstützung in Airflow 3.0 ist besonders bemerkenswert. Während frühere Versionen hauptsächlich pythonorientiert waren, unterstützt die neue Veröffentlichung nun mehrere Programmiersprachen. Airflow 3.0 unterstützt derzeit Python und Go mit den Plänen, Java, Typscript und Rost zu enthalten. Diese Flexibilität bedeutet, dass Dateningenieure ihre bevorzugte Programmiersprache verwenden können, wodurch Workflow -Entwicklung und Integration reibungsloser werden können.
Ereignisgesteuerte Funktionen transformieren Datenworkflows
Traditionell war der Luftstrom in der geplanten Stapelverarbeitung großartig, aber Unternehmen fordern nun Echtzeit-Datenverarbeitungsfunktionen. Luftstrom 3.0 Schritte, um diese Nachfrage zu befriedigen.
"Eine wichtige Änderung des Airflow 3 ist das, was wir als ereignisgesteuerte Planung bezeichnen", erklärte Koka.
Anstatt einen Datenverarbeitungsjob in einem festgelegten Zeitplan auszuführen, wie jede Stunde, kann der Air -Flow nun den Job auslösen, wenn ein bestimmtes Ereignis auftritt, z. Diese ereignisgesteuerte Planung überbrückt die Lücke zwischen herkömmlichen ETL-Tools (Extrakt-, Transformations- und Lade-) Tools und Stream-Verarbeitungs-Frameworks wie Apache Flink oder Apache Spark Structured Streaming, mit der Unternehmen sowohl geplante als auch ereignisgestützte Workflows mit einer einzelnen Orchestrierungsschicht verwalten können.
Der Luftstrom beschleunigt die Ausführung der Unternehmens -Inferenz von Unternehmen und die Verbesserung von AI
Die Einführung ereignisgesteuerter Datenorchestrierung wird auch die Fähigkeit von Airflow erhöhen, eine schnelle Ausführung von AI-Inferenz zu unterstützen.
Koka gab ein Beispiel für die Verwendung von Echtzeit-Inferenz für professionelle Dienste wie die Verfolgung von Rechtszeiten. In diesem Szenario hilft Airflow dabei, Rohdaten aus Quellen wie Kalendern, E -Mails und Dokumenten zu sammeln. Ein großes Sprachmodell (LLM) verwandelt diese unstrukturierten Daten dann in strukturierte Informationen. Ein weiteres vorgebildetes Modell kann diese strukturierten Zeitverfolgungsdaten analysieren, feststellen, ob die Arbeiten abrechnungsfähig sind, und entsprechende Abrechnungscodes und -raten zuweisen.
Koka bezeichnet dies als ein zusammengesetzendes KI -System - einen Workflow, der verschiedene KI -Modelle kombiniert, um eine komplexe Aufgabe effizient und intelligent zu erledigen. Die ereignisorientierte Architektur von Airflow 3.0 macht diese Art von Multi-Schritt-Inferenzprozess in Echtzeit in verschiedenen Unternehmensnutzungsfällen durchführbar.
Compound AI, ein Konzept, das erstmals vom Berkeley Artificial Intelligence Research Center im Jahr 2024 definiert wurde, unterscheidet sich von der Agentic AI. Koka erklärte, dass die Agent-KI zwar autonomes KI-Entscheidungsfindung ermöglicht, die zusammengestellte AI vordefinierte Workflows folgt, die für Geschäftsanwendungen vorhersehbarer und zuverlässig sind.
Ball mit Luftstrom spielen, wie die Texas Rangers profitieren wollen
Das Baseballteam der Texas Rangers Major League gehört zu den vielen Nutzern von Airflow. Oliver Dykstra, ein Full-Stack-Dateningenieur im Texas Rangers Baseball Club, teilte VentureBeat mit, dass das Team Airflow verwendet, das auf der Astro-Plattform des Astronomen als "Nervenzentrum" ihrer Baseball-Datenbetriebe gehostet wird. Alle Spielerentwicklung, Verträge, Analysen und Spieldaten werden durch den Luftstrom orchestriert.
"Wir freuen uns darauf, auf Airflow 3 und seine Verbesserungen zu ereignisgesteuerter Planung, Beobachtbarkeit und Datenlinie zu verbessern", sagte Dykstra. "Da wir uns bereits auf den Luftstrom verlassen, um unsere kritischen KI/ML -Pipelines zu verwalten, wird die zusätzliche Effizienz und Zuverlässigkeit von Luftstrom 3 dazu beitragen, das Vertrauen und die Ausfallsicherheit dieser Datenprodukte in unserer gesamten Organisation zu erhöhen."
Was dies für die Einführung von Unternehmen KI bedeutet
Für technische Entscheidungsträger, die ihre Datenorchestrierungsstrategie bewerten, bietet Airflow 3.0 greifbare Vorteile, die schrittweise implementiert werden können.
Der erste Schritt besteht darin, aktuelle Datenworkflows zu bewerten, die von den neuen ereignisgesteuerten Funktionen profitieren könnten. Unternehmen können Datenpipelines derzeit mit geplanten Jobs bestimmen, wären jedoch mit ereignisbasierten Auslösern effizienter. Diese Verschiebung kann die Verarbeitungslatenz erheblich verringern und unnötige Wahlbetriebe beseitigen.
Als nächstes sollten Technologieführer ihre Entwicklungsumgebungen überprüfen, um festzustellen, ob die erweiterte Sprachunterstützung von Airflow dazu beitragen könnte, fragmentierte Orchestrierungswerkzeuge zu konsolidieren. Teams, die derzeit separate Orchestrierungs -Tools für verschiedene Sprachumgebungen verwalten, können mit der Planung einer Migrationsstrategie beginnen, um ihren Technologie -Stack zu rationalisieren.
Für Unternehmen an der Spitze der KI-Implementierung stellt Airflow 3.0 eine entscheidende Infrastrukturkomponente dar, die eine wichtige Herausforderung in der KI-Einführung angeht: komplexe, mehrstufige KI-Workflows auf einer Enterprise-Skala orchestrieren. Die Fähigkeit der Plattform, zusammengesetzte KI-Systeme zu koordinieren, könnte Organisationen helfen, über den Proof-of-Concept für unternehmensweite KI-Bereitstellungen hinauszugehen und die ordnungsgemäße Governance, Sicherheit und Zuverlässigkeit sicherzustellen.










