オプション
ニュース バッチデータ処理はリアルタイムのAIには遅すぎます:オープンソースApache Airflow 3.0がイベント駆動型のデータオーケストレーションで課題を解決する方法

バッチデータ処理はリアルタイムのAIには遅すぎます:オープンソースApache Airflow 3.0がイベント駆動型のデータオーケストレーションで課題を解決する方法

発売日 発売日 2025年5月7日
著者 著者 BenGarcía
ビュー ビュー 0

バッチデータ処理はリアルタイムのAIには遅すぎます:オープンソースApache Airflow 3.0がイベント駆動型のデータオーケストレーションで課題を解決する方法

さまざまなソースからAIアプリケーションに適した場所にデータを移動することは、小さな偉業ではありません。これは、Apache Airflowなどのデータオーケストレーションツールが機能し、プロセスがよりスムーズで効率的になる場所です。

Apache Airflow Communityは、バージョン3.0の発売により、数年で最も重要なアップデートをリリースしました。これは、2024年の2.9および2.10リリースを含む2.xシリーズの着実な改善に続いて、4年ぶりのメジャーアップデートとなり、AIの機能強化に重点を置いています。

Apache Airflowは、データエンジニアのための頼りになるツールになり、トップオープンソースワークフローオーケストレーションプラットフォームとしてその位置を固めています。 3,000人以上の貢献者とフォーチュン500企業の間で広範囲に使用されているため、なぜそれがとても人気があるのか​​は明らかです。また、天文学者Astro、Google Cloud Composer、Amazon Managed Workflow for Apache Airflow(MWAA)、Microsoft Azure Data Factory Managed Airflowなど、その上にいくつかの商用サービスが構築されています。

企業がさまざまなシステム、クラウド、およびますますAIワークロードを越えてデータワークフローを調整することに取り組んでいると、堅牢なソリューションの必要性が高まります。 Apache Airflow 3.0は、組織がデータアプリケーションを開発および展開する方法を強化することを約束するアーキテクチャのオーバーホールで、これらのエンタープライズのニーズを満たすためにステップアップします。

「私にとって、Airflow 3は新しい始まりであり、はるかに広い能力のセットの基盤です」とAphed Airflow PMC(プロジェクト管理委員会)のメンバー兼最高戦略責任者であるVikram Kokaは、VentureBeatとの独占インタビューで共有しました。 「これは、次のレベルのミッションクリティカルな採用に必要な企業が私たちに言ったことに基づいて、ほぼ完全なリファクタルです。」

エンタープライズデータの複雑さにより、データオーケストレーションのニーズが変更されました

ビジネスが意思決定のためにデータにますます依存しているため、データワークフローの複雑さが急増しています。企業は現在、複数のクラウド環境、多様なデータソース、およびますます洗練されたAIワークロードにまたがる複雑なパイプラインをジャグリングしています。

Airflow 3.0は、これらの進化する企業のニーズに対応するように調整されています。前任者とは異なり、このリリースはモノリシック構造から分散クライアントモデルに移行し、柔軟性とセキュリティを高めます。この新しいアーキテクチャは、企業に次のようになります。

  1. 複数のクラウド環境でタスクを実行します。
  2. 詳細なセキュリティ制御を実装します。
  3. さまざまなプログラミング言語をサポートします。
  4. 真のマルチクラウド展開を有効にします。

Airflow 3.0の拡張言語サポートは特に注目に値します。以前のバージョンは主にPython中心でしたが、新しいリリースは現在、複数のプログラミング言語をネイティブにサポートしています。 Airflow 3.0は現在、PythonとGoをサポートしており、Java、TypeScript、Rustを含める計画を​​立てています。この柔軟性は、データエンジニアが好みのプログラミング言語を使用して、ワークフロー開発と統合をよりスムーズにすることができることを意味します。

イベント駆動型の機能は、データワークフローを変換します

従来、エアフローはスケジュールされたバッチ処理に優れていましたが、企業は現在、リアルタイムのデータ処理機能を要求しています。 Airflow 3.0は、この需要を満たすためにステップアップします。

「エアフロー3の重要な変更は、イベント駆動型のスケジューリングと呼ばれるものです」とコカは説明しました。

1時間ごとに設定されたスケジュールでデータ処理ジョブを実行する代わりに、データファイルがAmazon S3バケットにアップロードされたり、Apache Kafkaにメッセージが表示されたときなど、特定のイベントが発生したときにエアフローがジョブをトリガーできるようになりました。このイベント駆動型のスケジューリングは、Apache FlinkやApache Spark Structuredストリーミングなどの従来のETL(抽出、変換、ロード)ツールとストリーム処理フレームワークの間のギャップを橋渡しし、組織が単一のオーケストレーションレイヤーでスケジュールされたワークフローとイベントトリガーの両方のワークフローを管理できるようにします。

エアフローはエンタープライズAI推論の実行と複合AIを加速します

イベント駆動型のデータオーケストレーションの導入は、迅速なAI推論の実行をサポートするAirflowの能力も高めます。

Kokaは、法的時間追跡などの専門サービスにリアルタイムの推論を使用する例を提供しました。このシナリオでは、Airflowは、カレンダー、電子メール、ドキュメントなどのソースから生データを収集するのに役立ちます。大規模な言語モデル(LLM)は、この非構造化データを構造化された情報に変換します。別の事前に訓練されたモデルは、この構造化された時間追跡データを分析し、作業が請求可能かどうかを判断し、適切な請求コードと料金を割り当てることができます。

Kokaはこれを複合AIシステムと呼んでいます。これは、異なるAIモデルを組み合わせて複雑なタスクを効率的かつインテリジェントに完了するワークフローです。 Airflow 3.0のイベント駆動型アーキテクチャにより、このタイプのリアルタイムのマルチステップ推論プロセスにより、さまざまなエンタープライズユースケースで実行可能になります。

2024年にバークレー人工知能研究センターによって最初に定義された概念である化合物AIは、エージェントAIとは異なります。 Kokaは、エージェントAIが自律的なAIの意思決定を有効にするが、複合AIは事前定義されたワークフローに従い、ビジネスアプリケーションに対してより予測可能で信頼できるものであると説明した。

エアフローでボールをプレーする、テキサスレンジャーがどのように利益を得るか

テキサスレンジャーズのメジャーリーグベースボールチームは、エアフローの多くのユーザーの1つです。 Texas Rangers Baseball ClubのフルスタックデータエンジニアであるOliver Dykstraは、VentureBeatと、チームが野球データ運用の「神経センター」として天文学者のAstroプラットフォームでホストされているエアフローを使用していることを共有しました。すべてのプレーヤーの開発、契約、分析、ゲームデータは、気流を通じて調整されます。

「Airflow 3にアップグレードすることと、イベント主導のスケジューリング、観察可能性、およびデータ系統の強化を楽しみにしています」とDykstra氏は述べています。 「私たちはすでに重要なAI/MLパイプラインを管理するために気流に依存しているため、エアフロー3の追加効率と信頼性は、組織全体のこれらのデータ製品の信頼と回復力を高めるのに役立ちます。」

これがエンタープライズAIの採用にとって何を意味するのか

データオーケストレーション戦略を評価する技術的な意思決定者には、Airflow 3.0は徐々に実装できる具体的な利点を提供します。

最初のステップは、新しいイベント主導の機能の恩恵を受ける可能性のある現在のデータワークフローを評価することです。組織は現在、スケジュールされたジョブを使用しているデータパイプラインを特定できますが、イベントベースのトリガーではより効率的です。このシフトは、処理の遅延を大幅に削減し、不必要な投票作業を排除することができます。

次に、テクノロジーのリーダーは、開発環境を確認して、Airflowの拡張言語サポートが断片化されたオーケストレーションツールの統合に役立つかどうかを確認する必要があります。現在、さまざまな言語環境向けの個別のオーケストレーションツールを管理しているチームは、テクノロジースタックを合理化するための移行戦略の計画を開始できます。

AI実装の最前線にある企業の場合、Airflow 3.0は、AI採用における重要な課題に対処する重要なインフラストラクチャコンポーネントを表しています。エンタープライズスケールでの複雑で多段階のAIワークフローを調整します。複合AIシステムを調整するプラットフォームの能力は、組織が概念の証明を超えてエンタープライズ全体のAI展開に移行し、適切なガバナンス、セキュリティ、および信頼性を確保するのに役立ちます。

関連記事
Top 10 Python -Bibliotheken zur Verbesserung der Verarbeitung natürlicher Sprache Top 10 Python -Bibliotheken zur Verbesserung der Verarbeitung natürlicher Sprache Python wird oft als Spitzenwahl für die Programmierung gefeiert, insbesondere wenn es um künstliche Intelligenz (KI) und maschinelles Lernen geht. Seine Effizienz fällt unter anderen beliebten Sprachen auf, und seine Syntax, die Englisch ähnelt, macht es zu einer perfekten Startersprache für Anfänger. Was wirklich se
Was ist im LLM? AI2 Olmotrace wird die Quelle Was ist im LLM? AI2 Olmotrace wird die Quelle "verfolgen" Das Verständnis der Verbindung zwischen der Ausgabe eines großen Sprachmodells (LLM) und seinen Trainingsdaten war schon immer ein Rätsel für Unternehmen. Diese Woche hat das Allen Institute for AI (AI2) eine aufregende neue Open-Source-Initiative namens Olmotrace gestartet, die darauf abzielt, dieses Relati zu entmystifizieren
Meta, um KI -Modelle mit EU -Benutzerdaten zu trainieren Meta, um KI -Modelle mit EU -Benutzerdaten zu trainieren Meta hat kürzlich seine Absicht angekündigt, die öffentlichen Inhalte von erwachsenen Nutzern der Europäischen Union (EU) zu nutzen, um seine KI -Modelle zu verbessern. Dieser Schritt folgt dem Start von Meta -KI
コメント (0)
0/200
トップに戻ります
OR