選項
首頁 消息 實時AI的批處數據處理太慢:開源Apache氣流3.0如何通過事件驅動的數據編排解決挑戰

實時AI的批處數據處理太慢:開源Apache氣流3.0如何通過事件驅動的數據編排解決挑戰

發布日期 發布日期 2025年05月07日
作者 作者 BenGarcía
視圖 視圖 0

實時AI的批處數據處理太慢:開源Apache氣流3.0如何通過事件驅動的數據編排解決挑戰

將數據從各種來源移動到適合AI應用的位置並不是很小的壯舉。這是Apache Airffore(例如Apache Airflow)發揮作用的數據編排工具的地方,使過程更加順暢,更有效。

Apache Airflow社區剛剛發布了3.0版的發射來發布其多年來最重要的更新。這標誌著在2.x系列中穩步改善(包括2024年的2.9和2.10發行版)之後,這是四年來的第一個重大更新,該版本非常重視AI增強功能。

Apache氣流已成為數據工程師的首選工具,鞏固了其作為頂級開源工作流編排平台的位置。在《財富》 500強公司中,有3,000多名貢獻者和廣泛使用,很明顯為什麼它如此受歡迎。它的頂部還建立了幾種商業服務,例如天文學家Astro,Google Cloud Composer,Amazon託管Apache Airffore(MWAA)和Microsoft Azure Azure Data Factory Managed氣流,僅舉幾例。

隨著公司努力協調跨不同系統,雲和越來越多的AI工作負載的數據工作流,對強大解決方案的需求也會增長。 Apache AirFlow 3.0步驟,通過建築大修滿足這些企業需求,該大修有望增強組織如何開發和部署數據應用程序。

“對我來說,氣流3是一個新的起點,是一套更廣泛的能力的基礎,” Apache Airflow PMC(項目管理委員會)成員兼天文學家首席戰略官Vikram Koka在接受VentureBeat的獨家採訪中分享。 “這幾乎是根據企業告訴我們的下一個關鍵任務採用級別所需的完全重構。”

企業數據複雜性改變了數據編排需求

隨著企業越來越依賴於數據進行決策,數據工作流程的複雜性飆升。現在,公司兼顧跨越多個雲環境,各種數據源以及越來越複雜的AI工作負載的複雜管道。

AirFlow 3.0量身定制,以滿足這些不斷發展的企業需求。與其前身不同,此版本從單片結構轉移到分佈式客戶端模型,提供了更大的靈活性和安全性。這種新的體系結構使企業能夠:

  1. 跨多個雲環境執行任務。
  2. 實施詳細的安全控制。
  3. 支持各種編程語言。
  4. 啟用真正的多雲部署。

氣流3.0中擴展的語言支持特別值得注意。雖然較早的版本主要是針對Python的,但新版本現在本地支持多種編程語言。 AirFlow 3.0當前支持Python和GO,併計劃包括Java,TypeScript和Rust。這種靈活性意味著數據工程師可以使用其首選的編程語言,從而使工作流程開發和集成更加順暢。

事件驅動的功能轉換數據工作流程

傳統上,氣流在預定的批處理處理方面非常出色,但是企業現在要求實時數據處理能力。氣流3.0步驟以滿足這一需求。

Koka解釋說:“氣流3的關鍵更改是我們所說的事件驅動的調度。”

現在,氣流可以在發生特定事件時(例如,將數據文件上傳到Amazon S3存儲桶或Apache Kafka中出現的消息時),而不是在設定的時間表上運行數據處理作業,而是可以觸發作業。該事件驅動的調度橋接傳統的ETL(提取,轉換和加載)工具以及流處理框架(如Apache Flink或Apache Spark Spark結構化流媒體)之間的差距,使組織能夠使用單個編排層管理計劃的計劃和事件觸發的工作流程。

氣流將加速企業AI推理執行和復合AI

引入事件驅動的數據編排還將提高氣流支持快速AI推理執行的能力。

Koka提供了一個對法律時間跟踪等專業服務的實時推斷的示例。在這種情況下,氣流有助於從日曆,電子郵件和文檔等來源收集原始數據。然後,大型語言模型(LLM)將這些非結構化數據轉換為結構化信息。另一個預訓練的模型可以分析此結構化的時間跟踪數據,確定工作是否可計費,並分配適當的計費代碼和費率。

Koka將其稱為複合AI系統 - 一種將不同的AI模型結合在一起,可以有效且智能地​​完成複雜的任務。 AirFlow 3.0的事件驅動的體系結構使這種實時的多步推理過程可在各種企業用例中可行。

化合物AI是2024年伯克利人工智能研究中心最初定義的概念,與代理AI不同。 Koka解釋說,雖然代理AI啟用了自主AI決策,但Compound AI遵循預定義的工作流,這些工作流對業務應用程序更可預測和可靠。

用氣流打球,得克薩斯遊騎兵如何受益

德克薩斯遊騎兵大聯盟棒球隊是氣流的眾多用戶之一。德克薩斯遊騎兵棒球俱樂部的全棧數據工程師Oliver Dykstra與VentureBeat分享了該團隊使用的氣流,該團隊在天文學家的Astro Platform上託管,作為其棒球數據操作的“神經中心”。所有玩家開發,合同,分析和遊戲數據均通過氣流進行精心策劃。

Dykstra說:“我們期待升級到氣流3及其增強功能,以實現事件驅動的調度,可觀察性和數據譜系。” “由於我們已經依靠氣流來管理我們的關鍵AI/ML管道,因此氣流3的效率和可靠性將有助於提高整個組織中這些數據產品的信任和彈性。”

這對企業AI採用意味著什麼

對於評估其數據編排策略的技術決策者,AirFlow 3.0提供了可以逐漸實施的切實優勢。

第一步是評估可能受益於新事件驅動的功能的當前數據工作流程。組織可以使用計劃的作業來查明當前的數據管道,但基於事件的觸發器將更有效。這種轉變可以大大減少處理延遲並消除不必要的投票操作。

接下來,技術領導者應審查其開發環境,以查看氣流擴展的語言支持是否可以幫助鞏固零散的編排工具。當前管理各種語言環境編排工具的團隊可以開始計劃遷移策略以簡化其技術堆棧。

對於AI實施的最前沿的企業,氣流3.0代表了一個關鍵的基礎架構組件,該組件解決了AI採用中的關鍵挑戰:在企業規模上精心策劃複雜的多階段AI工作流。平台協調複合AI系統的能力可以幫助組織超越概念驗證,從而在企業範圍內的AI部署,確保適當的治理,安全性和可靠性。

相關文章
Top 10 Python -Bibliotheken zur Verbesserung der Verarbeitung natürlicher Sprache Top 10 Python -Bibliotheken zur Verbesserung der Verarbeitung natürlicher Sprache Python wird oft als Spitzenwahl für die Programmierung gefeiert, insbesondere wenn es um künstliche Intelligenz (KI) und maschinelles Lernen geht. Seine Effizienz fällt unter anderen beliebten Sprachen auf, und seine Syntax, die Englisch ähnelt, macht es zu einer perfekten Startersprache für Anfänger. Was wirklich se
Was ist im LLM? AI2 Olmotrace wird die Quelle Was ist im LLM? AI2 Olmotrace wird die Quelle "verfolgen" Das Verständnis der Verbindung zwischen der Ausgabe eines großen Sprachmodells (LLM) und seinen Trainingsdaten war schon immer ein Rätsel für Unternehmen. Diese Woche hat das Allen Institute for AI (AI2) eine aufregende neue Open-Source-Initiative namens Olmotrace gestartet, die darauf abzielt, dieses Relati zu entmystifizieren
Meta, um KI -Modelle mit EU -Benutzerdaten zu trainieren Meta, um KI -Modelle mit EU -Benutzerdaten zu trainieren Meta hat kürzlich seine Absicht angekündigt, die öffentlichen Inhalte von erwachsenen Nutzern der Europäischen Union (EU) zu nutzen, um seine KI -Modelle zu verbessern. Dieser Schritt folgt dem Start von Meta -KI
評論 (0)
0/200
回到頂部
OR