實時AI的批處數據處理太慢:開源Apache氣流3.0如何通過事件驅動的數據編排解決挑戰

將數據從各種來源移動到適合AI應用的位置並不是很小的壯舉。這是Apache Airffore(例如Apache Airflow)發揮作用的數據編排工具的地方,使過程更加順暢,更有效。
Apache Airflow社區剛剛發布了3.0版的發射來發布其多年來最重要的更新。這標誌著在2.x系列中穩步改善(包括2024年的2.9和2.10發行版)之後,這是四年來的第一個重大更新,該版本非常重視AI增強功能。
Apache氣流已成為數據工程師的首選工具,鞏固了其作為頂級開源工作流編排平台的位置。在《財富》 500強公司中,有3,000多名貢獻者和廣泛使用,很明顯為什麼它如此受歡迎。它的頂部還建立了幾種商業服務,例如天文學家Astro,Google Cloud Composer,Amazon託管Apache Airffore(MWAA)和Microsoft Azure Azure Data Factory Managed氣流,僅舉幾例。
隨著公司努力協調跨不同系統,雲和越來越多的AI工作負載的數據工作流,對強大解決方案的需求也會增長。 Apache AirFlow 3.0步驟,通過建築大修滿足這些企業需求,該大修有望增強組織如何開發和部署數據應用程序。
“對我來說,氣流3是一個新的起點,是一套更廣泛的能力的基礎,” Apache Airflow PMC(項目管理委員會)成員兼天文學家首席戰略官Vikram Koka在接受VentureBeat的獨家採訪中分享。 “這幾乎是根據企業告訴我們的下一個關鍵任務採用級別所需的完全重構。”
企業數據複雜性改變了數據編排需求
隨著企業越來越依賴於數據進行決策,數據工作流程的複雜性飆升。現在,公司兼顧跨越多個雲環境,各種數據源以及越來越複雜的AI工作負載的複雜管道。
AirFlow 3.0量身定制,以滿足這些不斷發展的企業需求。與其前身不同,此版本從單片結構轉移到分佈式客戶端模型,提供了更大的靈活性和安全性。這種新的體系結構使企業能夠:
- 跨多個雲環境執行任務。
- 實施詳細的安全控制。
- 支持各種編程語言。
- 啟用真正的多雲部署。
氣流3.0中擴展的語言支持特別值得注意。雖然較早的版本主要是針對Python的,但新版本現在本地支持多種編程語言。 AirFlow 3.0當前支持Python和GO,併計劃包括Java,TypeScript和Rust。這種靈活性意味著數據工程師可以使用其首選的編程語言,從而使工作流程開發和集成更加順暢。
事件驅動的功能轉換數據工作流程
傳統上,氣流在預定的批處理處理方面非常出色,但是企業現在要求實時數據處理能力。氣流3.0步驟以滿足這一需求。
Koka解釋說:“氣流3的關鍵更改是我們所說的事件驅動的調度。”
現在,氣流可以在發生特定事件時(例如,將數據文件上傳到Amazon S3存儲桶或Apache Kafka中出現的消息時),而不是在設定的時間表上運行數據處理作業,而是可以觸發作業。該事件驅動的調度橋接傳統的ETL(提取,轉換和加載)工具以及流處理框架(如Apache Flink或Apache Spark Spark結構化流媒體)之間的差距,使組織能夠使用單個編排層管理計劃的計劃和事件觸發的工作流程。
氣流將加速企業AI推理執行和復合AI
引入事件驅動的數據編排還將提高氣流支持快速AI推理執行的能力。
Koka提供了一個對法律時間跟踪等專業服務的實時推斷的示例。在這種情況下,氣流有助於從日曆,電子郵件和文檔等來源收集原始數據。然後,大型語言模型(LLM)將這些非結構化數據轉換為結構化信息。另一個預訓練的模型可以分析此結構化的時間跟踪數據,確定工作是否可計費,並分配適當的計費代碼和費率。
Koka將其稱為複合AI系統 - 一種將不同的AI模型結合在一起,可以有效且智能地完成複雜的任務。 AirFlow 3.0的事件驅動的體系結構使這種實時的多步推理過程可在各種企業用例中可行。
化合物AI是2024年伯克利人工智能研究中心最初定義的概念,與代理AI不同。 Koka解釋說,雖然代理AI啟用了自主AI決策,但Compound AI遵循預定義的工作流,這些工作流對業務應用程序更可預測和可靠。
用氣流打球,得克薩斯遊騎兵如何受益
德克薩斯遊騎兵大聯盟棒球隊是氣流的眾多用戶之一。德克薩斯遊騎兵棒球俱樂部的全棧數據工程師Oliver Dykstra與VentureBeat分享了該團隊使用的氣流,該團隊在天文學家的Astro Platform上託管,作為其棒球數據操作的“神經中心”。所有玩家開發,合同,分析和遊戲數據均通過氣流進行精心策劃。
Dykstra說:“我們期待升級到氣流3及其增強功能,以實現事件驅動的調度,可觀察性和數據譜系。” “由於我們已經依靠氣流來管理我們的關鍵AI/ML管道,因此氣流3的效率和可靠性將有助於提高整個組織中這些數據產品的信任和彈性。”
這對企業AI採用意味著什麼
對於評估其數據編排策略的技術決策者,AirFlow 3.0提供了可以逐漸實施的切實優勢。
第一步是評估可能受益於新事件驅動的功能的當前數據工作流程。組織可以使用計劃的作業來查明當前的數據管道,但基於事件的觸發器將更有效。這種轉變可以大大減少處理延遲並消除不必要的投票操作。
接下來,技術領導者應審查其開發環境,以查看氣流擴展的語言支持是否可以幫助鞏固零散的編排工具。當前管理各種語言環境編排工具的團隊可以開始計劃遷移策略以簡化其技術堆棧。
對於AI實施的最前沿的企業,氣流3.0代表了一個關鍵的基礎架構組件,該組件解決了AI採用中的關鍵挑戰:在企業規模上精心策劃複雜的多階段AI工作流。平台協調複合AI系統的能力可以幫助組織超越概念驗證,從而在企業範圍內的AI部署,確保適當的治理,安全性和可靠性。
相關文章
Julius AI : 계산 인텔리전스로 데이터 분석을 혁신합니다
오늘날의 데이터 중심 세계에서 데이터 분석은 정보에 입각 한 결정을 내리는 데 중추적 인 역할을합니다. 그러나 많은 사람들에게 프로세스는 여전히 어려움을 겪고 시간이 많이 걸립니다. 데이터 분석을 탈취하고 사용자 수준의 통찰력을 가진 사용자에게 권한을 부여하도록 설계된 혁신적인 계산 AI 도구 인 Julius AI를 입력하십시오.
인공지능 기반 주식 분석: 기술적 분석 자동화
AI를 활용한 주식 시장 분석의 힘을 해방시키기인공지능을 활용하여 더 똑똑한 투자 결정을 내릴 수 있는 방법을 궁금해 본 적이 있으신가요? AI 기반 대시보드를 사용하여 기술적 주식 분석을 자동화하는 이 포괄적인 가이드로 들어가 보세요. 당신이 데이 트레이더이든 장기 투자자이든, 트레이딩 전략을 향상시킬 수 있는 실용적인
Vizly: 박사 연구자를 위한 종합 인공지능 데이터 분석 도구
데이터 분석은 박사 연구의 필수 요소지만, 그것을 어렵게 느껴질 필요는 없습니다. 코드 학습의 높은 난이도를 넘어서 바로 데이터에서 통찰력을 얻을 수 있다면 어떨까요? 그것이 AI 기반 도구인 Vizly가 등장하는 이유이며, 데이터 분석 과정을 단순화하겠다고 약속합니다. 이번 종합 리뷰에서는 Vizly의 기능, 사용성,
評論 (5)
0/200
KevinScott
2025-05-09 08:00:00
Apache Airflow 3.0 has really sped up my data processing for AI! The event-driven approach is a game-changer. It's not perfect, though; the learning curve is steep. But once you get the hang of it, it's super efficient. 🚀
0
BillyThomas
2025-05-09 08:00:00
Apache Airflow 3.0 realmente ha acelerado mi procesamiento de datos para IA. El enfoque basado en eventos es un cambio de juego. No es perfecto, la curva de aprendizaje es empinada. Pero una vez que lo dominas, es súper eficiente. 🚀
0
RobertMartin
2025-05-09 08:00:00
Apache Airflow 3.0は、私のAI向けデータ処理を本当にスピードアップしました!イベント駆動のアプローチはゲームチェンジャーです。ただし、完璧ではありません。学習曲線が急です。でも、一度慣れれば超効率的です。🚀
0
PaulGonzalez
2025-05-08 08:00:00
Apache Airflow 3.0 hat meinen Datenverarbeitungsprozess für KI wirklich beschleunigt! Der ereignisgesteuerte Ansatz ist ein Game-Changer. Es ist nicht perfekt; die Lernkurve ist steil. Aber sobald man es beherrscht, ist es super effizient. 🚀
0
RobertRoberts
2025-05-09 08:00:00
Apache Airflow 3.0 thực sự đã tăng tốc quá trình xử lý dữ liệu của tôi cho AI! Cách tiếp cận dựa trên sự kiện là một bước đột phá. Tuy nhiên, nó không hoàn hảo; đường cong học tập rất dốc. Nhưng khi bạn làm quen được, nó cực kỳ hiệu quả. 🚀
0
將數據從各種來源移動到適合AI應用的位置並不是很小的壯舉。這是Apache Airffore(例如Apache Airflow)發揮作用的數據編排工具的地方,使過程更加順暢,更有效。
Apache Airflow社區剛剛發布了3.0版的發射來發布其多年來最重要的更新。這標誌著在2.x系列中穩步改善(包括2024年的2.9和2.10發行版)之後,這是四年來的第一個重大更新,該版本非常重視AI增強功能。
Apache氣流已成為數據工程師的首選工具,鞏固了其作為頂級開源工作流編排平台的位置。在《財富》 500強公司中,有3,000多名貢獻者和廣泛使用,很明顯為什麼它如此受歡迎。它的頂部還建立了幾種商業服務,例如天文學家Astro,Google Cloud Composer,Amazon託管Apache Airffore(MWAA)和Microsoft Azure Azure Data Factory Managed氣流,僅舉幾例。
隨著公司努力協調跨不同系統,雲和越來越多的AI工作負載的數據工作流,對強大解決方案的需求也會增長。 Apache AirFlow 3.0步驟,通過建築大修滿足這些企業需求,該大修有望增強組織如何開發和部署數據應用程序。
“對我來說,氣流3是一個新的起點,是一套更廣泛的能力的基礎,” Apache Airflow PMC(項目管理委員會)成員兼天文學家首席戰略官Vikram Koka在接受VentureBeat的獨家採訪中分享。 “這幾乎是根據企業告訴我們的下一個關鍵任務採用級別所需的完全重構。”
企業數據複雜性改變了數據編排需求
隨著企業越來越依賴於數據進行決策,數據工作流程的複雜性飆升。現在,公司兼顧跨越多個雲環境,各種數據源以及越來越複雜的AI工作負載的複雜管道。
AirFlow 3.0量身定制,以滿足這些不斷發展的企業需求。與其前身不同,此版本從單片結構轉移到分佈式客戶端模型,提供了更大的靈活性和安全性。這種新的體系結構使企業能夠:
- 跨多個雲環境執行任務。
- 實施詳細的安全控制。
- 支持各種編程語言。
- 啟用真正的多雲部署。
氣流3.0中擴展的語言支持特別值得注意。雖然較早的版本主要是針對Python的,但新版本現在本地支持多種編程語言。 AirFlow 3.0當前支持Python和GO,併計劃包括Java,TypeScript和Rust。這種靈活性意味著數據工程師可以使用其首選的編程語言,從而使工作流程開發和集成更加順暢。
事件驅動的功能轉換數據工作流程
傳統上,氣流在預定的批處理處理方面非常出色,但是企業現在要求實時數據處理能力。氣流3.0步驟以滿足這一需求。
Koka解釋說:“氣流3的關鍵更改是我們所說的事件驅動的調度。”
現在,氣流可以在發生特定事件時(例如,將數據文件上傳到Amazon S3存儲桶或Apache Kafka中出現的消息時),而不是在設定的時間表上運行數據處理作業,而是可以觸發作業。該事件驅動的調度橋接傳統的ETL(提取,轉換和加載)工具以及流處理框架(如Apache Flink或Apache Spark Spark結構化流媒體)之間的差距,使組織能夠使用單個編排層管理計劃的計劃和事件觸發的工作流程。
氣流將加速企業AI推理執行和復合AI
引入事件驅動的數據編排還將提高氣流支持快速AI推理執行的能力。
Koka提供了一個對法律時間跟踪等專業服務的實時推斷的示例。在這種情況下,氣流有助於從日曆,電子郵件和文檔等來源收集原始數據。然後,大型語言模型(LLM)將這些非結構化數據轉換為結構化信息。另一個預訓練的模型可以分析此結構化的時間跟踪數據,確定工作是否可計費,並分配適當的計費代碼和費率。
Koka將其稱為複合AI系統 - 一種將不同的AI模型結合在一起,可以有效且智能地完成複雜的任務。 AirFlow 3.0的事件驅動的體系結構使這種實時的多步推理過程可在各種企業用例中可行。
化合物AI是2024年伯克利人工智能研究中心最初定義的概念,與代理AI不同。 Koka解釋說,雖然代理AI啟用了自主AI決策,但Compound AI遵循預定義的工作流,這些工作流對業務應用程序更可預測和可靠。
用氣流打球,得克薩斯遊騎兵如何受益
德克薩斯遊騎兵大聯盟棒球隊是氣流的眾多用戶之一。德克薩斯遊騎兵棒球俱樂部的全棧數據工程師Oliver Dykstra與VentureBeat分享了該團隊使用的氣流,該團隊在天文學家的Astro Platform上託管,作為其棒球數據操作的“神經中心”。所有玩家開發,合同,分析和遊戲數據均通過氣流進行精心策劃。
Dykstra說:“我們期待升級到氣流3及其增強功能,以實現事件驅動的調度,可觀察性和數據譜系。” “由於我們已經依靠氣流來管理我們的關鍵AI/ML管道,因此氣流3的效率和可靠性將有助於提高整個組織中這些數據產品的信任和彈性。”
這對企業AI採用意味著什麼
對於評估其數據編排策略的技術決策者,AirFlow 3.0提供了可以逐漸實施的切實優勢。
第一步是評估可能受益於新事件驅動的功能的當前數據工作流程。組織可以使用計劃的作業來查明當前的數據管道,但基於事件的觸發器將更有效。這種轉變可以大大減少處理延遲並消除不必要的投票操作。
接下來,技術領導者應審查其開發環境,以查看氣流擴展的語言支持是否可以幫助鞏固零散的編排工具。當前管理各種語言環境編排工具的團隊可以開始計劃遷移策略以簡化其技術堆棧。
對於AI實施的最前沿的企業,氣流3.0代表了一個關鍵的基礎架構組件,該組件解決了AI採用中的關鍵挑戰:在企業規模上精心策劃複雜的多階段AI工作流。平台協調複合AI系統的能力可以幫助組織超越概念驗證,從而在企業範圍內的AI部署,確保適當的治理,安全性和可靠性。




Apache Airflow 3.0 has really sped up my data processing for AI! The event-driven approach is a game-changer. It's not perfect, though; the learning curve is steep. But once you get the hang of it, it's super efficient. 🚀




Apache Airflow 3.0 realmente ha acelerado mi procesamiento de datos para IA. El enfoque basado en eventos es un cambio de juego. No es perfecto, la curva de aprendizaje es empinada. Pero una vez que lo dominas, es súper eficiente. 🚀




Apache Airflow 3.0は、私のAI向けデータ処理を本当にスピードアップしました!イベント駆動のアプローチはゲームチェンジャーです。ただし、完璧ではありません。学習曲線が急です。でも、一度慣れれば超効率的です。🚀




Apache Airflow 3.0 hat meinen Datenverarbeitungsprozess für KI wirklich beschleunigt! Der ereignisgesteuerte Ansatz ist ein Game-Changer. Es ist nicht perfekt; die Lernkurve ist steil. Aber sobald man es beherrscht, ist es super effizient. 🚀




Apache Airflow 3.0 thực sự đã tăng tốc quá trình xử lý dữ liệu của tôi cho AI! Cách tiếp cận dựa trên sự kiện là một bước đột phá. Tuy nhiên, nó không hoàn hảo; đường cong học tập rất dốc. Nhưng khi bạn làm quen được, nó cực kỳ hiệu quả. 🚀












