实时AI的批处数据处理太慢:开源Apache气流3.0如何通过事件驱动的数据编排解决挑战

将数据从各种来源移动到适合AI应用的适当位置并非易事。这就是数据编排工具如Apache Airflow发挥作用的地方,使流程更顺畅、更高效。
Apache Airflow社区刚刚发布了多年来最重要的更新,推出了3.0版本。这是四年来首次重大更新,此前2.x系列版本(包括2024年的2.9和2.10版本)持续改进,重点关注AI增强功能。
Apache Airflow已成为数据工程师的首选工具,巩固了其作为顶级开源工作流编排平台的地位。拥有超过3000名贡献者和财富500强企业的广泛使用,其受欢迎程度显而易见。还有几种基于其上的商业服务,如Astronomer Astro、Google Cloud Composer、Amazon Managed Workflows for Apache Airflow (MWAA) 和 Microsoft Azure Data Factory Managed Airflow 等。
随着企业在协调不同系统、云端以及日益增长的AI工作负载的数据工作流时面临挑战,对强大解决方案的需求不断增加。Apache Airflow 3.0通过架构全面升级,满足这些企业需求,承诺提升组织开发和部署数据应用的方式。
“对我来说,Airflow 3 是一个新的起点,为更广泛的功能奠定了基础,”Apache Airflow PMC(项目管理委员会)成员兼Astronomer首席战略官Vikram Koka在接受VentureBeat独家采访时表示。“这几乎是根据企业对下一级关键任务采用需求进行的彻底重构。”
企业数据复杂性改变了数据编排需求
随着企业越来越依赖数据进行决策,数据工作流的复杂性急剧上升。公司现在需要处理跨越多个云环境、不同数据源以及日益复杂的AI工作负载的复杂管道。
Airflow 3.0专为应对这些不断变化的企业需求而设计。与之前版本不同,此版本从单一结构转向分布式客户端模型,提供更大的灵活性和安全性。这一新架构使企业能够:
- 在多个云环境中执行任务。
- 实施详细的安全控制。
- 支持多种编程语言。
- 实现真正的多云部署。
Airflow 3.0的扩展语言支持尤其值得注意。虽然早期版本主要专注于Python,但新版本现已原生支持多种编程语言。Airflow 3.0目前支持Python和Go,并计划支持Java、TypeScript和Rust。这种灵活性意味着数据工程师可以使用他们偏好的编程语言,使工作流开发和集成更加顺畅。
事件驱动功能改变数据工作流
传统上,Airflow擅长定时批处理,但企业现在需要实时数据处理能力。Airflow 3.0迎合了这一需求。
“Airflow 3的一个关键变化是我们称之为事件驱动调度,”Koka解释道。
Airflow不再按固定时间表(如每小时)运行数据处理任务,而是可以在特定事件发生时触发任务,例如当数据文件上传到Amazon S3存储桶或Apache Kafka中出现消息时。这种事件驱动调度弥合了传统ETL(提取、转换和加载)工具与Apache Flink或Apache Spark Structured Streaming等流处理框架之间的差距,使组织能够通过单一编排层管理定时和事件触发的两种工作流。
Airflow将加速企业AI推理执行和复合AI
事件驱动数据编排的引入还将提升Airflow支持快速AI推理执行的能力。
Koka举例说明了在专业服务(如法律时间跟踪)中使用实时推理的场景。在这种情况下,Airflow帮助从日历、电子邮件和文档等来源收集原始数据。大型语言模型(LLM)随后将这些非结构化数据转换为结构化信息。另一个预训练模型可以分析这些结构化的时间跟踪数据,确定工作是否可计费,并分配适当的计费代码和费率。
Koka称其为复合AI系统——一种结合不同AI模型以高效、智能化完成复杂任务的工作流。Airflow 3.0的事件驱动架构使这种实时、多步骤推理过程在各种企业用例中成为可能。
复合AI是2024年由Berkeley Artificial Intelligence Research Center首次定义的概念,与代理AI不同。Koka解释说,代理AI支持自主AI决策,而复合AI遵循预定义的工作流,对于商业应用更可预测和可靠。
与Airflow合作,德州游骑兵如何受益
德州游骑兵职业棒球队是Airflow的众多用户之一。德州游骑兵棒球俱乐部的全栈数据工程师Oliver Dykstra在接受VentureBeat采访时表示,球队使用托管在Astronomer Astro平台上的Airflow,作为棒球数据操作的“神经中枢”。所有球员发展、合同、分析和比赛数据都通过Airflow进行编排。
“我们期待升级到Airflow 3及其在事件驱动调度、可观察性和数据血缘方面的增强,”Dykstra说。“由于我们已经依赖Airflow管理关键的AI/ML管道,Airflow 3的额外效率和可靠性将有助于提升我们整个组织对这些数据产品的信任和韧性。”
这对企业AI采用意味着什么
对于评估数据编排策略的技术决策者,Airflow 3.0提供了可逐步实施的切实好处。
第一步是评估当前数据工作流中可以从新的事件驱动功能中受益的部分。组织可以确定当前使用定时任务但通过事件触发会更高效的数据管道。这种转变可以显著减少处理延迟并消除不必要的轮询操作。
接下来,技术领导者应审查他们的开发环境,查看Airflow的扩展语言支持是否能帮助整合分散的编排工具。目前管理不同语言环境下的单独编排工具的团队可以开始规划迁移策略,以简化其技术堆栈。
对于处于AI实施前沿的企业,Airflow 3.0是一个关键的基础设施组件,解决了AI采用中的一个关键挑战:在企业规模上编排复杂的多阶段AI工作流。该平台协调复合AI系统的能力可以帮助组织从概念验证转向企业范围的AI部署,确保适当的治理、安全性和可靠性。
相关文章
Adobe的AI战略:科技竞赛中的赢家与输家
在快速变化的人工智能(AI)世界中,投资者密切关注哪些公司将在这一技术变革中蓬勃发展。本文探讨了Adobe的AI策略、近期财务表现和市场情绪。文章突出了影响AI股票的因素,提供了对这一动态行业中领先者和落后者的见解。关键要点Adobe的首席执行官强调了像Sora这样的工具在革新内容创作方面的日益增长的影响。市场数据显示,信息技术行业在增长方面落后于更广泛的标普表现。投资者在评估AI驱动的公司时变得
BigBear.ai (BBAI) 股票展望:其AI增长势头能否持续?
在人工智能(AI)和网络安全领域快速发展的世界中,BigBear.ai (BBAI) 正吸引投资者的关注。本文深入分析了BigBear.ai的股票,探讨其近期上涨、推动其上升的关键因素以及其在竞争激烈的人工智能和国家安全市场中的潜力。我们审查了公司的合同、财务指标和技术信号,以评估其当前市场实力的可持续性。创新的虚拟预测网络(VANE)凸显了其前景可期。关键亮点股票上涨:BigBear.ai (B
阿卡迈通过AI驱动的Kubernetes自动化将云成本削减70%
在生成式AI时代,云支出激增。企业预计今年因资源使用效率低下将浪费445亿美元的云支出。阿卡迈科技,拥有庞大的多云基础设施和严格的安全需求,面临这一挑战尤为严峻。为解决此问题,这家网络安全和内容分发巨头采用了Cast AI的Kubernetes自动化平台,利用AI代理优化云环境的成本、安全性和性能。该解决方案根据工作负载实现了40%至70%的云成本降低。“我们需要持续优化基础设施,以在不牺牲性能的
评论 (6)
0/200
DonaldYoung
2025-07-31 09:41:20
Airflow 3.0 sounds like a game-changer for real-time AI! 🚀 Super curious how its event-driven approach speeds things up compared to traditional batch processing.
0
RobertRoberts
2025-05-09 16:12:28
Apache Airflow 3.0 thực sự đã tăng tốc quá trình xử lý dữ liệu của tôi cho AI! Cách tiếp cận dựa trên sự kiện là một bước đột phá. Tuy nhiên, nó không hoàn hảo; đường cong học tập rất dốc. Nhưng khi bạn làm quen được, nó cực kỳ hiệu quả. 🚀
0
RobertMartin
2025-05-09 14:26:27
Apache Airflow 3.0は、私のAI向けデータ処理を本当にスピードアップしました!イベント駆動のアプローチはゲームチェンジャーです。ただし、完璧ではありません。学習曲線が急です。でも、一度慣れれば超効率的です。🚀
0
BillyThomas
2025-05-09 05:15:07
Apache Airflow 3.0 realmente ha acelerado mi procesamiento de datos para IA. El enfoque basado en eventos es un cambio de juego. No es perfecto, la curva de aprendizaje es empinada. Pero una vez que lo dominas, es súper eficiente. 🚀
0
KevinScott
2025-05-09 00:41:27
Apache Airflow 3.0 has really sped up my data processing for AI! The event-driven approach is a game-changer. It's not perfect, though; the learning curve is steep. But once you get the hang of it, it's super efficient. 🚀
0
PaulGonzalez
2025-05-08 22:09:20
Apache Airflow 3.0 hat meinen Datenverarbeitungsprozess für KI wirklich beschleunigt! Der ereignisgesteuerte Ansatz ist ein Game-Changer. Es ist nicht perfekt; die Lernkurve ist steil. Aber sobald man es beherrscht, ist es super effizient. 🚀
0
将数据从各种来源移动到适合AI应用的适当位置并非易事。这就是数据编排工具如Apache Airflow发挥作用的地方,使流程更顺畅、更高效。
Apache Airflow社区刚刚发布了多年来最重要的更新,推出了3.0版本。这是四年来首次重大更新,此前2.x系列版本(包括2024年的2.9和2.10版本)持续改进,重点关注AI增强功能。
Apache Airflow已成为数据工程师的首选工具,巩固了其作为顶级开源工作流编排平台的地位。拥有超过3000名贡献者和财富500强企业的广泛使用,其受欢迎程度显而易见。还有几种基于其上的商业服务,如Astronomer Astro、Google Cloud Composer、Amazon Managed Workflows for Apache Airflow (MWAA) 和 Microsoft Azure Data Factory Managed Airflow 等。
随着企业在协调不同系统、云端以及日益增长的AI工作负载的数据工作流时面临挑战,对强大解决方案的需求不断增加。Apache Airflow 3.0通过架构全面升级,满足这些企业需求,承诺提升组织开发和部署数据应用的方式。
“对我来说,Airflow 3 是一个新的起点,为更广泛的功能奠定了基础,”Apache Airflow PMC(项目管理委员会)成员兼Astronomer首席战略官Vikram Koka在接受VentureBeat独家采访时表示。“这几乎是根据企业对下一级关键任务采用需求进行的彻底重构。”
企业数据复杂性改变了数据编排需求
随着企业越来越依赖数据进行决策,数据工作流的复杂性急剧上升。公司现在需要处理跨越多个云环境、不同数据源以及日益复杂的AI工作负载的复杂管道。
Airflow 3.0专为应对这些不断变化的企业需求而设计。与之前版本不同,此版本从单一结构转向分布式客户端模型,提供更大的灵活性和安全性。这一新架构使企业能够:
- 在多个云环境中执行任务。
- 实施详细的安全控制。
- 支持多种编程语言。
- 实现真正的多云部署。
Airflow 3.0的扩展语言支持尤其值得注意。虽然早期版本主要专注于Python,但新版本现已原生支持多种编程语言。Airflow 3.0目前支持Python和Go,并计划支持Java、TypeScript和Rust。这种灵活性意味着数据工程师可以使用他们偏好的编程语言,使工作流开发和集成更加顺畅。
事件驱动功能改变数据工作流
传统上,Airflow擅长定时批处理,但企业现在需要实时数据处理能力。Airflow 3.0迎合了这一需求。
“Airflow 3的一个关键变化是我们称之为事件驱动调度,”Koka解释道。
Airflow不再按固定时间表(如每小时)运行数据处理任务,而是可以在特定事件发生时触发任务,例如当数据文件上传到Amazon S3存储桶或Apache Kafka中出现消息时。这种事件驱动调度弥合了传统ETL(提取、转换和加载)工具与Apache Flink或Apache Spark Structured Streaming等流处理框架之间的差距,使组织能够通过单一编排层管理定时和事件触发的两种工作流。
Airflow将加速企业AI推理执行和复合AI
事件驱动数据编排的引入还将提升Airflow支持快速AI推理执行的能力。
Koka举例说明了在专业服务(如法律时间跟踪)中使用实时推理的场景。在这种情况下,Airflow帮助从日历、电子邮件和文档等来源收集原始数据。大型语言模型(LLM)随后将这些非结构化数据转换为结构化信息。另一个预训练模型可以分析这些结构化的时间跟踪数据,确定工作是否可计费,并分配适当的计费代码和费率。
Koka称其为复合AI系统——一种结合不同AI模型以高效、智能化完成复杂任务的工作流。Airflow 3.0的事件驱动架构使这种实时、多步骤推理过程在各种企业用例中成为可能。
复合AI是2024年由Berkeley Artificial Intelligence Research Center首次定义的概念,与代理AI不同。Koka解释说,代理AI支持自主AI决策,而复合AI遵循预定义的工作流,对于商业应用更可预测和可靠。
与Airflow合作,德州游骑兵如何受益
德州游骑兵职业棒球队是Airflow的众多用户之一。德州游骑兵棒球俱乐部的全栈数据工程师Oliver Dykstra在接受VentureBeat采访时表示,球队使用托管在Astronomer Astro平台上的Airflow,作为棒球数据操作的“神经中枢”。所有球员发展、合同、分析和比赛数据都通过Airflow进行编排。
“我们期待升级到Airflow 3及其在事件驱动调度、可观察性和数据血缘方面的增强,”Dykstra说。“由于我们已经依赖Airflow管理关键的AI/ML管道,Airflow 3的额外效率和可靠性将有助于提升我们整个组织对这些数据产品的信任和韧性。”
这对企业AI采用意味着什么
对于评估数据编排策略的技术决策者,Airflow 3.0提供了可逐步实施的切实好处。
第一步是评估当前数据工作流中可以从新的事件驱动功能中受益的部分。组织可以确定当前使用定时任务但通过事件触发会更高效的数据管道。这种转变可以显著减少处理延迟并消除不必要的轮询操作。
接下来,技术领导者应审查他们的开发环境,查看Airflow的扩展语言支持是否能帮助整合分散的编排工具。目前管理不同语言环境下的单独编排工具的团队可以开始规划迁移策略,以简化其技术堆栈。
对于处于AI实施前沿的企业,Airflow 3.0是一个关键的基础设施组件,解决了AI采用中的一个关键挑战:在企业规模上编排复杂的多阶段AI工作流。该平台协调复合AI系统的能力可以帮助组织从概念验证转向企业范围的AI部署,确保适当的治理、安全性和可靠性。




Airflow 3.0 sounds like a game-changer for real-time AI! 🚀 Super curious how its event-driven approach speeds things up compared to traditional batch processing.




Apache Airflow 3.0 thực sự đã tăng tốc quá trình xử lý dữ liệu của tôi cho AI! Cách tiếp cận dựa trên sự kiện là một bước đột phá. Tuy nhiên, nó không hoàn hảo; đường cong học tập rất dốc. Nhưng khi bạn làm quen được, nó cực kỳ hiệu quả. 🚀




Apache Airflow 3.0は、私のAI向けデータ処理を本当にスピードアップしました!イベント駆動のアプローチはゲームチェンジャーです。ただし、完璧ではありません。学習曲線が急です。でも、一度慣れれば超効率的です。🚀




Apache Airflow 3.0 realmente ha acelerado mi procesamiento de datos para IA. El enfoque basado en eventos es un cambio de juego. No es perfecto, la curva de aprendizaje es empinada. Pero una vez que lo dominas, es súper eficiente. 🚀




Apache Airflow 3.0 has really sped up my data processing for AI! The event-driven approach is a game-changer. It's not perfect, though; the learning curve is steep. But once you get the hang of it, it's super efficient. 🚀




Apache Airflow 3.0 hat meinen Datenverarbeitungsprozess für KI wirklich beschleunigt! Der ereignisgesteuerte Ansatz ist ein Game-Changer. Es ist nicht perfekt; die Lernkurve ist steil. Aber sobald man es beherrscht, ist es super effizient. 🚀












