实时AI的批处数据处理太慢:开源Apache气流3.0如何通过事件驱动的数据编排解决挑战

将数据从各种来源移动到适合AI应用的适当位置并非易事。这就是数据编排工具如Apache Airflow发挥作用的地方,使流程更顺畅、更高效。
Apache Airflow社区刚刚发布了多年来最重要的更新,推出了3.0版本。这是四年来首次重大更新,此前2.x系列版本(包括2024年的2.9和2.10版本)持续改进,重点关注AI增强功能。
Apache Airflow已成为数据工程师的首选工具,巩固了其作为顶级开源工作流编排平台的地位。拥有超过3000名贡献者和财富500强企业的广泛使用,其受欢迎程度显而易见。还有几种基于其上的商业服务,如Astronomer Astro、Google Cloud Composer、Amazon Managed Workflows for Apache Airflow (MWAA) 和 Microsoft Azure Data Factory Managed Airflow 等。
随着企业在协调不同系统、云端以及日益增长的AI工作负载的数据工作流时面临挑战,对强大解决方案的需求不断增加。Apache Airflow 3.0通过架构全面升级,满足这些企业需求,承诺提升组织开发和部署数据应用的方式。
“对我来说,Airflow 3 是一个新的起点,为更广泛的功能奠定了基础,”Apache Airflow PMC(项目管理委员会)成员兼Astronomer首席战略官Vikram Koka在接受VentureBeat独家采访时表示。“这几乎是根据企业对下一级关键任务采用需求进行的彻底重构。”
企业数据复杂性改变了数据编排需求
随着企业越来越依赖数据进行决策,数据工作流的复杂性急剧上升。公司现在需要处理跨越多个云环境、不同数据源以及日益复杂的AI工作负载的复杂管道。
Airflow 3.0专为应对这些不断变化的企业需求而设计。与之前版本不同,此版本从单一结构转向分布式客户端模型,提供更大的灵活性和安全性。这一新架构使企业能够:
- 在多个云环境中执行任务。
- 实施详细的安全控制。
- 支持多种编程语言。
- 实现真正的多云部署。
Airflow 3.0的扩展语言支持尤其值得注意。虽然早期版本主要专注于Python,但新版本现已原生支持多种编程语言。Airflow 3.0目前支持Python和Go,并计划支持Java、TypeScript和Rust。这种灵活性意味着数据工程师可以使用他们偏好的编程语言,使工作流开发和集成更加顺畅。
事件驱动功能改变数据工作流
传统上,Airflow擅长定时批处理,但企业现在需要实时数据处理能力。Airflow 3.0迎合了这一需求。
“Airflow 3的一个关键变化是我们称之为事件驱动调度,”Koka解释道。
Airflow不再按固定时间表(如每小时)运行数据处理任务,而是可以在特定事件发生时触发任务,例如当数据文件上传到Amazon S3存储桶或Apache Kafka中出现消息时。这种事件驱动调度弥合了传统ETL(提取、转换和加载)工具与Apache Flink或Apache Spark Structured Streaming等流处理框架之间的差距,使组织能够通过单一编排层管理定时和事件触发的两种工作流。
Airflow将加速企业AI推理执行和复合AI
事件驱动数据编排的引入还将提升Airflow支持快速AI推理执行的能力。
Koka举例说明了在专业服务(如法律时间跟踪)中使用实时推理的场景。在这种情况下,Airflow帮助从日历、电子邮件和文档等来源收集原始数据。大型语言模型(LLM)随后将这些非结构化数据转换为结构化信息。另一个预训练模型可以分析这些结构化的时间跟踪数据,确定工作是否可计费,并分配适当的计费代码和费率。
Koka称其为复合AI系统——一种结合不同AI模型以高效、智能化完成复杂任务的工作流。Airflow 3.0的事件驱动架构使这种实时、多步骤推理过程在各种企业用例中成为可能。
复合AI是2024年由Berkeley Artificial Intelligence Research Center首次定义的概念,与代理AI不同。Koka解释说,代理AI支持自主AI决策,而复合AI遵循预定义的工作流,对于商业应用更可预测和可靠。
与Airflow合作,德州游骑兵如何受益
德州游骑兵职业棒球队是Airflow的众多用户之一。德州游骑兵棒球俱乐部的全栈数据工程师Oliver Dykstra在接受VentureBeat采访时表示,球队使用托管在Astronomer Astro平台上的Airflow,作为棒球数据操作的“神经中枢”。所有球员发展、合同、分析和比赛数据都通过Airflow进行编排。
“我们期待升级到Airflow 3及其在事件驱动调度、可观察性和数据血缘方面的增强,”Dykstra说。“由于我们已经依赖Airflow管理关键的AI/ML管道,Airflow 3的额外效率和可靠性将有助于提升我们整个组织对这些数据产品的信任和韧性。”
这对企业AI采用意味着什么
对于评估数据编排策略的技术决策者,Airflow 3.0提供了可逐步实施的切实好处。
第一步是评估当前数据工作流中可以从新的事件驱动功能中受益的部分。组织可以确定当前使用定时任务但通过事件触发会更高效的数据管道。这种转变可以显著减少处理延迟并消除不必要的轮询操作。
接下来,技术领导者应审查他们的开发环境,查看Airflow的扩展语言支持是否能帮助整合分散的编排工具。目前管理不同语言环境下的单独编排工具的团队可以开始规划迁移策略,以简化其技术堆栈。
对于处于AI实施前沿的企业,Airflow 3.0是一个关键的基础设施组件,解决了AI采用中的一个关键挑战:在企业规模上编排复杂的多阶段AI工作流。该平台协调复合AI系统的能力可以帮助组织从概念验证转向企业范围的AI部署,确保适当的治理、安全性和可靠性。
相关文章
Kakao Mobility 概述了面向物理人工智能的 L4 级自动驾驶路线图
Kakao Mobility 计划内部自主研发 L4 级自动驾驶技术,作为其物理人工智能战略的一部分。在首尔COEX举行的2026世界IT展上,Kakao Mobility副总裁兼物理AI部门负责人金镇奎(Kim Jin-kyu)介绍了该路线图。他的演讲聚焦于物理AI时代基于出行平台构建的自动驾驶服务。据韩联社报道,这场题为“超越构想,付诸行动:AI驱动现实”的活动汇聚了来自17个国家的460
随着类人机器人进入试运行阶段,物理人工智能正逐步走进工厂车间
据路透社报道,英国科技公司Humanoid即将向德国工业供应商舍弗勒(Schaeffler)旗下的工厂部署类人机器人。Humanoid发言人表示,根据协议,预计到2032年将有1,000至2,000台机器人部署到舍弗勒的全球制造基地。合同金额尚未披露。首批机器人计划于2026年12月至2027年6月期间,部署在舍弗勒位于德国的两家工厂。 Humanoid首席执行官阿特姆·索科洛夫(Artem S
IBM:数据孤岛仍是企业人工智能应用的主要障碍
根据IBM的研究,企业人工智能应用的主要障碍并非底层技术,而是数据生态系统碎片化这一长期存在的挑战。IBM副总裁兼首席数据官埃德·洛夫利指出,数据孤岛是现代数据战略中的关键薄弱环节。此前IBM商业价值研究院最新研究显示,尽管人工智能已具备规模化应用条件,但企业数据准备度却明显滞后。该报告对1700名高级数据主管的调研显示,从财务、人力资源到市场营销、供应链等部门数据仍被锁定在各自领域,缺乏统一标准
相关专题推荐
评论 (7)
0/500
Cet article est vraiment intéressant ! J'utilise Airflow au boulot et la gestion des données en temps réel est un vrai casse-tête. Cette mise à jour a l'air prometteuse, ça pourrait enfin accélérer nos flux de données pour l'IA. Est-ce que quelqu'un a déjà testé la version 3.0 ? 📊 #DataEngineering
Airflow 3.0 sounds like a game-changer for real-time AI! 🚀 Super curious how its event-driven approach speeds things up compared to traditional batch processing.
Apache Airflow 3.0 thực sự đã tăng tốc quá trình xử lý dữ liệu của tôi cho AI! Cách tiếp cận dựa trên sự kiện là một bước đột phá. Tuy nhiên, nó không hoàn hảo; đường cong học tập rất dốc. Nhưng khi bạn làm quen được, nó cực kỳ hiệu quả. 🚀
Apache Airflow 3.0は、私のAI向けデータ処理を本当にスピードアップしました!イベント駆動のアプローチはゲームチェンジャーです。ただし、完璧ではありません。学習曲線が急です。でも、一度慣れれば超効率的です。🚀
Apache Airflow 3.0 realmente ha acelerado mi procesamiento de datos para IA. El enfoque basado en eventos es un cambio de juego. No es perfecto, la curva de aprendizaje es empinada. Pero una vez que lo dominas, es súper eficiente. 🚀

将数据从各种来源移动到适合AI应用的适当位置并非易事。这就是数据编排工具如Apache Airflow发挥作用的地方,使流程更顺畅、更高效。
Apache Airflow社区刚刚发布了多年来最重要的更新,推出了3.0版本。这是四年来首次重大更新,此前2.x系列版本(包括2024年的2.9和2.10版本)持续改进,重点关注AI增强功能。
Apache Airflow已成为数据工程师的首选工具,巩固了其作为顶级开源工作流编排平台的地位。拥有超过3000名贡献者和财富500强企业的广泛使用,其受欢迎程度显而易见。还有几种基于其上的商业服务,如Astronomer Astro、Google Cloud Composer、Amazon Managed Workflows for Apache Airflow (MWAA) 和 Microsoft Azure Data Factory Managed Airflow 等。
随着企业在协调不同系统、云端以及日益增长的AI工作负载的数据工作流时面临挑战,对强大解决方案的需求不断增加。Apache Airflow 3.0通过架构全面升级,满足这些企业需求,承诺提升组织开发和部署数据应用的方式。
“对我来说,Airflow 3 是一个新的起点,为更广泛的功能奠定了基础,”Apache Airflow PMC(项目管理委员会)成员兼Astronomer首席战略官Vikram Koka在接受VentureBeat独家采访时表示。“这几乎是根据企业对下一级关键任务采用需求进行的彻底重构。”
企业数据复杂性改变了数据编排需求
随着企业越来越依赖数据进行决策,数据工作流的复杂性急剧上升。公司现在需要处理跨越多个云环境、不同数据源以及日益复杂的AI工作负载的复杂管道。
Airflow 3.0专为应对这些不断变化的企业需求而设计。与之前版本不同,此版本从单一结构转向分布式客户端模型,提供更大的灵活性和安全性。这一新架构使企业能够:
- 在多个云环境中执行任务。
- 实施详细的安全控制。
- 支持多种编程语言。
- 实现真正的多云部署。
Airflow 3.0的扩展语言支持尤其值得注意。虽然早期版本主要专注于Python,但新版本现已原生支持多种编程语言。Airflow 3.0目前支持Python和Go,并计划支持Java、TypeScript和Rust。这种灵活性意味着数据工程师可以使用他们偏好的编程语言,使工作流开发和集成更加顺畅。
事件驱动功能改变数据工作流
传统上,Airflow擅长定时批处理,但企业现在需要实时数据处理能力。Airflow 3.0迎合了这一需求。
“Airflow 3的一个关键变化是我们称之为事件驱动调度,”Koka解释道。
Airflow不再按固定时间表(如每小时)运行数据处理任务,而是可以在特定事件发生时触发任务,例如当数据文件上传到Amazon S3存储桶或Apache Kafka中出现消息时。这种事件驱动调度弥合了传统ETL(提取、转换和加载)工具与Apache Flink或Apache Spark Structured Streaming等流处理框架之间的差距,使组织能够通过单一编排层管理定时和事件触发的两种工作流。
Airflow将加速企业AI推理执行和复合AI
事件驱动数据编排的引入还将提升Airflow支持快速AI推理执行的能力。
Koka举例说明了在专业服务(如法律时间跟踪)中使用实时推理的场景。在这种情况下,Airflow帮助从日历、电子邮件和文档等来源收集原始数据。大型语言模型(LLM)随后将这些非结构化数据转换为结构化信息。另一个预训练模型可以分析这些结构化的时间跟踪数据,确定工作是否可计费,并分配适当的计费代码和费率。
Koka称其为复合AI系统——一种结合不同AI模型以高效、智能化完成复杂任务的工作流。Airflow 3.0的事件驱动架构使这种实时、多步骤推理过程在各种企业用例中成为可能。
复合AI是2024年由Berkeley Artificial Intelligence Research Center首次定义的概念,与代理AI不同。Koka解释说,代理AI支持自主AI决策,而复合AI遵循预定义的工作流,对于商业应用更可预测和可靠。
与Airflow合作,德州游骑兵如何受益
德州游骑兵职业棒球队是Airflow的众多用户之一。德州游骑兵棒球俱乐部的全栈数据工程师Oliver Dykstra在接受VentureBeat采访时表示,球队使用托管在Astronomer Astro平台上的Airflow,作为棒球数据操作的“神经中枢”。所有球员发展、合同、分析和比赛数据都通过Airflow进行编排。
“我们期待升级到Airflow 3及其在事件驱动调度、可观察性和数据血缘方面的增强,”Dykstra说。“由于我们已经依赖Airflow管理关键的AI/ML管道,Airflow 3的额外效率和可靠性将有助于提升我们整个组织对这些数据产品的信任和韧性。”
这对企业AI采用意味着什么
对于评估数据编排策略的技术决策者,Airflow 3.0提供了可逐步实施的切实好处。
第一步是评估当前数据工作流中可以从新的事件驱动功能中受益的部分。组织可以确定当前使用定时任务但通过事件触发会更高效的数据管道。这种转变可以显著减少处理延迟并消除不必要的轮询操作。
接下来,技术领导者应审查他们的开发环境,查看Airflow的扩展语言支持是否能帮助整合分散的编排工具。目前管理不同语言环境下的单独编排工具的团队可以开始规划迁移策略,以简化其技术堆栈。
对于处于AI实施前沿的企业,Airflow 3.0是一个关键的基础设施组件,解决了AI采用中的一个关键挑战:在企业规模上编排复杂的多阶段AI工作流。该平台协调复合AI系统的能力可以帮助组织从概念验证转向企业范围的AI部署,确保适当的治理、安全性和可靠性。
IBM:数据孤岛仍是企业人工智能应用的主要障碍
根据IBM的研究,企业人工智能应用的主要障碍并非底层技术,而是数据生态系统碎片化这一长期存在的挑战。IBM副总裁兼首席数据官埃德·洛夫利指出,数据孤岛是现代数据战略中的关键薄弱环节。此前IBM商业价值研究院最新研究显示,尽管人工智能已具备规模化应用条件,但企业数据准备度却明显滞后。该报告对1700名高级数据主管的调研显示,从财务、人力资源到市场营销、供应链等部门数据仍被锁定在各自领域,缺乏统一标准
Cet article est vraiment intéressant ! J'utilise Airflow au boulot et la gestion des données en temps réel est un vrai casse-tête. Cette mise à jour a l'air prometteuse, ça pourrait enfin accélérer nos flux de données pour l'IA. Est-ce que quelqu'un a déjà testé la version 3.0 ? 📊 #DataEngineering
Airflow 3.0 sounds like a game-changer for real-time AI! 🚀 Super curious how its event-driven approach speeds things up compared to traditional batch processing.
Apache Airflow 3.0 thực sự đã tăng tốc quá trình xử lý dữ liệu của tôi cho AI! Cách tiếp cận dựa trên sự kiện là một bước đột phá. Tuy nhiên, nó không hoàn hảo; đường cong học tập rất dốc. Nhưng khi bạn làm quen được, nó cực kỳ hiệu quả. 🚀
Apache Airflow 3.0は、私のAI向けデータ処理を本当にスピードアップしました!イベント駆動のアプローチはゲームチェンジャーです。ただし、完璧ではありません。学習曲線が急です。でも、一度慣れれば超効率的です。🚀
Apache Airflow 3.0 realmente ha acelerado mi procesamiento de datos para IA. El enfoque basado en eventos es un cambio de juego. No es perfecto, la curva de aprendizaje es empinada. Pero una vez que lo dominas, es súper eficiente. 🚀





首页






