选项
首页 新闻 实时AI的批处数据处理太慢:开源Apache气流3.0如何通过事件驱动的数据编排解决挑战

实时AI的批处数据处理太慢:开源Apache气流3.0如何通过事件驱动的数据编排解决挑战

发布日期 发布日期 2025年05月07日
作者 作者 BenGarcía
浏览量 浏览量 0

实时AI的批处数据处理太慢:开源Apache气流3.0如何通过事件驱动的数据编排解决挑战

将数据从各种来源移动到适合AI应用的位置并不是很小的壮举。这是Apache Airffore(例如Apache Airflow)发挥作用的数据编排工具的地方,使过程更加顺畅,更有效。

Apache Airflow社区刚刚发布了3.0版的发射来发布其多年来最重要的更新。这标志着在2.x系列中稳步改善(包括2024年的2.9和2.10版本)之后,这是四年来的第一个重大更新,该版本非常重视AI增强功能。

Apache气流已成为数据工程师的首选工具,巩固了其作为顶级开源工作流编排平台的位置。在《财富》 500强公司中,有3,000多名贡献者和广泛使用,很明显为什么它如此受欢迎。它的顶部还建立了几种商业服务,例如天文学家Astro,Google Cloud Composer,Amazon托管Apache Airffore(MWAA)和Microsoft Azure Azure Data Factory Managed气流,仅举几例。

随着公司努力协调跨不同系统,云和越来越多的AI工作负载的数据工作流,对强大解决方案的需求也会增长。 Apache AirFlow 3.0步骤,通过建筑大修满足这些企业需求,该大修有望增强组织如何开发和部署数据应用程序。

“对我来说,气流3是一个新的起点,是一套更广泛的能力的基础,” Apache Airflow PMC(项目管理委员会)成员兼天文学家首席战略官Vikram Koka在接受VentureBeat的独家采访中分享。 “这几乎是根据企业告诉我们的下一个关键任务采用级别所需的完全重构。”

企业数据复杂性改变了数据编排需求

随着企业越来越依赖于数据进行决策,数据工作流程的复杂性飙升。现在,公司兼顾跨越多个云环境,各种数据源以及越来越复杂的AI工作负载的复杂管道。

AirFlow 3.0量身定制,以满足这些不断发展的企业需求。与其前身不同,此版本从单片结构转移到分布式客户端模型,提供了更大的灵活性和安全性。这种新的体系结构使企业能够:

  1. 跨多个云环境执行任务。
  2. 实施详细的安全控制。
  3. 支持各种编程语言。
  4. 启用真正的多云部署。

气流3.0中扩展的语言支持特别值得注意。虽然较早的版本主要是针对Python的,但新版本现在本地支持多种编程语言。 AirFlow 3.0当前支持Python和GO,并计划包括Java,TypeScript和Rust。这种灵活性意味着数据工程师可以使用其首选的编程语言,从而使工作流程开发和集成更加顺畅。

事件驱动的功能转换数据工作流程

传统上,气流在预定的批处理处理方面非常出色,但是企业现在要求实时数据处理能力。气流3.0步骤以满足这一需求。

Koka解释说:“气流3的关键更改是我们所说的事件驱动的调度。”

现在,气流可以在发生特定事件时(例如,将数据文件上传到Amazon S3存储桶或Apache Kafka中出现的消息时),而不是在设定的时间表上运行数据处理作业,而是可以触发作业。该事件驱动的调度桥接传统的ETL(提取,转换和加载)工具以及流处理框架(如Apache Flink或Apache Spark Spark结构化流媒体)之间的差距,使组织能够使用单个编排层管理计划的计划和事件触发的工作流程。

气流将加速企业AI推理执行和复合AI

引入事件驱动的数据编排还将提高气流支持快速AI推理执行的能力。

Koka提供了一个对法律时间跟踪等专业服务的实时推断的示例。在这种情况下,气流有助于从日历,电子邮件和文档等来源收集原始数据。然后,大型语言模型(LLM)将这些非结构化数据转换为结构化信息。另一个预训练的模型可以分析此结构化的时间跟踪数据,确定工作是否可计费,并分配适当的计费代码和费率。

Koka将其称为复合AI系统 - 一种将不同的AI模型结合在一起,可以有效且智能地​​完成复杂的任务。 AirFlow 3.0的事件驱动的体系结构使这种实时的多步推理过程可在各种企业用例中可行。

化合物AI是2024年伯克利人工智能研究中心最初定义的概念,与代理AI不同。 Koka解释说,虽然代理AI启用了自主AI决策,但Compound AI遵循预定义的工作流,这些工作流对业务应用程序更可预测和可靠。

用气流打球,得克萨斯游骑兵如何受益

德克萨斯游骑兵大联盟棒球队是气流的众多用户之一。德克萨斯游骑兵棒球俱乐部的全栈数据工程师Oliver Dykstra与VentureBeat分享了该团队使用的气流,该团队在天文学家的Astro Platform上托管,作为其棒球数据操作的“神经中心”。所有玩家开发,合同,分析和游戏数据均通过气流进行精心策划。

Dykstra说:“我们期待升级到气流3及其增强功能,以实现事件驱动的调度,可观察性和数据谱系。” “由于我们已经依靠气流来管理我们的关键AI/ML管道,因此气流3的效率和可靠性将有助于提高整个组织中这些数据产品的信任和弹性。”

这对企业AI采用意味着什么

对于评估其数据编排策略的技术决策者,AirFlow 3.0提供了可以逐渐实施的切实优势。

第一步是评估可能受益于新事件驱动的功能的当前数据工作流程。组织可以使用计划的作业来查明当前的数据管道,但基于事件的触发器将更有效。这种转变可以大大减少处理延迟并消除不必要的投票操作。

接下来,技术领导者应审查其开发环境,以查看气流扩展的语言支持是否可以帮助巩固零散的编排工具。当前管理各种语言环境编排工具的团队可以开始计划迁移策略以简化其技术堆栈。

对于AI实施的最前沿的企业,气流3.0代表了一个关键的基础架构组件,该组件解决了AI采用中的关键挑战:在企业规模上精心策划复杂的多阶段AI工作流。平台协调复合AI系统的能力可以帮助组织超越概念验证,从而在企业范围内的AI部署,确保适当的治理,安全性和可靠性。

相关文章
Top 10 Python -Bibliotheken zur Verbesserung der Verarbeitung natürlicher Sprache Top 10 Python -Bibliotheken zur Verbesserung der Verarbeitung natürlicher Sprache Python wird oft als Spitzenwahl für die Programmierung gefeiert, insbesondere wenn es um künstliche Intelligenz (KI) und maschinelles Lernen geht. Seine Effizienz fällt unter anderen beliebten Sprachen auf, und seine Syntax, die Englisch ähnelt, macht es zu einer perfekten Startersprache für Anfänger. Was wirklich se
Was ist im LLM? AI2 Olmotrace wird die Quelle Was ist im LLM? AI2 Olmotrace wird die Quelle "verfolgen" Das Verständnis der Verbindung zwischen der Ausgabe eines großen Sprachmodells (LLM) und seinen Trainingsdaten war schon immer ein Rätsel für Unternehmen. Diese Woche hat das Allen Institute for AI (AI2) eine aufregende neue Open-Source-Initiative namens Olmotrace gestartet, die darauf abzielt, dieses Relati zu entmystifizieren
Meta, um KI -Modelle mit EU -Benutzerdaten zu trainieren Meta, um KI -Modelle mit EU -Benutzerdaten zu trainieren Meta hat kürzlich seine Absicht angekündigt, die öffentlichen Inhalte von erwachsenen Nutzern der Europäischen Union (EU) zu nutzen, um seine KI -Modelle zu verbessern. Dieser Schritt folgt dem Start von Meta -KI
评论 (0)
0/200
返回顶部
OR