

O processamento de dados em lote é muito lento para a IA em tempo real: como o Apache Airflow 3.0 de código aberto resolve o desafio com a orquestração de dados orientada por eventos
7 de Maio de 2025
BenGarcía
0

Mover dados de várias fontes para o local apropriado para aplicativos de IA não é uma tarefa pequena. É aqui que as ferramentas de orquestração de dados como o Apache Airflow entram em jogo, tornando o processo mais suave e mais eficiente.
A comunidade Apache Airflow acaba de lançar sua atualização mais significativa em anos com o lançamento da versão 3.0. Isso marca a primeira grande atualização em quatro anos, após melhorias constantes na série 2.x, incluindo as versões 2.9 e 2.10 em 2024, que se concentraram fortemente nos aprimoramentos de IA.
O Apache Airflow se tornou a ferramenta preferida para os engenheiros de dados, cimentando seu lugar como a plataforma de orquestração de fluxo de trabalho de código aberto superior. Com mais de 3.000 colaboradores e uso generalizado entre empresas da Fortune 500, fica claro por que é tão popular. Existem também vários serviços comerciais construídos sobre ele, como astrônomo Astro, Google Cloud Composer, Amazon Gerenciou Work Flows for Apache Airflow (MWAA) e o fluxo de ar gerenciado por fábrica de dados do Microsoft Azure, para citar alguns.
À medida que as empresas lidam com a coordenação de fluxos de trabalho de dados em diferentes sistemas, nuvens e cargas de trabalho de IA cada vez mais, a necessidade de soluções robustas cresce. O Apache Airflow 3.0 etapas para atender a essas necessidades corporativas com uma revisão arquitetônica que promete aprimorar como as organizações desenvolvem e implantam aplicativos de dados.
"Para mim, o Airflow 3 é um novo começo, uma base para um conjunto de capacidades muito mais amplo", Vikram Koka, membro do Apache Airflow PMC (Comitê de Gerenciamento de Projetos) e diretor de estratégia do astrônomo, compartilhou uma entrevista exclusiva ao Venturebeat. "Este é quase um refator completo com base no que as empresas nos disseram que precisavam para o próximo nível de adoção de missão crítica".
A complexidade dos dados corporativos mudou as necessidades de orquestração de dados
Com as empresas dependem cada vez mais de dados para a tomada de decisão, a complexidade dos fluxos de trabalho de dados disparou. As empresas agora concutulam a pipelines complexos que abrangem vários ambientes em nuvem, diversas fontes de dados e cargas de trabalho de IA cada vez mais sofisticadas.
O Airflow 3.0 é adaptado para atender a essas necessidades corporativas em evolução. Ao contrário de seus antecessores, essa versão se afasta de uma estrutura monolítica para um modelo de cliente distribuído, oferecendo maior flexibilidade e segurança. Esta nova arquitetura capacita as empresas para:
- Execute tarefas em vários ambientes de nuvem.
- Implementar controles de segurança detalhados.
- Apoie uma variedade de linguagens de programação.
- Ativar implantações verdadeiras de várias nuvens.
O suporte expandido da linguagem no Airflow 3.0 é particularmente digno de nota. Enquanto as versões anteriores foram focadas principalmente em Python, o novo lançamento agora suporta nativamente várias linguagens de programação. Airflow 3.0 atualmente suporta Python e Go, com planos de incluir Java, TypeScript e Rust. Essa flexibilidade significa que os engenheiros de dados podem usar sua linguagem de programação preferida, tornando o desenvolvimento e a integração do fluxo de trabalho mais suave.
Recursos orientados a eventos transformam fluxos de trabalho de dados
Tradicionalmente, o fluxo de ar tem sido ótimo no processamento de lote programado, mas as empresas agora estão exigindo recursos de processamento de dados em tempo real. Airflow 3.0 Pasta para atender a essa demanda.
"Uma mudança importante no fluxo de ar 3 é o que chamamos de agendamento orientado a eventos", explicou Koka.
Em vez de executar um trabalho de processamento de dados em um cronograma definido, como a cada hora, o fluxo de ar agora pode acionar o trabalho quando ocorre um evento específico, como quando um arquivo de dados é carregado em um balde do Amazon S3 ou uma mensagem aparece no Apache Kafka. Esse agendamento orientado a eventos ponta a lacuna entre as ferramentas tradicionais de ETL (extrair, transformar e carregar) e estruturas de processamento de fluxos, como o Apache Flink ou o Apache Spark Structure Structering, permitindo que as organizações gerenciem os fluxos de trabalho agendados e acionados por eventos com uma única camada de orquestração.
O fluxo de ar acelerará a execução de inferência da IA corporativa e composto ai
A introdução da orquestração de dados orientada por eventos também aumentará a capacidade do Airflow de suportar a rápida execução de inferência de IA.
Koka forneceu um exemplo de uso de inferência em tempo real para serviços profissionais, como o rastreamento legal de tempo. Nesse cenário, o fluxo de ar ajuda a coletar dados brutos de fontes como calendários, e -mails e documentos. Um grande modelo de linguagem (LLM) transforma esses dados não estruturados em informações estruturadas. Outro modelo pré-treinado pode analisar esses dados de rastreamento de tempo estruturado, determinar se o trabalho é faturável e atribuir códigos e taxas de cobrança apropriados.
Koka refere -se a isso como um sistema de IA composto - um fluxo de trabalho que combina diferentes modelos de IA para concluir de maneira eficiente e inteligente uma tarefa complexa. A arquitetura orientada a eventos do Airflow 3.0 torna viável esse tipo de processo de inferência em tempo real e em várias etapas em vários casos de uso corporativo.
A IA composta, um conceito definido pela primeira vez pelo Centro de Pesquisa de Inteligência Artificial de Berkeley em 2024, difere da IA agêntica. Koka explicou que, embora o Agentic AI permita a tomada de decisão autônoma de IA, a IA composta segue os fluxos de trabalho predefinidos que são mais previsíveis e confiáveis para aplicativos de negócios.
Jogando bola com fluxo de ar, como os Texas Rangers parecem se beneficiar
O time de beisebol da Major League do Texas Rangers está entre os muitos usuários de fluxo de ar. Oliver Dykstra, um engenheiro de dados de pilha completa do Texas Rangers Baseball Club, compartilhou com a VentureBeat que a equipe usa o fluxo de ar, hospedado na plataforma Astro do astrônomo, como o 'centro nervoso' de suas operações de dados de beisebol. Todo o desenvolvimento de jogadores, contratos, análises e dados do jogo são orquestrados através do fluxo de ar.
"Estamos ansiosos para atualizar para o fluxo de ar 3 e seus aprimoramentos para a programação, observabilidade e linhagem de dados orientados a eventos", disse Dykstra. "Como já contamos com o fluxo de ar para gerenciar nossos pipelines críticos de IA/ML, a eficiência e a confiabilidade adicionais do fluxo de ar 3 ajudarão a aumentar a confiança e a resiliência desses produtos de dados em toda a nossa organização".
O que isso significa para a adoção da IA corporativa
Para os tomadores de decisão técnicos que avaliam sua estratégia de orquestração de dados, o Airflow 3.0 oferece benefícios tangíveis que podem ser implementados gradualmente.
A primeira etapa é avaliar os fluxos de trabalho de dados atuais que podem se beneficiar dos novos recursos orientados a eventos. As organizações podem identificar pipelines de dados atualmente usando trabalhos programados, mas seriam mais eficientes com os gatilhos baseados em eventos. Essa mudança pode reduzir significativamente a latência de processamento e eliminar operações desnecessárias de votação.
Em seguida, os líderes de tecnologia devem revisar seus ambientes de desenvolvimento para verificar se o suporte de linguagem expandido do Airflow pode ajudar a consolidar ferramentas de orquestração fragmentada. As equipes atualmente gerenciando ferramentas de orquestração separadas para diferentes ambientes de idiomas podem começar a planejar uma estratégia de migração para otimizar sua pilha de tecnologia.
Para empresas na vanguarda da implementação da IA, o Airflow 3.0 representa um componente de infraestrutura crucial que aborda um desafio importante na adoção da IA: orquestrando fluxos de trabalho de IA complexos e multi-estágios em uma escala corporativa. A capacidade da plataforma de coordenar sistemas compostos de IA pode ajudar as organizações a ir além da prova de conceito para a implantação da IA em toda a empresa, garantindo governança, segurança e confiabilidade adequadas.
Artigo relacionado
Top 10 Python -Bibliotheken zur Verbesserung der Verarbeitung natürlicher Sprache
Python wird oft als Spitzenwahl für die Programmierung gefeiert, insbesondere wenn es um künstliche Intelligenz (KI) und maschinelles Lernen geht. Seine Effizienz fällt unter anderen beliebten Sprachen auf, und seine Syntax, die Englisch ähnelt, macht es zu einer perfekten Startersprache für Anfänger. Was wirklich se
Was ist im LLM? AI2 Olmotrace wird die Quelle "verfolgen"
Das Verständnis der Verbindung zwischen der Ausgabe eines großen Sprachmodells (LLM) und seinen Trainingsdaten war schon immer ein Rätsel für Unternehmen. Diese Woche hat das Allen Institute for AI (AI2) eine aufregende neue Open-Source-Initiative namens Olmotrace gestartet, die darauf abzielt, dieses Relati zu entmystifizieren
Meta, um KI -Modelle mit EU -Benutzerdaten zu trainieren
Meta hat kürzlich seine Absicht angekündigt, die öffentlichen Inhalte von erwachsenen Nutzern der Europäischen Union (EU) zu nutzen, um seine KI -Modelle zu verbessern. Dieser Schritt folgt dem Start von Meta -KI
Comentários (0)
0/200






Mover dados de várias fontes para o local apropriado para aplicativos de IA não é uma tarefa pequena. É aqui que as ferramentas de orquestração de dados como o Apache Airflow entram em jogo, tornando o processo mais suave e mais eficiente.
A comunidade Apache Airflow acaba de lançar sua atualização mais significativa em anos com o lançamento da versão 3.0. Isso marca a primeira grande atualização em quatro anos, após melhorias constantes na série 2.x, incluindo as versões 2.9 e 2.10 em 2024, que se concentraram fortemente nos aprimoramentos de IA.
O Apache Airflow se tornou a ferramenta preferida para os engenheiros de dados, cimentando seu lugar como a plataforma de orquestração de fluxo de trabalho de código aberto superior. Com mais de 3.000 colaboradores e uso generalizado entre empresas da Fortune 500, fica claro por que é tão popular. Existem também vários serviços comerciais construídos sobre ele, como astrônomo Astro, Google Cloud Composer, Amazon Gerenciou Work Flows for Apache Airflow (MWAA) e o fluxo de ar gerenciado por fábrica de dados do Microsoft Azure, para citar alguns.
À medida que as empresas lidam com a coordenação de fluxos de trabalho de dados em diferentes sistemas, nuvens e cargas de trabalho de IA cada vez mais, a necessidade de soluções robustas cresce. O Apache Airflow 3.0 etapas para atender a essas necessidades corporativas com uma revisão arquitetônica que promete aprimorar como as organizações desenvolvem e implantam aplicativos de dados.
"Para mim, o Airflow 3 é um novo começo, uma base para um conjunto de capacidades muito mais amplo", Vikram Koka, membro do Apache Airflow PMC (Comitê de Gerenciamento de Projetos) e diretor de estratégia do astrônomo, compartilhou uma entrevista exclusiva ao Venturebeat. "Este é quase um refator completo com base no que as empresas nos disseram que precisavam para o próximo nível de adoção de missão crítica".
A complexidade dos dados corporativos mudou as necessidades de orquestração de dados
Com as empresas dependem cada vez mais de dados para a tomada de decisão, a complexidade dos fluxos de trabalho de dados disparou. As empresas agora concutulam a pipelines complexos que abrangem vários ambientes em nuvem, diversas fontes de dados e cargas de trabalho de IA cada vez mais sofisticadas.
O Airflow 3.0 é adaptado para atender a essas necessidades corporativas em evolução. Ao contrário de seus antecessores, essa versão se afasta de uma estrutura monolítica para um modelo de cliente distribuído, oferecendo maior flexibilidade e segurança. Esta nova arquitetura capacita as empresas para:
- Execute tarefas em vários ambientes de nuvem.
- Implementar controles de segurança detalhados.
- Apoie uma variedade de linguagens de programação.
- Ativar implantações verdadeiras de várias nuvens.
O suporte expandido da linguagem no Airflow 3.0 é particularmente digno de nota. Enquanto as versões anteriores foram focadas principalmente em Python, o novo lançamento agora suporta nativamente várias linguagens de programação. Airflow 3.0 atualmente suporta Python e Go, com planos de incluir Java, TypeScript e Rust. Essa flexibilidade significa que os engenheiros de dados podem usar sua linguagem de programação preferida, tornando o desenvolvimento e a integração do fluxo de trabalho mais suave.
Recursos orientados a eventos transformam fluxos de trabalho de dados
Tradicionalmente, o fluxo de ar tem sido ótimo no processamento de lote programado, mas as empresas agora estão exigindo recursos de processamento de dados em tempo real. Airflow 3.0 Pasta para atender a essa demanda.
"Uma mudança importante no fluxo de ar 3 é o que chamamos de agendamento orientado a eventos", explicou Koka.
Em vez de executar um trabalho de processamento de dados em um cronograma definido, como a cada hora, o fluxo de ar agora pode acionar o trabalho quando ocorre um evento específico, como quando um arquivo de dados é carregado em um balde do Amazon S3 ou uma mensagem aparece no Apache Kafka. Esse agendamento orientado a eventos ponta a lacuna entre as ferramentas tradicionais de ETL (extrair, transformar e carregar) e estruturas de processamento de fluxos, como o Apache Flink ou o Apache Spark Structure Structering, permitindo que as organizações gerenciem os fluxos de trabalho agendados e acionados por eventos com uma única camada de orquestração.
O fluxo de ar acelerará a execução de inferência da IA corporativa e composto ai
A introdução da orquestração de dados orientada por eventos também aumentará a capacidade do Airflow de suportar a rápida execução de inferência de IA.
Koka forneceu um exemplo de uso de inferência em tempo real para serviços profissionais, como o rastreamento legal de tempo. Nesse cenário, o fluxo de ar ajuda a coletar dados brutos de fontes como calendários, e -mails e documentos. Um grande modelo de linguagem (LLM) transforma esses dados não estruturados em informações estruturadas. Outro modelo pré-treinado pode analisar esses dados de rastreamento de tempo estruturado, determinar se o trabalho é faturável e atribuir códigos e taxas de cobrança apropriados.
Koka refere -se a isso como um sistema de IA composto - um fluxo de trabalho que combina diferentes modelos de IA para concluir de maneira eficiente e inteligente uma tarefa complexa. A arquitetura orientada a eventos do Airflow 3.0 torna viável esse tipo de processo de inferência em tempo real e em várias etapas em vários casos de uso corporativo.
A IA composta, um conceito definido pela primeira vez pelo Centro de Pesquisa de Inteligência Artificial de Berkeley em 2024, difere da IA agêntica. Koka explicou que, embora o Agentic AI permita a tomada de decisão autônoma de IA, a IA composta segue os fluxos de trabalho predefinidos que são mais previsíveis e confiáveis para aplicativos de negócios.
Jogando bola com fluxo de ar, como os Texas Rangers parecem se beneficiar
O time de beisebol da Major League do Texas Rangers está entre os muitos usuários de fluxo de ar. Oliver Dykstra, um engenheiro de dados de pilha completa do Texas Rangers Baseball Club, compartilhou com a VentureBeat que a equipe usa o fluxo de ar, hospedado na plataforma Astro do astrônomo, como o 'centro nervoso' de suas operações de dados de beisebol. Todo o desenvolvimento de jogadores, contratos, análises e dados do jogo são orquestrados através do fluxo de ar.
"Estamos ansiosos para atualizar para o fluxo de ar 3 e seus aprimoramentos para a programação, observabilidade e linhagem de dados orientados a eventos", disse Dykstra. "Como já contamos com o fluxo de ar para gerenciar nossos pipelines críticos de IA/ML, a eficiência e a confiabilidade adicionais do fluxo de ar 3 ajudarão a aumentar a confiança e a resiliência desses produtos de dados em toda a nossa organização".
O que isso significa para a adoção da IA corporativa
Para os tomadores de decisão técnicos que avaliam sua estratégia de orquestração de dados, o Airflow 3.0 oferece benefícios tangíveis que podem ser implementados gradualmente.
A primeira etapa é avaliar os fluxos de trabalho de dados atuais que podem se beneficiar dos novos recursos orientados a eventos. As organizações podem identificar pipelines de dados atualmente usando trabalhos programados, mas seriam mais eficientes com os gatilhos baseados em eventos. Essa mudança pode reduzir significativamente a latência de processamento e eliminar operações desnecessárias de votação.
Em seguida, os líderes de tecnologia devem revisar seus ambientes de desenvolvimento para verificar se o suporte de linguagem expandido do Airflow pode ajudar a consolidar ferramentas de orquestração fragmentada. As equipes atualmente gerenciando ferramentas de orquestração separadas para diferentes ambientes de idiomas podem começar a planejar uma estratégia de migração para otimizar sua pilha de tecnologia.
Para empresas na vanguarda da implementação da IA, o Airflow 3.0 representa um componente de infraestrutura crucial que aborda um desafio importante na adoção da IA: orquestrando fluxos de trabalho de IA complexos e multi-estágios em uma escala corporativa. A capacidade da plataforma de coordenar sistemas compostos de IA pode ajudar as organizações a ir além da prova de conceito para a implantação da IA em toda a empresa, garantindo governança, segurança e confiabilidade adequadas.










