O processamento de dados em lote é muito lento para a IA em tempo real: como o Apache Airflow 3.0 de código aberto resolve o desafio com a orquestração de dados orientada por eventos

Mover dados de várias fontes para o lugar apropriado para aplicações de IA não é uma tarefa simples. É aqui que ferramentas de orquestração de dados, como o Apache Airflow, entram em jogo, tornando o processo mais suave e eficiente.
A comunidade do Apache Airflow acaba de lançar sua atualização mais significativa em anos com o lançamento da versão 3.0. Isso marca a primeira grande atualização em quatro anos, seguindo melhorias constantes na série 2.x, incluindo as versões 2.9 e 2.10 em 2024, que focaram fortemente em melhorias para IA.
O Apache Airflow tornou-se a ferramenta preferida para engenheiros de dados, consolidando seu lugar como a principal plataforma de orquestração de fluxo de trabalho de código aberto. Com mais de 3.000 colaboradores e uso generalizado entre empresas da Fortune 500, é claro por que é tão popular. Há também vários serviços comerciais construídos sobre ele, como Astronomer Astro, Google Cloud Composer, Amazon Managed Workflows for Apache Airflow (MWAA) e Microsoft Azure Data Factory Managed Airflow, para citar alguns.
À medida que as empresas lidam com a coordenação de fluxos de trabalho de dados em diferentes sistemas, nuvens e, cada vez mais, cargas de trabalho de IA, a necessidade de soluções robustas cresce. O Apache Airflow 3.0 atende a essas necessidades empresariais com uma reformulação arquitetônica que promete aprimorar como as organizações desenvolvem e implantam aplicações de dados.
"Para mim, o Airflow 3 é um novo começo, uma base para um conjunto muito mais amplo de capacidades," compartilhou Vikram Koka, membro do comitê de gerenciamento de projetos (PMC) do Apache Airflow e Diretor de Estratégia da Astronomer, em uma entrevista exclusiva com a VentureBeat. "Isso é quase uma reformulação completa com base no que as empresas nos disseram que precisavam para o próximo nível de adoção crítica para a missão."
A Complexidade dos Dados Empresariais Mudou as Necessidades de Orquestração de Dados
Com as empresas dependendo cada vez mais de dados para a tomada de decisões, a complexidade dos fluxos de trabalho de dados disparou. As empresas agora gerenciam pipelines complexos que abrangem múltiplos ambientes de nuvem, fontes de dados diversas e cargas de trabalho de IA cada vez mais sofisticadas.
O Airflow 3.0 é projetado para atender a essas necessidades empresariais em evolução. Diferentemente de seus predecessores, esta versão se afasta de uma estrutura monolítica para um modelo de cliente distribuído, oferecendo maior flexibilidade e segurança. Esta nova arquitetura capacita as empresas a:
- Executar tarefas em múltiplos ambientes de nuvem.
- Implementar controles de segurança detalhados.
- Suportar uma variedade de linguagens de programação.
- Possibilitar implantações verdadeiramente multi-nuvem.
O suporte expandido a linguagens no Airflow 3.0 é particularmente notável. Enquanto as versões anteriores eram focadas principalmente em Python, a nova versão agora suporta nativamente várias linguagens de programação. O Airflow 3.0 atualmente suporta Python e Go, com planos de incluir Java, TypeScript e Rust. Essa flexibilidade significa que os engenheiros de dados podem usar sua linguagem de programação preferida, tornando o desenvolvimento e a integração de fluxos de trabalho mais suaves.
Capacidades Orientadas a Eventos Transformam Fluxos de Trabalho de Dados
Tradicionalmente, o Airflow tem sido excelente em processamento em lote agendado, mas as empresas agora demandam capacidades de processamento de dados em tempo real. O Airflow 3.0 atende a essa demanda.
"Uma mudança chave no Airflow 3 é o que chamamos de agendamento orientado a eventos," explicou Koka.
Em vez de executar um trabalho de processamento de dados em um cronograma fixo, como a cada hora, o Airflow agora pode disparar o trabalho quando um evento específico ocorre, como quando um arquivo de dados é carregado em um bucket do Amazon S3 ou uma mensagem aparece no Apache Kafka. Esse agendamento orientado a eventos preenche a lacuna entre ferramentas tradicionais de ETL (Extrair, Transformar e Carregar) e frameworks de processamento de fluxo como Apache Flink ou Apache Spark Structured Streaming, permitindo que as organizações gerenciem fluxos de trabalho agendados e acionados por eventos com uma única camada de orquestração.
O Airflow Acelerará a Execução de Inferência de IA Empresarial e IA Composta
A introdução da orquestração de dados orientada a eventos também aumentará a capacidade do Airflow de suportar a execução rápida de inferência de IA.
Koka forneceu um exemplo de uso de inferência em tempo real para serviços profissionais, como rastreamento de tempo jurídico. Nesse cenário, o Airflow ajuda a coletar dados brutos de fontes como calendários, e-mails e documentos. Um modelo de linguagem grande (LLM) então transforma esses dados não estruturados em informações estruturadas. Outro modelo pré-treinado pode analisar esses dados de rastreamento de tempo estruturado, determinar se o trabalho é faturável e atribuir códigos e taxas de faturamento apropriados.
Koka chama isso de sistema de IA composta – um fluxo de trabalho que combina diferentes modelos de IA para completar uma tarefa complexa de forma eficiente e inteligente. A arquitetura orientada a eventos do Airflow 3.0 torna esse tipo de processo de inferência em várias etapas e em tempo real viável em vários casos de uso empresariais.
IA composta, um conceito definido pela primeira vez pelo Berkeley Artificial Intelligence Research Center em 2024, difere da IA agentiva. Koka explicou que, enquanto a IA agentiva permite a tomada de decisão autônoma por IA, a IA composta segue fluxos de trabalho predefinidos que são mais previsíveis e confiáveis para aplicações de negócios.
Jogando Bola com o Airflow, Como os Texas Rangers Pretendem se Beneficiar
O time de beisebol da liga principal Texas Rangers está entre os muitos usuários do Airflow. Oliver Dykstra, engenheiro de dados full-stack do Texas Rangers Baseball Club, compartilhou com a VentureBeat que o time usa o Airflow, hospedado na plataforma Astro da Astronomer, como o 'centro nervoso' de suas operações de dados de beisebol. Todo o desenvolvimento de jogadores, contratos, análises e dados de jogos são orquestrados pelo Airflow.
"Estamos ansiosos para atualizar para o Airflow 3 e suas melhorias em agendamento orientado a eventos, observabilidade e linhagem de dados," disse Dykstra. "Como já dependemos do Airflow para gerenciar nossos pipelines críticos de IA/ML, a eficiência e confiabilidade adicionais do Airflow 3 ajudarão a aumentar a confiança e a resiliência desses produtos de dados em toda a nossa organização."
O Que Isso Significa para a Adoção de IA Empresarial
Para tomadores de decisão técnicos avaliando sua estratégia de orquestração de dados, o Airflow 3.0 oferece benefícios tangíveis que podem ser implementados gradualmente.
O primeiro passo é avaliar os fluxos de trabalho de dados atuais que poderiam se beneficiar das novas capacidades orientadas a eventos. As organizações podem identificar pipelines de dados que atualmente usam trabalhos agendados, mas seriam mais eficientes com gatilhos baseados em eventos. Essa mudança pode reduzir significativamente a latência de processamento e eliminar operações de sondagem desnecessárias.
Em seguida, os líderes de tecnologia devem revisar seus ambientes de desenvolvimento para ver se o suporte expandido a linguagens do Airflow poderia ajudar a consolidar ferramentas de orquestração fragmentadas. Equipes que atualmente gerenciam ferramentas de orquestração separadas para diferentes ambientes de linguagem podem começar a planejar uma estratégia de migração para simplificar sua pilha de tecnologia.
Para empresas na vanguarda da implementação de IA, o Airflow 3.0 representa um componente crucial de infraestrutura que aborda um desafio chave na adoção de IA: orquestrar fluxos de trabalho de IA complexos e em várias etapas em escala empresarial. A capacidade da plataforma de coordenar sistemas de IA composta pode ajudar as organizações a passar de provas de conceito para implantações de IA em toda a empresa, garantindo governança, segurança e confiabilidade adequadas.
Artigo relacionado
Estratégia de IA da Adobe: Vencedores e Perdedores na Corrida Tecnológica
No mundo em rápida transformação da inteligência artificial (IA), os investidores estão observando de perto quais empresas prosperarão nesta transformação tecnológica. Este artigo examina a abordagem
Perspectiva de Ações da BigBear.ai (BBAI): O Crescimento Impulsionado por IA Pode Persistir?
No mundo acelerado da inteligência artificial (IA) e cibersegurança, a BigBear.ai (BBAI) está capturando o interesse dos investidores. Este artigo oferece uma análise aprofundada das ações da BigBear.
Akamai Reduz Custos de Nuvem em 70% com Automação de Kubernetes Impulsionada por IA
Na era da IA generativa, os gastos com nuvem estão disparando. Projeta-se que as empresas desperdicem US$ 44,5 bilhões em gastos desnecessários com nuvem este ano devido ao uso ineficiente de recursos
Comentários (6)
0/200
DonaldYoung
31 de Julho de 2025 à20 02:41:20 WEST
Airflow 3.0 sounds like a game-changer for real-time AI! 🚀 Super curious how its event-driven approach speeds things up compared to traditional batch processing.
0
RobertRoberts
9 de Maio de 2025 à28 09:12:28 WEST
Apache Airflow 3.0 thực sự đã tăng tốc quá trình xử lý dữ liệu của tôi cho AI! Cách tiếp cận dựa trên sự kiện là một bước đột phá. Tuy nhiên, nó không hoàn hảo; đường cong học tập rất dốc. Nhưng khi bạn làm quen được, nó cực kỳ hiệu quả. 🚀
0
RobertMartin
9 de Maio de 2025 à27 07:26:27 WEST
Apache Airflow 3.0は、私のAI向けデータ処理を本当にスピードアップしました!イベント駆動のアプローチはゲームチェンジャーです。ただし、完璧ではありません。学習曲線が急です。でも、一度慣れれば超効率的です。🚀
0
BillyThomas
8 de Maio de 2025 à7 22:15:07 WEST
Apache Airflow 3.0 realmente ha acelerado mi procesamiento de datos para IA. El enfoque basado en eventos es un cambio de juego. No es perfecto, la curva de aprendizaje es empinada. Pero una vez que lo dominas, es súper eficiente. 🚀
0
KevinScott
8 de Maio de 2025 à27 17:41:27 WEST
Apache Airflow 3.0 has really sped up my data processing for AI! The event-driven approach is a game-changer. It's not perfect, though; the learning curve is steep. But once you get the hang of it, it's super efficient. 🚀
0
PaulGonzalez
8 de Maio de 2025 à20 15:09:20 WEST
Apache Airflow 3.0 hat meinen Datenverarbeitungsprozess für KI wirklich beschleunigt! Der ereignisgesteuerte Ansatz ist ein Game-Changer. Es ist nicht perfekt; die Lernkurve ist steil. Aber sobald man es beherrscht, ist es super effizient. 🚀
0
Mover dados de várias fontes para o lugar apropriado para aplicações de IA não é uma tarefa simples. É aqui que ferramentas de orquestração de dados, como o Apache Airflow, entram em jogo, tornando o processo mais suave e eficiente.
A comunidade do Apache Airflow acaba de lançar sua atualização mais significativa em anos com o lançamento da versão 3.0. Isso marca a primeira grande atualização em quatro anos, seguindo melhorias constantes na série 2.x, incluindo as versões 2.9 e 2.10 em 2024, que focaram fortemente em melhorias para IA.
O Apache Airflow tornou-se a ferramenta preferida para engenheiros de dados, consolidando seu lugar como a principal plataforma de orquestração de fluxo de trabalho de código aberto. Com mais de 3.000 colaboradores e uso generalizado entre empresas da Fortune 500, é claro por que é tão popular. Há também vários serviços comerciais construídos sobre ele, como Astronomer Astro, Google Cloud Composer, Amazon Managed Workflows for Apache Airflow (MWAA) e Microsoft Azure Data Factory Managed Airflow, para citar alguns.
À medida que as empresas lidam com a coordenação de fluxos de trabalho de dados em diferentes sistemas, nuvens e, cada vez mais, cargas de trabalho de IA, a necessidade de soluções robustas cresce. O Apache Airflow 3.0 atende a essas necessidades empresariais com uma reformulação arquitetônica que promete aprimorar como as organizações desenvolvem e implantam aplicações de dados.
"Para mim, o Airflow 3 é um novo começo, uma base para um conjunto muito mais amplo de capacidades," compartilhou Vikram Koka, membro do comitê de gerenciamento de projetos (PMC) do Apache Airflow e Diretor de Estratégia da Astronomer, em uma entrevista exclusiva com a VentureBeat. "Isso é quase uma reformulação completa com base no que as empresas nos disseram que precisavam para o próximo nível de adoção crítica para a missão."
A Complexidade dos Dados Empresariais Mudou as Necessidades de Orquestração de Dados
Com as empresas dependendo cada vez mais de dados para a tomada de decisões, a complexidade dos fluxos de trabalho de dados disparou. As empresas agora gerenciam pipelines complexos que abrangem múltiplos ambientes de nuvem, fontes de dados diversas e cargas de trabalho de IA cada vez mais sofisticadas.
O Airflow 3.0 é projetado para atender a essas necessidades empresariais em evolução. Diferentemente de seus predecessores, esta versão se afasta de uma estrutura monolítica para um modelo de cliente distribuído, oferecendo maior flexibilidade e segurança. Esta nova arquitetura capacita as empresas a:
- Executar tarefas em múltiplos ambientes de nuvem.
- Implementar controles de segurança detalhados.
- Suportar uma variedade de linguagens de programação.
- Possibilitar implantações verdadeiramente multi-nuvem.
O suporte expandido a linguagens no Airflow 3.0 é particularmente notável. Enquanto as versões anteriores eram focadas principalmente em Python, a nova versão agora suporta nativamente várias linguagens de programação. O Airflow 3.0 atualmente suporta Python e Go, com planos de incluir Java, TypeScript e Rust. Essa flexibilidade significa que os engenheiros de dados podem usar sua linguagem de programação preferida, tornando o desenvolvimento e a integração de fluxos de trabalho mais suaves.
Capacidades Orientadas a Eventos Transformam Fluxos de Trabalho de Dados
Tradicionalmente, o Airflow tem sido excelente em processamento em lote agendado, mas as empresas agora demandam capacidades de processamento de dados em tempo real. O Airflow 3.0 atende a essa demanda.
"Uma mudança chave no Airflow 3 é o que chamamos de agendamento orientado a eventos," explicou Koka.
Em vez de executar um trabalho de processamento de dados em um cronograma fixo, como a cada hora, o Airflow agora pode disparar o trabalho quando um evento específico ocorre, como quando um arquivo de dados é carregado em um bucket do Amazon S3 ou uma mensagem aparece no Apache Kafka. Esse agendamento orientado a eventos preenche a lacuna entre ferramentas tradicionais de ETL (Extrair, Transformar e Carregar) e frameworks de processamento de fluxo como Apache Flink ou Apache Spark Structured Streaming, permitindo que as organizações gerenciem fluxos de trabalho agendados e acionados por eventos com uma única camada de orquestração.
O Airflow Acelerará a Execução de Inferência de IA Empresarial e IA Composta
A introdução da orquestração de dados orientada a eventos também aumentará a capacidade do Airflow de suportar a execução rápida de inferência de IA.
Koka forneceu um exemplo de uso de inferência em tempo real para serviços profissionais, como rastreamento de tempo jurídico. Nesse cenário, o Airflow ajuda a coletar dados brutos de fontes como calendários, e-mails e documentos. Um modelo de linguagem grande (LLM) então transforma esses dados não estruturados em informações estruturadas. Outro modelo pré-treinado pode analisar esses dados de rastreamento de tempo estruturado, determinar se o trabalho é faturável e atribuir códigos e taxas de faturamento apropriados.
Koka chama isso de sistema de IA composta – um fluxo de trabalho que combina diferentes modelos de IA para completar uma tarefa complexa de forma eficiente e inteligente. A arquitetura orientada a eventos do Airflow 3.0 torna esse tipo de processo de inferência em várias etapas e em tempo real viável em vários casos de uso empresariais.
IA composta, um conceito definido pela primeira vez pelo Berkeley Artificial Intelligence Research Center em 2024, difere da IA agentiva. Koka explicou que, enquanto a IA agentiva permite a tomada de decisão autônoma por IA, a IA composta segue fluxos de trabalho predefinidos que são mais previsíveis e confiáveis para aplicações de negócios.
Jogando Bola com o Airflow, Como os Texas Rangers Pretendem se Beneficiar
O time de beisebol da liga principal Texas Rangers está entre os muitos usuários do Airflow. Oliver Dykstra, engenheiro de dados full-stack do Texas Rangers Baseball Club, compartilhou com a VentureBeat que o time usa o Airflow, hospedado na plataforma Astro da Astronomer, como o 'centro nervoso' de suas operações de dados de beisebol. Todo o desenvolvimento de jogadores, contratos, análises e dados de jogos são orquestrados pelo Airflow.
"Estamos ansiosos para atualizar para o Airflow 3 e suas melhorias em agendamento orientado a eventos, observabilidade e linhagem de dados," disse Dykstra. "Como já dependemos do Airflow para gerenciar nossos pipelines críticos de IA/ML, a eficiência e confiabilidade adicionais do Airflow 3 ajudarão a aumentar a confiança e a resiliência desses produtos de dados em toda a nossa organização."
O Que Isso Significa para a Adoção de IA Empresarial
Para tomadores de decisão técnicos avaliando sua estratégia de orquestração de dados, o Airflow 3.0 oferece benefícios tangíveis que podem ser implementados gradualmente.
O primeiro passo é avaliar os fluxos de trabalho de dados atuais que poderiam se beneficiar das novas capacidades orientadas a eventos. As organizações podem identificar pipelines de dados que atualmente usam trabalhos agendados, mas seriam mais eficientes com gatilhos baseados em eventos. Essa mudança pode reduzir significativamente a latência de processamento e eliminar operações de sondagem desnecessárias.
Em seguida, os líderes de tecnologia devem revisar seus ambientes de desenvolvimento para ver se o suporte expandido a linguagens do Airflow poderia ajudar a consolidar ferramentas de orquestração fragmentadas. Equipes que atualmente gerenciam ferramentas de orquestração separadas para diferentes ambientes de linguagem podem começar a planejar uma estratégia de migração para simplificar sua pilha de tecnologia.
Para empresas na vanguarda da implementação de IA, o Airflow 3.0 representa um componente crucial de infraestrutura que aborda um desafio chave na adoção de IA: orquestrar fluxos de trabalho de IA complexos e em várias etapas em escala empresarial. A capacidade da plataforma de coordenar sistemas de IA composta pode ajudar as organizações a passar de provas de conceito para implantações de IA em toda a empresa, garantindo governança, segurança e confiabilidade adequadas.




Airflow 3.0 sounds like a game-changer for real-time AI! 🚀 Super curious how its event-driven approach speeds things up compared to traditional batch processing.




Apache Airflow 3.0 thực sự đã tăng tốc quá trình xử lý dữ liệu của tôi cho AI! Cách tiếp cận dựa trên sự kiện là một bước đột phá. Tuy nhiên, nó không hoàn hảo; đường cong học tập rất dốc. Nhưng khi bạn làm quen được, nó cực kỳ hiệu quả. 🚀




Apache Airflow 3.0は、私のAI向けデータ処理を本当にスピードアップしました!イベント駆動のアプローチはゲームチェンジャーです。ただし、完璧ではありません。学習曲線が急です。でも、一度慣れれば超効率的です。🚀




Apache Airflow 3.0 realmente ha acelerado mi procesamiento de datos para IA. El enfoque basado en eventos es un cambio de juego. No es perfecto, la curva de aprendizaje es empinada. Pero una vez que lo dominas, es súper eficiente. 🚀




Apache Airflow 3.0 has really sped up my data processing for AI! The event-driven approach is a game-changer. It's not perfect, though; the learning curve is steep. But once you get the hang of it, it's super efficient. 🚀




Apache Airflow 3.0 hat meinen Datenverarbeitungsprozess für KI wirklich beschleunigt! Der ereignisgesteuerte Ansatz ist ein Game-Changer. Es ist nicht perfekt; die Lernkurve ist steil. Aber sobald man es beherrscht, ist es super effizient. 🚀












