Обработка данных пакетов слишком медленная для ИИ в реальном времени: как открытый исходный код Apache Airflow 3.0 решает задачу с помощью оркестровки данных, управляемой событиями,

Перемещение данных из различных источников в подходящее место для приложений ИИ — задача не из легких. Здесь на помощь приходят инструменты оркестрации данных, такие как Apache Airflow, которые делают процесс более плавным и эффективным.
Сообщество Apache Airflow только что выпустило самое значительное обновление за последние годы — версию 3.0. Это первое крупное обновление за четыре года, после стабильных улучшений в серии 2.x, включая релизы 2.9 и 2.10 в 2024 году, которые были сосредоточены на улучшениях для ИИ.
Apache Airflow стал основным инструментом для инженеров данных, закрепив за собой позицию ведущей платформы оркестрации рабочих процессов с открытым исходным кодом. С более чем 3,000 участников и широким использованием среди компаний из списка Fortune 500, его популярность очевидна. Также существует несколько коммерческих сервисов, построенных на его основе, таких как Astronomer Astro, Google Cloud Composer, Amazon Managed Workflows for Apache Airflow (MWAA) и Microsoft Azure Data Factory Managed Airflow, и это лишь некоторые из них.
Поскольку компании сталкиваются с задачей координации рабочих процессов данных в разных системах, облаках и, всё чаще, с ИИ-нагрузками, потребность в надёжных решениях растёт. Apache Airflow 3.0 отвечает этим корпоративным потребностям благодаря полной переработке архитектуры, которая обещает улучшить разработку и развертывание приложений для работы с данными.
"Для меня Airflow 3 — это новое начало, основа для гораздо более широкого набора возможностей," — поделился Викрам Кока, член комитета управления проектом Apache Airflow и главный стратегический директор Astronomer, в эксклюзивном интервью VentureBeat. "Это почти полная переработка, основанная на том, что предприятия сообщили нам о своих потребностях для следующего уровня критически важного внедрения."
Сложность корпоративных данных изменила потребности в оркестрации данных
Поскольку компании всё больше полагаются на данные для принятия решений, сложность рабочих процессов данных резко возросла. Компании теперь управляют сложными конвейерами, охватывающими несколько облачных сред, разнообразные источники данных и всё более сложные ИИ-нагрузки.
Airflow 3.0 разработан для удовлетворения этих меняющихся корпоративных потребностей. В отличие от своих предшественников, этот релиз отходит от монолитной структуры к модели распределённого клиента, предлагая большую гибкость и безопасность. Эта новая архитектура позволяет предприятиям:
- Выполнять задачи в нескольких облачных средах.
- Внедрять детализированные меры контроля безопасности.
- Поддерживать различные языки программирования.
- Обеспечивать настоящие мультиоблачные развертывания.
Расширенная поддержка языков в Airflow 3.0 особенно примечательна. Если ранее версии были в основном ориентированы на Python, новый релиз теперь нативно поддерживает несколько языков программирования. Airflow 3.0 в настоящее время поддерживает Python и Go, с планами добавить Java, TypeScript и Rust. Эта гибкость означает, что инженеры данных могут использовать предпочитаемый ими язык программирования, что делает разработку и интеграцию рабочих процессов более плавной.
Событийно-ориентированные возможности трансформируют рабочие процессы данных
Традиционно Airflow был хорош в пакетной обработке по расписанию, но предприятия теперь требуют возможностей обработки данных в реальном времени. Airflow 3.0 отвечает этим требованиям.
"Ключевое изменение в Airflow 3 — это то, что мы называем событийно-ориентированным планированием," — объяснил Кока.
Вместо запуска задачи обработки данных по фиксированному расписанию, например, каждый час, Airflow теперь может запускать задачу при наступлении определённого события, например, при загрузке файла данных в Amazon S3 или появлении сообщения в Apache Kafka. Это событийно-ориентированное планирование устраняет разрыв между традиционными инструментами ETL (извлечение, преобразование и загрузка) и фреймворками потоковой обработки, такими как Apache Flink или Apache Spark Structured Streaming, позволяя организациям управлять как запланированными, так и событийно-триггерными рабочими процессами с помощью единого уровня оркестрации.
Airflow ускорит выполнение корпоративных ИИ-выводов и составной ИИ
Введение событийно-ориентированной оркестрации данных также усилит способность Airflow поддерживать быстрое выполнение ИИ-выводов.
Кока привёл пример использования вывода в реальном времени для профессиональных услуг, таких как учёт времени в юридической практике. В этом сценарии Airflow помогает собирать необработанные данные из источников, таких как календари, электронная почта и документы. Большая языковая модель (LLM) затем преобразует эти неструктурированные данные в структурированную информацию. Другая предварительно обученная модель может анализировать эти структурированные данные учёта времени, определять, подлежит ли работа оплате, и присваивать соответствующие коды и ставки биллинга.
Кока называет это составной ИИ-системой — рабочим процессом, который объединяет различные модели ИИ для эффективного и интеллектуального выполнения сложной задачи. Событийно-ориентированная архитектура Airflow 3.0 делает возможным такой многоэтапный процесс вывода в реальном времени для различных корпоративных сценариев.
Составной ИИ, концепция, впервые определённая Исследовательским центром искусственного интеллекта Беркли в 2024 году, отличается от агентного ИИ. Кока объяснил, что, хотя агентный ИИ позволяет автономно принимать решения, составной ИИ следует заранее определённым рабочим процессам, которые более предсказуемы и надёжны для бизнес-приложений.
Игра с Airflow: как Texas Rangers рассчитывают на выгоду
Команда бейсбольной лиги Texas Rangers — один из многих пользователей Airflow. Оливер Дикстра, инженер данных полного стека в Texas Rangers Baseball Club, поделился с VentureBeat, что команда использует Airflow, размещённый на платформе Astronomer Astro, как "нервный центр" своих операций с данными по бейсболу. Все данные по развитию игроков, контрактам, аналитике и играм оркестрируются через Airflow.
"Мы с нетерпением ждём обновления до Airflow 3 и его улучшений в событийно-ориентированном планировании, наблюдаемости и происхождении данных," — сказал Дикстра. "Поскольку мы уже полагаемся на Airflow для управления нашими критически важными конвейерами ИИ/МЛ, дополнительная эффективность и надёжность Airflow 3 помогут повысить доверие и устойчивость этих продуктов данных в нашей организации."
Что это значит для внедрения корпоративного ИИ
Для технических руководителей, оценивающих стратегию оркестрации данных, Airflow 3.0 предлагает ощутимые преимущества, которые можно внедрять постепенно.
Первый шаг — оценить текущие рабочие процессы данных, которые могли бы выиграть от новых событийно-ориентированных возможностей. Организации могут определить конвейеры данных, которые в настоящее время используют запланированные задачи, но были бы более эффективны с триггерами на основе событий. Этот переход может значительно сократить задержки в обработке и устранить ненужные операции опроса.
Далее, технологические лидеры должны пересмотреть свои среды разработки, чтобы определить, может ли расширенная поддержка языков Airflow помочь консолидировать разрозненные инструменты оркестрации. Команды, которые в настоящее время управляют отдельными инструментами оркестрации для разных языковых сред, могут начать планировать стратегию миграции для упрощения своего технологического стека.
Для предприятий, находящихся на передовой внедрения ИИ, Airflow 3.0 представляет собой ключевой компонент инфраструктуры, который решает основную проблему внедрения ИИ: оркестрацию сложных, многоэтапных рабочих процессов ИИ в корпоративном масштабе. Способность платформы координировать составные системы ИИ может помочь организациям перейти от доказательства концепции к полномасштабному внедрению ИИ, обеспечивая надлежащее управление, безопасность и надёжность.
Связанная статья
Стратегия Adobe в области ИИ: победители и проигравшие в технологической гонке
В быстро меняющемся мире искусственного интеллекта (ИИ) инвесторы внимательно следят за тем, какие компании преуспеют в этой технологической трансформации. Эта статья рассматривает подход Adobe к ИИ,
BigBear.ai (BBAI) Перспективы акций: Сможет ли сохраниться импульс роста в области ИИ?
В быстро развивающемся мире искусственного интеллекта (ИИ) и кибербезопасности BigBear.ai (BBAI) привлекает внимание инвесторов. Эта статья предлагает глубокий анализ акций BigBear.ai, исследуя их нед
Akamai снижает затраты на облако на 70% с помощью автоматизации Kubernetes на базе ИИ
В эпоху генеративного ИИ расходы на облако стремительно растут. Предприятия прогнозируют потери в $44.5 миллиарда на ненужные облачные расходы в этом году из-за неэффективного использования ресурсов.A
Комментарии (6)
DonaldYoung
31 июля 2025 г., 4:41:20 GMT+03:00
Airflow 3.0 sounds like a game-changer for real-time AI! 🚀 Super curious how its event-driven approach speeds things up compared to traditional batch processing.
0
RobertRoberts
9 мая 2025 г., 11:12:28 GMT+03:00
Apache Airflow 3.0 thực sự đã tăng tốc quá trình xử lý dữ liệu của tôi cho AI! Cách tiếp cận dựa trên sự kiện là một bước đột phá. Tuy nhiên, nó không hoàn hảo; đường cong học tập rất dốc. Nhưng khi bạn làm quen được, nó cực kỳ hiệu quả. 🚀
0
RobertMartin
9 мая 2025 г., 9:26:27 GMT+03:00
Apache Airflow 3.0は、私のAI向けデータ処理を本当にスピードアップしました!イベント駆動のアプローチはゲームチェンジャーです。ただし、完璧ではありません。学習曲線が急です。でも、一度慣れれば超効率的です。🚀
0
BillyThomas
9 мая 2025 г., 0:15:07 GMT+03:00
Apache Airflow 3.0 realmente ha acelerado mi procesamiento de datos para IA. El enfoque basado en eventos es un cambio de juego. No es perfecto, la curva de aprendizaje es empinada. Pero una vez que lo dominas, es súper eficiente. 🚀
0
KevinScott
8 мая 2025 г., 19:41:27 GMT+03:00
Apache Airflow 3.0 has really sped up my data processing for AI! The event-driven approach is a game-changer. It's not perfect, though; the learning curve is steep. But once you get the hang of it, it's super efficient. 🚀
0
PaulGonzalez
8 мая 2025 г., 17:09:20 GMT+03:00
Apache Airflow 3.0 hat meinen Datenverarbeitungsprozess für KI wirklich beschleunigt! Der ereignisgesteuerte Ansatz ist ein Game-Changer. Es ist nicht perfekt; die Lernkurve ist steil. Aber sobald man es beherrscht, ist es super effizient. 🚀
0
Перемещение данных из различных источников в подходящее место для приложений ИИ — задача не из легких. Здесь на помощь приходят инструменты оркестрации данных, такие как Apache Airflow, которые делают процесс более плавным и эффективным.
Сообщество Apache Airflow только что выпустило самое значительное обновление за последние годы — версию 3.0. Это первое крупное обновление за четыре года, после стабильных улучшений в серии 2.x, включая релизы 2.9 и 2.10 в 2024 году, которые были сосредоточены на улучшениях для ИИ.
Apache Airflow стал основным инструментом для инженеров данных, закрепив за собой позицию ведущей платформы оркестрации рабочих процессов с открытым исходным кодом. С более чем 3,000 участников и широким использованием среди компаний из списка Fortune 500, его популярность очевидна. Также существует несколько коммерческих сервисов, построенных на его основе, таких как Astronomer Astro, Google Cloud Composer, Amazon Managed Workflows for Apache Airflow (MWAA) и Microsoft Azure Data Factory Managed Airflow, и это лишь некоторые из них.
Поскольку компании сталкиваются с задачей координации рабочих процессов данных в разных системах, облаках и, всё чаще, с ИИ-нагрузками, потребность в надёжных решениях растёт. Apache Airflow 3.0 отвечает этим корпоративным потребностям благодаря полной переработке архитектуры, которая обещает улучшить разработку и развертывание приложений для работы с данными.
"Для меня Airflow 3 — это новое начало, основа для гораздо более широкого набора возможностей," — поделился Викрам Кока, член комитета управления проектом Apache Airflow и главный стратегический директор Astronomer, в эксклюзивном интервью VentureBeat. "Это почти полная переработка, основанная на том, что предприятия сообщили нам о своих потребностях для следующего уровня критически важного внедрения."
Сложность корпоративных данных изменила потребности в оркестрации данных
Поскольку компании всё больше полагаются на данные для принятия решений, сложность рабочих процессов данных резко возросла. Компании теперь управляют сложными конвейерами, охватывающими несколько облачных сред, разнообразные источники данных и всё более сложные ИИ-нагрузки.
Airflow 3.0 разработан для удовлетворения этих меняющихся корпоративных потребностей. В отличие от своих предшественников, этот релиз отходит от монолитной структуры к модели распределённого клиента, предлагая большую гибкость и безопасность. Эта новая архитектура позволяет предприятиям:
- Выполнять задачи в нескольких облачных средах.
- Внедрять детализированные меры контроля безопасности.
- Поддерживать различные языки программирования.
- Обеспечивать настоящие мультиоблачные развертывания.
Расширенная поддержка языков в Airflow 3.0 особенно примечательна. Если ранее версии были в основном ориентированы на Python, новый релиз теперь нативно поддерживает несколько языков программирования. Airflow 3.0 в настоящее время поддерживает Python и Go, с планами добавить Java, TypeScript и Rust. Эта гибкость означает, что инженеры данных могут использовать предпочитаемый ими язык программирования, что делает разработку и интеграцию рабочих процессов более плавной.
Событийно-ориентированные возможности трансформируют рабочие процессы данных
Традиционно Airflow был хорош в пакетной обработке по расписанию, но предприятия теперь требуют возможностей обработки данных в реальном времени. Airflow 3.0 отвечает этим требованиям.
"Ключевое изменение в Airflow 3 — это то, что мы называем событийно-ориентированным планированием," — объяснил Кока.
Вместо запуска задачи обработки данных по фиксированному расписанию, например, каждый час, Airflow теперь может запускать задачу при наступлении определённого события, например, при загрузке файла данных в Amazon S3 или появлении сообщения в Apache Kafka. Это событийно-ориентированное планирование устраняет разрыв между традиционными инструментами ETL (извлечение, преобразование и загрузка) и фреймворками потоковой обработки, такими как Apache Flink или Apache Spark Structured Streaming, позволяя организациям управлять как запланированными, так и событийно-триггерными рабочими процессами с помощью единого уровня оркестрации.
Airflow ускорит выполнение корпоративных ИИ-выводов и составной ИИ
Введение событийно-ориентированной оркестрации данных также усилит способность Airflow поддерживать быстрое выполнение ИИ-выводов.
Кока привёл пример использования вывода в реальном времени для профессиональных услуг, таких как учёт времени в юридической практике. В этом сценарии Airflow помогает собирать необработанные данные из источников, таких как календари, электронная почта и документы. Большая языковая модель (LLM) затем преобразует эти неструктурированные данные в структурированную информацию. Другая предварительно обученная модель может анализировать эти структурированные данные учёта времени, определять, подлежит ли работа оплате, и присваивать соответствующие коды и ставки биллинга.
Кока называет это составной ИИ-системой — рабочим процессом, который объединяет различные модели ИИ для эффективного и интеллектуального выполнения сложной задачи. Событийно-ориентированная архитектура Airflow 3.0 делает возможным такой многоэтапный процесс вывода в реальном времени для различных корпоративных сценариев.
Составной ИИ, концепция, впервые определённая Исследовательским центром искусственного интеллекта Беркли в 2024 году, отличается от агентного ИИ. Кока объяснил, что, хотя агентный ИИ позволяет автономно принимать решения, составной ИИ следует заранее определённым рабочим процессам, которые более предсказуемы и надёжны для бизнес-приложений.
Игра с Airflow: как Texas Rangers рассчитывают на выгоду
Команда бейсбольной лиги Texas Rangers — один из многих пользователей Airflow. Оливер Дикстра, инженер данных полного стека в Texas Rangers Baseball Club, поделился с VentureBeat, что команда использует Airflow, размещённый на платформе Astronomer Astro, как "нервный центр" своих операций с данными по бейсболу. Все данные по развитию игроков, контрактам, аналитике и играм оркестрируются через Airflow.
"Мы с нетерпением ждём обновления до Airflow 3 и его улучшений в событийно-ориентированном планировании, наблюдаемости и происхождении данных," — сказал Дикстра. "Поскольку мы уже полагаемся на Airflow для управления нашими критически важными конвейерами ИИ/МЛ, дополнительная эффективность и надёжность Airflow 3 помогут повысить доверие и устойчивость этих продуктов данных в нашей организации."
Что это значит для внедрения корпоративного ИИ
Для технических руководителей, оценивающих стратегию оркестрации данных, Airflow 3.0 предлагает ощутимые преимущества, которые можно внедрять постепенно.
Первый шаг — оценить текущие рабочие процессы данных, которые могли бы выиграть от новых событийно-ориентированных возможностей. Организации могут определить конвейеры данных, которые в настоящее время используют запланированные задачи, но были бы более эффективны с триггерами на основе событий. Этот переход может значительно сократить задержки в обработке и устранить ненужные операции опроса.
Далее, технологические лидеры должны пересмотреть свои среды разработки, чтобы определить, может ли расширенная поддержка языков Airflow помочь консолидировать разрозненные инструменты оркестрации. Команды, которые в настоящее время управляют отдельными инструментами оркестрации для разных языковых сред, могут начать планировать стратегию миграции для упрощения своего технологического стека.
Для предприятий, находящихся на передовой внедрения ИИ, Airflow 3.0 представляет собой ключевой компонент инфраструктуры, который решает основную проблему внедрения ИИ: оркестрацию сложных, многоэтапных рабочих процессов ИИ в корпоративном масштабе. Способность платформы координировать составные системы ИИ может помочь организациям перейти от доказательства концепции к полномасштабному внедрению ИИ, обеспечивая надлежащее управление, безопасность и надёжность.




Airflow 3.0 sounds like a game-changer for real-time AI! 🚀 Super curious how its event-driven approach speeds things up compared to traditional batch processing.




Apache Airflow 3.0 thực sự đã tăng tốc quá trình xử lý dữ liệu của tôi cho AI! Cách tiếp cận dựa trên sự kiện là một bước đột phá. Tuy nhiên, nó không hoàn hảo; đường cong học tập rất dốc. Nhưng khi bạn làm quen được, nó cực kỳ hiệu quả. 🚀




Apache Airflow 3.0は、私のAI向けデータ処理を本当にスピードアップしました!イベント駆動のアプローチはゲームチェンジャーです。ただし、完璧ではありません。学習曲線が急です。でも、一度慣れれば超効率的です。🚀




Apache Airflow 3.0 realmente ha acelerado mi procesamiento de datos para IA. El enfoque basado en eventos es un cambio de juego. No es perfecto, la curva de aprendizaje es empinada. Pero una vez que lo dominas, es súper eficiente. 🚀




Apache Airflow 3.0 has really sped up my data processing for AI! The event-driven approach is a game-changer. It's not perfect, though; the learning curve is steep. But once you get the hang of it, it's super efficient. 🚀




Apache Airflow 3.0 hat meinen Datenverarbeitungsprozess für KI wirklich beschleunigt! Der ereignisgesteuerte Ansatz ist ein Game-Changer. Es ist nicht perfekt; die Lernkurve ist steil. Aber sobald man es beherrscht, ist es super effizient. 🚀












