Дом
Обработка данных пакетов слишком медленная для ИИ в реальном времени: как открытый исходный код Apache Airflow 3.0 решает задачу с помощью оркестровки данных, управляемой событиями,

Перемещение данных из различных источников в подходящее место для приложений ИИ — задача не из легких. Здесь на помощь приходят инструменты оркестрации данных, такие как Apache Airflow, которые делают процесс более плавным и эффективным.
Сообщество Apache Airflow только что выпустило самое значительное обновление за последние годы — версию 3.0. Это первое крупное обновление за четыре года, после стабильных улучшений в серии 2.x, включая релизы 2.9 и 2.10 в 2024 году, которые были сосредоточены на улучшениях для ИИ.
Apache Airflow стал основным инструментом для инженеров данных, закрепив за собой позицию ведущей платформы оркестрации рабочих процессов с открытым исходным кодом. С более чем 3,000 участников и широким использованием среди компаний из списка Fortune 500, его популярность очевидна. Также существует несколько коммерческих сервисов, построенных на его основе, таких как Astronomer Astro, Google Cloud Composer, Amazon Managed Workflows for Apache Airflow (MWAA) и Microsoft Azure Data Factory Managed Airflow, и это лишь некоторые из них.
Поскольку компании сталкиваются с задачей координации рабочих процессов данных в разных системах, облаках и, всё чаще, с ИИ-нагрузками, потребность в надёжных решениях растёт. Apache Airflow 3.0 отвечает этим корпоративным потребностям благодаря полной переработке архитектуры, которая обещает улучшить разработку и развертывание приложений для работы с данными.
"Для меня Airflow 3 — это новое начало, основа для гораздо более широкого набора возможностей," — поделился Викрам Кока, член комитета управления проектом Apache Airflow и главный стратегический директор Astronomer, в эксклюзивном интервью VentureBeat. "Это почти полная переработка, основанная на том, что предприятия сообщили нам о своих потребностях для следующего уровня критически важного внедрения."
Сложность корпоративных данных изменила потребности в оркестрации данных
Поскольку компании всё больше полагаются на данные для принятия решений, сложность рабочих процессов данных резко возросла. Компании теперь управляют сложными конвейерами, охватывающими несколько облачных сред, разнообразные источники данных и всё более сложные ИИ-нагрузки.
Airflow 3.0 разработан для удовлетворения этих меняющихся корпоративных потребностей. В отличие от своих предшественников, этот релиз отходит от монолитной структуры к модели распределённого клиента, предлагая большую гибкость и безопасность. Эта новая архитектура позволяет предприятиям:
- Выполнять задачи в нескольких облачных средах.
- Внедрять детализированные меры контроля безопасности.
- Поддерживать различные языки программирования.
- Обеспечивать настоящие мультиоблачные развертывания.
Расширенная поддержка языков в Airflow 3.0 особенно примечательна. Если ранее версии были в основном ориентированы на Python, новый релиз теперь нативно поддерживает несколько языков программирования. Airflow 3.0 в настоящее время поддерживает Python и Go, с планами добавить Java, TypeScript и Rust. Эта гибкость означает, что инженеры данных могут использовать предпочитаемый ими язык программирования, что делает разработку и интеграцию рабочих процессов более плавной.
Событийно-ориентированные возможности трансформируют рабочие процессы данных
Традиционно Airflow был хорош в пакетной обработке по расписанию, но предприятия теперь требуют возможностей обработки данных в реальном времени. Airflow 3.0 отвечает этим требованиям.
"Ключевое изменение в Airflow 3 — это то, что мы называем событийно-ориентированным планированием," — объяснил Кока.
Вместо запуска задачи обработки данных по фиксированному расписанию, например, каждый час, Airflow теперь может запускать задачу при наступлении определённого события, например, при загрузке файла данных в Amazon S3 или появлении сообщения в Apache Kafka. Это событийно-ориентированное планирование устраняет разрыв между традиционными инструментами ETL (извлечение, преобразование и загрузка) и фреймворками потоковой обработки, такими как Apache Flink или Apache Spark Structured Streaming, позволяя организациям управлять как запланированными, так и событийно-триггерными рабочими процессами с помощью единого уровня оркестрации.
Airflow ускорит выполнение корпоративных ИИ-выводов и составной ИИ
Введение событийно-ориентированной оркестрации данных также усилит способность Airflow поддерживать быстрое выполнение ИИ-выводов.
Кока привёл пример использования вывода в реальном времени для профессиональных услуг, таких как учёт времени в юридической практике. В этом сценарии Airflow помогает собирать необработанные данные из источников, таких как календари, электронная почта и документы. Большая языковая модель (LLM) затем преобразует эти неструктурированные данные в структурированную информацию. Другая предварительно обученная модель может анализировать эти структурированные данные учёта времени, определять, подлежит ли работа оплате, и присваивать соответствующие коды и ставки биллинга.
Кока называет это составной ИИ-системой — рабочим процессом, который объединяет различные модели ИИ для эффективного и интеллектуального выполнения сложной задачи. Событийно-ориентированная архитектура Airflow 3.0 делает возможным такой многоэтапный процесс вывода в реальном времени для различных корпоративных сценариев.
Составной ИИ, концепция, впервые определённая Исследовательским центром искусственного интеллекта Беркли в 2024 году, отличается от агентного ИИ. Кока объяснил, что, хотя агентный ИИ позволяет автономно принимать решения, составной ИИ следует заранее определённым рабочим процессам, которые более предсказуемы и надёжны для бизнес-приложений.
Игра с Airflow: как Texas Rangers рассчитывают на выгоду
Команда бейсбольной лиги Texas Rangers — один из многих пользователей Airflow. Оливер Дикстра, инженер данных полного стека в Texas Rangers Baseball Club, поделился с VentureBeat, что команда использует Airflow, размещённый на платформе Astronomer Astro, как "нервный центр" своих операций с данными по бейсболу. Все данные по развитию игроков, контрактам, аналитике и играм оркестрируются через Airflow.
"Мы с нетерпением ждём обновления до Airflow 3 и его улучшений в событийно-ориентированном планировании, наблюдаемости и происхождении данных," — сказал Дикстра. "Поскольку мы уже полагаемся на Airflow для управления нашими критически важными конвейерами ИИ/МЛ, дополнительная эффективность и надёжность Airflow 3 помогут повысить доверие и устойчивость этих продуктов данных в нашей организации."
Что это значит для внедрения корпоративного ИИ
Для технических руководителей, оценивающих стратегию оркестрации данных, Airflow 3.0 предлагает ощутимые преимущества, которые можно внедрять постепенно.
Первый шаг — оценить текущие рабочие процессы данных, которые могли бы выиграть от новых событийно-ориентированных возможностей. Организации могут определить конвейеры данных, которые в настоящее время используют запланированные задачи, но были бы более эффективны с триггерами на основе событий. Этот переход может значительно сократить задержки в обработке и устранить ненужные операции опроса.
Далее, технологические лидеры должны пересмотреть свои среды разработки, чтобы определить, может ли расширенная поддержка языков Airflow помочь консолидировать разрозненные инструменты оркестрации. Команды, которые в настоящее время управляют отдельными инструментами оркестрации для разных языковых сред, могут начать планировать стратегию миграции для упрощения своего технологического стека.
Для предприятий, находящихся на передовой внедрения ИИ, Airflow 3.0 представляет собой ключевой компонент инфраструктуры, который решает основную проблему внедрения ИИ: оркестрацию сложных, многоэтапных рабочих процессов ИИ в корпоративном масштабе. Способность платформы координировать составные системы ИИ может помочь организациям перейти от доказательства концепции к полномасштабному внедрению ИИ, обеспечивая надлежащее управление, безопасность и надёжность.
Связанная статья
Kakao Mobility представляет план развития автономного вождения 4-го уровня с использованием физического ИИ
Компания Kakao Mobility планирует самостоятельно разрабатывать технологии автономного вождения 4-го уровня в рамках своей стратегии «физического ИИ».На конференции World IT Show 2026, прошедшей в сеу
Искусственный интеллект все ближе подходит к производственным цехам, поскольку гуманоидные роботы проходят испытания
Как сообщает агентство Reuters, британская технологическая компания Humanoid планирует внедрить гуманоидных роботов на заводах немецкого промышленного поставщика Schaeffler.По словам представителя Hu
IBM: Изолированные хранилища данных остаются основным препятствием для внедрения искусственного интеллекта в предприятиях
Согласно исследованию IBM, основным препятствием для внедрения искусственного интеллекта в предприятиях является не базовая технология, а постоянная проблема разрозненных экосистем данных.Эд Лавли, ви
Рекомендации по связанным специальным темам
Комментарии (7)
Cet article est vraiment intéressant ! J'utilise Airflow au boulot et la gestion des données en temps réel est un vrai casse-tête. Cette mise à jour a l'air prometteuse, ça pourrait enfin accélérer nos flux de données pour l'IA. Est-ce que quelqu'un a déjà testé la version 3.0 ? 📊 #DataEngineering
Airflow 3.0 sounds like a game-changer for real-time AI! 🚀 Super curious how its event-driven approach speeds things up compared to traditional batch processing.
Apache Airflow 3.0 thực sự đã tăng tốc quá trình xử lý dữ liệu của tôi cho AI! Cách tiếp cận dựa trên sự kiện là một bước đột phá. Tuy nhiên, nó không hoàn hảo; đường cong học tập rất dốc. Nhưng khi bạn làm quen được, nó cực kỳ hiệu quả. 🚀
Apache Airflow 3.0は、私のAI向けデータ処理を本当にスピードアップしました!イベント駆動のアプローチはゲームチェンジャーです。ただし、完璧ではありません。学習曲線が急です。でも、一度慣れれば超効率的です。🚀
Apache Airflow 3.0 realmente ha acelerado mi procesamiento de datos para IA. El enfoque basado en eventos es un cambio de juego. No es perfecto, la curva de aprendizaje es empinada. Pero una vez que lo dominas, es súper eficiente. 🚀

Перемещение данных из различных источников в подходящее место для приложений ИИ — задача не из легких. Здесь на помощь приходят инструменты оркестрации данных, такие как Apache Airflow, которые делают процесс более плавным и эффективным.
Сообщество Apache Airflow только что выпустило самое значительное обновление за последние годы — версию 3.0. Это первое крупное обновление за четыре года, после стабильных улучшений в серии 2.x, включая релизы 2.9 и 2.10 в 2024 году, которые были сосредоточены на улучшениях для ИИ.
Apache Airflow стал основным инструментом для инженеров данных, закрепив за собой позицию ведущей платформы оркестрации рабочих процессов с открытым исходным кодом. С более чем 3,000 участников и широким использованием среди компаний из списка Fortune 500, его популярность очевидна. Также существует несколько коммерческих сервисов, построенных на его основе, таких как Astronomer Astro, Google Cloud Composer, Amazon Managed Workflows for Apache Airflow (MWAA) и Microsoft Azure Data Factory Managed Airflow, и это лишь некоторые из них.
Поскольку компании сталкиваются с задачей координации рабочих процессов данных в разных системах, облаках и, всё чаще, с ИИ-нагрузками, потребность в надёжных решениях растёт. Apache Airflow 3.0 отвечает этим корпоративным потребностям благодаря полной переработке архитектуры, которая обещает улучшить разработку и развертывание приложений для работы с данными.
"Для меня Airflow 3 — это новое начало, основа для гораздо более широкого набора возможностей," — поделился Викрам Кока, член комитета управления проектом Apache Airflow и главный стратегический директор Astronomer, в эксклюзивном интервью VentureBeat. "Это почти полная переработка, основанная на том, что предприятия сообщили нам о своих потребностях для следующего уровня критически важного внедрения."
Сложность корпоративных данных изменила потребности в оркестрации данных
Поскольку компании всё больше полагаются на данные для принятия решений, сложность рабочих процессов данных резко возросла. Компании теперь управляют сложными конвейерами, охватывающими несколько облачных сред, разнообразные источники данных и всё более сложные ИИ-нагрузки.
Airflow 3.0 разработан для удовлетворения этих меняющихся корпоративных потребностей. В отличие от своих предшественников, этот релиз отходит от монолитной структуры к модели распределённого клиента, предлагая большую гибкость и безопасность. Эта новая архитектура позволяет предприятиям:
- Выполнять задачи в нескольких облачных средах.
- Внедрять детализированные меры контроля безопасности.
- Поддерживать различные языки программирования.
- Обеспечивать настоящие мультиоблачные развертывания.
Расширенная поддержка языков в Airflow 3.0 особенно примечательна. Если ранее версии были в основном ориентированы на Python, новый релиз теперь нативно поддерживает несколько языков программирования. Airflow 3.0 в настоящее время поддерживает Python и Go, с планами добавить Java, TypeScript и Rust. Эта гибкость означает, что инженеры данных могут использовать предпочитаемый ими язык программирования, что делает разработку и интеграцию рабочих процессов более плавной.
Событийно-ориентированные возможности трансформируют рабочие процессы данных
Традиционно Airflow был хорош в пакетной обработке по расписанию, но предприятия теперь требуют возможностей обработки данных в реальном времени. Airflow 3.0 отвечает этим требованиям.
"Ключевое изменение в Airflow 3 — это то, что мы называем событийно-ориентированным планированием," — объяснил Кока.
Вместо запуска задачи обработки данных по фиксированному расписанию, например, каждый час, Airflow теперь может запускать задачу при наступлении определённого события, например, при загрузке файла данных в Amazon S3 или появлении сообщения в Apache Kafka. Это событийно-ориентированное планирование устраняет разрыв между традиционными инструментами ETL (извлечение, преобразование и загрузка) и фреймворками потоковой обработки, такими как Apache Flink или Apache Spark Structured Streaming, позволяя организациям управлять как запланированными, так и событийно-триггерными рабочими процессами с помощью единого уровня оркестрации.
Airflow ускорит выполнение корпоративных ИИ-выводов и составной ИИ
Введение событийно-ориентированной оркестрации данных также усилит способность Airflow поддерживать быстрое выполнение ИИ-выводов.
Кока привёл пример использования вывода в реальном времени для профессиональных услуг, таких как учёт времени в юридической практике. В этом сценарии Airflow помогает собирать необработанные данные из источников, таких как календари, электронная почта и документы. Большая языковая модель (LLM) затем преобразует эти неструктурированные данные в структурированную информацию. Другая предварительно обученная модель может анализировать эти структурированные данные учёта времени, определять, подлежит ли работа оплате, и присваивать соответствующие коды и ставки биллинга.
Кока называет это составной ИИ-системой — рабочим процессом, который объединяет различные модели ИИ для эффективного и интеллектуального выполнения сложной задачи. Событийно-ориентированная архитектура Airflow 3.0 делает возможным такой многоэтапный процесс вывода в реальном времени для различных корпоративных сценариев.
Составной ИИ, концепция, впервые определённая Исследовательским центром искусственного интеллекта Беркли в 2024 году, отличается от агентного ИИ. Кока объяснил, что, хотя агентный ИИ позволяет автономно принимать решения, составной ИИ следует заранее определённым рабочим процессам, которые более предсказуемы и надёжны для бизнес-приложений.
Игра с Airflow: как Texas Rangers рассчитывают на выгоду
Команда бейсбольной лиги Texas Rangers — один из многих пользователей Airflow. Оливер Дикстра, инженер данных полного стека в Texas Rangers Baseball Club, поделился с VentureBeat, что команда использует Airflow, размещённый на платформе Astronomer Astro, как "нервный центр" своих операций с данными по бейсболу. Все данные по развитию игроков, контрактам, аналитике и играм оркестрируются через Airflow.
"Мы с нетерпением ждём обновления до Airflow 3 и его улучшений в событийно-ориентированном планировании, наблюдаемости и происхождении данных," — сказал Дикстра. "Поскольку мы уже полагаемся на Airflow для управления нашими критически важными конвейерами ИИ/МЛ, дополнительная эффективность и надёжность Airflow 3 помогут повысить доверие и устойчивость этих продуктов данных в нашей организации."
Что это значит для внедрения корпоративного ИИ
Для технических руководителей, оценивающих стратегию оркестрации данных, Airflow 3.0 предлагает ощутимые преимущества, которые можно внедрять постепенно.
Первый шаг — оценить текущие рабочие процессы данных, которые могли бы выиграть от новых событийно-ориентированных возможностей. Организации могут определить конвейеры данных, которые в настоящее время используют запланированные задачи, но были бы более эффективны с триггерами на основе событий. Этот переход может значительно сократить задержки в обработке и устранить ненужные операции опроса.
Далее, технологические лидеры должны пересмотреть свои среды разработки, чтобы определить, может ли расширенная поддержка языков Airflow помочь консолидировать разрозненные инструменты оркестрации. Команды, которые в настоящее время управляют отдельными инструментами оркестрации для разных языковых сред, могут начать планировать стратегию миграции для упрощения своего технологического стека.
Для предприятий, находящихся на передовой внедрения ИИ, Airflow 3.0 представляет собой ключевой компонент инфраструктуры, который решает основную проблему внедрения ИИ: оркестрацию сложных, многоэтапных рабочих процессов ИИ в корпоративном масштабе. Способность платформы координировать составные системы ИИ может помочь организациям перейти от доказательства концепции к полномасштабному внедрению ИИ, обеспечивая надлежащее управление, безопасность и надёжность.
IBM: Изолированные хранилища данных остаются основным препятствием для внедрения искусственного интеллекта в предприятиях
Согласно исследованию IBM, основным препятствием для внедрения искусственного интеллекта в предприятиях является не базовая технология, а постоянная проблема разрозненных экосистем данных.Эд Лавли, ви
Cet article est vraiment intéressant ! J'utilise Airflow au boulot et la gestion des données en temps réel est un vrai casse-tête. Cette mise à jour a l'air prometteuse, ça pourrait enfin accélérer nos flux de données pour l'IA. Est-ce que quelqu'un a déjà testé la version 3.0 ? 📊 #DataEngineering
Airflow 3.0 sounds like a game-changer for real-time AI! 🚀 Super curious how its event-driven approach speeds things up compared to traditional batch processing.
Apache Airflow 3.0 thực sự đã tăng tốc quá trình xử lý dữ liệu của tôi cho AI! Cách tiếp cận dựa trên sự kiện là một bước đột phá. Tuy nhiên, nó không hoàn hảo; đường cong học tập rất dốc. Nhưng khi bạn làm quen được, nó cực kỳ hiệu quả. 🚀
Apache Airflow 3.0は、私のAI向けデータ処理を本当にスピードアップしました!イベント駆動のアプローチはゲームチェンジャーです。ただし、完璧ではありません。学習曲線が急です。でも、一度慣れれば超効率的です。🚀
Apache Airflow 3.0 realmente ha acelerado mi procesamiento de datos para IA. El enfoque basado en eventos es un cambio de juego. No es perfecto, la curva de aprendizaje es empinada. Pero una vez que lo dominas, es súper eficiente. 🚀











