옵션
소식 배치 데이터 처리는 실시간 AI에 비해 너무 느립니다. 오픈 소스 Apache Airflow 3.0이 이벤트 중심의 데이터 오케스트레이션으로 도전을 해결하는 방법

배치 데이터 처리는 실시간 AI에 비해 너무 느립니다. 오픈 소스 Apache Airflow 3.0이 이벤트 중심의 데이터 오케스트레이션으로 도전을 해결하는 방법

출시일 출시일 2025년 5월 7일
작가 작가 BenGarcía
보기 보기 0

배치 데이터 처리는 실시간 AI에 비해 너무 느립니다. 오픈 소스 Apache Airflow 3.0이 이벤트 중심의 데이터 오케스트레이션으로 도전을 해결하는 방법

다양한 소스에서 AI 애플리케이션에 적합한 장소로 데이터를 이동하는 것은 작은 위업이 아닙니다. 이곳은 Apache Airflow와 같은 데이터 오케스트레이션 도구가 작동하여 프로세스를 더 부드럽고 효율적으로 만듭니다.

Apache Airflow 커뮤니티는 버전 3.0을 출시하면서 몇 년 동안 가장 중요한 업데이트를 방금 출시했습니다. 이는 2024 년 2.9 및 2.10 릴리스를 포함하여 2.X 시리즈의 꾸준한 개선에 이어 4 년 만에 첫 번째 주요 업데이트를 나타냅니다.

Apache Airflow는 데이터 엔지니어를위한 도구가되어 최고의 오픈 소스 워크 플로우 오케스트레이션 플랫폼으로 자리 매김했습니다. Fortune 500 대 기업들 사이에서 3,000 명 이상의 기고자와 광범위한 사용을 통해 왜 그렇게 인기가 있는지 분명합니다. 천문학 자 Astro, Google Cloud Composer, Amazon Managed Workflows for Apache Airflow (MWAA) 및 Microsoft Azure Data Factory Airflow와 같은 몇 가지 상업 서비스가 있습니다.

회사가 다양한 시스템, 구름 및 AI 워크로드에서 데이터 워크 플로우를 조정하는 데 어려움을 겪으면 강력한 솔루션의 필요성이 커지고 있습니다. Apache Airflow 3.0은 조직이 데이터 애플리케이션을 개발하고 배포하는 방법을 향상시킬 수있는 건축 점검을 통해 이러한 엔터프라이즈 요구를 충족시키기 위해 3 단계 증가합니다.

Apache Airflow PMC (Project Management Committee) Astronomer의 회원이자 최고 전략 책임자 인 Vikram Koka는 VentureBeat와의 독점 인터뷰에서 "Airflow 3은 새로운 시작, 훨씬 더 광범위한 기능 세트를위한 기초입니다." "이것은 기업이 다음 단계의 미션 크리티컬 채택에 필요로하는 것에 근거한 것에 근거한 거의 완전한 리팩터입니다."

엔터프라이즈 데이터 복잡성으로 인해 데이터 오케스트레이션 요구가 변경되었습니다

비즈니스가 의사 결정에 대한 데이터에 점점 더 의존함에 따라 데이터 워크 플로의 복잡성이 급증했습니다. 회사는 이제 여러 클라우드 환경, 다양한 데이터 소스 및 점점 더 정교한 AI 워크로드에 걸쳐있는 복잡한 파이프 라인을 저글링합니다.

AirFlow 3.0은 이러한 진화하는 기업 요구를 해결하기 위해 맞춤화되었습니다. 전임자와 달리이 릴리스는 모 놀리 식 구조에서 분산 클라이언트 모델로 이동하여 유연성과 보안이 향상됩니다. 이 새로운 아키텍처는 기업이 다음을 수행 할 수 있도록합니다.

  1. 여러 클라우드 환경에서 작업을 실행합니다.
  2. 자세한 보안 제어를 구현하십시오.
  3. 다양한 프로그래밍 언어를 지원합니다.
  4. 실제 멀티 클라우드 배포를 활성화하십시오.

공기 흐름 3.0의 확장 된 언어 지원은 특히 주목할 만하다. 이전 버전은 주로 파이썬 중심이되었지만 새 릴리스는 이제 여러 프로그래밍 언어를 기본적으로 지원합니다. AirFlow 3.0은 현재 Python 및 Go를 지원하며 Java, TypeScript 및 Rust를 포함 할 계획입니다. 이 유연성은 데이터 엔지니어가 선호하는 프로그래밍 언어를 사용하여 워크 플로 개발 및 통합을 더 매끄럽게 만들 수 있음을 의미합니다.

이벤트 중심 기능은 데이터 워크 플로를 변환합니다

전통적으로 공기 흐름은 예정된 배치 처리에 능숙했지만 기업은 이제 실시간 데이터 처리 기능을 요구하고 있습니다. 공기 흐름 3.0이 수요를 충족시키기 위해 올라갑니다.

Koka는“공기 흐름 3의 주요 변화는 우리가 이벤트 중심 스케줄링이라고 부르는 것입니다.

매 시간마다 정해진 일정에서 데이터 처리 작업을 실행하는 대신, 공기 흐름은 이제 데이터 파일이 Amazon S3 버킷에 업로드 할 때와 같은 특정 이벤트가 발생할 때 작업을 트리거 할 수 있거나 Apache Kafka에 메시지가 나타납니다. 이 이벤트 중심 스케줄링은 전통적인 ETL (추출, 변환 및로드) 도구와 스트림 처리 프레임 워크와 Apache Flink 또는 Apache Spark 구조화 스트리밍 사이의 간격을 연결하므로 조직은 단일 오케스트레이션 레이어로 스케줄 및 이벤트 트리거 워크 플로우를 모두 관리 할 수 ​​있습니다.

공기 흐름은 Enterprise AI 추론 실행 및 복합 AI를 가속화합니다.

이벤트 중심의 데이터 오케스트레이션의 도입은 또한 빠른 AI 추론 실행을 지원하는 공기 흐름의 능력을 향상시킬 것입니다.

Koka는 법적 시간 추적과 같은 전문 서비스에 실시간 추론을 사용하는 예를 제공했습니다. 이 시나리오에서 공기 흐름은 캘린더, 이메일 및 문서와 같은 소스에서 원시 데이터를 수집하는 데 도움이됩니다. 그런 다음 큰 언어 모델 (LLM) 은이 구조화되지 않은 데이터를 구조화 된 정보로 변환합니다. 미리 훈련 된 다른 모델은이 구조화 된 시간 추적 데이터를 분석하고 작업을 청구 할 수 있는지 확인하며 적절한 청구 코드 및 요금을 할당 할 수 있습니다.

Koka는이를 복합 AI 시스템으로 언급합니다. 다른 AI 모델을 결합하여 복잡한 작업을 효율적이고 지능적으로 완료하는 워크 플로우입니다. AirFlow 3.0의 이벤트 중심 아키텍처는 다양한 엔터프라이즈 사용 사례에서 이러한 유형의 실시간, 다중 단계 추론 프로세스를 실현할 수 있도록합니다.

2024 년 버클리 인공 지능 연구 센터에 의해 처음 정의 된 개념 인 Compound AI는 에이전트 AI와 다릅니다. Koka는 에이전트 AI가 자율적 인 AI 의사 결정을 가능하게하는 반면, Compound AI는 비즈니스 애플리케이션에 대해 더 예측 가능하고 신뢰할 수있는 사전 정의 된 워크 플로를 따릅니다.

공기 흐름으로 볼 플레이, 텍사스 레인저스가 혜택

텍사스 레인저스 메이저 리그 야구 팀은 공기 흐름의 많은 사용자 중 하나입니다. Texas Rangers Baseball Club의 풀 스택 데이터 엔지니어 인 Oliver Dykstra는 벤처 비트와 공유하여 팀이 야구 데이터 운영의 'Nerve Center'로 천문학 자의 Astro 플랫폼에서 호스팅 된 Airflow를 사용한다고 공유했습니다. 모든 플레이어 개발, 계약, 분석 및 게임 데이터는 공기 흐름을 통해 조정됩니다.

Dykstra는“우리는 공기 흐름 3으로의 업그레이드와 이벤트 중심의 스케줄링, 관찰 가능성 및 데이터 계보로의 개선을 기대하고있다. "우리는 이미 중요한 AI/ML 파이프 라인을 관리하기 위해 공기 흐름에 의존하기 때문에 공기 흐름 3의 추가 효율성과 신뢰성은 전체 조직 내에서 이러한 데이터 제품의 신뢰와 탄력성을 높이는 데 도움이 될 것입니다."

이것이 Enterprise AI 채택의 의미

데이터 오케스트레이션 전략을 평가하는 기술 의사 결정자의 경우 Airflow 3.0은 점차적으로 구현할 수있는 실질적인 이점을 제공합니다.

첫 번째 단계는 새로운 이벤트 중심 기능의 혜택을 누릴 수있는 현재 데이터 워크 플로를 평가하는 것입니다. 조직은 현재 예정된 작업을 사용하고있는 데이터 파이프 라인을 정확히 찾아 낼 수 있지만 이벤트 기반 트리거에서는 더 효율적입니다. 이러한 변화는 처리 대기 시간을 크게 줄이고 불필요한 폴링 작업을 제거 할 수 있습니다.

다음으로, 기술 리더는 공기 흐름의 확장 된 언어 지원이 단편화 된 오케스트레이션 도구를 통합하는 데 도움이 될 수 있는지 확인하기 위해 개발 환경을 검토해야합니다. 현재 다양한 언어 환경을위한 별도의 오케스트레이션 도구를 관리하는 팀은 기술 스택을 간소화하기위한 마이그레이션 전략을 계획 할 수 있습니다.

AI 구현의 최전선에있는 기업의 경우 Airflow 3.0은 AI 채택의 주요 과제를 해결하는 중요한 인프라 구성 요소를 나타냅니다 : 엔터프라이즈 규모의 복잡한 다단계 AI 워크 플로우를 조정합니다. 화합물 AI 시스템을 조정하는 플랫폼의 능력은 조직이 기업의 개념 증명을 넘어 엔터프라이즈의 AI 배포로 이동하여 적절한 거버넌스, 보안 및 신뢰성을 보장하는 데 도움이 될 수 있습니다.

관련 기사
자연어 처리 향상을위한 상위 10 개의 파이썬 라이브러리 자연어 처리 향상을위한 상위 10 개의 파이썬 라이브러리 Python은 종종 인공 지능 (AI) 및 기계 학습과 관련하여 프로그래밍을위한 최고의 선택으로 환영받습니다. 효율성은 다른 인기있는 언어 중에서 눈에 띄고 영어와 유사한 구문은 초보자에게 완벽한 스타터 언어입니다. 정말 SE
LLM 내부는 무엇입니까? ai2 olmotrace는 소스를 '추적'합니다 LLM 내부는 무엇입니까? ai2 olmotrace는 소스를 '추적'합니다 LLM (Lange Model)의 출력 (LLM)과 교육 데이터 간의 연결을 이해하는 것은 항상 엔터프라이즈 IT를위한 약간의 퍼즐이었습니다. 이번 주 Alen Institute for AI (AI2)는이 친척을 디밀화하는 것을 목표로하는 Olmotrace라는 흥미로운 새로운 오픈 소스 이니셔티브를 시작했습니다.
EU 사용자 데이터로 AI 모델을 훈련시키는 메타 EU 사용자 데이터로 AI 모델을 훈련시키는 메타 Meta는 최근 유럽 연합 (EU)의 성인 사용자가 공유하는 공개 콘텐츠를 AI 모델을 향상시키려는 의도를 발표했습니다. 이 움직임은 유럽 전역에서 Meta AI 기능을 시작하는 발 뒤꿈치에 나와 AI 기능 이이 지역의 다양한 Popul과 더 밀접하게 맞춤화하는 것을 목표로합니다.
의견 (0)
0/200
위로 돌아갑니다
OR