lựa chọn
Trang chủ
Tin tức
Xử lý dữ liệu hàng loạt quá chậm đối với AI thời gian thực: cách Apache Airflow 3.0 giải quyết thách thức với sự phối hợp dữ liệu dựa trên sự kiện

Xử lý dữ liệu hàng loạt quá chậm đối với AI thời gian thực: cách Apache Airflow 3.0 giải quyết thách thức với sự phối hợp dữ liệu dựa trên sự kiện

Ngày 08 tháng 5 năm 2025
77

Xử lý dữ liệu hàng loạt quá chậm đối với AI thời gian thực: cách Apache Airflow 3.0 giải quyết thách thức với sự phối hợp dữ liệu dựa trên sự kiện

Việc di chuyển dữ liệu từ nhiều nguồn khác nhau đến nơi phù hợp cho các ứng dụng AI không phải là nhiệm vụ dễ dàng. Đây là lúc các công cụ điều phối dữ liệu như Apache Airflow phát huy tác dụng, giúp quá trình này trở nên mượt mà và hiệu quả hơn.

Cộng đồng Apache Airflow vừa phát hành bản cập nhật quan trọng nhất trong nhiều năm với sự ra mắt của phiên bản 3.0. Đây là bản cập nhật lớn đầu tiên sau bốn năm, tiếp nối những cải tiến ổn định trong dòng 2.x, bao gồm các bản phát hành 2.9 và 2.10 vào năm 2024, tập trung mạnh mẽ vào các cải tiến AI.

Apache Airflow đã trở thành công cụ hàng đầu cho các kỹ sư dữ liệu, khẳng định vị thế là nền tảng điều phối quy trình công việc mã nguồn mở hàng đầu. Với hơn 3.000 người đóng góp và được sử dụng rộng rãi trong các công ty thuộc danh sách Fortune 500, không khó để hiểu tại sao nó lại phổ biến đến vậy. Ngoài ra, còn có một số dịch vụ thương mại được xây dựng dựa trên nó, chẳng hạn như Astronomer Astro, Google Cloud Composer, Amazon Managed Workflows for Apache Airflow (MWAA), và Microsoft Azure Data Factory Managed Airflow, cùng với một số dịch vụ khác.

Khi các công ty đối mặt với việc điều phối các quy trình công việc dữ liệu trên các hệ thống, đám mây khác nhau và ngày càng nhiều khối lượng công việc AI, nhu cầu về các giải pháp mạnh mẽ ngày càng tăng. Apache Airflow 3.0 đáp ứng những nhu cầu doanh nghiệp này với một cuộc đại tu kiến trúc, hứa hẹn nâng cao cách các tổ chức phát triển và triển khai các ứng dụng dữ liệu.

"Đối với tôi, Airflow 3 là một khởi đầu mới, một nền tảng cho một tập hợp các khả năng rộng lớn hơn nhiều," Vikram Koka, thành viên Ủy ban Quản lý Dự án (PMC) của Apache Airflow và Giám đốc Chiến lược tại Astronomer, chia sẻ trong một cuộc phỏng vấn độc quyền với VentureBeat. "Đây gần như là một sự tái cấu trúc hoàn toàn dựa trên những gì các doanh nghiệp cho chúng tôi biết họ cần cho cấp độ tiếp theo của việc áp dụng quan trọng đối với sứ mệnh."

Độ phức tạp của dữ liệu doanh nghiệp đã thay đổi nhu cầu điều phối dữ liệu

Với việc các doanh nghiệp ngày càng phụ thuộc vào dữ liệu để ra quyết định, độ phức tạp của các quy trình công việc dữ liệu đã tăng vọt. Các công ty hiện phải xử lý các đường ống dữ liệu phức tạp trải dài trên nhiều môi trường đám mây, các nguồn dữ liệu đa dạng và các khối lượng công việc AI ngày càng tinh vi.

Airflow 3.0 được thiết kế để giải quyết những nhu cầu doanh nghiệp đang phát triển này. Không giống như các phiên bản trước, bản phát hành này chuyển từ cấu trúc đơn khối sang mô hình client phân tán, mang lại sự linh hoạt và bảo mật cao hơn. Kiến trúc mới này giúp các doanh nghiệp:

  1. Thực thi các tác vụ trên nhiều môi trường đám mây.
  2. Áp dụng các biện pháp kiểm soát bảo mật chi tiết.
  3. Hỗ trợ nhiều ngôn ngữ lập trình khác nhau.
  4. Cho phép triển khai đa đám mây thực sự.

Hỗ trợ ngôn ngữ mở rộng trong Airflow 3.0 đặc biệt đáng chú ý. Trong khi các phiên bản trước chủ yếu tập trung vào Python, bản phát hành mới giờ đây hỗ trợ nguyên bản nhiều ngôn ngữ lập trình. Airflow 3.0 hiện hỗ trợ Python và Go, với kế hoạch bổ sung Java, TypeScript và Rust. Sự linh hoạt này có nghĩa là các kỹ sư dữ liệu có thể sử dụng ngôn ngữ lập trình ưa thích của họ, giúp phát triển và tích hợp quy trình công việc trở nên mượt mà hơn.

Khả năng điều khiển bằng sự kiện biến đổi các quy trình công việc dữ liệu

Theo truyền thống, Airflow rất giỏi trong việc xử lý hàng loạt theo lịch trình, nhưng các doanh nghiệp hiện đang đòi hỏi khả năng xử lý dữ liệu theo thời gian thực. Airflow 3.0 đáp ứng nhu cầu này.

"Một thay đổi quan trọng trong Airflow 3 là điều mà chúng tôi gọi là lập lịch điều khiển bằng sự kiện," Koka giải thích.

Thay vì chạy một công việc xử lý dữ liệu theo lịch cố định, như mỗi giờ, Airflow giờ đây có thể kích hoạt công việc khi một sự kiện cụ thể xảy ra, chẳng hạn như khi một tệp dữ liệu được tải lên Amazon S3 hoặc một tin nhắn xuất hiện trong Apache Kafka. Lập lịch điều khiển bằng sự kiện này thu hẹp khoảng cách giữa các công cụ ETL (Trích xuất, Chuyển đổi và Tải) truyền thống và các khung xử lý luồng như Apache Flink hoặc Apache Spark Structured Streaming, cho phép các tổ chức quản lý cả quy trình công việc theo lịch trình và kích hoạt bằng sự kiện với một lớp điều phối duy nhất.

Airflow sẽ thúc đẩy thực thi suy luận AI doanh nghiệp và AI phức hợp

Việc giới thiệu điều phối dữ liệu điều khiển bằng sự kiện cũng sẽ tăng cường khả năng của Airflow trong việc hỗ trợ thực thi suy luận AI nhanh chóng.

Koka đưa ra một ví dụ về việc sử dụng suy luận thời gian thực cho các dịch vụ chuyên nghiệp như theo dõi thời gian pháp lý. Trong kịch bản này, Airflow giúp thu thập dữ liệu thô từ các nguồn như lịch, email và tài liệu. Một mô hình ngôn ngữ lớn (LLM) sau đó chuyển đổi dữ liệu không cấu trúc này thành thông tin có cấu trúc. Một mô hình được huấn luyện trước khác có thể phân tích dữ liệu theo dõi thời gian có cấu trúc này, xác định xem công việc có thể thanh toán được hay không, và gán mã thanh toán và tỷ lệ phù hợp.

Koka gọi đây là một hệ thống AI phức hợp – một quy trình công việc kết hợp các mô hình AI khác nhau để hoàn thành một nhiệm vụ phức tạp một cách hiệu quả và thông minh. Kiến trúc điều khiển bằng sự kiện của Airflow 3.0 làm cho quá trình suy luận đa bước, thời gian thực này trở nên khả thi trong nhiều trường hợp sử dụng doanh nghiệp khác nhau.

AI phức hợp, một khái niệm lần đầu tiên được định nghĩa bởi Trung tâm Nghiên cứu Trí tuệ Nhân tạo Berkeley vào năm 2024, khác với AI tự quản. Koka giải thích rằng trong khi AI tự quản cho phép ra quyết định tự động, AI phức hợp tuân theo các quy trình công việc được xác định trước, đáng tin cậy và dự đoán được hơn cho các ứng dụng kinh doanh.

Chơi bóng với Airflow, Cách Texas Rangers mong đợi hưởng lợi

Đội bóng chày giải đấu lớn Texas Rangers là một trong nhiều người dùng của Airflow. Oliver Dykstra, một kỹ sư dữ liệu full-stack tại Câu lạc bộ Bóng chày Texas Rangers, chia sẻ với VentureBeat rằng đội sử dụng Airflow, được lưu trữ trên nền tảng Astro của Astronomer, như 'trung tâm thần kinh' của hoạt động dữ liệu bóng chày của họ. Tất cả các hoạt động phát triển cầu thủ, hợp đồng, phân tích và dữ liệu trận đấu đều được điều phối qua Airflow.

"Chúng tôi mong chờ nâng cấp lên Airflow 3 và các cải tiến của nó về lập lịch điều khiển bằng sự kiện, khả năng quan sát và dòng dõi dữ liệu," Dykstra nói. "Vì chúng tôi đã dựa vào Airflow để quản lý các đường ống AI/ML quan trọng của mình, hiệu quả và độ tin cậy bổ sung của Airflow 3 sẽ giúp tăng cường niềm tin và khả năng phục hồi của các sản phẩm dữ liệu này trong toàn bộ tổ chức của chúng tôi."

Điều này có ý nghĩa gì đối với việc áp dụng AI doanh nghiệp

Đối với các nhà ra quyết định kỹ thuật đang đánh giá chiến lược điều phối dữ liệu của họ, Airflow 3.0 mang lại những lợi ích cụ thể có thể được triển khai dần dần.

Bước đầu tiên là đánh giá các quy trình công việc dữ liệu hiện tại có thể hưởng lợi từ các khả năng điều khiển bằng sự kiện mới. Các tổ chức có thể xác định các đường ống dữ liệu hiện đang sử dụng các công việc theo lịch trình nhưng sẽ hiệu quả hơn với các kích hoạt dựa trên sự kiện. Sự thay đổi này có thể giảm đáng kể độ trễ xử lý và loại bỏ các hoạt động thăm dò không cần thiết.

Tiếp theo, các nhà lãnh đạo công nghệ nên xem xét lại môi trường phát triển của họ để xem liệu hỗ trợ ngôn ngữ mở rộng của Airflow có thể giúp hợp nhất các công cụ điều phối phân mảnh hay không. Các nhóm hiện đang quản lý các công cụ điều phối riêng biệt cho các môi trường ngôn ngữ khác nhau có thể bắt đầu lập kế hoạch chiến lược di chuyển để đơn giản hóa ngăn xếp công nghệ của họ.

Đối với các doanh nghiệp đi đầu trong việc triển khai AI, Airflow 3.0 đại diện cho một thành phần cơ sở hạ tầng quan trọng giải quyết một thách thức chính trong việc áp dụng AI: điều phối các quy trình công việc AI phức tạp, đa giai đoạn ở quy mô doanh nghiệp. Khả năng của nền tảng trong việc điều phối các hệ thống AI phức hợp có thể giúp các tổ chức vượt qua giai đoạn thử nghiệm để triển khai AI trên toàn doanh nghiệp, đảm bảo quản trị, bảo mật và độ tin cậy phù hợp.

Bài viết liên quan
Chiến lược AI của Adobe: Người thắng và kẻ thua trong cuộc đua công nghệ Chiến lược AI của Adobe: Người thắng và kẻ thua trong cuộc đua công nghệ Trong thế giới đang thay đổi nhanh chóng của trí tuệ nhân tạo (AI), các nhà đầu tư đang theo dõi sát sao những công ty nào sẽ phát triển mạnh trong quá trình chuyển đổi công nghệ này. Bài viết này xem
Triển vọng Cổ phiếu BigBear.ai (BBAI): Liệu Động lực Tăng trưởng AI Có Thể Duy trì? Triển vọng Cổ phiếu BigBear.ai (BBAI): Liệu Động lực Tăng trưởng AI Có Thể Duy trì? Trong thế giới phát triển nhanh chóng của trí tuệ nhân tạo (AI) và an ninh mạng, BigBear.ai (BBAI) đang thu hút sự chú ý của các nhà đầu tư. Bài viết này cung cấp phân tích chuyên sâu về cổ phiếu BigB
Akamai Giảm 70% Chi Phí Đám Mây với Tự Động Hóa Kubernetes Dựa trên AI Akamai Giảm 70% Chi Phí Đám Mây với Tự Động Hóa Kubernetes Dựa trên AI Trong kỷ nguyên của AI sáng tạo, chi phí đám mây đang tăng vọt. Các doanh nghiệp được dự báo sẽ lãng phí 44,5 tỷ đô la cho chi tiêu đám mây không cần thiết trong năm nay do sử dụng tài nguyên không hi
Nhận xét (6)
0/200
DonaldYoung
DonaldYoung 08:41:20 GMT+07:00 Ngày 31 tháng 7 năm 2025

Airflow 3.0 sounds like a game-changer for real-time AI! 🚀 Super curious how its event-driven approach speeds things up compared to traditional batch processing.

RobertRoberts
RobertRoberts 15:12:28 GMT+07:00 Ngày 09 tháng 5 năm 2025

Apache Airflow 3.0 thực sự đã tăng tốc quá trình xử lý dữ liệu của tôi cho AI! Cách tiếp cận dựa trên sự kiện là một bước đột phá. Tuy nhiên, nó không hoàn hảo; đường cong học tập rất dốc. Nhưng khi bạn làm quen được, nó cực kỳ hiệu quả. 🚀

RobertMartin
RobertMartin 13:26:27 GMT+07:00 Ngày 09 tháng 5 năm 2025

Apache Airflow 3.0は、私のAI向けデータ処理を本当にスピードアップしました!イベント駆動のアプローチはゲームチェンジャーです。ただし、完璧ではありません。学習曲線が急です。でも、一度慣れれば超効率的です。🚀

BillyThomas
BillyThomas 04:15:07 GMT+07:00 Ngày 09 tháng 5 năm 2025

Apache Airflow 3.0 realmente ha acelerado mi procesamiento de datos para IA. El enfoque basado en eventos es un cambio de juego. No es perfecto, la curva de aprendizaje es empinada. Pero una vez que lo dominas, es súper eficiente. 🚀

KevinScott
KevinScott 23:41:27 GMT+07:00 Ngày 08 tháng 5 năm 2025

Apache Airflow 3.0 has really sped up my data processing for AI! The event-driven approach is a game-changer. It's not perfect, though; the learning curve is steep. But once you get the hang of it, it's super efficient. 🚀

PaulGonzalez
PaulGonzalez 21:09:20 GMT+07:00 Ngày 08 tháng 5 năm 2025

Apache Airflow 3.0 hat meinen Datenverarbeitungsprozess für KI wirklich beschleunigt! Der ereignisgesteuerte Ansatz ist ein Game-Changer. Es ist nicht perfekt; die Lernkurve ist steil. Aber sobald man es beherrscht, ist es super effizient. 🚀

Quay lại đầu
OR