lựa chọn
Trang chủ
Tin tức
Deepseek lắc AI Công nghiệp: AI bước tiếp theo có thể phụ thuộc vào tính toán tăng lên suy luận, không có thêm dữ liệu

Deepseek lắc AI Công nghiệp: AI bước tiếp theo có thể phụ thuộc vào tính toán tăng lên suy luận, không có thêm dữ liệu

Ngày 18 tháng 4 năm 2025
151

Deepseek lắc AI Công nghiệp: AI bước tiếp theo có thể phụ thuộc vào tính toán tăng lên suy luận, không có thêm dữ liệu

Ngành công nghiệp AI đang trong trạng thái biến động không ngừng, với năm 2025 mang đến một số phát triển thay đổi cuộc chơi đang làm rung chuyển mọi thứ. Một cú sốc lớn đã xảy ra khi phòng thí nghiệm AI Trung Quốc, DeepSeek, tung ra một quả bom với một mô hình mới khiến cổ phiếu của Nvidia giảm 17% và ảnh hưởng đến các cổ phiếu trung tâm dữ liệu AI khác. Sự xôn xao quanh mô hình của DeepSeek? Nó mang lại hiệu suất hàng đầu với chi phí chỉ bằng một phần nhỏ so với các đối thủ cạnh tranh Mỹ, gây ra một cơn bão về ý nghĩa của điều này đối với tương lai của các trung tâm dữ liệu AI.

Nhưng để thực sự hiểu những gì DeepSeek đang làm, chúng ta cần nhìn xa hơn và xem xét bức tranh toàn cảnh. Thế giới AI đang vật lộn với sự khan hiếm dữ liệu huấn luyện. Các ông lớn đã sử dụng gần hết dữ liệu công khai trên internet, điều này có nghĩa là chúng ta đang gặp phải một bức tường trong việc cải thiện trước khi huấn luyện. Kết quả là, ngành công nghiệp đang chuyển hướng sang "tính toán thời gian kiểm tra" (TTC). Hãy nghĩ về nó như việc các mô hình AI dành một khoảnh khắc để "suy nghĩ" trước khi trả lời, như với dòng "o" của OpenAI. Có hy vọng rằng TTC có thể mang lại những cải tiến quy mô tương tự như những gì huấn luyện trước đây đã từng làm, có khả năng mở ra làn sóng đột phá AI tiếp theo.

Những thay đổi này đang báo hiệu hai biến đổi lớn: thứ nhất, các phòng thí nghiệm với ngân sách nhỏ hơn giờ đây cũng tham gia cuộc chơi, đưa ra các mô hình tiên tiến. Thứ hai, TTC đang trở thành biên giới mới để thúc đẩy AI tiến lên. Hãy phân tích những xu hướng này và ý nghĩa của chúng đối với cảnh quan và thị trường AI.

Ý nghĩa đối với Ngành Công nghiệp AI

Chúng tôi tin rằng sự chuyển dịch sang TTC và sự gia tăng cạnh tranh giữa các mô hình suy luận có thể định hình lại cảnh quan AI trên nhiều mặt: phần cứng, nền tảng đám mây, mô hình nền tảng, và phần mềm doanh nghiệp.

1. Phần cứng (GPU, Chip chuyên dụng, và Cơ sở hạ tầng tính toán)

Sự chuyển dịch sang TTC có thể thay đổi loại phần cứng mà các công ty AI cần và cách họ quản lý nó. Thay vì đổ tiền vào các cụm GPU ngày càng lớn hơn để huấn luyện, họ có thể bắt đầu tập trung nhiều hơn vào việc nâng cao khả năng suy luận để đáp ứng nhu cầu của TTC. Mặc dù GPU vẫn sẽ rất quan trọng cho suy luận, sự khác biệt giữa khối lượng công việc huấn luyện và suy luận có thể ảnh hưởng đến cách thiết lập và sử dụng các chip này. Với khối lượng công việc suy luận không thể đoán trước và "bùng nổ," việc lập kế hoạch cho dung lượng có thể trở nên phức tạp hơn.

Chúng tôi cũng nghĩ rằng sự chuyển dịch này có thể thúc đẩy thị trường cho phần cứng được thiết kế đặc biệt cho suy luận độ trễ thấp, như ASICs. Khi TTC trở nên quan trọng hơn dung lượng huấn luyện, sự thống trị của GPU đa năng có thể bắt đầu suy giảm, mở ra cơ hội cho các nhà sản xuất chip suy luận chuyên dụng.

2. Nền tảng Đám mây: Các siêu quy mô (AWS, Azure, GCP) và Tính toán Đám mây

Một rào cản lớn đối với việc áp dụng AI trong các doanh nghiệp, ngoài vấn đề về độ chính xác, là sự không đáng tin cậy của các API suy luận. Những vấn đề như thời gian phản hồi không nhất quán, giới hạn tốc độ, và khó khăn với các yêu cầu đồng thời có thể thực sự gây đau đầu. TTC có thể làm cho những vấn đề này trở nên tồi tệ hơn. Trong kịch bản này, một nhà cung cấp đám mây có thể đảm bảo chất lượng dịch vụ cao (QoS) để giải quyết những vấn đề này có thể sẽ có lợi thế lớn.

Điều thú vị là, mặc dù các phương pháp mới có thể làm cho AI hiệu quả hơn, chúng có thể không làm giảm nhu cầu về phần cứng. Theo Nghịch lý Jevons, nơi hiệu quả hơn dẫn đến tiêu thụ nhiều hơn, các mô hình suy luận hiệu quả hơn có thể thúc đẩy nhiều nhà phát triển sử dụng các mô hình suy luận, làm tăng nhu cầu về sức mạnh tính toán. Chúng tôi nghĩ rằng những cải tiến mô hình gần đây có thể kích thích nhu cầu lớn hơn về tính toán AI đám mây, cả cho suy luận và huấn luyện mô hình nhỏ, chuyên biệt.

3. Nhà cung cấp Mô hình Nền tảng (OpenAI, Anthropic, Cohere, DeepSeek, Mistral)

Nếu những người mới như DeepSeek có thể cạnh tranh trực tiếp với các ông lớn với chi phí chỉ bằng một phần nhỏ, vị thế của các mô hình được huấn luyện trước độc quyền có thể bắt đầu sụp đổ. Chúng ta cũng có thể mong đợi nhiều đổi mới hơn trong TTC cho các mô hình transformer, và như DeepSeek đã cho thấy, những đổi mới này có thể đến từ những nơi bất ngờ ngoài những cái tên quen thuộc trong lĩnh vực AI.

4. Áp dụng AI Doanh nghiệp và SaaS (Lớp Ứng dụng)

Với nguồn gốc từ Trung Quốc của DeepSeek, chắc chắn sẽ có sự giám sát liên tục đối với sản phẩm của họ từ góc độ bảo mật và quyền riêng tư. API và dịch vụ chatbot dựa tại Trung Quốc của họ khó có thể được các khách hàng AI doanh nghiệp ở Mỹ, Canada, hoặc các nước phương Tây khác chấp nhận. Nhiều công ty đã chặn trang web và ứng dụng của DeepSeek. Ngay cả khi được lưu trữ bởi bên thứ ba tại các trung tâm dữ liệu phương Tây, các mô hình của DeepSeek có thể phải đối mặt với sự giám sát, điều này có thể hạn chế việc áp dụng chúng trong doanh nghiệp. Các nhà nghiên cứu đang nêu lên các vấn đề như bẻ khóa, thiên vị, và tạo nội dung có hại. Mặc dù một số doanh nghiệp có thể thử nghiệm với các mô hình của DeepSeek, việc áp dụng rộng rãi có vẻ khó xảy ra do những mối quan ngại này.

Mặt khác, chuyên môn hóa theo ngành đang ngày càng phát triển. Trong quá khứ, các ứng dụng theo ngành được xây dựng trên các mô hình nền tảng đều tập trung vào việc tạo ra các quy trình làm việc phù hợp. Các kỹ thuật như tạo thế hệ tăng cường truy xuất (RAG), định tuyến mô hình, gọi hàm, và các rào chắn đã là chìa khóa trong việc điều chỉnh các mô hình tổng quát cho các trường hợp sử dụng cụ thể. Nhưng luôn có lo ngại rằng những cải tiến lớn trong các mô hình cơ bản có thể khiến các ứng dụng này trở nên lỗi thời. Sam Altman từng cảnh báo rằng một bước nhảy vọt lớn trong khả năng mô hình có thể "nghiền nát" những đổi mới này.

Tuy nhiên, nếu chúng ta đang chứng kiến một sự chững lại trong các lợi ích từ tính toán thời gian huấn luyện, mối đe dọa bị vượt qua nhanh chóng sẽ giảm bớt. Trong một thế giới mà các cải tiến hiệu suất mô hình đến từ tối ưu hóa TTC, các cơ hội mới có thể xuất hiện cho những người chơi ở lớp ứng dụng. Các đổi mới như tối ưu hóa lời nhắc có cấu trúc, chiến lược suy luận nhận biết độ trễ, và kỹ thuật lấy mẫu hiệu quả có thể mang lại những cải thiện lớn về hiệu suất trong các ngành cụ thể.

Những cải tiến này đặc biệt phù hợp với các mô hình tập trung vào suy luận như GPT-4o của OpenAI và DeepSeek-R1, vốn có thể mất vài giây để phản hồi. Trong các ứng dụng thời gian thực, việc giảm độ trễ và nâng cao chất lượng suy luận trong một lĩnh vực cụ thể có thể mang lại lợi thế cạnh tranh. Kết quả là, các công ty có kiến thức chuyên sâu về lĩnh vực có thể đóng vai trò quan trọng trong việc tối ưu hóa hiệu quả suy luận và tinh chỉnh đầu ra.

Công việc của DeepSeek cho thấy chúng ta đang chuyển hướng khỏi việc chỉ dựa vào huấn luyện trước để cải thiện chất lượng mô hình. Thay vào đó, TTC đang trở nên ngày càng quan trọng. Mặc dù không rõ liệu các mô hình của DeepSeek có được áp dụng rộng rãi trong phần mềm doanh nghiệp hay không do sự giám sát, ảnh hưởng của chúng đối với việc cải thiện các mô hình khác đang trở nên rõ ràng hơn.

Chúng tôi tin rằng các đổi mới của DeepSeek đang thúc đẩy các phòng thí nghiệm AI đã thành danh áp dụng các kỹ thuật tương tự, bổ sung cho lợi thế phần cứng hiện có của họ. Sự sụt giảm dự đoán trong chi phí mô hình dường như đang thúc đẩy việc sử dụng mô hình nhiều hơn, phù hợp với mô hình Nghịch lý Jevons.

Pashootan Vaezipoor là trưởng nhóm kỹ thuật tại Georgian.

Bài viết liên quan
DeepSeek-V3 Ra Mắt: Thiết Kế AI Tích Hợp Phần Cứng Giảm Chi Phí và Tăng Hiệu Suất DeepSeek-V3 Ra Mắt: Thiết Kế AI Tích Hợp Phần Cứng Giảm Chi Phí và Tăng Hiệu Suất DeepSeek-V3: Bước Tiến Hiệu Quả Chi Phí trong Phát Triển AINgành AI đang ở ngã rẽ. Mặc dù các mô hình ngôn ngữ lớn (LLMs) ngày càng mạnh mẽ, nhu cầu tính toán của chúng tăng vọt, khiến việc phát triển
DeepSeek-GRM: Cách mạng hóa AI có thể mở rộng và hiệu quả về chi phí cho doanh nghiệp DeepSeek-GRM: Cách mạng hóa AI có thể mở rộng và hiệu quả về chi phí cho doanh nghiệp Nếu bạn đang điều hành một doanh nghiệp, bạn sẽ hiểu rằng việc tích hợp Trí tuệ Nhân tạo (AI) vào hoạt động kinh doanh của mình có thể khó khăn như thế nào. Chi phí cao và độ phức
Kỹ thuật mới cho phép Deepseek và các mô hình khác trả lời các truy vấn nhạy cảm Kỹ thuật mới cho phép Deepseek và các mô hình khác trả lời các truy vấn nhạy cảm Loại bỏ sự thiên vị và kiểm duyệt khỏi các mô hình ngôn ngữ lớn (LLM) như Deepseek của Trung Quốc là một thách thức phức tạp đã thu hút sự chú ý của các nhà hoạch định chính sách và lãnh đạo doanh nghiệp Hoa Kỳ, những người coi đó là mối đe dọa an ninh quốc gia tiềm năng. Một báo cáo gần đây từ một ủy ban chọn Quốc hội Hoa Kỳ đã gắn nhãn Deeps
Nhận xét (32)
0/200
HenryDavis
HenryDavis 18:35:39 GMT+07:00 Ngày 31 tháng 7 năm 2025

DeepSeek's new model sounds like a game-changer! A 17% Nvidia stock dip is wild—wonder how this’ll shift the AI race. More compute at inference? Mind blown! 🤯

JoseGonzalez
JoseGonzalez 19:25:16 GMT+07:00 Ngày 29 tháng 7 năm 2025

Wow, DeepSeek's new model sounds like a game-changer! That 17% Nvidia stock dip is wild—makes me wonder if we're hitting a compute bottleneck. Anyone else curious how this shifts the AI race? 🤔

BrianMartinez
BrianMartinez 08:02:24 GMT+07:00 Ngày 27 tháng 4 năm 2025

¡El nuevo modelo de DeepSeek está sacudiendo la industria de la IA! Es increíble ver cómo baja la acción de Nvidia por esto. Me pregunto si más capacidad de cómputo en la inferencia será realmente la próxima gran cosa o solo un hype. De cualquier manera, es emocionante ver cómo evoluciona la industria! 🚀

GeorgeKing
GeorgeKing 09:22:57 GMT+07:00 Ngày 25 tháng 4 năm 2025

DeepSeek's new model is shaking up the AI industry! It's wild to see Nvidia's stock dip because of this. I'm curious if more compute at inference will really be the next big thing or if it's just hype. Either way, it's exciting to watch the industry evolve! 🚀

GeorgeNelson
GeorgeNelson 21:51:14 GMT+07:00 Ngày 23 tháng 4 năm 2025

O novo modelo da DeepSeek está abalando a indústria de IA! É louco ver a queda das ações da Nvidia por causa disso. Estou curioso se mais poder de computação na inferência será realmente a próxima grande coisa ou se é apenas hype. De qualquer forma, é emocionante ver a evolução da indústria! 🚀

GeorgeWilson
GeorgeWilson 21:44:57 GMT+07:00 Ngày 23 tháng 4 năm 2025

DeepSeek의 새로운 모델이 AI 산업을 흔들고 있어요! Nvidia의 주식이 이 때문에 떨어지는 걸 보니 정말 놀랍네요. 추론 시 더 많은 계산 능력이 정말 다음 큰 변화가 될지, 아니면 그냥 과대광고일지 궁금해요. 어쨌든 산업이 진화하는 걸 보는 건 흥미로워요! 🚀

Quay lại đầu
OR