lựa chọn
Trang chủ Tin tức Deepseek lắc AI Công nghiệp: AI bước tiếp theo có thể phụ thuộc vào tính toán tăng lên suy luận, không có thêm dữ liệu

Deepseek lắc AI Công nghiệp: AI bước tiếp theo có thể phụ thuộc vào tính toán tăng lên suy luận, không có thêm dữ liệu

ngày phát hành ngày phát hành Ngày 17 tháng 4 năm 2025
Tác giả Tác giả AlbertWalker
quan điểm quan điểm 48

Deepseek lắc AI Công nghiệp: AI bước tiếp theo có thể phụ thuộc vào tính toán tăng lên suy luận, không có thêm dữ liệu

Ngành công nghiệp AI đang ở trong tình trạng thay đổi liên tục, với năm 2025 mang đến một số phát triển thay đổi trò chơi đang làm mọi thứ rung chuyển. Một sự rung chuyển lớn đến khi phòng thí nghiệm AI của Trung Quốc, Deepseek, bỏ một quả bom với một mô hình mới gây ra sự sụt giảm 17% trong cổ phiếu của NVIDIA và ảnh hưởng đến các cổ phiếu trung tâm dữ liệu AI khác. Tiếng vang xung quanh mô hình của Deepseek? Nó cung cấp hiệu suất hàng đầu với một phần nhỏ của những gì nó khiến các đối thủ cạnh tranh khác của Hoa Kỳ, khuấy động một cơn bão về ý nghĩa của điều này đối với tương lai của các trung tâm dữ liệu AI.

Nhưng để thực sự có được những gì Deepseek đang làm, chúng ta cần thu nhỏ và nhìn vào bức tranh lớn hơn. Thế giới AI đang vật lộn với sự khan hiếm dữ liệu đào tạo. Những người chơi lớn đã nhai hầu hết các dữ liệu internet công cộng, điều đó có nghĩa là chúng tôi đang đánh một bức tường trong các cải tiến trước khi đào tạo. Do đó, các bánh răng thay đổi của ngành công nghiệp hướng tới "Tính toán thời gian thử nghiệm" (TTC). Hãy nghĩ về nó như các mô hình AI dành một chút thời gian để "nghĩ" trước khi trả lời, như với loạt "O" của Openai. Có hy vọng rằng TTC có thể cung cấp cùng một loại cải tiến quy mô mà đào tạo trước đã từng làm, có khả năng mở ra làn sóng đột phá lớn tiếp theo của AI.

Những thay đổi này đang báo hiệu hai thay đổi lớn: Thứ nhất, các phòng thí nghiệm ngân sách nhỏ hơn hiện đang trong trò chơi, đưa ra các mô hình tiên tiến. Thứ hai, TTC đang trở thành biên giới mới để lái AI về phía trước. Hãy phá vỡ những xu hướng này và những gì chúng có thể có ý nghĩa đối với cảnh quan và thị trường AI.

Ý nghĩa của ngành công nghiệp AI

Chúng tôi tin rằng việc chuyển sang TTC và sự cạnh tranh giữa các mô hình lý luận có thể định hình lại cảnh quan AI trên một số mặt trận: phần cứng, nền tảng đám mây, mô hình nền tảng và phần mềm doanh nghiệp.

1. Phần cứng (GPU, chip chuyên dụng và cơ sở hạ tầng tính toán)

Việc chuyển sang TTC có thể thay đổi những gì các công ty AI phần cứng cần và cách họ quản lý nó. Thay vì đổ tiền vào các cụm GPU lớn hơn bao giờ hết để đào tạo, họ có thể bắt đầu tập trung nhiều hơn vào việc tăng cường khả năng suy luận của họ để xử lý các nhu cầu của TTC. Mặc dù GPU vẫn sẽ rất quan trọng cho suy luận, sự khác biệt giữa khối lượng công việc đào tạo và suy luận có thể ảnh hưởng đến cách các chip này được thiết lập và sử dụng. Với khối lượng công việc suy luận là không thể đoán trước và "Spikey", kế hoạch cho năng lực có thể trở nên khó khăn hơn.

Chúng tôi cũng nghĩ rằng sự thay đổi này có thể thúc đẩy thị trường cho phần cứng được thiết kế đặc biệt cho suy luận có độ trễ thấp, như ASICS. Khi TTC trở nên quan trọng hơn khả năng đào tạo, triều đại của GPU có mục đích chung có thể bắt đầu suy yếu dần, mở cửa cho các nhà sản xuất chip suy luận chuyên biệt.

2. Nền tảng đám mây: Hyperscalers (AWS, Azure, GCP) và Tính toán đám mây

Một trở ngại lớn cho việc áp dụng AI trong các doanh nghiệp, ngoài các vấn đề chính xác, là sự không đáng tin cậy của API suy luận. Những thứ như thời gian phản hồi không nhất quán, giới hạn tỷ lệ và rắc rối với các yêu cầu đồng thời có thể là một vấn đề đau đầu thực sự. TTC có thể làm cho những vấn đề này thậm chí còn tồi tệ hơn. Trong kịch bản này, một nhà cung cấp đám mây có thể đảm bảo chất lượng dịch vụ cao (QoS) để giải quyết các vấn đề này có thể có một chân lớn.

Thật thú vị, mặc dù các phương pháp mới có thể làm cho AI hiệu quả hơn, chúng có thể không làm giảm nhu cầu về phần cứng. Theo nghịch lý của Jevons, nơi hiệu quả hơn dẫn đến tiêu thụ nhiều hơn, các mô hình suy luận hiệu quả hơn có thể thúc đẩy nhiều nhà phát triển sử dụng các mô hình lý luận, tăng cường nhu cầu về sức mạnh máy tính. Chúng tôi nghĩ rằng những cải tiến mô hình gần đây có thể thúc đẩy nhiều nhu cầu về tính toán AI của đám mây, cả về suy luận và đào tạo mô hình chuyên dụng nhỏ hơn.

3. Các nhà cung cấp mô hình nền tảng (Openai, Nhân học, Cohere, Deepseek, Mistral)

Nếu những người mới tham gia như Deepseek có thể đi bằng ngón chân với những khẩu súng lớn với chi phí, thì thành trì của các mô hình được đào tạo trước độc quyền có thể bắt đầu sụp đổ. Chúng ta cũng có thể mong đợi nhiều đổi mới hơn trong TTC cho các mô hình máy biến áp, và như Deepseek đã chỉ ra, những đổi mới này có thể đến từ những nơi bất ngờ bên ngoài các nghi phạm thông thường trong AI.

4. Doanh nghiệp AI áp dụng và SaaS (lớp ứng dụng)

Với nguồn gốc của Deepseek ở Trung Quốc, chắc chắn sẽ được xem xét kỹ lưỡng các sản phẩm của họ từ quan điểm bảo mật và quyền riêng tư. Các dịch vụ API và chatbot có trụ sở tại Trung Quốc của họ không có khả năng bắt kịp với các khách hàng AI của doanh nghiệp ở Mỹ, Canada hoặc các nước phương Tây khác. Nhiều công ty đã chặn trang web và ứng dụng của Deepseek. Ngay cả khi được tổ chức bởi các bên thứ ba trong các trung tâm dữ liệu phương Tây, các mô hình của Deepseek có thể phải đối mặt với sự giám sát, điều này có thể hạn chế việc áp dụng của họ trong doanh nghiệp. Các nhà nghiên cứu đang gắn cờ các vấn đề như bẻ khóa, thiên vị và tạo nội dung có hại. Mặc dù một số doanh nghiệp có thể thử nghiệm với các mô hình của Deepseek, việc áp dụng rộng rãi dường như không thể do những lo ngại này.

Một lưu ý khác, chuyên môn dọc đang có được chỗ đứng. Trước đây, các ứng dụng dọc được xây dựng trên các mô hình nền tảng là tất cả về việc tạo ra các quy trình công việc phù hợp. Các kỹ thuật như thế hệ (RAG), định tuyến mô hình, gọi chức năng và bảo vệ là chìa khóa trong các mô hình tổng quát cho các trường hợp sử dụng cụ thể này. Nhưng luôn có sự lo lắng rằng những cải tiến lớn đối với các mô hình cơ bản có thể khiến các ứng dụng này lỗi thời. Sam Altman đã từng cảnh báo rằng một bước nhảy vọt lớn trong khả năng mô hình có thể "Steamroll" những đổi mới này.

Tuy nhiên, nếu chúng ta nhìn thấy một cao nguyên trong lợi ích tính toán thời gian xe lửa, mối đe dọa nhanh chóng bị vượt qua. Trong một thế giới nơi các cải tiến hiệu suất mô hình đến từ các tối ưu hóa TTC, các cơ hội mới có thể xuất hiện cho người chơi lớp ứng dụng. Những đổi mới như tối ưu hóa kịp thời có cấu trúc, các chiến lược lý luận nhận thức độ trễ và các kỹ thuật lấy mẫu hiệu quả có thể cung cấp các tăng cường hiệu suất lớn trong các ngành dọc cụ thể.

Những cải tiến này đặc biệt phù hợp với các mô hình tập trung vào lý luận như GPT-4O của Openai và Deepseek-R1, có thể mất vài giây để trả lời. Trong các ứng dụng thời gian thực, việc cắt giảm độ trễ và nâng cao chất lượng suy luận trong một lĩnh vực cụ thể có thể mang lại lợi thế cạnh tranh. Do đó, các công ty có kiến ​​thức miền sâu có thể đóng một vai trò quan trọng trong việc tối ưu hóa hiệu quả suy luận và đầu ra tinh chỉnh.

Công việc của Deepseek cho thấy rằng chúng tôi sẽ tránh xa việc chỉ dựa vào đào tạo trước nhiều hơn để cải thiện chất lượng mô hình. Thay vào đó, TTC đang ngày càng trở nên quan trọng. Mặc dù không rõ liệu các mô hình của Deepseek sẽ được áp dụng rộng rãi trong phần mềm doanh nghiệp do sự xem xét kỹ lưỡng, ảnh hưởng của chúng đối với việc cải thiện các mô hình khác đang trở nên rõ ràng hơn.

Chúng tôi tin rằng những đổi mới của Deepseek đang thúc đẩy các phòng thí nghiệm AI thành lập để áp dụng các kỹ thuật tương tự, bổ sung cho các lợi thế phần cứng hiện có của họ. Sự sụt giảm dự đoán về chi phí mô hình dường như đang thúc đẩy sử dụng nhiều mô hình hơn, phù hợp với mô hình nghịch lý của Jevons.

Pashootan Vaezipoor là người dẫn đầu kỹ thuật tại Gruzia.

Bài viết liên quan
前Deepseeker和合作者發布了新的培訓可靠AI代理的方法:Ragen 前Deepseeker和合作者發布了新的培訓可靠AI代理的方法:Ragen 人工智能代理年度:仔細研究2025年的期望和現實2025年被許多專家預示為當年的AI代理商(由高級大型語言和多式聯運公司提供支持的AI代理商),來自OpenAI,Anthropic,Google和Google和Deepseek等公司,最終將帶上中心中心中心中心。
DeepSeek的AIS發現了真正的人類慾望 DeepSeek的AIS發現了真正的人類慾望 DeepSeek在AI獎勵模型中的突破性:加強AI推理和響應中國AI初創公司DeepSeek與Tsinghua University合作,在AI研究中取得了重要的里程碑。他們對AI獎勵模型的創新方法有望徹底改變AI系統的學習方式
研究人員以低於50美元的價格開發了OpenAI $ 50“推理”模型的開源競爭對手 研究人員以低於50美元的價格開發了OpenAI $ 50“推理”模型的開源競爭對手 上週五,斯坦福大學和華盛頓大學的AI專家的一份開創性的研究論文襲擊了現場,透露,他們設法開發了一種被稱為S1的AI“推理”模型,以低於50美元的雲計算學分。 S1擁有自己的AI世界,這種啟示正在震撼AI世界
Nhận xét (30)
0/200
JohnRoberts
JohnRoberts 12:09:37 GMT Ngày 18 tháng 4 năm 2025

DeepSeek's new model is shaking things up, but I'm not sure if it's all that. It's interesting how they're focusing on compute at inference, but I'm still waiting to see real-world results. 🤔💻

WalterWhite
WalterWhite 12:09:37 GMT Ngày 18 tháng 4 năm 2025

DeepSeekの新しいモデルは話題になっていますが、正直よくわかりません。推論時の計算に焦点を当てているのは面白いですが、実際の結果を見るまで待ちます。🤔💻

RogerPerez
RogerPerez 12:09:37 GMT Ngày 18 tháng 4 năm 2025

DeepSeek의 새로운 모델이 화제가 되고 있지만, 솔직히 잘 모르겠어요. 추론 시의 계산에 집중하는 건 흥미롭지만, 실제 결과를 보기 전까지는 기다려야 할 것 같아요. 🤔💻

PatrickMartinez
PatrickMartinez 12:09:37 GMT Ngày 18 tháng 4 năm 2025

O novo modelo da DeepSeek está causando um impacto, mas não tenho certeza se é tudo isso. É interessante focar no cálculo durante a inferência, mas ainda estou esperando pelos resultados reais. 🤔💻

ScottPerez
ScottPerez 12:09:37 GMT Ngày 18 tháng 4 năm 2025

El nuevo modelo de DeepSeek está dando que hablar, pero no estoy seguro de que sea para tanto. Es interesante que se enfoquen en el cálculo durante la inferencia, pero aún espero ver resultados reales. 🤔💻

SophiaCampbell
SophiaCampbell 17:57:57 GMT Ngày 18 tháng 4 năm 2025

DeepSeek really shook the AI world with their new model! Nvidia's stock took a hit, but honestly, it's exciting to see such big moves. It's like watching a sci-fi movie unfold in real-time. Can't wait to see where this leads, but more compute at inference? Sounds pricey! 🚀

Quay lại đầu
OR