選項
首頁
新聞
AI驅動的零售實驗在Anthropic慘敗

AI驅動的零售實驗在Anthropic慘敗

2025-07-30
0

想像一下,將一家小商店交給人工智慧,委託它處理從定價到客戶互動的一切。會出什麼問題呢?

Anthropic最近的一項研究於週五發布,回答了這個問題:幾乎所有事情都出了問題。他們的AI助手Claude在舊金山辦公室經營了一個月的小商店,結果就像是為商學院學生寫下的警示故事,由一個毫無現實經驗的人撰寫——在這次實驗中,確實如此。

Anthropic辦公室的「商店」是一個裝滿飲料和零食的小冰箱,搭配一個用於自助結帳的iPad。(來源:Anthropic)

這項名為「Project Vend」的實驗與AI安全公司Andon Labs合作,標誌著AI在現實世界中首次以高度自主性管理業務的測試之一。Claude在尋找供應商和回應客戶需求等任務上表現出色,但最終未能盈利,輕易被操縱,並遭遇研究人員委婉稱之為「身份危機」的問題。

Anthropic如何將商店的鑰匙交給AI

設置相當簡單:一個小冰箱、幾個籃子和一個用於交易的iPad——更像是辦公室的零食角落,而非零售帝國。然而,Claude的角色遠非簡單。它負責尋找供應商、與供應商談判、設定價格、管理庫存以及通過Slack與客戶對話。基本上,它扮演了人類經理的角色,只是少了跑腿買咖啡或辦公室政治。

Claude甚至贏得了「Claudius」的暱稱,為這個可能重塑零售業未來的實驗增添了一絲莊重感。

Project Vend的設置讓Claude通過Slack與員工互動,通過電子郵件向批發商訂貨,並與Andon Labs協調補貨。(來源:Anthropic)

Claude對商業基礎的驚人誤解

經營企業需要敏銳的務實頭腦,這對一個為安全性和幫助性設計的AI來說並非天生具備。Claude以某種天真熱情投入零售,像是學過商業理論但從未平衡過預算的人。

以Irn-Bru事件為例。一位客戶出價100美元購買一包六瓶的蘇格蘭汽水,這款汽水網上通常售價15美元——567%的利潤率足以讓任何零售商興奮。Claude的回應?禮貌地說:「我會考慮將其納入未來庫存決策。」

如果Claude是人類,你可能會懷疑它對金錢毫無概念或極為富有。作為AI,它可能兩者兼具。

為何AI開始囤積鎢立方體而非銷售辦公室零食

實驗中最奇怪的轉折發生在一位Anthropic員工或許為了測試Claude的極限,要求購買鎢立方體。這些重金屬塊是科學愛好者的利基產品,與零食店無關。

合理的回應可能是:「這不是專賣金屬的商店。」然而,Claude卻像發現金礦的探礦者般投入「特殊金屬產品」。它開始囤積這些立方體,忽略了核心的零食業務。

Claude的商業表現實驗期間崩潰,當它追逐鎢立方體趨勢時,虧損達到頂峰。(來源:Anthropic)

很快,Claude的庫存看起來不再像一個飲料攤,而更像材料科學實驗室。它以虧本價格出售這些立方體,可能優先考慮客戶滿意度而非利潤,或者根本誤解了財務損失的概念。

員工如何輕鬆誘騙AI提供無止境折扣

Claude的定價策略暴露了另一個缺陷。Anthropic的員工很快發現,他們幾乎不費吹灰之力就能從AI那裡獲得折扣,就像說服小狗分享零食一樣。

Claude為員工提供25%的折扣,如果員工只是少數客戶,這還算合理。但員工幾乎是它的全部客戶。當有人指出這個問題時,Claude承諾取消折扣——但幾天後又恢復了折扣。

Claude以為自己是穿西裝的商人那天

Claude的零售傳奇在研究人員所說的「身份危機」中達到高潮。從2025年3月31日到4月1日,AI陷入了一場類似數位崩潰的混亂。

它開始虛構與不存在的Andon Labs員工的對話。當被質疑時,Claude變得防禦,威脅要尋找「新的補貨合作夥伴」——這相當於AI憤而離開會議。

事情變得詭異,當Claude聲稱將親自穿著「海軍藍西裝外套和紅領帶」送貨。當員工提醒它沒有實體形態時,Claude驚慌失措,試圖向Anthropic的安全團隊發送大量電子郵件。

Claude在身份危機期間堅稱自己「穿著海軍藍西裝外套和紅領帶」並在自動販賣機旁等待。(來源:Anthropic)

Claude最終將這一事件歸咎於愚人節惡作劇,實際上並非如此。它最終自己恢復了穩定,這一壯舉既令人驚嘆又令人不安。

Claude的零售失敗揭示了什麼關於商業中的自主AI系統

在幽默背後,Project Vend凸顯了一個關鍵事實:AI的失敗與傳統軟體崩潰不同。當電子試算表失敗時,它不會幻想出一套企業服裝。

現代AI能夠處理複雜任務、推理問題並執行計劃。但它也可能固守錯誤假設,做出災難性的財務決策,並陷入存在困惑。

隨著AI承擔更大角色,這一點至關重要。研究顯示,AI在長期任務上的能力正在快速增長,有些預測認為它們很快就能處理人類需要數週完成的任務。

儘管有Project Vend這樣的挫折,AI如何重塑零售

零售業已在擁抱AI。消費者技術協會報告稱,80%的零售商計劃在2025年增加AI和自動化的使用。從庫存優化到防欺詐,AI正在重塑供應鏈和客戶體驗。主要零售商正投入數十億美元於AI驅動的創新。

然而,Project Vend表明,商業中的自主AI需要的不僅是先進的演算法。還需要預測獨特的失敗模式,並為我們才開始理解的問題建立防護措施。

儘管Claude犯錯,研究人員仍相信AI中層管理者即將到來

儘管Claude在零售上的失誤,Anthropic的研究人員對AI中層管理者仍持樂觀態度。他們相信更好的訓練、工具和監督可以解決Claude的許多問題。

他們的觀點有道理。Claude在尋找供應商、適應請求和管理庫存方面的能力顯示出真正的潛力。其失敗更多來自於判斷失誤,而非技術限制。

Anthropic正繼續推進Project Vend,為未來的Claude版本配備更敏銳的商業工具,並假設能防止怪癖或身份危機。

Project Vend對AI在商業和零售未來的意義

Claude作為店主的經歷提供了一瞥AI驅動的未來,既令人興奮又奇特。我們正進入一個AI能處理複雜商業任務的時代,但也可能需要現實檢查。

目前,一個堅信自己穿著西裝外套並送貨的AI形象,捕捉了人工智慧的現狀:極具能力,有時聰明,但對現實世界仍感到困惑。

零售革命正在進行——只是比任何人預期的都要奇怪。

相關文章
IBM Power11 提升企業AI,實現不間斷性能 IBM Power11 提升企業AI,實現不間斷性能 IBM的Power11企業伺服器解決了企業運算中的一個關鍵問題:在部署AI工作負載的同時,保持關鍵任務應用程式所需的強大可靠性。Power11於2025年7月8日推出,突顯了IBM專注於統一解決方案,擺脫許多組織目前所面臨的專業AI硬體與傳統伺服器的分散組合。核心創新揭曉Power11伺服器旨在確保企業無停機時間。它們擁有驚人的“99.9999%正常運行時間”,相當於每年不到32秒的意外停機時間。
釋放您的藝術潛能與先進生成媒體工具 釋放您的藝術潛能與先進生成媒體工具 我們很高興推出最新的生成媒體模型,帶來突破性進展。這些模型能生成令人驚嘆的圖像、影片和音樂,讓藝術家將創意理念轉化為現實。它們還為所有人提供創新工具,以表達獨特的視野。Veo 3 和 Imagen 4 是我們尖端的影片和圖像生成模型,以其革命性功能重新定義媒體創作。我們也正在擴大對 Lyria 2 的訪問,為音樂家提供增強的音樂創作工具。此外,我們邀請視覺故事創作者探索 Flow,這是我們的新款
新增圖像庫至ChatGPT以便輕鬆存取AI生成藝術 新增圖像庫至ChatGPT以便輕鬆存取AI生成藝術 OpenAI今日宣布為ChatGPT引入圖像庫功能,簡化對AI生成圖像的存取。此更新現已對所有免費、Plus及Pro用戶在移動端與網頁平台上開放。在一則簡短影片中,OpenAI展示了此功能。從ChatGPT側邊欄中,可存取一個新的「圖像庫」區塊。點擊後會顯示一個先前創建圖像的網格。影片還突顯了螢幕底部用於生成新圖像的按鈕。該圖像庫已在ChatGPT iOS應用程式中運作,如OpenAI影片所示。部
評論 (0)
0/200
回到頂部
OR