“ Composo:監視企業的AI應用程序性能”

AI和大型語言模型(LLMs)極具潛力,但說實話,它們有時表現得不太穩定。沒人能確定何時能完全解決所有問題,因此不意外地,新創公司正紛紛投入,協助企業確保其LLM驅動的應用程式能如預期運作。
這就是Composo,一家位於倫敦的新創公司,自認在解決這個問題上具有優勢。他們開發了客製化模型,幫助企業檢查其LLM應用程式的準確性和品質是否達標。
Composo並非此領域的唯一玩家;他們的競爭對手包括Agenta、Freeplay、Humanloop和LangSmith,這些公司都在嘗試提供更好的、基於LLM的應用程式測試方式,取代依賴人工、檢查清單或傳統工具。但Composo表示自己與眾不同,因為它提供了無程式碼選項和API。這意味著更多人可以使用它,不僅限於開發者——領域專家和高階主管也能自行檢查不一致性、品質和準確性。
其運作方式如下:Composo將一個根據人們對AI應用程式期望訓練的獎勵模型,與該應用程式的特定標準結合,然後評分該應用程式的輸出與這些標準的符合程度。例如,若你有一個醫療分診聊天機器人,可以設定客製化的指導方針來監控危急症狀,Composo會告訴你該應用程式遵循這些規則的程度。
他們剛剛推出了Composo Align的公開API,這個API能根據你設定的任何標準來評估LLM應用程式。
這似乎正在產生回報——他們的客戶名單上有Accenture、Palantir和McKinsey等大牌公司,且最近獲得了200萬美元的Pre-seed資金。這在AI世界中,資金通常充裕的環境下可能不算多,但Composo的共同創辦人兼CEO Sebastian Fox表示,他們不需要鉅額資金。「至少在未來三年,我們不預見自己需要募資數億,因為許多人在打造基礎模型,並且做得非常有效率,這不是我們的獨特賣點,」曾在McKinsey擔任顧問的Fox說道。「相反地,每天早晨,若我醒來看到OpenAI在他們的模型上取得重大進展的新聞,這對我的生意是好事。」
有了這筆新資金,Composo計劃增強其工程團隊(由共同創辦人兼CTO、前Graphcore機器學習工程師Luke Markham領導),爭取更多客戶,並加速研發。「今年的重點更多在於將我們現在擁有的技術擴展到這些公司,」Fox說。
這輪種子融資由英國AI Pre-seed基金Twin Path Ventures領投,JVH Ventures和EWOR也參與其中。EWOR此前已通過其加速器計畫支持Composo。「Twin Path Ventures」的發言人表示:「Composo正在解決企業AI採用中的關鍵瓶頸。」
據Fox表示,這個瓶頸對整個AI領域、特別是對企業來說至關重要。「人們已經度過了興奮的炒作階段,現在開始思考,『嗯,實際上,這對我目前的業務真的有什麼改變嗎?因為固定,因為它不夠可靠,也不夠一致。即使它夠好,你也無法證明它有多好,』」他解釋道。
這可能使Composo對想使用AI但擔心風險的公司極具價值。因此,他們雖不限於特定產業,但仍專注於合規性、法律、醫療保健和安全領域。
談到他們的獨特之處,Fox表示他們的成果不易複製。「這涉及模型的架構以及我們用來訓練的資料,」他說,並指出Composo Align是在「大量專家評估資料集」上訓練的。
當然,科技巨頭可能會投入資源試圖解決這個問題,但Composo認為自己已領先一步。「另一個優勢是我們隨著時間累積的資料,」Fox談到他們如何建立評估偏好。
由於它能根據靈活的標準集評估應用程式,Composo也認為自己比那些方法較為僵化的競爭對手更能應對agentic AI的興起。「在我看來,我們絕對還沒到代理(agents)能良好運作的階段,而這正是我們試圖幫助解決的問題,」Fox說。
TechCrunch有一份專注於AI的電子報!請在此訂閱,每週三送達您的收件匣。
相關文章
Google 相片運用人工智慧,讓《窈窕淑女》中那座標誌性的衣櫥栩栩如生
Google Photos 於週三宣布了一項由人工智慧驅動的新功能,這項功能將很快能將您衣物的照片轉化為數位衣櫥,讓您能創造嶄新的穿搭組合,甚至進行虛擬試穿。這個概念顯然是受到電影《窈窕淑女》中 Cher 那座標誌性的虛擬衣櫥啟發,她在片中可以瀏覽眾多服裝組合,同時決定該穿什麼。Google表示,這項功能將運用AI技術,根據您Google相簿圖庫中的衣物,自動建立您的衣櫥數位副本。在應用程式內,您
Notion 將其工作區轉變為人工智慧代理的樞紐
生產力軟體公司 Notion 正邁入「代理時代」。在週三的直播產品發布會上,以協作式筆記應用程式聞名的 Notion 揭曉了一套全新的開發者平台,該平台不僅擴展了其自訂 AI 代理程式的能力,還能與外部代理程式串接,並讓團隊建立自動化多步驟工作流程,從任何資料庫中擷取資料。透過建立一個「協調層」——一個能在多個工具和資料來源之間協調 AI 工作的系統——Notion 將自身定位為不僅僅是一款具備
ElevenLabs 宣布 BlackRock、傑米·福克斯與伊娃·朗格莉亞成為新投資人
語音人工智慧公司 ElevenLabs 已公布其 5 億美元 D 輪融資的更多投資者名單,該輪融資最初於二月宣布。 投資者陣容包括黑石集團(BlackRock)、威靈頓管理(Wellington)、D.E. Shaw及施羅德(Schroders)等機構投資者;NVIDIA、Salesforce、桑坦德銀行(Santander)、KPN及德國電信(Deutsche Telekom)等企業;以及傑米·
相關專題推薦
評論 (56)
0/500
用AI去监控AI应用,这做法挺有趣的,有点「套娃」的味道。不过这类服务确实有需求,现在模型输出的稳定性确实是个痛点,尤其是对企业级应用来说。我们团队之前试过几个大模型API,偶尔抽风起来真的让人头疼,有个监测工具至少能提前预警吧。😅
This article on Composo is pretty eye-opening! It's wild how AI apps can be so powerful yet so unpredictable. Startups tackling LLM performance issues is a smart move—businesses need that reliability. Curious to see how this tech evolves! 😎
This article on Composo is pretty cool! It's wild how AI apps can be so powerful yet so unpredictable. Nice to see startups tackling the performance monitoring side—hope it makes LLMs more reliable for businesses! 😎
This article on Composo is super insightful! It’s wild how LLMs are so powerful yet so unpredictable. Excited to see startups tackling this to make AI apps more reliable! 😎
This article on Composo is pretty eye-opening! It's wild how AI apps can be so powerful yet so unpredictable. I wonder how startups like this will tackle the chaos of LLMs in real-world use. 🤔 Anyone else curious about the future of AI monitoring?

AI和大型語言模型(LLMs)極具潛力,但說實話,它們有時表現得不太穩定。沒人能確定何時能完全解決所有問題,因此不意外地,新創公司正紛紛投入,協助企業確保其LLM驅動的應用程式能如預期運作。
這就是Composo,一家位於倫敦的新創公司,自認在解決這個問題上具有優勢。他們開發了客製化模型,幫助企業檢查其LLM應用程式的準確性和品質是否達標。
Composo並非此領域的唯一玩家;他們的競爭對手包括Agenta、Freeplay、Humanloop和LangSmith,這些公司都在嘗試提供更好的、基於LLM的應用程式測試方式,取代依賴人工、檢查清單或傳統工具。但Composo表示自己與眾不同,因為它提供了無程式碼選項和API。這意味著更多人可以使用它,不僅限於開發者——領域專家和高階主管也能自行檢查不一致性、品質和準確性。
其運作方式如下:Composo將一個根據人們對AI應用程式期望訓練的獎勵模型,與該應用程式的特定標準結合,然後評分該應用程式的輸出與這些標準的符合程度。例如,若你有一個醫療分診聊天機器人,可以設定客製化的指導方針來監控危急症狀,Composo會告訴你該應用程式遵循這些規則的程度。
他們剛剛推出了Composo Align的公開API,這個API能根據你設定的任何標準來評估LLM應用程式。
這似乎正在產生回報——他們的客戶名單上有Accenture、Palantir和McKinsey等大牌公司,且最近獲得了200萬美元的Pre-seed資金。這在AI世界中,資金通常充裕的環境下可能不算多,但Composo的共同創辦人兼CEO Sebastian Fox表示,他們不需要鉅額資金。「至少在未來三年,我們不預見自己需要募資數億,因為許多人在打造基礎模型,並且做得非常有效率,這不是我們的獨特賣點,」曾在McKinsey擔任顧問的Fox說道。「相反地,每天早晨,若我醒來看到OpenAI在他們的模型上取得重大進展的新聞,這對我的生意是好事。」
有了這筆新資金,Composo計劃增強其工程團隊(由共同創辦人兼CTO、前Graphcore機器學習工程師Luke Markham領導),爭取更多客戶,並加速研發。「今年的重點更多在於將我們現在擁有的技術擴展到這些公司,」Fox說。
這輪種子融資由英國AI Pre-seed基金Twin Path Ventures領投,JVH Ventures和EWOR也參與其中。EWOR此前已通過其加速器計畫支持Composo。「Twin Path Ventures」的發言人表示:「Composo正在解決企業AI採用中的關鍵瓶頸。」
據Fox表示,這個瓶頸對整個AI領域、特別是對企業來說至關重要。「人們已經度過了興奮的炒作階段,現在開始思考,『嗯,實際上,這對我目前的業務真的有什麼改變嗎?因為固定,因為它不夠可靠,也不夠一致。即使它夠好,你也無法證明它有多好,』」他解釋道。
這可能使Composo對想使用AI但擔心風險的公司極具價值。因此,他們雖不限於特定產業,但仍專注於合規性、法律、醫療保健和安全領域。
談到他們的獨特之處,Fox表示他們的成果不易複製。「這涉及模型的架構以及我們用來訓練的資料,」他說,並指出Composo Align是在「大量專家評估資料集」上訓練的。
當然,科技巨頭可能會投入資源試圖解決這個問題,但Composo認為自己已領先一步。「另一個優勢是我們隨著時間累積的資料,」Fox談到他們如何建立評估偏好。
由於它能根據靈活的標準集評估應用程式,Composo也認為自己比那些方法較為僵化的競爭對手更能應對agentic AI的興起。「在我看來,我們絕對還沒到代理(agents)能良好運作的階段,而這正是我們試圖幫助解決的問題,」Fox說。
TechCrunch有一份專注於AI的電子報!請在此訂閱,每週三送達您的收件匣。
Google 相片運用人工智慧,讓《窈窕淑女》中那座標誌性的衣櫥栩栩如生
Google Photos 於週三宣布了一項由人工智慧驅動的新功能,這項功能將很快能將您衣物的照片轉化為數位衣櫥,讓您能創造嶄新的穿搭組合,甚至進行虛擬試穿。這個概念顯然是受到電影《窈窕淑女》中 Cher 那座標誌性的虛擬衣櫥啟發,她在片中可以瀏覽眾多服裝組合,同時決定該穿什麼。Google表示,這項功能將運用AI技術,根據您Google相簿圖庫中的衣物,自動建立您的衣櫥數位副本。在應用程式內,您
Notion 將其工作區轉變為人工智慧代理的樞紐
生產力軟體公司 Notion 正邁入「代理時代」。在週三的直播產品發布會上,以協作式筆記應用程式聞名的 Notion 揭曉了一套全新的開發者平台,該平台不僅擴展了其自訂 AI 代理程式的能力,還能與外部代理程式串接,並讓團隊建立自動化多步驟工作流程,從任何資料庫中擷取資料。透過建立一個「協調層」——一個能在多個工具和資料來源之間協調 AI 工作的系統——Notion 將自身定位為不僅僅是一款具備
ElevenLabs 宣布 BlackRock、傑米·福克斯與伊娃·朗格莉亞成為新投資人
語音人工智慧公司 ElevenLabs 已公布其 5 億美元 D 輪融資的更多投資者名單,該輪融資最初於二月宣布。 投資者陣容包括黑石集團(BlackRock)、威靈頓管理(Wellington)、D.E. Shaw及施羅德(Schroders)等機構投資者;NVIDIA、Salesforce、桑坦德銀行(Santander)、KPN及德國電信(Deutsche Telekom)等企業;以及傑米·
用AI去监控AI应用,这做法挺有趣的,有点「套娃」的味道。不过这类服务确实有需求,现在模型输出的稳定性确实是个痛点,尤其是对企业级应用来说。我们团队之前试过几个大模型API,偶尔抽风起来真的让人头疼,有个监测工具至少能提前预警吧。😅
This article on Composo is pretty eye-opening! It's wild how AI apps can be so powerful yet so unpredictable. Startups tackling LLM performance issues is a smart move—businesses need that reliability. Curious to see how this tech evolves! 😎
This article on Composo is pretty cool! It's wild how AI apps can be so powerful yet so unpredictable. Nice to see startups tackling the performance monitoring side—hope it makes LLMs more reliable for businesses! 😎
This article on Composo is super insightful! It’s wild how LLMs are so powerful yet so unpredictable. Excited to see startups tackling this to make AI apps more reliable! 😎
This article on Composo is pretty eye-opening! It's wild how AI apps can be so powerful yet so unpredictable. I wonder how startups like this will tackle the chaos of LLMs in real-world use. 🤔 Anyone else curious about the future of AI monitoring?





首頁






