“ Composo:监视企业的AI应用程序性能”

AI和大型语言模型(LLMs)前景广阔,但说实话——它们有时表现得并不稳定。没人能确定何时能彻底解决所有问题,所以不意外的是,初创公司正蜂拥而至,帮助企业确保他们的LLM驱动的应用能真正达到预期效果。
Composo是一家总部位于伦敦的初创公司,认为自己在解决这个问题上占据优势。他们开发了定制模型,帮助企业检查其LLM应用的准确性和是否达标。
Composo在这个领域并非独行;他们面对的竞争对手包括Agenta、Freeplay、Humanloop和LangSmith,这些公司都试图提供一种更好的、基于LLM的应用测试方式,取代人工、清单或传统工具。但Composo表示自己与众不同,因为它同时提供无代码选项和API。这意味着更多人可以使用它,不仅仅是开发者——领域专家和高管也能参与进来,亲自检查不一致性、质量和准确性。
其工作原理如下:Composo将一个根据人们对AI应用期望训练的奖励模型与特定应用的标准相结合。然后,它会评分评估应用输出与这些标准的匹配程度。例如,如果你有一个医疗分诊聊天机器人,你可以设置自定义指南来监控关键症状,Composo会告诉你应用遵循这些规则的表现如何。
他们刚刚推出了Composo Align的公共API,可以根据你设定的任何标准评估LLM应用。
这一努力似乎正在取得回报——他们的客户名单上有Accenture、Palantir和McKinsey等大牌公司,并且他们最近获得了200万美元的种子前轮融资。这在AI世界里听起来可能不多,因为这个领域通常资金充裕,但Composo的联合创始人兼CEO Sebastian Fox表示,他们不需要太多资金。“至少在未来三年,我们不打算筹集数亿美元,因为有很多人已经在非常高效地构建基础模型,而这不是我们的独特卖点,”曾在McKinsey担任顾问的Fox说。“相反,每天早上,如果我醒来看到OpenAI在他们的模型上取得了巨大进展的新闻,对我的生意来说是好事。”
有了新资金,Composo计划加强其工程团队(由联合创始人兼CTO、前Graphcore机器学习工程师Luke Markham领导),吸引更多客户,并加大研发力度。“今年的重点更多是扩展我们现在拥有的技术,覆盖更多公司,”Fox说。
种子轮融资由英国AI种子基金Twin Path Ventures领投,JVH Ventures和EWOR也参与其中。EWOR此前已通过其加速器计划支持了Composo。“Composo正在解决企业AI采用中的一个关键瓶颈,”Twin Path的发言人说。
据Fox介绍,这个瓶颈对整个AI领域,尤其是企业来说,是个大问题。“人们已经过了兴奋的炒作阶段,现在开始思考,‘实际上,这真的会改变我业务的现状吗?因为它不够可靠,也不够一致。即使它做到了,你也无法向我证明它有多好,’”他解释道。
这可能使Composo对希望使用AI但担心风险的公司极具价值。因此,他们虽然不局限于特定行业,但仍专注于合规、法律、医疗和安全领域。
至于他们的独特之处,Fox表示他们的成果不易复制。“模型的架构和我们用来训练的数据都很关键,”他说,并指出Composo Align是在“大量专家评估数据集”上训练的。
当然,科技巨头可能会利用他们的资源试图解决这个问题,但Composo认为自己已占据先机。“另一个优势是我们随着时间积累的数据,”Fox谈到他们如何建立评估偏好时说。
因为它能根据灵活的标准评估应用,Composo还认为自己比那些方法更固定的竞争对手更适合应对代理AI的兴起。“在我看来,我们还远未达到代理运行良好的阶段,而这正是我们试图帮助解决的问题,”Fox说。
TechCrunch有一个专注于AI的时事通讯!在此注册,每周三在你的收件箱中获取。
相关文章
"Dot AI伴侣应用程序宣布关闭,停止个性化服务
Dot 是一款人工智能伴侣应用程序,旨在充当个人朋友和知己,根据其开发者周五发布的公告,Dot 将停止运营。Dot背后的初创公司New Computer在其网站上表示,该服务将持续到10月5日,以便用户有时间导出个人数据。今年早些时候,联合创始人山姆-惠特莫尔(Sam Whitmore)和前苹果设计专家杰森-袁(Jason Yuan)合作推出了这款应用程序。Dot 进入了日益受到关注的情感人工智能
Anthropic 解决了人工智能生成盗版图书的法律案件
Anthropic公司与美国作家达成了一项重要的版权纠纷解决方案,同意拟议的集体诉讼和解,避免了可能代价高昂的审判。本周二在法庭文件中提交的这份协议源于对这家人工智能公司使用盗版文学作品训练克劳德模型的指控。尽管此案源于作家安德烈娅-巴茨(Andrea Bartz)、查尔斯-格雷伯(Charles Graeber)和柯克-华莱士-约翰逊(Kirk Wallace Johnson)的指控,但和解细节
Figma 向所有用户发布人工智能驱动的应用程序生成工具
Figma Make 是今年早些时候推出的创新型提示到应用开发平台,现已正式退出测试版,并向所有用户推出。这一开创性的工具加入了人工智能编码助手的行列,如谷歌的 Gemini Code Assist 和微软的 GitHub Copilot,使创作者能够将自然语言描述转化为功能原型和应用程序,而无需传统的编程专业知识。Figma Make 最初在测试阶段只对高级 "全席 "用户开放,现在对所有账户类
评论 (55)
0/200
AlbertGarcía
2025-08-17 17:00:59
This article on Composo is pretty eye-opening! It's wild how AI apps can be so powerful yet so unpredictable. Startups tackling LLM performance issues is a smart move—businesses need that reliability. Curious to see how this tech evolves! 😎
0
DouglasMartínez
2025-08-16 15:00:59
This article on Composo is pretty cool! It's wild how AI apps can be so powerful yet so unpredictable. Nice to see startups tackling the performance monitoring side—hope it makes LLMs more reliable for businesses! 😎
0
JackCarter
2025-08-04 14:48:52
This article on Composo is super insightful! It’s wild how LLMs are so powerful yet so unpredictable. Excited to see startups tackling this to make AI apps more reliable! 😎
0
JohnTaylor
2025-07-28 09:19:30
This article on Composo is pretty eye-opening! It's wild how AI apps can be so powerful yet so unpredictable. I wonder how startups like this will tackle the chaos of LLMs in real-world use. 🤔 Anyone else curious about the future of AI monitoring?
0
JoseJackson
2025-07-28 09:19:05
This article on Composo is pretty eye-opening! It's cool to see startups tackling the messy side of AI apps. I wonder how they handle the unpredictability of LLMs in real-time enterprise settings. 🤔 Anyone tried their tools yet?
0
EmmaJohnson
2025-04-20 18:49:17
Composoのおかげで、我々の企業のAIアプリのパフォーマンスを監視するのが簡単になりました。これはまるで全てをチェックしてくれる個人アシスタントを持つようなものです。唯一の問題は、時々インターフェースが遅くなることです。全体的に、LLMを使うビジネスには必須ですね!🤓
0
AI和大型语言模型(LLMs)前景广阔,但说实话——它们有时表现得并不稳定。没人能确定何时能彻底解决所有问题,所以不意外的是,初创公司正蜂拥而至,帮助企业确保他们的LLM驱动的应用能真正达到预期效果。
Composo是一家总部位于伦敦的初创公司,认为自己在解决这个问题上占据优势。他们开发了定制模型,帮助企业检查其LLM应用的准确性和是否达标。
Composo在这个领域并非独行;他们面对的竞争对手包括Agenta、Freeplay、Humanloop和LangSmith,这些公司都试图提供一种更好的、基于LLM的应用测试方式,取代人工、清单或传统工具。但Composo表示自己与众不同,因为它同时提供无代码选项和API。这意味着更多人可以使用它,不仅仅是开发者——领域专家和高管也能参与进来,亲自检查不一致性、质量和准确性。
其工作原理如下:Composo将一个根据人们对AI应用期望训练的奖励模型与特定应用的标准相结合。然后,它会评分评估应用输出与这些标准的匹配程度。例如,如果你有一个医疗分诊聊天机器人,你可以设置自定义指南来监控关键症状,Composo会告诉你应用遵循这些规则的表现如何。
他们刚刚推出了Composo Align的公共API,可以根据你设定的任何标准评估LLM应用。
这一努力似乎正在取得回报——他们的客户名单上有Accenture、Palantir和McKinsey等大牌公司,并且他们最近获得了200万美元的种子前轮融资。这在AI世界里听起来可能不多,因为这个领域通常资金充裕,但Composo的联合创始人兼CEO Sebastian Fox表示,他们不需要太多资金。“至少在未来三年,我们不打算筹集数亿美元,因为有很多人已经在非常高效地构建基础模型,而这不是我们的独特卖点,”曾在McKinsey担任顾问的Fox说。“相反,每天早上,如果我醒来看到OpenAI在他们的模型上取得了巨大进展的新闻,对我的生意来说是好事。”
有了新资金,Composo计划加强其工程团队(由联合创始人兼CTO、前Graphcore机器学习工程师Luke Markham领导),吸引更多客户,并加大研发力度。“今年的重点更多是扩展我们现在拥有的技术,覆盖更多公司,”Fox说。
种子轮融资由英国AI种子基金Twin Path Ventures领投,JVH Ventures和EWOR也参与其中。EWOR此前已通过其加速器计划支持了Composo。“Composo正在解决企业AI采用中的一个关键瓶颈,”Twin Path的发言人说。
据Fox介绍,这个瓶颈对整个AI领域,尤其是企业来说,是个大问题。“人们已经过了兴奋的炒作阶段,现在开始思考,‘实际上,这真的会改变我业务的现状吗?因为它不够可靠,也不够一致。即使它做到了,你也无法向我证明它有多好,’”他解释道。
这可能使Composo对希望使用AI但担心风险的公司极具价值。因此,他们虽然不局限于特定行业,但仍专注于合规、法律、医疗和安全领域。
至于他们的独特之处,Fox表示他们的成果不易复制。“模型的架构和我们用来训练的数据都很关键,”他说,并指出Composo Align是在“大量专家评估数据集”上训练的。
当然,科技巨头可能会利用他们的资源试图解决这个问题,但Composo认为自己已占据先机。“另一个优势是我们随着时间积累的数据,”Fox谈到他们如何建立评估偏好时说。
因为它能根据灵活的标准评估应用,Composo还认为自己比那些方法更固定的竞争对手更适合应对代理AI的兴起。“在我看来,我们还远未达到代理运行良好的阶段,而这正是我们试图帮助解决的问题,”Fox说。
TechCrunch有一个专注于AI的时事通讯!在此注册,每周三在你的收件箱中获取。



This article on Composo is pretty eye-opening! It's wild how AI apps can be so powerful yet so unpredictable. Startups tackling LLM performance issues is a smart move—businesses need that reliability. Curious to see how this tech evolves! 😎




This article on Composo is pretty cool! It's wild how AI apps can be so powerful yet so unpredictable. Nice to see startups tackling the performance monitoring side—hope it makes LLMs more reliable for businesses! 😎




This article on Composo is super insightful! It’s wild how LLMs are so powerful yet so unpredictable. Excited to see startups tackling this to make AI apps more reliable! 😎




This article on Composo is pretty eye-opening! It's wild how AI apps can be so powerful yet so unpredictable. I wonder how startups like this will tackle the chaos of LLMs in real-world use. 🤔 Anyone else curious about the future of AI monitoring?




This article on Composo is pretty eye-opening! It's cool to see startups tackling the messy side of AI apps. I wonder how they handle the unpredictability of LLMs in real-time enterprise settings. 🤔 Anyone tried their tools yet?




Composoのおかげで、我々の企業のAIアプリのパフォーマンスを監視するのが簡単になりました。これはまるで全てをチェックしてくれる個人アシスタントを持つようなものです。唯一の問題は、時々インターフェースが遅くなることです。全体的に、LLMを使うビジネスには必須ですね!🤓












