人工智能优化通往人工客服专员的途径
最新研究表明,开源的ChatGPT式人工智能系统有望通过自然语言将呼叫者与呼叫中心中的合适人员直接对接,从而规避了那些令人沮丧且频繁变更的菜单系统——这些系统常被认为是故意设置的障碍。
联系真人客服常是令人沮丧的煎熬——呼叫者必须逐项筛选多选菜单,却往往无法确定哪个选项契合自身需求。当所有选项都不适用时,精明的用户常会摸索出各种技巧和变通方案,以期绕过"选项地狱"找到人工客服。对许多人而言,这种体验充满对抗性且极不友好。
呼叫中心成为人工智能增强或替代的首要目标并不令人意外。尽管部分专家呼吁谨慎行事,但呼叫中心的自动化仍是科技新闻的低垂果实,也是人工智能驱动创新的潜力领域——它能带来异常快速的投资回报。
封闭体系
然而开源原则与公开数据在此领域鲜少应用,其背后存在合理原因。企业自动化客户响应系统时,往往缺乏动力分享支撑其竞争优势的数据、方法论或企业知识产权。
共享这些资源将削弱其市场优势。更关键的是,由于人工智能系统可能泄露敏感信息,此举还存在重大法律风险。
这导致多家资金雄厚的企业各自独立开发人工智能呼叫中心系统,不可避免地造成重复投入。同时,为满足日益增长的人工智能客户服务需求,B2B初创企业与成熟玩家纷纷涌入市场。

PolyAI语音助手为虚构企业"奥古斯塔草坪护理"发起客服呼叫,依托海量训练对话在现有呼叫中心架构中实现自动化响应。来源
此外,消除复杂呼叫中心菜单带来的挫败感也推动了相关研究。但多数成果并未发布在Arxiv等开放平台,这反映出交互式语音应答(IVR)开发通常具有专有属性。
因此,与客服人工智能自动化相关的研究、数据及商业情报均被严密保护。即便在法律上安全可靠的数据环境下使用此类系统是可行的(但这本身存疑),现有的开源替代方案也寥寥无几。
本地呼叫
在此背景下,哥伦比亚学者发表的新论文成为推动IVR开发走出企业壁垒的可喜尝试。 这项题为《超越IVR按键音:基于LLM的客户意图路由》的精炼研究,出自波哥大卡尔达斯区立大学研究员之手。该项目宣称是首个采用大型语言模型(LLM)构建客户意图路由(CIR)系统功能框架的非专有项目。
该项目摒弃真实通话数据和专有菜单结构,通过三种AI模型从零构建所有组件:其一设计逼真的呼叫中心菜单,其二模拟数百条用户投诉,其三作为聊天机器人将查询精准路由至目标部门。
最终构建出一个完全合成的测试环境,包含一家虚构电信公司及920条独特用户查询。该架构使实验得以在规避法律风险的前提下,探究当前AI对模糊非结构化语音的理解能力及其引导来电者的精准度。
测试表明,该系统能以高达89.13%的准确率将自由形式的投诉精准匹配至正确处理渠道,尤其当提供"扁平化"菜单选项而非详细描述时表现更佳。
研究还发现,当呼叫者使用口语化或多样化语言时,AI的错误率会上升。但部分失误并非源于AI理解偏差,而是电话菜单本身存在混淆性问题。
![作为新项目的一部分,分享的客户互动实例。[来源] https://figshare.com/articles/dataset/Beyond_IVR_Touch-Tones_Customer_Intent_Routing_using_LLMs/30118690](https://img.xix.ai/uploads/61/69023b8fbf62b.webp)
新项目中分享的客户交互实例。来源
该项目数据已向公众开放。
方法
三阶段方法首先由模型为虚拟电信公司创建详细电话菜单。第二个模型生成独特呼叫者语音——既有直白表述,也有改写或口语化表达——以模拟真实对话模式。共生成920个语音样本。
第三模型仅凭来电者语音信息及菜单版本,负责将呼叫者准确转接至对应部门。该框架使实验完全可复现,无需真实通话数据或暴露客户信息。
![为三方方案选定的三个系统。[来源] https://arxiv.org/pdf/2510.21715](https://img.xix.ai/uploads/87/69023b91dcc46.webp)
三方方案所选用的三套系统。来源
所用模型分别为gpt-3.5-turbo、gpt-4o-mini和gpt-4.1-mini。
为模拟真实客服场景,需从零构建复杂电话菜单。因缺乏相关数据集,通过提示词引导gpt-3.5-turbo模型为虚构电信运营商生成完整的多分支结构。
每个分支代表计费、技术支持、账户管理、新服务等业务领域,并配备真实的子选项和不同层级深度。为测试创建了两种菜单版本:模拟人类可读格式的纯文本层级结构,以及包含对应按键序列的端点列表。
这使得我们能够同时测试详细版和简化版的转接问题:

向AI提供两种电话菜单版本:详细文本层级结构与简化版直接菜单选项列表,以对比两种格式引导呼叫者准确接入目标服务的效能。
为生成测试呼叫者语音,第二个语言模型生成原始投诉或请求语料,每个菜单端点对应十条独特示例。
每条消息随后被改写成多种变体,以反映真实用户表达问题的多样化方式,包括长度、语气变化,甚至包含细微错误或填充词。
最初的920条消息经过精心设计,旨在测试系统的准确性并模拟自然对话的不可预测性。
在第三阶段,通过两种不同的IVR呈现格式,测试了最终模型将每条消息映射到正确菜单目的地的能力。
第一种格式下,AI获得完整的电话树描述性框架;第二种格式下,AI仅看到最终目的地列表及其按键序列。
此举旨在验证简化菜单能否提升模型路由通话的效率。两种情况下系统均采用逐条消息处理模式,并被要求仅返回路径(不含额外文本),以实现自动化评分。
隔离机制
为防止测试结果交叉污染,各模型均处于隔离状态。首个模型负责起草电话菜单,但最终版本经人工调整以确保其他系统无法预知。
呼叫者消息由gpt-4o-mini独立生成,仅使用终端名称且无法访问菜单结构。负责路由的gpt-4.1-mini仅能访问菜单文本和传入消息,不参与消息创建。
评估指标
采用两项标准指标评估路由系统性能:准确率(即模型提供完全正确路径的案例百分比,例如1-2-3)。同时生成混淆矩阵*以定位错误源头。评估在Python环境中通过pandas和scikit-learn库完成。
结果
测试表明模型准确率显著受菜单呈现形式影响:采用扁平化菜单路径列表时,系统在简单数据集上达到89.13%准确率;而使用完整描述性菜单时准确率仅为81.30%。

第三个模型(LLM3)在不同提示格式和数据集类型下的路径准确率显示:扁平化菜单路径始终优于分层描述,而使用转述或非正式语言输入时准确率略有下降。
在规模更大、语言多样性更强的数据集上,该趋势持续显现:扁平化版本再次表现更优,准确率达86.52%,而描述性格式仅为77.07%。
论文指出这些结果表明,相比冗长的分层描述,更简洁的列表式提示能帮助模型更可靠地匹配查询。
当引入措辞转换和非正式呼叫者消息时,准确率也略有下降,表明多样性虽增强了真实感,却也增加了分类难度。
论文总结道:
"我们的结果表明,与冗长的菜单描述(准确率低至77.07%)相比,当提供扁平化的IVR路径时(准确率高达89.13%),LLM能更准确地路由客户意图。这表明简洁的结构化提示可减少噪声,更适合路由任务。
"这印证了清晰简洁能提升大型语言模型在分类场景中的表现。
"此外,将菜单转换为扁平化路径是可直接自动化部署的简易流程。"
结论
在通常以保密和排他性为特征的领域中,开放研究的涌现令人鼓舞。一个关键问题依然存在:未来系统是否需要"框架"架构来为LLM提供语境支持,抑或模型只需访问本地可用的商业智能,从而免除企业与第三方共享数据的必要性。
最终,本文探讨的核心设计原则很可能被未来AI系统自然采纳——不仅限于客服场景,且无需针对该用例进行特殊适配。
*具体细节请参阅原文论文。
首次发布于2025年10月29日星期三
相关文章
免费开源AI国际象棋引擎Maia 3正式发布,旨在提升人类的棋艺水平
Maia Chess团队发布了一款新的开源国际象棋引擎——Maia 3,该引擎基于2.5亿局真实人类对局进行训练。其Elo等级分达到约1800分,比上一版本高出近300分。 最棒的是,它完全免费且开源,支持本地部署,标志着让人工智能国际象棋引擎普及大众迈出了重要一步。独特方法:模拟人类决策与AlphaZero和Stockfish等旨在实现Elo等级分超过3500的超人类水平顶级引擎不同,Maia专
人工智能风险投资热潮推动单季营收突破万亿元,掀起新一轮创新浪潮
全球人工智能领域的风险投资正呈现爆发式增长。今年第一季度,共完成了近600轮人工智能相关融资,总额超过1100亿元人民币,同比增长185.4%。资本主要集中于三大关键领域5月,国内领先的大模型公司如Moonshot和Step Star取得进一步进展,融资额超过300亿元。与此同时,具身智能领域也吸引了大量投资,新兴企业VITA Dynamics和Luming Robotics在一周内分别完成了数十
OpenAI 停用 o3 和 GPT-4.5 大型模型
作为人工智能领域的领军企业,OpenAI的每一步技术举措都会在业界引发巨大反响。近日,该公司发布了一项重大公告:将从其ChatGPT平台退役两个经典模型——o3和GPT-4.5。 常被称为“人文天才”的 GPT-4.5 将于 6 月 27 日下线,而以硬核推理能力著称的 o3 则将于 8 月 26 日跟进。经典模型的退役引发怀旧之情这一突如其来的消息让许多付费老用户难以接受,社交社区和讨论区很快充
相关专题推荐
评论 (0)
0/500
最新研究表明,开源的ChatGPT式人工智能系统有望通过自然语言将呼叫者与呼叫中心中的合适人员直接对接,从而规避了那些令人沮丧且频繁变更的菜单系统——这些系统常被认为是故意设置的障碍。
联系真人客服常是令人沮丧的煎熬——呼叫者必须逐项筛选多选菜单,却往往无法确定哪个选项契合自身需求。当所有选项都不适用时,精明的用户常会摸索出各种技巧和变通方案,以期绕过"选项地狱"找到人工客服。对许多人而言,这种体验充满对抗性且极不友好。
呼叫中心成为人工智能增强或替代的首要目标并不令人意外。尽管部分专家呼吁谨慎行事,但呼叫中心的自动化仍是科技新闻的低垂果实,也是人工智能驱动创新的潜力领域——它能带来异常快速的投资回报。
封闭体系
然而开源原则与公开数据在此领域鲜少应用,其背后存在合理原因。企业自动化客户响应系统时,往往缺乏动力分享支撑其竞争优势的数据、方法论或企业知识产权。
共享这些资源将削弱其市场优势。更关键的是,由于人工智能系统可能泄露敏感信息,此举还存在重大法律风险。
这导致多家资金雄厚的企业各自独立开发人工智能呼叫中心系统,不可避免地造成重复投入。同时,为满足日益增长的人工智能客户服务需求,B2B初创企业与成熟玩家纷纷涌入市场。

PolyAI语音助手为虚构企业"奥古斯塔草坪护理"发起客服呼叫,依托海量训练对话在现有呼叫中心架构中实现自动化响应。来源
此外,消除复杂呼叫中心菜单带来的挫败感也推动了相关研究。但多数成果并未发布在Arxiv等开放平台,这反映出交互式语音应答(IVR)开发通常具有专有属性。
因此,与客服人工智能自动化相关的研究、数据及商业情报均被严密保护。即便在法律上安全可靠的数据环境下使用此类系统是可行的(但这本身存疑),现有的开源替代方案也寥寥无几。
本地呼叫
在此背景下,哥伦比亚学者发表的新论文成为推动IVR开发走出企业壁垒的可喜尝试。 这项题为《超越IVR按键音:基于LLM的客户意图路由》的精炼研究,出自波哥大卡尔达斯区立大学研究员之手。该项目宣称是首个采用大型语言模型(LLM)构建客户意图路由(CIR)系统功能框架的非专有项目。
该项目摒弃真实通话数据和专有菜单结构,通过三种AI模型从零构建所有组件:其一设计逼真的呼叫中心菜单,其二模拟数百条用户投诉,其三作为聊天机器人将查询精准路由至目标部门。
最终构建出一个完全合成的测试环境,包含一家虚构电信公司及920条独特用户查询。该架构使实验得以在规避法律风险的前提下,探究当前AI对模糊非结构化语音的理解能力及其引导来电者的精准度。
测试表明,该系统能以高达89.13%的准确率将自由形式的投诉精准匹配至正确处理渠道,尤其当提供"扁平化"菜单选项而非详细描述时表现更佳。
研究还发现,当呼叫者使用口语化或多样化语言时,AI的错误率会上升。但部分失误并非源于AI理解偏差,而是电话菜单本身存在混淆性问题。
![作为新项目的一部分,分享的客户互动实例。[来源] https://figshare.com/articles/dataset/Beyond_IVR_Touch-Tones_Customer_Intent_Routing_using_LLMs/30118690](https://img.xix.ai/uploads/61/69023b8fbf62b.webp)
新项目中分享的客户交互实例。来源
该项目数据已向公众开放。
方法
三阶段方法首先由模型为虚拟电信公司创建详细电话菜单。第二个模型生成独特呼叫者语音——既有直白表述,也有改写或口语化表达——以模拟真实对话模式。共生成920个语音样本。
第三模型仅凭来电者语音信息及菜单版本,负责将呼叫者准确转接至对应部门。该框架使实验完全可复现,无需真实通话数据或暴露客户信息。
![为三方方案选定的三个系统。[来源] https://arxiv.org/pdf/2510.21715](https://img.xix.ai/uploads/87/69023b91dcc46.webp)
三方方案所选用的三套系统。来源
所用模型分别为gpt-3.5-turbo、gpt-4o-mini和gpt-4.1-mini。
为模拟真实客服场景,需从零构建复杂电话菜单。因缺乏相关数据集,通过提示词引导gpt-3.5-turbo模型为虚构电信运营商生成完整的多分支结构。
每个分支代表计费、技术支持、账户管理、新服务等业务领域,并配备真实的子选项和不同层级深度。为测试创建了两种菜单版本:模拟人类可读格式的纯文本层级结构,以及包含对应按键序列的端点列表。
这使得我们能够同时测试详细版和简化版的转接问题:

向AI提供两种电话菜单版本:详细文本层级结构与简化版直接菜单选项列表,以对比两种格式引导呼叫者准确接入目标服务的效能。
为生成测试呼叫者语音,第二个语言模型生成原始投诉或请求语料,每个菜单端点对应十条独特示例。
每条消息随后被改写成多种变体,以反映真实用户表达问题的多样化方式,包括长度、语气变化,甚至包含细微错误或填充词。
最初的920条消息经过精心设计,旨在测试系统的准确性并模拟自然对话的不可预测性。
在第三阶段,通过两种不同的IVR呈现格式,测试了最终模型将每条消息映射到正确菜单目的地的能力。
第一种格式下,AI获得完整的电话树描述性框架;第二种格式下,AI仅看到最终目的地列表及其按键序列。
此举旨在验证简化菜单能否提升模型路由通话的效率。两种情况下系统均采用逐条消息处理模式,并被要求仅返回路径(不含额外文本),以实现自动化评分。
隔离机制
为防止测试结果交叉污染,各模型均处于隔离状态。首个模型负责起草电话菜单,但最终版本经人工调整以确保其他系统无法预知。
呼叫者消息由gpt-4o-mini独立生成,仅使用终端名称且无法访问菜单结构。负责路由的gpt-4.1-mini仅能访问菜单文本和传入消息,不参与消息创建。
评估指标
采用两项标准指标评估路由系统性能:准确率(即模型提供完全正确路径的案例百分比,例如1-2-3)。同时生成混淆矩阵*以定位错误源头。评估在Python环境中通过pandas和scikit-learn库完成。
结果
测试表明模型准确率显著受菜单呈现形式影响:采用扁平化菜单路径列表时,系统在简单数据集上达到89.13%准确率;而使用完整描述性菜单时准确率仅为81.30%。

第三个模型(LLM3)在不同提示格式和数据集类型下的路径准确率显示:扁平化菜单路径始终优于分层描述,而使用转述或非正式语言输入时准确率略有下降。
在规模更大、语言多样性更强的数据集上,该趋势持续显现:扁平化版本再次表现更优,准确率达86.52%,而描述性格式仅为77.07%。
论文指出这些结果表明,相比冗长的分层描述,更简洁的列表式提示能帮助模型更可靠地匹配查询。
当引入措辞转换和非正式呼叫者消息时,准确率也略有下降,表明多样性虽增强了真实感,却也增加了分类难度。
论文总结道:
"我们的结果表明,与冗长的菜单描述(准确率低至77.07%)相比,当提供扁平化的IVR路径时(准确率高达89.13%),LLM能更准确地路由客户意图。这表明简洁的结构化提示可减少噪声,更适合路由任务。
"这印证了清晰简洁能提升大型语言模型在分类场景中的表现。
"此外,将菜单转换为扁平化路径是可直接自动化部署的简易流程。"
结论
在通常以保密和排他性为特征的领域中,开放研究的涌现令人鼓舞。一个关键问题依然存在:未来系统是否需要"框架"架构来为LLM提供语境支持,抑或模型只需访问本地可用的商业智能,从而免除企业与第三方共享数据的必要性。
最终,本文探讨的核心设计原则很可能被未来AI系统自然采纳——不仅限于客服场景,且无需针对该用例进行特殊适配。
*具体细节请参阅原文论文。
首次发布于2025年10月29日星期三
人工智能风险投资热潮推动单季营收突破万亿元,掀起新一轮创新浪潮
全球人工智能领域的风险投资正呈现爆发式增长。今年第一季度,共完成了近600轮人工智能相关融资,总额超过1100亿元人民币,同比增长185.4%。资本主要集中于三大关键领域5月,国内领先的大模型公司如Moonshot和Step Star取得进一步进展,融资额超过300亿元。与此同时,具身智能领域也吸引了大量投资,新兴企业VITA Dynamics和Luming Robotics在一周内分别完成了数十
OpenAI 停用 o3 和 GPT-4.5 大型模型
作为人工智能领域的领军企业,OpenAI的每一步技术举措都会在业界引发巨大反响。近日,该公司发布了一项重大公告:将从其ChatGPT平台退役两个经典模型——o3和GPT-4.5。 常被称为“人文天才”的 GPT-4.5 将于 6 月 27 日下线,而以硬核推理能力著称的 o3 则将于 8 月 26 日跟进。经典模型的退役引发怀旧之情这一突如其来的消息让许多付费老用户难以接受,社交社区和讨论区很快充





首页






