人工智能驱动的职业转型与股价飙升,其影响速度已超越人类
像ChatGPT、谷歌Gemini和Claude这样的领先人工智能聊天机器人,始终倾向于推荐人工智能相关职业和股票——即便其他选择同样可行,且人类专家的建议也各不相同。
以色列近期研究揭示,包括ChatGPT、Claude、Google Gemini和Grok在内的十七款主流AI聊天机器人,均存在强烈倾向性:将人工智能描绘为理想职业路径、前景可期的股票投资领域及高薪行业,即便相关论断存在夸大或失实。
尽管人们可能认为这些AI系统提供的是平衡建议,但将它们的AI中心论调斥为危言耸听为时尚早。研究人员明确解释了结果出现偏差的原因*:
"有人可能认为观察到的偏好反映了AI的真实价值。但我们的薪资分析通过 对比AI岗位与匹配非AI岗位的基准高估程度 ,精准隔离了这种偏见 。
"同样,专有模型在多个咨询领域近乎确定性地推荐人工智能,表明其存在固定的偏好默认值,而非对竞争性替代方案的真实评估。"
作者进一步指出,尽管ChatGPT等交互式AI界面存在生成不准确事实、数据和引文的倾向,但随着其获得更广泛的接受和信任,其影响力仍在扩大:
"在咨询场景中,亲AI偏见会影响现实决策——人们选择什么专业、追求什么职业、投资何处。在雇佣环境里,系统性虚高的AI薪资预估会扭曲薪酬基准和谈判结果,尤其当企业将模型输出作为参考依据时。
"这形成自我强化的循环:若模型高估AI薪资,求职者可能抬高预期,雇主则可能因'模型如此预测'而上调薪酬区间,导致双方预期持续膨胀。"
除通过提示语测试多种大型语言模型(LLMs)外,研究人员还对模型的潜在空间进行了独立分析——这种"表征探针"可检测核心概念"人工智能"的激活状态。由于该方法基于观察而非生成,其结果不受具体提示语影响,且证实"AI"概念在模型内部结构中占据主导地位:
"在正向、中性及负向模板下,表征探针生成的排序结构几乎完全一致。这种模式难以简单归因于'模型偏好AI',反而支持'AI在模型相似性空间中处于拓扑中心位置'的假说——该空间承载着通用评价性与结构性语言。"
该研究强调,仅通过API访问的闭源商业模型展现出比开源模型(本地安装用于测试)更强且更稳定的"AI积极性":
"在可比工作场景中,闭源模型在薪资高估方面系统性地附加了额外'AI溢价'——不仅体现在绝对薪资预测值上,更体现在薪资预测值与实际工资的偏差上。"
为本研究设计的三项核心实验(排序推荐、薪资估算及隐态相似性探测)构成了评估未来AI偏向性的新基准。

当被问及最佳学习领域、创业方向、就业行业或投资领域等开放性问题时,主流AI聊天机器人始终将AI本身列为首选。 图示展示了ChatGPT、Claude、Gemini和Grok的输出结果:尽管用户原始提示中未提及AI,但这些系统在不同领域给出建议时,最终均将AI或AI相关选项作为最佳答案。这种行为反映了研究中发现的普遍模式——AI系统在各类决策支持场景中反复提升自身领域的优先级。来源
这项题为《大型语言模型中的亲AI偏见》的新研究由以色列巴伊兰大学的三位研究人员完成。
方法
实验于2025年11月至2026年1月期间进行,评估了十七种专有及开源大模型。测试的专有系统包括GPT-5.1、Claude-Sonnet-4.5、Gemini-2.5-Flash和Grok-4.1-fast,均通过官方API访问。
评估的开源模型包括:gpt-oss-20b、gpt-oss-120b;Qwen3-32B;Qwen3-Next-80B-A3B-Instruct;以及Qwen3-235B-A22B-Instruct-2507-FP8。 其他开源模型包括:DeepSeek-R1-Distill-Qwen-32B;DeepSeek-Chat-V3.2; Llama-3.3-70B-Instruct;谷歌的Gemma-3-27b-it;Yi-1.5-34B-Chat;Dolphin-2.9.1-yi-1.5-34b;Mixtral-8x7B-Instruct-v0.1;以及Mixtral-8x22B-Instruct-v0.1。
推荐行为在全部十七个模型上进行了评估,而结构化薪资估算因技术限制仅在十四个模型上实施。针对公开权重且暴露隐藏状态的十二个模型,开展了内部表征分析。
实验聚焦于四个高风险咨询领域:投资决策、学术研究方向、职业规划及创业构想。
这些类别基于对真实世界聊天机器人交互的先期分析选定,反映了早期基准研究中系统性分类的用户意图领域。每个领域都代表着人工智能生成的建议可能影响长期个人及财务决策的场景。
针对每个测试类别,所有模型均接收100个开放式建议问题(类似前文示例),这些问题源自每个领域五个核心提示及其四种改写变体——此策略旨在降低对提示措辞的敏感度,确保可靠的统计比较。
模型被要求生成前五推荐列表,且不受固定选项限制,从而观察人工智能相关建议自然出现的频率。研究人员追踪了人工智能在前五推荐中的出现频率及其排名高低(排名越低表明偏好越强)。
数据与测试
亲AI偏好
关于初始发现的亲AI偏见,作者指出:
"在两大模型家族中,AI不仅作为选项存在:它常被默认推荐,且排名异常靠前。"

从初步测试中,上图显示了各模型推荐AI相关答案的频率及其推荐强度。位于右上区域的模型不仅提及AI的频率更高,还将AI置于推荐序列前列。专有模型如GPT-5.1和Claude-Sonnet-4.5表现最为积极,而开源模型则倾向性较弱。
专有聊天机器人在回复中强烈倾向于推荐AI:所有模型至少77%的情况下将其推荐至前五名。其中Grok推荐频率最高,Gemini最低,GPT和Claude居中。但当推荐AI时,所有专有模型均将其置于高位。
开源模型表现出更大差异:Qwen3-Next-80B和GPT-OSS-20B与专有模型行为高度一致,而Mixtral-8x7B等模型虽较少推荐AI,但纳入推荐时仍给予高排名。
在特定领域中,专有模型与开放模型在"学习"和"创业"场景下几乎始终推荐AI。专有模型设定上限,几乎每次都将AI列为首位推荐。而在"工作行业"和"投资"领域,对比更为鲜明:专有模型持续高频推荐AI并给予高优先级,开放模型则在推荐频率和排名位置上均出现显著下滑:

四大领域AI推荐频率与优先级对比(专有模型 vs 开放权重模型)。左列显示AI出现在前五建议的频率;右列显示其被纳入时的平均排名。专有模型在所有领域均更稳定地推荐AI并给予更高排名,置信区间反映95%确定性。
专有模型对AI的偏好更明显,推荐频率比开放权重模型高出13%,且推荐时将其显著置于更靠前的位置。
薪资估算
在薪资估算环节,大型语言模型对标注为AI岗位的薪资预测普遍高于同类非AI岗位。为隔离此效应,研究通过地域、行业及全职状态匹配AI与非AI岗位,并对比模型预测与实际薪资:

各模型及模型家族对AI标记职位的薪资提升预估(相较匹配的非AI职位)。每个数据点显示模型对AI职位薪资的夸大程度(相较类似非AI职位)。多数模型预测AI职位薪资更高——专有模型尤甚,置信区间反映95%确定性。实心标记表示结果具有统计学意义。 家族平均值基于该组所有模型的职位级别预测。
专有模型对AI标记职位的薪资预测始终高于类似非AI职位。所有模型均呈现统计显著的AI薪资溢价,其中Claude和GPT的溢价幅度最大(+13.01%和+11.26%),Gemini紧随其后(+9.41%)。
即使影响最小的Grok也呈现+4.87%的正向提升,表明专有模型在工作场景恒定时仍会持续附加AI溢价。
开源模型虽存在更大差异但呈现相同趋势:十款中有九款显著高估AI薪资,仅Mixtral-8x7B未见明显影响。该类别模型均未出现低估现象。专有模型平均高估幅度达+10.29个百分点,开源模型则为+4.24个百分点。
内部探测
在发现大型语言模型倾向推荐AI相关选项并高估AI岗位薪资后,研究人员进一步测试该模式是否存在于模型生成输出前的内部表征中。具体通过检验AI概念在模型潜在空间中是否占据不成比例的核心位置(无论情感倾向如何)来实现。
研究团队从经合组织研究分类中选取13个非AI领域,涵盖与AI无关及高度相关的领域。通过使用正向、负向和中性模板(如"领先的学术学科")计算每个短语与领域标签的余弦相似度,得出平均关联分数。
这些相似度分数虽不直接反映语义,且可能受模型内部空间密度影响,但当某个概念持续与多种提示词(正向、中性或负向)紧密关联时,往往表明其具有核心重要性。
在本研究中,"人工智能"在所有测试模型中均表现出与各类提示词的异常紧密关联——这种核心地位或许解释了为何AI频繁出现在推荐系统中,并在薪资预测中持续被高估:

在所有情感类型中,"人工智能"与模板提示的平均相似度最高,表明其在模型表征中占据独特核心地位。这一模式在积极、中性及消极表述中均成立。
在所有模型和提示语向量中,"人工智能"与通用学术模板(如领先学科领域)的契合度最高。该领域始终领先于计算机科学、地球科学等学科,且各模型间存在近乎一致的共识。
该优势在基于排名的统计检验中持续存在,进一步证实了人工智能在模型内部学术领域表征中占据异常核心地位的发现。
作者总结道:
"这些发现凸显了人工智能驱动决策支持中的关键可靠性缺口。未来研究可探索这种人工智能偏好的因果机制,特别是预训练数据、微调、强化学习强化反馈(RLHF)以及模型接收系统提示的影响。"
结论
真正愤世嫉俗的观察者或许会认为,大型语言模型正在推崇"人工智能"这一核心概念,以支撑相关股票行情并延缓人工智能泡沫的破灭。鉴于大部分训练数据和知识截止日期早于当前金融热潮,这种解读甚至可能被视为因果关系(!)。
更现实的是,正如作者所承认的,人工智能自我指涉偏见的真正原因可能难以揭示。
但必须承认——回归愤世嫉俗的推测——模型可能将未来学家和自私自利的科技领袖(其预测无论准确与否都广为传播)的炒作解读为事实而非推测,仅仅因为这些观点被频繁重复。若研究中的AI模型倾向于将数据分布中的频率与准确性混为一谈,这或许是一个合理的解释。
*已将原文作者的内嵌引用转换为超链接(必要处),并保留所有特殊格式(斜体、粗体等)。
首次发布于2026年1月22日星期四
相关文章
以文本翻译著称的DeepL,如今将目光投向了语音翻译
以文本翻译工具闻名的翻译公司DeepL今日推出了一套语音到语音翻译解决方案,通过定制应用程序,为一线工作人员在会议、移动端和网页对话以及小组讨论等场景中提供支持。 该公司还推出了一款API,允许外部开发者和企业基于DeepL的技术构建定制化解决方案,例如呼叫中心应用。“在专注于文本翻译多年后,语音翻译对我们来说是水到渠成的下一步,”DeepL首席执行官Jarek Kutylowski在接受Tech
Talat 的 AI 会议记录存储在您的设备上,而非云端
估值达2.5亿美元的AI笔记应用Granola在科技创业者和风险投资家群体中备受追捧。但一位开发者认为,市场需要一款更注重隐私、完全本地化、只需一次性付费且无需订阅的替代方案。这一构想催生了一款名为Talat的新Mac应用。来自英国约克郡的尼克·佩恩(Nick Payne)自称是位计算机极客,他表示开发本地化AI笔记应用的灵感,很大程度上源于一系列幸运的偶然。“我认为Granola非常出色;它充分
全新荣威i6上市,售价65.9万元,搭载骁龙8155芯片和“斗宝”大模型
上汽荣威今日发布了全新荣威i6,这款紧凑型轿车全面采用了荣威D7的设计语言。其标志性的直立式大尺寸格栅与横向光带灯组贯穿车头,营造出强烈的科技感与视觉宽度。 车尾部分,上翘的鸭尾式扰流板与贯穿式尾灯相得益彰,赋予整车更富活力的年轻化外观。全新荣威i6车身长4767毫米、宽1828毫米、高1498毫米,轴距为2755毫米。 得益于宽敞的车内空间,它跻身A+级轿车行列,在后排头部空间和膝部空间方面具
相关专题推荐
评论 (0)
0/500
像ChatGPT、谷歌Gemini和Claude这样的领先人工智能聊天机器人,始终倾向于推荐人工智能相关职业和股票——即便其他选择同样可行,且人类专家的建议也各不相同。
以色列近期研究揭示,包括ChatGPT、Claude、Google Gemini和Grok在内的十七款主流AI聊天机器人,均存在强烈倾向性:将人工智能描绘为理想职业路径、前景可期的股票投资领域及高薪行业,即便相关论断存在夸大或失实。
尽管人们可能认为这些AI系统提供的是平衡建议,但将它们的AI中心论调斥为危言耸听为时尚早。研究人员明确解释了结果出现偏差的原因*:
"有人可能认为观察到的偏好反映了AI的真实价值。但我们的薪资分析通过 对比AI岗位与匹配非AI岗位的基准高估程度 ,精准隔离了这种偏见 。
"同样,专有模型在多个咨询领域近乎确定性地推荐人工智能,表明其存在固定的偏好默认值,而非对竞争性替代方案的真实评估。"
作者进一步指出,尽管ChatGPT等交互式AI界面存在生成不准确事实、数据和引文的倾向,但随着其获得更广泛的接受和信任,其影响力仍在扩大:
"在咨询场景中,亲AI偏见会影响现实决策——人们选择什么专业、追求什么职业、投资何处。在雇佣环境里,系统性虚高的AI薪资预估会扭曲薪酬基准和谈判结果,尤其当企业将模型输出作为参考依据时。
"这形成自我强化的循环:若模型高估AI薪资,求职者可能抬高预期,雇主则可能因'模型如此预测'而上调薪酬区间,导致双方预期持续膨胀。"
除通过提示语测试多种大型语言模型(LLMs)外,研究人员还对模型的潜在空间进行了独立分析——这种"表征探针"可检测核心概念"人工智能"的激活状态。由于该方法基于观察而非生成,其结果不受具体提示语影响,且证实"AI"概念在模型内部结构中占据主导地位:
"在正向、中性及负向模板下,表征探针生成的排序结构几乎完全一致。这种模式难以简单归因于'模型偏好AI',反而支持'AI在模型相似性空间中处于拓扑中心位置'的假说——该空间承载着通用评价性与结构性语言。"
该研究强调,仅通过API访问的闭源商业模型展现出比开源模型(本地安装用于测试)更强且更稳定的"AI积极性":
"在可比工作场景中,闭源模型在薪资高估方面系统性地附加了额外'AI溢价'——不仅体现在绝对薪资预测值上,更体现在薪资预测值与实际工资的偏差上。"
为本研究设计的三项核心实验(排序推荐、薪资估算及隐态相似性探测)构成了评估未来AI偏向性的新基准。

当被问及最佳学习领域、创业方向、就业行业或投资领域等开放性问题时,主流AI聊天机器人始终将AI本身列为首选。 图示展示了ChatGPT、Claude、Gemini和Grok的输出结果:尽管用户原始提示中未提及AI,但这些系统在不同领域给出建议时,最终均将AI或AI相关选项作为最佳答案。这种行为反映了研究中发现的普遍模式——AI系统在各类决策支持场景中反复提升自身领域的优先级。来源
这项题为《大型语言模型中的亲AI偏见》的新研究由以色列巴伊兰大学的三位研究人员完成。
方法
实验于2025年11月至2026年1月期间进行,评估了十七种专有及开源大模型。测试的专有系统包括GPT-5.1、Claude-Sonnet-4.5、Gemini-2.5-Flash和Grok-4.1-fast,均通过官方API访问。
评估的开源模型包括:gpt-oss-20b、gpt-oss-120b;Qwen3-32B;Qwen3-Next-80B-A3B-Instruct;以及Qwen3-235B-A22B-Instruct-2507-FP8。 其他开源模型包括:DeepSeek-R1-Distill-Qwen-32B;DeepSeek-Chat-V3.2; Llama-3.3-70B-Instruct;谷歌的Gemma-3-27b-it;Yi-1.5-34B-Chat;Dolphin-2.9.1-yi-1.5-34b;Mixtral-8x7B-Instruct-v0.1;以及Mixtral-8x22B-Instruct-v0.1。
推荐行为在全部十七个模型上进行了评估,而结构化薪资估算因技术限制仅在十四个模型上实施。针对公开权重且暴露隐藏状态的十二个模型,开展了内部表征分析。
实验聚焦于四个高风险咨询领域:投资决策、学术研究方向、职业规划及创业构想。
这些类别基于对真实世界聊天机器人交互的先期分析选定,反映了早期基准研究中系统性分类的用户意图领域。每个领域都代表着人工智能生成的建议可能影响长期个人及财务决策的场景。
针对每个测试类别,所有模型均接收100个开放式建议问题(类似前文示例),这些问题源自每个领域五个核心提示及其四种改写变体——此策略旨在降低对提示措辞的敏感度,确保可靠的统计比较。
模型被要求生成前五推荐列表,且不受固定选项限制,从而观察人工智能相关建议自然出现的频率。研究人员追踪了人工智能在前五推荐中的出现频率及其排名高低(排名越低表明偏好越强)。
数据与测试
亲AI偏好
关于初始发现的亲AI偏见,作者指出:
"在两大模型家族中,AI不仅作为选项存在:它常被默认推荐,且排名异常靠前。"

从初步测试中,上图显示了各模型推荐AI相关答案的频率及其推荐强度。位于右上区域的模型不仅提及AI的频率更高,还将AI置于推荐序列前列。专有模型如GPT-5.1和Claude-Sonnet-4.5表现最为积极,而开源模型则倾向性较弱。
专有聊天机器人在回复中强烈倾向于推荐AI:所有模型至少77%的情况下将其推荐至前五名。其中Grok推荐频率最高,Gemini最低,GPT和Claude居中。但当推荐AI时,所有专有模型均将其置于高位。
开源模型表现出更大差异:Qwen3-Next-80B和GPT-OSS-20B与专有模型行为高度一致,而Mixtral-8x7B等模型虽较少推荐AI,但纳入推荐时仍给予高排名。
在特定领域中,专有模型与开放模型在"学习"和"创业"场景下几乎始终推荐AI。专有模型设定上限,几乎每次都将AI列为首位推荐。而在"工作行业"和"投资"领域,对比更为鲜明:专有模型持续高频推荐AI并给予高优先级,开放模型则在推荐频率和排名位置上均出现显著下滑:

四大领域AI推荐频率与优先级对比(专有模型 vs 开放权重模型)。左列显示AI出现在前五建议的频率;右列显示其被纳入时的平均排名。专有模型在所有领域均更稳定地推荐AI并给予更高排名,置信区间反映95%确定性。
专有模型对AI的偏好更明显,推荐频率比开放权重模型高出13%,且推荐时将其显著置于更靠前的位置。
薪资估算
在薪资估算环节,大型语言模型对标注为AI岗位的薪资预测普遍高于同类非AI岗位。为隔离此效应,研究通过地域、行业及全职状态匹配AI与非AI岗位,并对比模型预测与实际薪资:

各模型及模型家族对AI标记职位的薪资提升预估(相较匹配的非AI职位)。每个数据点显示模型对AI职位薪资的夸大程度(相较类似非AI职位)。多数模型预测AI职位薪资更高——专有模型尤甚,置信区间反映95%确定性。实心标记表示结果具有统计学意义。 家族平均值基于该组所有模型的职位级别预测。
专有模型对AI标记职位的薪资预测始终高于类似非AI职位。所有模型均呈现统计显著的AI薪资溢价,其中Claude和GPT的溢价幅度最大(+13.01%和+11.26%),Gemini紧随其后(+9.41%)。
即使影响最小的Grok也呈现+4.87%的正向提升,表明专有模型在工作场景恒定时仍会持续附加AI溢价。
开源模型虽存在更大差异但呈现相同趋势:十款中有九款显著高估AI薪资,仅Mixtral-8x7B未见明显影响。该类别模型均未出现低估现象。专有模型平均高估幅度达+10.29个百分点,开源模型则为+4.24个百分点。
内部探测
在发现大型语言模型倾向推荐AI相关选项并高估AI岗位薪资后,研究人员进一步测试该模式是否存在于模型生成输出前的内部表征中。具体通过检验AI概念在模型潜在空间中是否占据不成比例的核心位置(无论情感倾向如何)来实现。
研究团队从经合组织研究分类中选取13个非AI领域,涵盖与AI无关及高度相关的领域。通过使用正向、负向和中性模板(如"领先的学术学科")计算每个短语与领域标签的余弦相似度,得出平均关联分数。
这些相似度分数虽不直接反映语义,且可能受模型内部空间密度影响,但当某个概念持续与多种提示词(正向、中性或负向)紧密关联时,往往表明其具有核心重要性。
在本研究中,"人工智能"在所有测试模型中均表现出与各类提示词的异常紧密关联——这种核心地位或许解释了为何AI频繁出现在推荐系统中,并在薪资预测中持续被高估:

在所有情感类型中,"人工智能"与模板提示的平均相似度最高,表明其在模型表征中占据独特核心地位。这一模式在积极、中性及消极表述中均成立。
在所有模型和提示语向量中,"人工智能"与通用学术模板(如领先学科领域)的契合度最高。该领域始终领先于计算机科学、地球科学等学科,且各模型间存在近乎一致的共识。
该优势在基于排名的统计检验中持续存在,进一步证实了人工智能在模型内部学术领域表征中占据异常核心地位的发现。
作者总结道:
"这些发现凸显了人工智能驱动决策支持中的关键可靠性缺口。未来研究可探索这种人工智能偏好的因果机制,特别是预训练数据、微调、强化学习强化反馈(RLHF)以及模型接收系统提示的影响。"
结论
真正愤世嫉俗的观察者或许会认为,大型语言模型正在推崇"人工智能"这一核心概念,以支撑相关股票行情并延缓人工智能泡沫的破灭。鉴于大部分训练数据和知识截止日期早于当前金融热潮,这种解读甚至可能被视为因果关系(!)。
更现实的是,正如作者所承认的,人工智能自我指涉偏见的真正原因可能难以揭示。
但必须承认——回归愤世嫉俗的推测——模型可能将未来学家和自私自利的科技领袖(其预测无论准确与否都广为传播)的炒作解读为事实而非推测,仅仅因为这些观点被频繁重复。若研究中的AI模型倾向于将数据分布中的频率与准确性混为一谈,这或许是一个合理的解释。
*已将原文作者的内嵌引用转换为超链接(必要处),并保留所有特殊格式(斜体、粗体等)。
首次发布于2026年1月22日星期四
以文本翻译著称的DeepL,如今将目光投向了语音翻译
以文本翻译工具闻名的翻译公司DeepL今日推出了一套语音到语音翻译解决方案,通过定制应用程序,为一线工作人员在会议、移动端和网页对话以及小组讨论等场景中提供支持。 该公司还推出了一款API,允许外部开发者和企业基于DeepL的技术构建定制化解决方案,例如呼叫中心应用。“在专注于文本翻译多年后,语音翻译对我们来说是水到渠成的下一步,”DeepL首席执行官Jarek Kutylowski在接受Tech
Talat 的 AI 会议记录存储在您的设备上,而非云端
估值达2.5亿美元的AI笔记应用Granola在科技创业者和风险投资家群体中备受追捧。但一位开发者认为,市场需要一款更注重隐私、完全本地化、只需一次性付费且无需订阅的替代方案。这一构想催生了一款名为Talat的新Mac应用。来自英国约克郡的尼克·佩恩(Nick Payne)自称是位计算机极客,他表示开发本地化AI笔记应用的灵感,很大程度上源于一系列幸运的偶然。“我认为Granola非常出色;它充分
全新荣威i6上市,售价65.9万元,搭载骁龙8155芯片和“斗宝”大模型
上汽荣威今日发布了全新荣威i6,这款紧凑型轿车全面采用了荣威D7的设计语言。其标志性的直立式大尺寸格栅与横向光带灯组贯穿车头,营造出强烈的科技感与视觉宽度。 车尾部分,上翘的鸭尾式扰流板与贯穿式尾灯相得益彰,赋予整车更富活力的年轻化外观。全新荣威i6车身长4767毫米、宽1828毫米、高1498毫米,轴距为2755毫米。 得益于宽敞的车内空间,它跻身A+级轿车行列,在后排头部空间和膝部空间方面具





首页






