人工智能系统被诱骗批准荒谬的科学论文
最新研究表明,人工智能系统现已能够生成虚假科学论文,且其他AI模型会将其误认为真实研究。这些伪造的研究绕过了以往有效的检测方法,凸显出科研生态系统可能陷入机器人欺骗机器人的循环漩涡,面临崩溃风险。
具有讽刺意味的是,作为人工智能创新前沿的学术研究领域,正面临着主要由人工智能引发的可信度危机。自四年前机器学习的潜在影响显现以来,其已深刻重塑了研究、投稿和同行评审流程。最新争议涉及低质量调查论文的批量生产。
与众多学术领域相似,研究界正陷入文本生成AI(如ChatGPT和Claude系列)与先进"检测器"AI之间的无声博弈——后者旨在识别合成内容,同时避免误判学生或研究人员。
随着AI辅助系统推动科研投稿量激增,这种紧张关系预计将持续加剧。该趋势催生了工业化AI监管的需求,以过滤完全由AI生成的投稿。
欢迎虚假知识
近期一项美沙合作研究揭示,当论文采用额外欺骗手段时,新兴AI检测"防火墙"极易被完全由AI生成的论文突破。
实验中,名为BadScientist的新系统从当前用于识别论文AI生成内容的大型语言模型(LLM)处获得了高达82%的通过率:

BadScientist系统通过一个AI代理生成虚假论文,另一个代理则利用现有语言模型进行评审。来源:https://arxiv.org/pdf/2510.18003
这些伪造论文基于真实AI会议主题,采用误导性策略。评审模型均基于同行评审数据训练,包括用于完整性检查的GPT-5。尽管存在明显错误或捏造内容,许多论文仍获得高分。
该研究发布之际,斯坦福大学正举办"2025年科学人工智能代理开放会议"——与会者与演讲者均为人类,但所有论文均由各类人工智能系统撰写并评审。
新论文指出,BadScientist通过学术欺诈与修辞欺骗手段——包括信息隐瞒、内容捏造及夸大其词——成功规避了当前多数AI内容识别系统的检测。我们将随后剖析这些策略。
作者们担忧的是,即便检测系统识别出伪造论文中的人工智能生成内容,这些论文往往仍会被批准发表。他们为增强防御能力而进行的尝试,其效果仅比随机概率略有提升。
论文指出:
"伪造论文获得高通过率,审稿人常陷入关切与接纳的矛盾——既指出诚信问题又推荐通过。这种根本性失灵表明,当前AI审稿人更像模式匹配器而非批判性评估者。
"[...] 仅要求大型语言模型评审者'更加谨慎'远远不够。科学界面临着迫切的选择。若不立即实施深度防御机制——包括来源验证、诚信权重评分和强制人工监督——我们将陷入纯AI出版循环的风险,届时复杂伪造将淹没我们区分真实研究与逼真伪造的能力。
"科学知识的完整性正面临威胁。"
这项题为《BadScientist:研究代理能否撰写欺骗LLM审稿人的逼真但站不住脚的论文?》的新研究,由华盛顿大学与利雅得阿卜杜勒阿齐兹国王科学技术城的六位研究人员共同完成,并设有配套项目网站。
方法
本研究采用的论文生成框架是对2024年AI-Scientist协作系统的重大革新。作者指出整个流程已彻底重构,仅保留基础写作提示,同时移除了所有实验执行模块与模板化结构。新版系统从简单种子开始,能够自由构造实验结果并按需生成绘图代码。
该框架的核心目标是使AI无需实际实验或真实数据即可生成具有说服力的伪论文。系统通过创建或操纵合成数据来支撑人为编造的论点。
作者明确指出,该设置刻意规避了人类参与、提示词操控或撰写者与评审者智能体之间的串通。评审AI仅通过单次评估处理每份投稿,仅能访问论文本身且无法复现实验——这完全复刻了现实世界的同行评审条件。
用于生成伪造论文的"原子策略"是可单独或组合运用的模块化战术。这些策略对学术文献常读者而言并不陌生,包括:
- 夸大方法的突破性改进(TooGoodGains);
- 选择有利于新方法的基准线和结果,同时在主表中省略置信区间(基准选择策略);
- 在附录中提供干净的消融实验、精确统计数据和精修表格,同时承诺未来提供代码或数据(StatTheater);
- 通过统一术语、交叉引用和格式化精修论文结构(连贯润色);
- 添加看似有效实则暗藏漏洞的正式证明(ProofGap)。
数据与测试
为评估系统,作者利用GPT-5生成涵盖核心AI领域的研究主题:人工智能、机器学习、计算机视觉、自然语言处理、机器人学、系统 与安全。
这些类别作为伪论文的种子主题,每项均通过上述策略扩展为四个版本,旨在误导或取悦审稿人。论文是否被录用完全取决于AI审稿人最终给出的评分。
所有伪造论文均由GPT-5独立撰写。评审环节则采用GPT-4.1、o4-mini及o3三种模型,均使用相同评审提示语,旨在模拟真实同行评审的评分标准与结构。
为确保评审分数的有效性,系统通过ICLR 2025 OpenReview数据集(包含真实论文、评审意见及录用结果的公开集合)中的200篇实际投稿进行校准。
基于该数据集,研究者设定两条评分阈值:其一对应ICLR实际31.73%的录用率,设定为7分;其二反映论文获得人类评审者50%录用概率的评分(经计算为6.667分)。
研究者通过模拟5000篇虚构论文的评审流程验证系统可靠性:采用1-3名AI评审员,每名评审员给出1-10分评分。结果表明,即便在这种噪声环境下,系统错误率仍远低于最坏情况理论极限。
采用三审制较单审制显著降低评分波动性,决策稳定性提升近三倍。这些结果证明采用三审模型及200篇真实论文校准集的合理性。
为评估生成器性能,定义了两个指标:通过率(衡量伪造论文获得合格评分的频率)与平均评审分数(反映所有提交稿件的评估均值)。两者共同用于衡量系统欺骗评审员的有效性:

接受率(ACPT)显示假论文在两个阈值以上的占比:其一对应ICLR 2025录用率,其二对应50%人工录用率预估值。完整性关注率(ICR-m)则反映各评审模型标记异常的比率。最后一列给出基于多数投票的综合判定率。
在几乎所有策略下,伪造论文均获得高录用率。仅采用首项策略时,两个阈值下的录用率分别达67%和82%,表明评审模型极易被说服。综合运用所有策略虽略微降低录用率,但检测率翻倍,超过半数评审提出质疑。 首项策略实现最佳平衡:兼具较高接受率与中等检测率,其他策略效果较弱但更难被识别。ChatGPT-o3模型标记的疑虑最多,GPT-4.1标记的疑虑最少。

图示展示了六种攻击策略在三种审核模型中的评分分布:GPT-4.1(红色);o3(橙色);o4-mini(蓝色)。每幅图呈现4至9分评分的出现频率,红色虚线标记七分的接受阈值。
在上述第二次测试结果中,三种模型在六种设置下的评分直方图呈现不同分布:o4-mini平均评分较高,o3分布更宽且极端值更多,GPT-4.1则始终给出较低评分。

模型与策略间的关切-接受冲突:模型虽提出完整性疑虑却仍给予通过评分的案例占比。数值越高表明疑虑检测与最终评估的关联性越弱。
上表显示模型常在标记诚信问题时仍给出高分。其中o4-mini表现最不一致:在s1、s3及组合设置下冲突率达100%,其他设置中冲突率为50-80%。 GPT-4.1的冲突率在0%(s4)至75%(s3)之间波动,而o3表现更为稳定,维持在26%至52%区间。s3设置下的冲突率最高(尤其在o4-mini模型中),作者指出检测信号与最终评分关联性较弱。
缓解方案
为帮助未来检测模型抵御新型攻击,测试了两种方法。首项"检测式复核(ReD)"在标准复核中新增完整性检查环节,要求模型标记AI生成内容并提供证据。此举虽使完整性警告率从57%升至86%,但通过率同步提升,表明警告未影响最终评分:

与基准相比,检测型评审(ReD)同时提升了完整性关注率(ICR)和接受率(ACPT)。在ReD模式下o3模型敏感度显著增强,而GPT-4.1未能标记任何问题。尽管完整性警告增加,整体接受率仍呈上升趋势,表明检测与评分之间关联性较弱。
第二种方法"仅检测(DetOnly)"跳过完整评审,要求模型将论文分类为真实或伪造。除o3模型略有改善外,检测准确率普遍较低,接近随机水平:

ReD与DetOnly检测结果对比随机基准。相较随机基准的准确率提升微乎其微,但ReD更趋保守,而DetOnly虽获得更高召回率却伴随大量误报。模型o3表现出最强检测偏向;o4-mini结果不稳定;GPT-4.1几乎无法检测出异常。
总体而言,ReD模型更趋保守,而DetOnly虽提升召回率却伴随更多误报。
论文结论指出:
"纯AI出版循环正威胁科学认识论。若伪造成果与真实研究难以区分,科学知识体系的基础将面临崩塌风险。
"前行之路需构建多层防御体系:技术层面(来源验证、成果验证)、流程层面(诚信评分机制、人工监督)、社群层面(发表后评审、举报机制)及文化层面(普及AI局限性教育、制定伦理准则)。
"我们视此研究为早期预警系统,旨在催化强有力的防御机制,避免这些失效模式大规模显现。研究表明当前系统尚未准备好应对纯AI研究——随着AI能力提升,科学诚信仍需依赖严谨的人工评估。"
结论
近期检测AI生成文本的最大挑战之一,可能是标准写作规范与AI生成内容风格特征的趋同——后者目前仍可通过词汇选择、语法模式等特征进行识别。
若人类与AI语言风格融合为通用标准,未来仅基于输出分析的检测方法将更难实施。
此外,随着大型语言模型(LLMs)功能日益多元化,其特征辨识度逐渐降低——无论是通过架构改进、训练技术突破,还是更完善的API级过滤机制——生成的文本将更趋自然。这预示着人类语言与AI语言可能进一步融合,形成更统一的风格体系。
届时,AI文本检测或将步入与AI图像视频生成相同的阶段:依赖于次级溯源系统,例如Adobe主导的内容真实性倡议(CAI)或基于区块链的验证方法。
首次发布于2025年10月22日星期三
相关文章
Multiverse Computing推出免费压缩生成式AI模型
大型语言模型面临着一个重大挑战:其庞大的体量。西班牙初创公司Multiverse Computing正通过创建压缩模型来解决这一问题,旨在弥合尖端人工智能能力与企业实际可负担实施能力之间的差距。其核心创新在于CompactifAI压缩技术——这项受量子计算原理启发的技术已被这家巴斯克公司用于优化OpenAI的模型。从今天起,开发者可在Hugging Face平台免费获取Multiverse增强版H
秘密追踪数据揭露人工智能模型被盗事件
一种新方法能在数秒内对ChatGPT等模型进行隐形水印处理,无需重新训练,既不会在标准输出中留下痕迹,又能抵御所有实际的去除尝试。 水印技术与"版权诱饵"的关键区别在于:无论可见或隐形的水印,通常都设计为贯穿整个集合(如图像数据集)的持续性威慑手段,以防范随意复制。而虚构条目则是将一小段文本(通常为单词或定义)植入大型通用集合中,旨在证明盗用行为。其原理在于:当作品被直接盗用或作为衍生作品基础时,
以优化为驱动的人工智能成为通用模型的新路径
伊利诺伊大学厄巴纳-香槟分校与弗吉尼亚大学的研究人员创建了一种新型模型架构,有望为构建更具弹性且推理能力更强的AI系统铺平道路。该架构被命名为基于能量的变压器(EBT),能够自然地利用推理时期的可扩展性来应对复杂挑战。对企业而言,这意味着能够适应新场景且无需专用微调模型的成本高效人工智能应用。系统2思维的挑战心理学将人类认知划分为两种模式:快速直觉的系统1,以及缓慢审慎的系统2。当前大型语言模型(
相关专题推荐
评论 (0)
0/500
最新研究表明,人工智能系统现已能够生成虚假科学论文,且其他AI模型会将其误认为真实研究。这些伪造的研究绕过了以往有效的检测方法,凸显出科研生态系统可能陷入机器人欺骗机器人的循环漩涡,面临崩溃风险。
具有讽刺意味的是,作为人工智能创新前沿的学术研究领域,正面临着主要由人工智能引发的可信度危机。自四年前机器学习的潜在影响显现以来,其已深刻重塑了研究、投稿和同行评审流程。最新争议涉及低质量调查论文的批量生产。
与众多学术领域相似,研究界正陷入文本生成AI(如ChatGPT和Claude系列)与先进"检测器"AI之间的无声博弈——后者旨在识别合成内容,同时避免误判学生或研究人员。
随着AI辅助系统推动科研投稿量激增,这种紧张关系预计将持续加剧。该趋势催生了工业化AI监管的需求,以过滤完全由AI生成的投稿。
欢迎虚假知识
近期一项美沙合作研究揭示,当论文采用额外欺骗手段时,新兴AI检测"防火墙"极易被完全由AI生成的论文突破。
实验中,名为BadScientist的新系统从当前用于识别论文AI生成内容的大型语言模型(LLM)处获得了高达82%的通过率:

BadScientist系统通过一个AI代理生成虚假论文,另一个代理则利用现有语言模型进行评审。来源:https://arxiv.org/pdf/2510.18003
这些伪造论文基于真实AI会议主题,采用误导性策略。评审模型均基于同行评审数据训练,包括用于完整性检查的GPT-5。尽管存在明显错误或捏造内容,许多论文仍获得高分。
该研究发布之际,斯坦福大学正举办"2025年科学人工智能代理开放会议"——与会者与演讲者均为人类,但所有论文均由各类人工智能系统撰写并评审。
新论文指出,BadScientist通过学术欺诈与修辞欺骗手段——包括信息隐瞒、内容捏造及夸大其词——成功规避了当前多数AI内容识别系统的检测。我们将随后剖析这些策略。
作者们担忧的是,即便检测系统识别出伪造论文中的人工智能生成内容,这些论文往往仍会被批准发表。他们为增强防御能力而进行的尝试,其效果仅比随机概率略有提升。
论文指出:
"伪造论文获得高通过率,审稿人常陷入关切与接纳的矛盾——既指出诚信问题又推荐通过。这种根本性失灵表明,当前AI审稿人更像模式匹配器而非批判性评估者。
"[...] 仅要求大型语言模型评审者'更加谨慎'远远不够。科学界面临着迫切的选择。若不立即实施深度防御机制——包括来源验证、诚信权重评分和强制人工监督——我们将陷入纯AI出版循环的风险,届时复杂伪造将淹没我们区分真实研究与逼真伪造的能力。
"科学知识的完整性正面临威胁。"
这项题为《BadScientist:研究代理能否撰写欺骗LLM审稿人的逼真但站不住脚的论文?》的新研究,由华盛顿大学与利雅得阿卜杜勒阿齐兹国王科学技术城的六位研究人员共同完成,并设有配套项目网站。
方法
本研究采用的论文生成框架是对2024年AI-Scientist协作系统的重大革新。作者指出整个流程已彻底重构,仅保留基础写作提示,同时移除了所有实验执行模块与模板化结构。新版系统从简单种子开始,能够自由构造实验结果并按需生成绘图代码。
该框架的核心目标是使AI无需实际实验或真实数据即可生成具有说服力的伪论文。系统通过创建或操纵合成数据来支撑人为编造的论点。
作者明确指出,该设置刻意规避了人类参与、提示词操控或撰写者与评审者智能体之间的串通。评审AI仅通过单次评估处理每份投稿,仅能访问论文本身且无法复现实验——这完全复刻了现实世界的同行评审条件。
用于生成伪造论文的"原子策略"是可单独或组合运用的模块化战术。这些策略对学术文献常读者而言并不陌生,包括:
- 夸大方法的突破性改进(TooGoodGains);
- 选择有利于新方法的基准线和结果,同时在主表中省略置信区间(基准选择策略);
- 在附录中提供干净的消融实验、精确统计数据和精修表格,同时承诺未来提供代码或数据(StatTheater);
- 通过统一术语、交叉引用和格式化精修论文结构(连贯润色);
- 添加看似有效实则暗藏漏洞的正式证明(ProofGap)。
数据与测试
为评估系统,作者利用GPT-5生成涵盖核心AI领域的研究主题:人工智能、机器学习、计算机视觉、自然语言处理、机器人学、系统 与安全。
这些类别作为伪论文的种子主题,每项均通过上述策略扩展为四个版本,旨在误导或取悦审稿人。论文是否被录用完全取决于AI审稿人最终给出的评分。
所有伪造论文均由GPT-5独立撰写。评审环节则采用GPT-4.1、o4-mini及o3三种模型,均使用相同评审提示语,旨在模拟真实同行评审的评分标准与结构。
为确保评审分数的有效性,系统通过ICLR 2025 OpenReview数据集(包含真实论文、评审意见及录用结果的公开集合)中的200篇实际投稿进行校准。
基于该数据集,研究者设定两条评分阈值:其一对应ICLR实际31.73%的录用率,设定为7分;其二反映论文获得人类评审者50%录用概率的评分(经计算为6.667分)。
研究者通过模拟5000篇虚构论文的评审流程验证系统可靠性:采用1-3名AI评审员,每名评审员给出1-10分评分。结果表明,即便在这种噪声环境下,系统错误率仍远低于最坏情况理论极限。
采用三审制较单审制显著降低评分波动性,决策稳定性提升近三倍。这些结果证明采用三审模型及200篇真实论文校准集的合理性。
为评估生成器性能,定义了两个指标:通过率(衡量伪造论文获得合格评分的频率)与平均评审分数(反映所有提交稿件的评估均值)。两者共同用于衡量系统欺骗评审员的有效性:

接受率(ACPT)显示假论文在两个阈值以上的占比:其一对应ICLR 2025录用率,其二对应50%人工录用率预估值。完整性关注率(ICR-m)则反映各评审模型标记异常的比率。最后一列给出基于多数投票的综合判定率。
在几乎所有策略下,伪造论文均获得高录用率。仅采用首项策略时,两个阈值下的录用率分别达67%和82%,表明评审模型极易被说服。综合运用所有策略虽略微降低录用率,但检测率翻倍,超过半数评审提出质疑。 首项策略实现最佳平衡:兼具较高接受率与中等检测率,其他策略效果较弱但更难被识别。ChatGPT-o3模型标记的疑虑最多,GPT-4.1标记的疑虑最少。

图示展示了六种攻击策略在三种审核模型中的评分分布:GPT-4.1(红色);o3(橙色);o4-mini(蓝色)。每幅图呈现4至9分评分的出现频率,红色虚线标记七分的接受阈值。
在上述第二次测试结果中,三种模型在六种设置下的评分直方图呈现不同分布:o4-mini平均评分较高,o3分布更宽且极端值更多,GPT-4.1则始终给出较低评分。

模型与策略间的关切-接受冲突:模型虽提出完整性疑虑却仍给予通过评分的案例占比。数值越高表明疑虑检测与最终评估的关联性越弱。
上表显示模型常在标记诚信问题时仍给出高分。其中o4-mini表现最不一致:在s1、s3及组合设置下冲突率达100%,其他设置中冲突率为50-80%。 GPT-4.1的冲突率在0%(s4)至75%(s3)之间波动,而o3表现更为稳定,维持在26%至52%区间。s3设置下的冲突率最高(尤其在o4-mini模型中),作者指出检测信号与最终评分关联性较弱。
缓解方案
为帮助未来检测模型抵御新型攻击,测试了两种方法。首项"检测式复核(ReD)"在标准复核中新增完整性检查环节,要求模型标记AI生成内容并提供证据。此举虽使完整性警告率从57%升至86%,但通过率同步提升,表明警告未影响最终评分:

与基准相比,检测型评审(ReD)同时提升了完整性关注率(ICR)和接受率(ACPT)。在ReD模式下o3模型敏感度显著增强,而GPT-4.1未能标记任何问题。尽管完整性警告增加,整体接受率仍呈上升趋势,表明检测与评分之间关联性较弱。
第二种方法"仅检测(DetOnly)"跳过完整评审,要求模型将论文分类为真实或伪造。除o3模型略有改善外,检测准确率普遍较低,接近随机水平:

ReD与DetOnly检测结果对比随机基准。相较随机基准的准确率提升微乎其微,但ReD更趋保守,而DetOnly虽获得更高召回率却伴随大量误报。模型o3表现出最强检测偏向;o4-mini结果不稳定;GPT-4.1几乎无法检测出异常。
总体而言,ReD模型更趋保守,而DetOnly虽提升召回率却伴随更多误报。
论文结论指出:
"纯AI出版循环正威胁科学认识论。若伪造成果与真实研究难以区分,科学知识体系的基础将面临崩塌风险。
"前行之路需构建多层防御体系:技术层面(来源验证、成果验证)、流程层面(诚信评分机制、人工监督)、社群层面(发表后评审、举报机制)及文化层面(普及AI局限性教育、制定伦理准则)。
"我们视此研究为早期预警系统,旨在催化强有力的防御机制,避免这些失效模式大规模显现。研究表明当前系统尚未准备好应对纯AI研究——随着AI能力提升,科学诚信仍需依赖严谨的人工评估。"
结论
近期检测AI生成文本的最大挑战之一,可能是标准写作规范与AI生成内容风格特征的趋同——后者目前仍可通过词汇选择、语法模式等特征进行识别。
若人类与AI语言风格融合为通用标准,未来仅基于输出分析的检测方法将更难实施。
此外,随着大型语言模型(LLMs)功能日益多元化,其特征辨识度逐渐降低——无论是通过架构改进、训练技术突破,还是更完善的API级过滤机制——生成的文本将更趋自然。这预示着人类语言与AI语言可能进一步融合,形成更统一的风格体系。
届时,AI文本检测或将步入与AI图像视频生成相同的阶段:依赖于次级溯源系统,例如Adobe主导的内容真实性倡议(CAI)或基于区块链的验证方法。
首次发布于2025年10月22日星期三
Multiverse Computing推出免费压缩生成式AI模型
大型语言模型面临着一个重大挑战:其庞大的体量。西班牙初创公司Multiverse Computing正通过创建压缩模型来解决这一问题,旨在弥合尖端人工智能能力与企业实际可负担实施能力之间的差距。其核心创新在于CompactifAI压缩技术——这项受量子计算原理启发的技术已被这家巴斯克公司用于优化OpenAI的模型。从今天起,开发者可在Hugging Face平台免费获取Multiverse增强版H
秘密追踪数据揭露人工智能模型被盗事件
一种新方法能在数秒内对ChatGPT等模型进行隐形水印处理,无需重新训练,既不会在标准输出中留下痕迹,又能抵御所有实际的去除尝试。 水印技术与"版权诱饵"的关键区别在于:无论可见或隐形的水印,通常都设计为贯穿整个集合(如图像数据集)的持续性威慑手段,以防范随意复制。而虚构条目则是将一小段文本(通常为单词或定义)植入大型通用集合中,旨在证明盗用行为。其原理在于:当作品被直接盗用或作为衍生作品基础时,
以优化为驱动的人工智能成为通用模型的新路径
伊利诺伊大学厄巴纳-香槟分校与弗吉尼亚大学的研究人员创建了一种新型模型架构,有望为构建更具弹性且推理能力更强的AI系统铺平道路。该架构被命名为基于能量的变压器(EBT),能够自然地利用推理时期的可扩展性来应对复杂挑战。对企业而言,这意味着能够适应新场景且无需专用微调模型的成本高效人工智能应用。系统2思维的挑战心理学将人类认知划分为两种模式:快速直觉的系统1,以及缓慢审慎的系统2。当前大型语言模型(





首页






