人工智能揭示新闻内容中的隐藏议程

首页

新闻

人工智能揭示新闻内容中的隐藏议程

2026-02-26

JustinHarris

# nlp

ChatGPT类模型正被训练以揭示新闻报道背后的潜在立场——即便这种观点被引语、叙事框架或（有时虚伪的）中立表象所掩盖。通过将文章拆解为标题、导语和引语等段落，新型系统能识别长篇专业新闻报道中的偏见。

这种洞悉作者或发言者真实立场的技术（学术文献中称为立场检测），正攻克语言解读中最复杂的难题之一：从可能刻意设计来掩盖或模糊意图的内容中辨别真实意图。

从乔纳森·斯威夫特的《一个谦卑的建议》到当代政治表演中演员借用意识形态对手的修辞手法，言论表象已不再是意图的可靠指标。反讽、网络恶搞、虚假信息和战略性模糊的盛行，使得判断文本真正支持哪一方——甚至是否持任何立场——变得日益困难。

未言明的内容往往与明言内容同等重要，而选择回避某个话题本身，就可能透露作者的立场。

这使得自动立场检测尤为困难，因为有效的系统不仅要将单句标记为"支持"或"反对"，更需穿梭于语义层级之间，在文章整体脉络与方向中权衡微妙线索——在长篇新闻报道中，这种任务尤为艰巨，因为语气可能反复无常，观点鲜少直白表述。

变革推动者

为应对这些挑战，韩国研究人员开发了名为JOA-ICL（新闻引导的语境内学习）的新系统来检测长篇新闻文章的立场。

JOA-ICL的核心思想在于：通过聚合由独立语言模型代理生成的分段级预测结果，推断出文章级立场。来源：https://arxiv.org/pdf/2507.11049

JOA-ICL的核心理念是：通过聚合独立语言模型代理生成的分段级预测结果，推断出文章层面的立场。来源：https://arxiv.org/pdf/2507.11049

该系统不直接评估整篇文章，而是将其分解为标题、导语、引语和结论等结构化组件，并为每个段落分配小型模型进行标注。这些局部预测结果随后传递给大型模型，由其综合判断文章整体立场。

该方法在全新编译的韩语数据集上进行测试，该数据集包含2000篇新闻文章，并标注了文章级和分段级的立场。每篇文章均由新闻专家参与标注，反映了立场在专业新闻写作结构中的分布规律。

论文指出，JOA-ICL模型在检测支持性立场（同类模型常遗漏的类别）方面表现尤为突出，其性能超越了基于提示和微调的基线模型。该方法在类似条件下应用于德语数据集时同样有效，表明其原理可能具有跨语言适应性。

作者指出：

"实验表明JOA-ICL超越现有立场检测方法，凸显了基于分段层级能动性在捕捉长篇新闻整体立场方面的优势。"

该论文题为《新闻立场检测的新闻引导式语境内代理学习》，由首尔崇实大学多个院系及韩国科学技术院未来战略研究生院联合发表。

方法论

人工智能增强立场检测面临的挑战部分源于技术瓶颈——在当前尖端技术限制下，机器学习系统同时处理和关联的信息量存在局限。

新闻报道通常避免直接表达观点，而是通过选择引用的消息来源、叙事框架以及省略的细节等隐性或 默认立场来传递立场。

即便文章立场明确，相关信号也常分散于文本各处，不同段落指向不同方向。由于语言模型（LM）仍受限于有限的上下文窗口，这使得它们难以像处理推文或社交媒体帖子等短内容那样评估立场——在后者中，文本与意图的关系更为明确。

因此，标准方法应用于长篇新闻报道时往往力不从心——在新闻报道中，模糊性常是特征而非缺陷。

论文指出：

"为应对这些挑战，我们提出分层建模方法：首先在较小话语单元（如段落或章节）层面推断立场，随后整合这些局部预测结果以确定文章整体立场。

"该框架旨在保留局部语境，捕捉分散的立场线索，从而评估新闻报道不同部分如何共同构成其对议题的整体立场。"

为此，作者构建了名为K-NEWS-STANCE的新型数据集，素材源自2022年6月至2024年6月间的韩国新闻报道。文章首先通过韩国新闻基金会运营的政府支持元数据服务BigKinds进行识别，全文则通过Naver新闻聚合API获取。最终数据集包含来自31家媒体的2000篇文章，覆盖47个全国性议题。

每篇报道均接受双重标注：其一为对特定议题的整体立场，其二为对具体段落的分析——包括标题、导语、结论及 直接引语。

标注工作由新闻学专家韩智英（论文第三作者）主导，其依据媒体研究确立的特征（如信息源选择、词汇框架及引语模式）指导流程。最终获得19,650个段落级立场标签。

为确保文章包含有意义的观点信号，首先按体裁对文章进行分类，仅将标记为分析或评论类（主观框架更可能出现）的文章用于立场标注。

两名受训标注员对所有文章进行标注，当立场不明确时需参考相关文章。分歧通过讨论和补充审查解决。

K-NEWS-STANCE数据集的样本条目，已翻译为英文。仅展示标题、导语及引语部分；正文全文已省略。高亮标记表示引语的立场标签，蓝色代表支持立场，红色代表反对立场。请参阅引用的PDF来源以获取更清晰的呈现。

K-NEWS-STANCE数据集样本条目（译为英文）。仅展示标题、导语及引语，正文内容省略。高亮标注为引语立场标签，蓝色表示支持立场，红色表示反对立场。更清晰的呈现请参阅引用的PDF来源。

JoA-ICL

该系统不将文章视为单一文本块，而是将其划分为关键结构部分：标题、导语、引语和结论。每个段落由语言模型代理标注为支持性、反对 性或中立性。

这些局部预测结果随后传递给第二个代理，由其确定文章的整体立场。两个代理通过控制器协同工作，该控制器负责准备提示并收集结果。

由此，JoA-ICL将基于上下文的学习（模型从提示中的示例学习）与专业新闻写作结构相融合，采用分段感知型提示替代单一通用输入。

（注：论文中多数示例与插图篇幅较长，难以在网络文章中清晰呈现。建议读者查阅原始PDF文件。）

数据与测试

测试中，研究人员采用宏观F1值和准确率评估性能，通过42至51个随机种子进行十次运行取平均值并报告标准误差。训练数据用于微调基线模型和分段级代理，通过KLUE-RoBERTa-large进行相似性搜索选取少样本训练样本。

测试在三台RTX A6000 GPU（每台配备48GB显存）上进行，使用环境为Python 3.9.19、PyTorch 2.5.1、Transformers 4.52.0及vLLM 0.8.5。

通过API调用GPT-4o-mini、Claude 3 Haiku及Gemini 2 Flash模型，链式思考提示采用温度1.0、最大令牌数1000的设置，其余提示采用100令牌限制。

Exaone-3.5-2.4B的完整微调采用AdamW优化器，学习率5e-5，权重衰减0.01，预热100步，批量大小6，训练10个 epoch。

基线模型采用：针对文章立场检测微调的RoBERTa；为特定任务另行调优的RoBERTa变体Chain-of-Thought (CoT) Embeddings； LKI-BART（编码器-解码器模型，通过同时输入文本和预期立场标签向大型语言模型注入上下文知识）；以及PT-HCL（采用对比学习方法分离通用特征与目标议题特异性特征）：

各模型在K-NEWS-STANCE测试集上的整体姿势预测表现。结果以宏观F1值和准确率呈现，各组最高得分以粗体标注。

各模型在K-NEWS-STANCE测试集上的整体立场预测表现。结果以宏观F1值和准确率呈现，各组最高分以粗体标注。

JOA-ICL在准确率和宏观F1值两项指标均取得最佳整体表现，该优势在测试的三种模型骨干架构（GPT-4o-mini、Claude 3 Haiku和Gemini 2 Flash）中均得以体现。

基于分段的方法始终优于其他所有方案，作者特别指出其在检测支持性立场方面具有显著优势——这是同类模型的普遍弱项。

基线模型整体表现逊色：RoBERTa及Chain-of-Thought变体在细微案例中表现欠佳，PT-HCL和LKI-BART虽表现稍优，但多数类别仍落后于JOA-ICL。最高精度单项结果来自JOA-ICL（Claude）模型，宏观F1值达64.8%，准确率达66.1%。

下图展示了各模型正确或错误识别标签的频率分布：

基准模型与JoA-ICL的混淆矩阵对比显示，两种方法在识别"支持性"立场时均表现最差。

JoA-ICL整体表现优于基线模型，在所有类别中正确识别更多标签。但两者在支持性文章识别上均表现欠佳，基线模型近半数误判，常将其标记为中立立场。

JoA-ICL虽错误率较低但呈现相同模式，进一步印证"积极"立场对模型而言更难识别。

为验证JoA-ICL能否突破韩语限制，作者将其应用于德国文章立场检测数据集CheeSE。由于CheeSE缺乏分段级标签，研究人员采用远距离监督策略，将每段立场标签统一设为全文立场。

基于德语CheeSE数据集的姿态检测结果。JoA-ICL在所有三种大型语言模型上均显著优于零样本提示，且超越了微调基线模型，其中Gemini-2.0-flash版本展现出最优的整体性能。

在德语CheeSE数据集上的立场检测结果显示：JoA-ICL在三种大型语言模型上均持续优于零样本提示，且超越了微调基线模型，其中Gemini-2.0-flash展现出最优整体性能。

即便在这些"噪声"条件下，JoA-ICL仍优于精细调优模型和零样本提示。在测试的三种基础模型中，Gemini-2.0-flash表现最为突出。

结论

立场预测在机器学习领域堪称最具政治敏感性的任务之一，却常被以技术化、机械化的方式处理。与此同时，生成式人工智能中更简单的任务——如视频和图像生成——往往更受关注并占据头条。

这项韩国新研究最令人鼓舞之处在于，它致力于分析完整长度的文本内容，而非推文和短篇社交媒体帖子——后者的影响力往往不如论文、随笔等实质性作品持久。

该研究（乃至立场预测领域）存在一个显著缺口：未考量超链接因素。超链接常作为读者深入探索主题的可选资源，但其选择过程往往高度主观，甚至带有政治色彩。

值得注意的是，出版物越权威，其内容越少包含引导读者跳转至外部域名的链接。加之超链接在搜索引擎优化（SEO）中的各种合理运用与滥用，使得超链接相较于直接引文、标题等可能有意识或无意识影响读者观点的元素，更难进行量化分析。

首次发布于2025年7月16日星期三

Anthropic的Claude 4.1在编程基准测试中表现优异，领先于即将发布的GPT-5 周一，Anthropic公司发布了其旗舰人工智能模型的增强版，为软件工程任务的性能树立了新标杆。此次发布使这家人工智能初创企业得以捍卫其在利润丰厚的编码领域的优势地位，同时为应对OpenAI即将带来的新竞争做好准备。新版Claude Opus 4.1模型在SWE-bench认证测试中斩获74.5%的得分，该测试是评估AI系统解决实际软件问题能力的权威基准。这一成绩超越了OpenAI o3模型的69

Nvidia 推出可切换推理的开源人工智能模型 Nemotron-Nano-9B-v2 小型语言模型正掀起波澜。继麻省理工学院衍生公司Liquid AI推出智能手表尺寸的视觉模型、谷歌推出智能手机适配产品后，英伟达现携精简版竞品Nemotron-Nano-9B-V2入局。该模型在关键基准测试中领跑同类产品，并引入独特功能：用户可启用或禁用AI"推理"机制——这实质是生成最终答案前的自我检查流程。尽管90亿参数规模仍远超近期报道的数百万参数微型模型，但英伟达强调这是对其原始120亿参

OpenAI 将根据法院命令保留 ChatGPT 数据，首席执行官 Altman 提出 "人工智能特权 "建议包括本文作者在内的许多 ChatGPT 老用户可能都使用过 "临时聊天 "功能。这个选项由 OpenAI 的流行聊天机器人提供，目的是在会话关闭后自动清除会话中交换的所有信息。此外，用户还可以从网页、桌面和移动应用程序的侧边栏中手动删除过去的 ChatGPT 对话。具体方法是左键单击、按住 Control 键单击或长按所需聊天内容。然而，本周 OpenAI 遭到了用户的批评，因为该公司被发现并没有

相关专题推荐

漫画创作

漫画领域顶尖的AI自动上色工具：零一致性错误地应用平涂色彩

立即访问 XIX.AI，探索 2026 年最优秀的漫画 AI 自动上色工具。我们精心筛选的清单汇集了广受好评、颠覆行业的解决方案，这些工具能以零一致性错误的方式应用平涂色彩，从而大幅提升您的工作效率。通过免费版与付费版的对比分析、实际测试以及每周更新的排行榜，找到最适合您的工具。立即开启您的 AI 优势。