Generate First, Then Sample: Enhancing Fake News Detection with LLM-Augmented Reinforced Sampling

The 63rd Annual Meeting of the Association for Computational Linguistics 2025.05.16,

Zhao Tong, Yimeng Gu, Huidong Liu, Qiang Liu, Shu Wu ,Haichao Shi and Xiao-Yu Zhang

Abstract

网络平台上部署涉案新闻传播一直是亟需解决的重大问题。虽然前期大量致力于研究开发涉案新闻检测模型,但这些模型存在明显缺陷:识别虚假新闻的性能较真实新闻低20%以上,导致实际效果不佳。这种差距可能是由于数据集不平衡以及模型对目标平台数据分布的认识存在不足。本研究重点于虚假新闻检测模型的提升,具体通过以下方法实现:首先采用大语言模型(LLM)生成不同风格的预测新闻样本并加入训练集,以增强预测新闻的表征多样性;接着应用强化学习(RL)动态预测新闻,使模型能自主学习最优的“真实预测新闻比例”,从而针对目标平台训练出高效的检测器。即使方法在基准数据集上的条件下仍能保持优异性能,并能持续提升跨平台的检测准确率。实验结果表明,本方案在基准数据集上分别实现了24.02%和11.06%的性能提升。