Pre-trained Language Models for Alert Aggregation: Limitations and Opportunities

International Conference on Information Security and Cryptology (ICISC 2024) 2024.10.30,

XuWenwu, WuPengyi, WangPeng,ZhouGuoqiao, ZhaiLidong

Abstract

本文针对复杂软件系统中 警报泛滥导致的 “警报疲劳” 问题,首次系统探究了预训练语言模型(如 BERT、RoBERTa 等)在警报聚合任务中的应用潜力与安全局限。研究设计了基于白化模块的无监督方法和结合前馈网络的有监督方法,通过在真实银行警报数据集上的实验验证,发现预训练模型能有效提取深层语义信息,其中 BERT 结合白化处理在无监督场景下实现了 99.8% 的事件准确率,有监督方法与现有最优方法性能相当但更依赖语义信息。进一步分析揭示了白化模块对向量空间标准化的关键作用,并通过后门攻击和对抗样本攻击实验,证实了模型在安全场景下的脆弱性。该研究为警报聚合提供了新的语义建模范式,同时呼吁关注预训练模型在安全领域应用的潜在风险。