研究者提出JensUn方法,让大模型能在遗忘有害或隐私信息时保持功能,并引入更严格评估框架,揭示现有方法常被高估。
在大型语言模型中,“遗忘”指的是有选择地移除模型已经学到的特定信息。这对于安全至关重要,比如删除训练时意外吸收的私人数据,或是潜在危险的知识。但现实中,许多现有的遗忘方法经不起严格检验,模型表面上看似遗忘,实际上却只是把信息暂时压制,一旦在新数据上微调,便很容易“记起来”。
为此,研究团队提出了全新的方法——JensUn。它以Jensen-Shannon散度作为优化目标,同时作用在需要遗忘和需要保留的样本集合上。相比以往常见的损失函数,这种方式在遗忘的稳定性和效果上更胜一筹。大量实验显示,JensUn能在“忘记”和“保持”之间取得更优平衡,而且在面对无害的再训练时表现出极强的抗性,也就是说,被遗忘的信息几乎无法恢复。
除了方法上的突破,研究者还强调了评估框架的问题。现有评估多依赖ROUGE分数,但ROUGE本质只是字符串匹配,无法判断答案的语义正确性,更无法处理改写和同义表达。因此他们提出用大模型本身作为“语义裁判”,结果显示其判断与人工评估高度一致,比ROUGE更可靠。同时,研究团队还主张使用最严格的“最坏情况”评估,即将遗忘问题换一种说法、增加上下文干扰,再看模型是否还能答对。只有在所有这些变体下都答不对,才能真正说明遗忘成功。
为了测试这一思路,他们建立了名为**LKF(Lesser Known Facts)**的数据集,收录一些鲜为人知的事实,用来模拟真实的遗忘场景。结合LKF和已有的RWKU基准,他们发现:在更严苛的评估下,许多被广泛使用的方法效果远比之前认为的要差。
在背景回顾中,文章指出目前的遗忘方法包括梯度上升、梯度差分、基于偏好优化的DPO和NPO,以及拒绝调优、上下文遗忘等。这些方法各有优缺点,但共同的问题是——要么遗忘过度,导致模型在正常任务上无法使用,要么遗忘不彻底,很容易在再训练时恢复。
JensUn的优势在于,Jensen-Shannon散度既对称又有界,不会像对数似然那样产生极端数值,从而导致模型性能崩溃。实验表明,它能在遗忘目标时避免无谓的性能下降,让模型保持更稳定的输出。在长时间的微调过程中,也不容易出现训练不稳定或效能骤降的情况。
在更广泛的视角下,这项研究提醒我们:在大模型的安全部署中,真正的“遗忘”远比想象中困难。简单的评估会产生幻觉,让人以为问题解决了,而在实际使用中,隐藏的信息随时可能重新浮现。只有通过像JensUn这样的新方法,以及严格的多重评估框架,才能确保遗忘既真实又持久。

2025王摸鱼秋款卫衣,玩梗系列