让AI失忆：JensUn方法让大模型“忘得彻底”

研究者提出JensUn方法，让大模型能在遗忘有害或隐私信息时保持功能，并引入更严格评估框架，揭示现有方法常被高估。

在大型语言模型中，“遗忘”指的是有选择地移除模型已经学到的特定信息。这对于安全至关重要，比如删除训练时意外吸收的私人数据，或是潜在危险的知识。但现实中，许多现有的遗忘方法经不起严格检验，模型表面上看似遗忘，实际上却只是把信息暂时压制，一旦在新数据上微调，便很容易“记起来”。

为此，研究团队提出了全新的方法——JensUn。它以Jensen-Shannon散度作为优化目标，同时作用在需要遗忘和需要保留的样本集合上。相比以往常见的损失函数，这种方式在遗忘的稳定性和效果上更胜一筹。大量实验显示，JensUn能在“忘记”和“保持”之间取得更优平衡，而且在面对无害的再训练时表现出极强的抗性，也就是说，被遗忘的信息几乎无法恢复。

除了方法上的突破，研究者还强调了评估框架的问题。现有评估多依赖ROUGE分数，但ROUGE本质只是字符串匹配，无法判断答案的语义正确性，更无法处理改写和同义表达。因此他们提出用大模型本身作为“语义裁判”，结果显示其判断与人工评估高度一致，比ROUGE更可靠。同时，研究团队还主张使用最严格的“最坏情况”评估，即将遗忘问题换一种说法、增加上下文干扰，再看模型是否还能答对。只有在所有这些变体下都答不对，才能真正说明遗忘成功。

为了测试这一思路，他们建立了名为**LKF(Lesser Known Facts)**的数据集，收录一些鲜为人知的事实，用来模拟真实的遗忘场景。结合LKF和已有的RWKU基准，他们发现：在更严苛的评估下，许多被广泛使用的方法效果远比之前认为的要差。

在背景回顾中，文章指出目前的遗忘方法包括梯度上升、梯度差分、基于偏好优化的DPO和NPO，以及拒绝调优、上下文遗忘等。这些方法各有优缺点，但共同的问题是——要么遗忘过度，导致模型在正常任务上无法使用，要么遗忘不彻底，很容易在再训练时恢复。

JensUn的优势在于，Jensen-Shannon散度既对称又有界，不会像对数似然那样产生极端数值，从而导致模型性能崩溃。实验表明，它能在遗忘目标时避免无谓的性能下降，让模型保持更稳定的输出。在长时间的微调过程中，也不容易出现训练不稳定或效能骤降的情况。

在更广泛的视角下，这项研究提醒我们：在大模型的安全部署中，真正的“遗忘”远比想象中困难。简单的评估会产生幻觉，让人以为问题解决了，而在实际使用中，隐藏的信息随时可能重新浮现。只有通过像JensUn这样的新方法，以及严格的多重评估框架，才能确保遗忘既真实又持久。

本文译自 arxiv，由 BALI 编辑发布。