如何解决大语言模型幻觉

Lamini公司提出一种记忆调优方法，有效减少大语言模型95%的幻觉问题。

到目前为止，我希望大多数读者都已经体验过公开可用的大语言模型，无论是自己运行软件，还是订阅众多在线服务之一，或者使用当前的免费和测试解决方案。在大多数情况下，这些大语言模型之所以被称为“大”，是因为它们包含数十亿个参数，通常在大量非结构化语言数据上进行训练。对于大多数行业来说，参数的数量通常与这些模型的准确性相关联——训练的数据越多，设计中的参数越多，这些通用模型可以持有和回忆或生成的信息范围越广。然而，情况并非总是如此，目前这个市场存在一个大问题：幻觉。

本周，初创公司Lamini发表了一篇论文，展示了一种新方法，能够保守地减少大语言模型95%的幻觉问题。Lamini由首席执行官Sharon Zhou(PhD，Andrew Ng团队的生成式AI教授，MIT获奖生成式AI研究，最大规模的生成式AI Coursera课程)和首席技术官Greg Diamos(NVIDIA/CUDA架构师，超过14000次引用，AI扩展法则，ML Perf联合创始人)共同创立，是最早提供大语言模型微调服务的公司之一。与其他公司不同的是，尽管联合创始人之一是NVIDIA Tensor Core架构师，他们更倾向于使用AMD Instinct MI200/MI300 GPU。公司在2024年初完成了A轮融资，获得2500万美元的资金，主要投资者包括Amplify Partners和First Round Capital。其他投资者包括Lip-Bu Tan、Andrej Karpathy和Andrew Ng。Lamini已经拥有《财富》500强企业客户，并提供基于每GPU授权的中间层软件以及云推理服务。

幻觉问题

目前的大语言模型属于“生成式AI”类别——你给它一个提示词/单词，它会生成一些返回的词语。然而，生成的内容是基于输入的，并且由于设计中的概率函数，输出是“生成”的，可能会提供原始数据集中存在但抽象到模型内嵌空间中的话题的详细信息。例如，“parent”这一概念可以嵌入为son和father之间的向量，而类似的向量也可以用来描述一个更改名称的国家。

然而，模型会出现幻觉。这不仅仅限于大模型，但生成式AI天生就考虑到了幻觉问题。这最终导致模型给出错误信息，或者在嵌入空间中创建了不应存在的关系，导致错误的输出。

幻觉问题来源于多个方面，但我将在这里挑两个方面。首先是事实——大多数通用模型对事实的掌握较差。它们擅长解释概念，但问一个通用模型某人的生日往往是不靠谱的。原因是即使数据集中有正确答案，也会有很多相似的信息可能被模型选择作为响应的一部分。一个很好的例子是我问一个通用Llama2-7B模型AMD首席执行官Lisa Su的生日——它正确地识别了年份，但日期实际上是归因于晶体管的发现日期。因为Lisa Su与芯片和晶体管密切相关，所以在嵌入空间中被选择为可能符合答案的候选者。模型出现了幻觉。

其次是这些通用模型的训练方式。数据集可能是公共信息，正确或错误(例如reddit, Wikipedia)，甚至是矛盾的信息，但这些模型被设计成要给出一个答案，无论对错。除非问题在“不要回答此类问题”的保护机制中被捕捉到，否则几乎所有的语言模型都倾向于给出答案，无论是否正确。这不仅适用于事实，还适用于数据集中没有直接存在但可能从数据集中推导出的概念。对于一个特定模型来说，LiDAR和RADAR可能相似，或者1000万这个数字可能与300万有相同的权重——如果你在使用一个模型来处理就业合同，这就会产生很大的差异。

问题在于通用训练数据就是通用的。一个形成良好的数据集(大多数不是)将在许多主题上提供类似水平的输出。在各种测试中，损失函数(准确性水平，数字越低越好)通常会在测试主题之间表现得相似。因此，幻觉可能发生在模型中的许多不同概念上，而不管模型的参数大小。通常从头开始训练一个大模型的数据集是一次性事件，因为数据集庞大，训练成本巨大——我们已经快要达到数十亿美元的训练成本了，这还不包括GPU的成本。

已经有一些方法可以帮助应对幻觉问题并付诸实践。

第一个选择是拥有一个特定领域的模型，仅在需要的数据上进行训练。这有一些边缘情况的问题，不能很好地在其领域之外进行泛化，但也存在不知道哪些事实可能在上下文中相关的问题。数据集中多个日期嵌入到一个主题中的嵌入函数很容易让人迷惑。

处理幻觉问题的初步方法是参与协同提示。例如，将用户的提示与背景中相关的准确材料配对。比如，一个设计为帮助支持特定产品的助手可以与所有相关的PDF或数据库信息协同提示，处理用户的提问。模型可以设计成将协同提示作为比通用信息更高的准确性标准，然而它仍然依赖于模型选择协同提示作为正确答案。此外，这需要模型输入接受成千上万，甚至数百万个令牌，这大大增加了任何推理设计的计算需求，从长远来看使其成本不具成本效益，特别是如果协同提示是多模态的(图像、音频或视频而不是文本)。结果比原始模型更好，但仍然缺乏精确性。

接下来是微调。这类似于从头开始训练特定领域的模型，但我们从通用模型开始，并在已知的、经过筛选的数据上微调一些嵌入表。微调模型达到了某种程度的效果——毕竟这就是我们如何从GPT-3得到ChatGPT的。微调中对正确数据有偏好，并且可以泛化到多个主题，因为它来自于通用模型，然而在某些市场中，数据的微调并不够准确。微调也可能是计算密集型的。

今天行业中常提到的一个策略是RAG，即检索增强生成。这与协同提示类似，但改变了模型访问数据的方式。它不是附加到用户提示上，而是作为一个验证的数据库，模型可以用来辅助生成输出。例如，法律模型可以手头有案例数据库，其中特定的案例可以被检索以提供答案和背景。RAG的表现有时会有所不同，因为它仍然依赖于模型嵌入之外的数据。它可能和协同提示一样糟糕，也可能和最好的微调一样好。

我们还应提到语言模型中的专家概念。专家混合(MoE)模型依赖于多个优化的小模型，每个模型都有一个更精细和特定的数据集，然后通过一个分层决策向量(或树)将信息路由到特定专家以获得相关答案。大多数在线超级大语言模型使用MoE结构来帮助提高准确性，额外的好处是性能和成本——Mixtral 7x7B名义上是一个490亿参数的MoE，但在多个地方我看到一个平均输入只会激活大约300亿参数，从而减少计算和内存需求，但最终比490亿参数模型提供更好和更准确的输出。

所有这些技术都基于这样的原则，即当通用知识以足够的数据或正确的方式进行训练时，提高准确性，减少幻觉，并提供最低的损失函数(如上所述)。在通用训练之后，损失函数通过微调、RAG、MoE进一步减少。然而，它们都面临着这样一个事实，即即使有MoE，最终的目标是通过经过验证的数据减少整个知识阵列的平均损失函数。

现代大语言模型不仅要具备通用性，还需要在许多商业应用中持有特定知识。这就是Lamini的用武之地，他们声称能够几乎完全消除特定话题上的幻觉。该方法本身很有趣，但也提出了一个好问题，可能定义未来的机器学习计算模式可能会发生的变化——类似于Transformer相比以前的卷积神经网络的变化。

Lamini-1解决方案：记忆调优

在2024年6月13日发表的一篇论文中，Lamini介绍了一种名为“记忆调优”的方法——一种以非常具体的方式嵌入特定数据到即使只有30亿参数的小模型中的激进方法。问题在于(CTO Greg Diamos对我解释)这不仅是方法上的问题，还需要违背一些历史上的机器学习优化思维。

Lamini的记忆调优将MoE的概念以非常具体的方式大幅提升。每个专家被引导到一个调节器中，该调节器以100倍于微调的速度进行数据调优。调优比微调更容易，因为这些是调节器(如LoRA)，而不是优化整个嵌入表的权重。结果是，每个调节器可以将随机字符串样式的信息作为其数据集的一部分进行持有，并以100倍的速度进行训练，使其保留在那儿。整个模型中，这就创造了一个“百万专家混合体”，Lamini将其称为“记忆专家混合体”(MoME)。

简单来说，这就像把硬性事实放入模型中。

在机器学习中，有一个争论是大型模型实际上能以接近确定性的方式知道多少硬性事实。这个话题远超本文范围，但却是一个有趣的深思。

如果回到前面提到的损失函数概念，这看起来非常类似于将特定领域知识过拟合到模型中。对于该概念的损失函数变得大大降低，几乎对模型的通用知识没有任何影响。现在，模型可以准确回忆数据——在实践中，这可能是公司产品组合的信息，或者帮助台处理支持文档，甚至是处理代码的语言模型。实际上，这对低亿参数模型的有效性将有助于将MoME引入边缘用例。

正如我之前提到的，为了实现这一点，某些模型训练的传统思维必须抛弃。在机器学习世界中，通常对“过拟合”数据持有一种不情愿的态度，因为人们认为这会破坏模型其余部分的通用推理。最终的看法是，一个模型只能持有“有限”的数据(类似于互联网是一系列管道)，通过过拟合数据会导致其他方面的性能下降。在与Greg的讨论中，Lamini的方法对模型其余部分几乎没有影响。这很重要，因为大语言模型必须具备通用推理能力，但对于特定领域的MoME来说，这并不是问题。

Lamini在其网站上对MoME的解释是一个非常好的阅读材料，它还谈到了这比常规微调所需的计算要求低得多。这是因为为了消除幻觉而优化的知识领域本身定义狭窄——你不是重新调优整个嵌入表，而是对一个非常小的部分进行几十次的超级调优。但未提及的是，我问团队是否考虑过这对推理中的计算变化有什么影响。

在机器学习中，我们看到计算需求从卷积神经网络(CNN)和计算机视觉转向Transformer时发生了重大变化。Transformer是一大突破，但它改变了这些模型的计算和内存需求。任何专门为优化CNN而构建的计算硬件在面对Transformer时往往被抛在后面，因为它缺乏所需的额外计算功能，或者没有足够的计算到内存到内存带宽以实现管道全利用。在推理方面，特别是考虑到从长远来看推理的收入预计将超过训练成本很多个数量级，这一点非常重要。

问题在于，与标准模型(例如Llama3-8B)相比，一个新的Llama3-8B+1MxMoME(即1百万MoME的Llama3-8B)是否有显著不同的计算配置来推动计算架构的转变？答案是需要进行研究。如果在AI领域有一件事可能引发硅片制造商的剧变，那就是市场的又一次Transformer式进化，如果任何硬件制造商看到这一点并且/或者能够迅速调整以支持它的速度和规模。

Lamini表示，其记忆调优/MoME功能已经在多个客户中实施，包括一家财富500强公司，目前其文本到SQL代码生成的幻觉减少了10倍。

本文译自 morethanmoore，由 BALI 编辑发布。