连续思维链通过叠加状态并行探索多条路径,高效解决图可达性问题,远超离散思维链的表现。

大型语言模型(LLMs)在推理任务中展现了惊人能力,尤其是在使用思维链(CoT)技术时。想象一个数学难题,模型在给出答案前,先一步步“思考”出中间步骤,这种方法让它能攻克从高中数学到复杂证明的难题。然而,面对更复杂的推理,比如规划或大规模图推理,传统思维链却显得力不从心。如何让模型更聪明地思考,成为亟待解决的难题。

最近,Hao等人提出了一种名为“连续思维链”(Coconut)的新方法。不同于传统离散思维链逐一生成文本“思考”标记,连续思维链在潜在空间中操作,允许模型同时探索多条推理路径。实验显示,这种方法在图可达性问题上表现优异。图可达性是一个基础的图推理任务:给定一个有向图、起点和两个候选终点,判断哪个终点可达。这个问题看似简单,却涵盖了从知识图谱到图灵机停机问题的多种应用。

为什么连续思维链如此强大?我们通过理论分析揭示了其奥秘。设想你在迷宫中寻找出口,传统离散思维链像一次只试一条路,选错可能得回头重来。而连续思维链好比同时感知多条路径的可能,像是量子力学中的“叠加态”,能并行开展广度优先搜索(BFS)。我们证明,一个仅两层的变换器(transformer)模型,使用图直径D步的连续思维,就能解决图可达性问题,而传统离散思维链的恒定深度变换器最少需要O(n²)步(n为节点数)。

这种效率的背后在于,连续思想向量是一个“叠加状态”,能同时表示多个搜索前沿。例如,在图中寻找从起点到终点的路径时,每个连续思想向量就像一张动态地图,记录所有可达节点的集合,而非单一路径。这种并行探索的能力让模型避免了离散思维链的局限性——后者必须从叠加态“坍缩”到单一选择,容易陷入局部解或需要更多步骤回溯。

更令人振奋的是,这种叠加机制并非人为设计,而是在训练中自然浮现。我们通过实验验证了理论模型。在训练时,仅需提供最优路径,模型就能自动学会编码多条可行路径。实验中,一个两层变换器在图可达性任务上接近100%准确率,远超12层离散思维链模型的83%。通过分析注意力模式,发现第一层注意力负责提取图的边信息,第二层则扩展搜索前沿,完美实现了理论设计。

有趣的是,模型甚至展现出优先探索最优路径的倾向。就像一名聪明的探险家,虽然能看到所有可能的路,却更关注通往目标的捷径。这种倾向可能源于训练策略:我们通过多阶段训练,逐步增加推理步骤,引导模型关注最优路径。但令人意外的是,即使改变训练方式,让模型随机选择前沿节点,依然能达到同样高的准确率,说明叠加搜索的策略已在模型中根深蒂固。

连续思维链的优势不仅限于图可达性。它为更复杂的推理任务开辟了可能。未来,我们希望探索其在更广泛场景中的潜力,比如能否用更少的步骤解决其他NP问题?或者,训练动态如何让模型在没有明确指导的情况下,学会如此高效的并行搜索?这些问题都值得深入研究。

从迷宫到数学,从知识图谱到现实世界,连续思维链正重塑我们对智能推理的理解。它不仅是技术的突破,更是对心智如何高效探索未知的深刻启示。

本文译自 arxiv.org,由 BALI 编辑发布。


王摸鱼夏款T恤第二波发布,有粉色和无图速干款