ArXiv
文章
Github
源代码
Alpaca
模型
English
Blog
现有的可解释性工具在数亿参数语言模型上通常无法适配,因为它们往往专注于为特定任务微调的小型模型。在本文中,我们提出了一种基于因果抽象 (causal abstraction) 理论的新方法,以找到在模型中扮演给定因果角色的隐藏表达 (hidden representation)。通过使用我们的工具,我们发现Alpaca模型在解决简单的数字推理任务时实现了具有可解释中间变量的因果模型。此外,我们发现这些因果模型对于输入和指令的变化具有鲁棒性 (robustness)。我们的因果机制发现框架是通用的,并且可以适用于拥有数十亿参数的大语言模型。
在这个图中,Alpaca模型被要求解决我们的价格标签游戏,
"如果成本(Z)在 2.00(X)和 3.00(Y)美元之间,则回答是,否则回答否。"
在上图的顶部,我们有一个因果模型,通过两个布尔变量 (boolean variable) 确定输入金额是否在下限以上和上限以下来解决这个问题。在这里,我们尝试对齐第一个布尔变量。为了训练对齐,我们抽取两个训练样例,然后交换它们之间的中间布尔值以使用我们的因果模型生成一个反事实 (counterfactual) 的输出。同时,我们使用建议对齐的神经元交换这两个样例之间的激活。最后,我们训练我们的旋转矩阵,使得我们的神经网络的行为与因果模型产生相同的反事实结果。
获取大型通用语言模型的具有鲁棒性的、易于理解的解释是人工智能领域的重要目标。目前的工具存在以下主要限制:
我们将我们最近提出的分布式对齐搜索(DAS) [2] 调整为将对齐过程转化为一个优化问题。在DAS中,我们使用梯度下降方法找到高层模型和低层模型之间的对齐,而不是进行暴力搜索,并且通过分析非标准基的表示形式-分布式表示,我们允许单个神经元扮演多个不同的角色。
这张图(从原始论文中复制)展示了一个分布式互换干预的例子,当训练DAS时使用。它显示了我们第一张图中旋转矩阵训练过程的放大版本。基本上,我们对所有输入进行正向传递,并在我们要对齐的表示形式上应用一个可学习的旋转矩阵。然后,我们在旋转后的空间中进行干预,以对齐我们高层因果模型预测的反事实行为。
在本文中,我们通过用学习参数替换剩余的暴力搜索步骤,大幅度扩展这些方法,提出了DAS的更新版本 Boundless DAS 。以下是一些关键优势:
Boundless DAS是适用于任何模型的通用方法。这里我们展示了一个通用的解码器 (decoder-only) LLM的伪代码片段。
理想情况下,这个方法也可以扩展到编码器-解码器 (encoder-decoder) LLMs,或者仅有编码器的LLMs。
我们使用前几篇因果抽象工作中提出的互换干预准确率 (Interchange Intervention Accuracy; IIA) [3] [4]来评估我们在旋转子空间中对齐的准确性或忠实度。IIA越高,对齐就越好。这里是一个非常简单的算术任务 (a + b) * c 的示例,
在这个问题中,如果我们有这四个神经元与代表 (a + b) 的中间变量完美对齐,那么可以确定性地从一个输入 (1 + 2) * 3中取出这四个神经元的激活,并将它们插入到另一个输入 (2 + 3) * 4中,使模型输出 (1 + 2) * 4 = 12。我们称这种情况为完美对齐,IIA为100%。我们使用相同的指标评估在旋转子空间中的对齐情况。
需要注意的是,对于Boundless DAS,IIA的含义略有变化: 在旋转子空间中达到100%的IIA,意味着对齐的因果变量在原始表示中分布为100%。我们还可以反向工程学习到的旋转矩阵,以回推每个原始维度的权重。
我们首先构建了一个简单的数字推理任务,Alpaca模型可以相当容易地解决。
这个定价标签游戏基本上包含三个部分: (1) 左括号; (2) 右括号; 和 (3) 输入金额。有几种直观的因果模型可以完美地解决这个任务。
我们的中心研究问题是: Alpaca模型在解决这个任务时是否遵循了这些因果模型之一?我们试图通过找到标记为红色的中间因果变量的对齐方式来回答这个问题。
在这里,我们通过将上限设置为任务性能,将下限设置为虚拟分类器的模型性能来对IIA进行归一化。显然,涉及左边界和右边界检查的因果模型要明显更可靠。我们的研究结果表明,Alpaca模型在内部计算这些布尔变量来表示输入金额与括号之间的关系。
表格里的数据是我们实验的总结结果,任务性能作为准确率(Task Acc.; 在[0.00,1.00]之间),在所有位置和层中的最大互换干预准确率(IIA; 在[0.00,1.00]之间),两个分布之间的IIA的Pearson相关性(在[-1.00,1.00]之间),以及单个实验中所有位置和层的IIA方差。我们的研究结果表明,在这些设置中找到的对齐方式具有鲁棒性。
在上图的左侧插图,我们的提议范例有四个中心步骤,其中最后一步包括一个迭代过程来寻找更好的对齐方式。这个范例解决了当前系统提出的一系列限制,但还有很多工作要做。在右侧插图中,我们展示了一个我们未来想要实现的中间目标,即用GPT-4或人类专家在环过程替换我们的确定性高级模型。
这项工作仅为预印本。可以按以下方式引用。
Zhengxuan Wu, Atticus Geiger, Christopher Potts, and Noah Goodman. "Interpretability at Scale: Identifying Causal Mechanisms in Alpaca." Ms. Stanford University (2023).
@article{wu-etal-2023-Boundless-DAS, title={Interpretability at Scale: Identifying Causal Mechanisms in Alpaca}, author={Wu, Zhengxuan and Geiger, Atticus and Potts, Christopher and Goodman, Noah}, year={2023}, eprint={2305.08809}, archivePrefix={arXiv}, primaryClass={cs.LG} }