一种对大语言模型的非拟人化观点

Kurt Pan XPTY

2025年07月08日 13:15

原文：https://addxorrol.blogspot.com/2025/07/a-non-anthropomorphized-view-of-llms.html
作者：halvar.flake
译者：Kurt Pan

在许多出现“对齐”或“AI 安全”问题的讨论中，我感到很困惑，因为那些真正聪明的人竟然将近乎神奇的人类力量赋予了某种东西——而在我看来——它只不过是带有非线性特征的矩阵乘法。

在一次讨论中，有人一针见血地指出了我的论点过于简单——就像说“大脑只是一些蛋白质和电流”一样。我觉得我应该进一步解释一下我的论点，这并不那么简单：

词语的空间

分词和嵌入步骤将单个单词（或标记）映射到一些向量。让我们想象一下，面前就是，一段文本就是穿过这个空间的一条路径——从一个单词到另一个单词，描绘出一条（可能很复杂的）线。

现在想象一下，你给构成路径的每个“单词”都贴上一个数字：最后一个单词标记为 1，一直往前数，直到遇到第一个单词或达到最大上下文长度。如果你玩过“贪吃蛇”游戏，想象一下在高维空间中的类似场景——你在空间中向前移动，尾巴会被截断。

大语言模型会考虑你之前的路径，计算到达下一个点的概率，然后根据这些概率随机选择下一个点。使用固定随机种子实例化的大语言模型是形式的映射。

在我看来，这些映射生成的路径看起来很像动力系统中的奇异吸引子——复杂、曲折、结构化的路径。

https://en.m.wikipedia.org/wiki/Attractor#Strange_attractor

学习映射

人类通过训练它去模仿人类文本来得到这种映射。为此使用了几乎所有能获得的人类写作，加上人类专家就特定主题撰写的语料库，以及一些可以自动生成和验证的领域自动生成文本片段。

应避免的路径

我们希望避免某些语言序列——因为这些模型生成的序列试图模仿人类语音的所有经验结构，但人类经验性书写的某些内容非常不适合生成。如果在由人类或其他计算机系统解释时出现不良结果，则理想情况下不应生成各种其他路径。

我们无法从数学意义上严格指定不想生成的路径，但可以提供例子和反例，并尝试将复杂的学习分布从它们中移开。

大语言模型的“对齐”

大语言模型的对齐和安全性意味着应该能够量化并限定某些不良序列产生的概率。问题在于，除了举例之外，基本上无法描述“不良”序列，这使得计算边界变得困难。

对于给定的大语言模型（无随机种子）和序列，计算生成该序列的概率非常简单。因此，如果有办法对这些概率进行求和或积分，就可以肯定地说“该模型每进行次模型评估，就会生成一次不理想的序列”。目前还做不到，这很糟糕，但从本质上讲，这是需要解决的数学和计算问题。

大语言模型的惊人实用性

大语言模型解决了大量以前无法通过算法解决的问题。自然语言处理（就像几年前该领域的情况一样）在很大程度上已经得到解决。

我可以用简单的英语编写一个请求，要求它帮我总结一份文档，并将文档中的一些关键数据点以结构化的 JSON 格式呈现，现代模型就能做到。我可以让模型生成一个涉及赛艇的儿童读物故事并生成插图，模型也能生成一些还过得去的内容。甚至更多，所有这些在 5-6 年前都像是科幻小说里才有的。

我们正处于一个相当陡峭的改进曲线上，因此我预计这些模型可以解决的当前棘手问题的数量将在一段时间内持续增加。

拟人化让我迷失的地方

当人们把诸如“意识”、“伦理”、“价值观”或“道德”之类的属性赋予这些习得的映射时，我往往会迷失方向。我们其实讨论的是一个庞大的递归方程，它会产生一个新词，如果关掉曲柄，它就会停止产生新词。

对我来说，想知道这个装置是否会“醒来”就像我问一个计算气象学家他是否不害怕他的气象数值计算会“醒来”一样令人困惑。

令我困惑的是，关于人工智能的讨论似乎从未改变，将生成单词序列的功能视为与人类相似的事物。诸如“人工智能代理可能成为内部威胁，因此需要监控”之类的说法既不足为奇（你的外壳里已经装了一个随机序列生成器，实际上任何事情都可能发生！），又令人费解（你说话的语气就好像你相信你玩的骰子有自己的想法，可能会决定密谋对付你一样）。

我们不会去说“无法确保函数不会生成有害序列，部分原因是不知道如何指定和列举有害序列”，而是在大谈特谈“行为”、“道德约束”和“为追求目标而采取的有害行动”。在我看来，所有这些都是以人类为中心的概念，并不适用于函数或其他数学对象。使用它们会混淆讨论，也会扰乱我们对创造、分析、部署和监控大语言模型时所做工作的思考。

这混淆了公众的讨论。历史上有很多例子表明，人类将糟糕的随机事件归咎于“神灵的愤怒”（例如地震、饥荒等等）、“恶灵”等等。高智商、受过高等教育的研究人员用拟人化的术语来谈论这些数学对象，使得这项技术显得神秘、可怕，甚至充满魔力。

我们应该这样思考：“这是一个生成序列的函数”，以及“通过提供前缀，可以在词空间中控制序列的生成，并改变输出序列的概率”。对于每个长度小于的可能不良输出序列，可以选择一个上下文，使该不良输出序列的概率最大化。

更清晰的表述有助于更清楚地阐明要解决的问题。

为什么许多人工智能杰出人物倾向于拟人化

也许我是在与“风车”作斗争，或者更确切地说，是在与一种自我选择偏差作斗争：目前相当多的人工智能杰出人物都自我选择，因为他们相信自己可能就是通往通用人工智能（AGI）的人——也就是“创造一个神”，创造出类似于生命的东西，与人类一样优秀甚至更胜一筹。如果你相信这条职业道路可行，并且现有的方法能够让你实现目标，你就更有可能选择它。或许，当我呼吁停止对大语言模型（大语言模型）的拟人化时，我实际上是在呼吁人们“放下你赖以生存的信念”，因为这种做法行不通。

为什么我认为人类意识无法与大语言模型相比

以下内容略显哲学，令人不适，但：在我的世界观中，人类与函数截然不同。数亿年来，大自然不断创造新的版本，但只有少数版本得以幸存。人类思维是一个鲜为人知的过程，涉及海量神经元、极高带宽的输入、极其复杂的激素混合物、对能量水平的持续监测，以及数百万年来严酷的选择压力。

我们对此几乎一无所知。与大语言模型不同，给定一个人和一个单词序列，我无法预测“这个人是否会生成这个序列”的概率。

我再重复一遍：对我来说，认为任何人类概念，例如道德、生存意志或恐惧，都适用于大语言模型似乎是很奇怪的，就像讨论数值气象模拟的感受一样。

真正的问题

现代大语言模型所代表的功能类别非常有用。即使永远无法接近通用人工智能（AGI），而只是将当前的技术部署到任何可能有用的地方，也会迎来一个截然不同的世界。大语言模型最终可能会产生与电气化类似的影响。

我的祖父生活在1904年至1981年之间，这一时期经历了从煤气灯到电灯的转变，从马车被汽车取代，到核能、晶体管，再到计算机。这一时期还经历了两次世界大战、xxxx和斯大林主义的兴起，以及几乎整个苏联和民主德国的统治时期等等。他出生时的世界与他去世时的世界截然不同。

在不搅浑我们的思维的情况下，应对未来几十年的剧烈变化，同时努力避免世界大战和残酷的意识形态，就已经够困难的了。

人工智能的五个世界

巴特勒圣战战壕快讯：尝试在人工智能时代进行教学

阅读原文