人工智能与大脑

在1945年,博学多才的约翰·冯·诺依曼在一篇论文中概述了现代数字计算机的架构。这篇49页的报告中唯一的引用,来自于计算神经科学领域的一篇奠基性论文:《神经活动中固有思想的逻辑演算》(A logical calculus of the ideas immanent in nervous activity)。冯·诺依曼深知大脑与他所帮助开发的计算机之间的差异,但大脑也为他提供了灵感。事实上,他认为神经系统的运作是“表面上数字化的”。尽管早期存在一些相似之处,计算机科学与神经科学的领域迅速分道扬镳——而人工智能与神经科学的领域也将如此。

从一开始,人工智能和神经科学便是姊妹学科,自然智能为人工智能提供了样板,而神经科学的原理则为人工智能的方法提供了灵感。最为根本的原理之一是,人工智能中的许多方法基于神经科学的基本信条:信息储存在神经元之间连接的权重中。在人工智能中使用的人工神经网络(Artificial Neural Networks, ANN)中,还有一些其他受神经科学启发的原理,包括卷积神经网络(对应视觉皮层)、正则化(对应稳态可塑性)、最大池化(对应侧向抑制)、丢弃(对应突触失效)以及强化学习

然而,许多最近推动人工智能爆炸性成功的进展,已偏离了将神经科学作为计算原理的来源。十年前,受到大脑启发的循环神经网络(RNN)似乎是人工智能解决时间相关问题(如语音识别和自然语言处理)的前进方向。然而,这一方向很快发生了变化,2017年具有里程碑意义的《你所需要的仅仅是注意力》(Attention is all you need)论文提出了新的突破。

Transformer架构的引入标志着人工智能历史上的一个重要转折点。Transformer因其惊人的强大能力以及与大脑的差异性而备受关注。它们没有循环神经网络中的循环连接,且在不连续的时间中操作——也就是说,通过离散的时间步长进行计算,且没有对前一个时间步状态的“记忆”。它们同样没有任何形式的工作记忆;相反,它们巧妙地通过每次迭代增加输入的长度来外化工作记忆。最值得注意的是,Transformer没有任何内部动力,也无法感知时间。例如,ChatGPT无法正确回答“等10秒再告诉我加拿大的首都”这一提示(至少,在不调用Python编译器的情况下是这样)。

大脑通过内部动力的循环神经网络以及其他机制(如短期突触可塑性)来编码时间和近期的感官信息。与此不同,Transformer通过为每个单词或标记表示的向量添加位置信息(如“第一”、“第二”等)来编码时间(更准确地说,是顺序性),这一方法称为位置编码。这种差异使得Transformer能够解决梯度爆炸或梯度消失的问题,在这种问题中,序列末尾生成的误差信号在反向传播到前序信息时会逐渐衰减。

Transformer在某种意义上被刻意设计为“不受时间影响”的。用时间哲学中的术语作类比,Transformer运作在一个“区块宇宙”中,其中过去、现在和未来(对于双向Transformer而言)是同时可用的。相比之下,循环神经网络运作在一个“现实主义宇宙”中,在这个宇宙中,只有当前的输入是可用的,计算是随着连续的时间展开的。

人工智能与大脑

所谓Transformer中的注意力机制听起来像是生物学上的注意力,但它并不真正指代大多数认知神经科学家所认为的注意力。它本质上是为句子中所有单词对之间的关系强度赋值,而不是根据期望或随意控制来选择性地调节信息处理。此外,注意力机制的实现也缺乏生物学上的合理性。神经网络中的大多数操作对应于活动向量与权重矩阵的乘法,但注意力机制依赖于一般被认为是两个活动向量的乘法。也就是说,至少从神经元的角度来看,这是一个难以实现的数学操作。

尽管Transformer取得了成功,但它们也有自身的局限性——包括其无底洞般的能量消耗。正因如此,人工智能领域正在重新审视类似循环神经网络的方法。但新旧的类似RNN的架构,如长短期记忆网络(LSTM)、门控循环单元(GRU)和Mamba等,并不一定在神经科学领域中有直接的类比。它们往往缺乏神经电路的生物学合理性——部分原因在于,人工智能程序通常是在传统的数字计算机上实现的,这使得它们可以执行比生物神经网络更丰富的数学操作,例如LSTM的门控操作。事实上,只要人工智能仍继续通过数字计算机实现,人工智能领域的发展就将受到摩尔定律的制约,而神经科学则将继续缓慢前行。

硬件的重要性也与一个更深层的哲学问题密切相关,即在理论上,基于传统计算机实现的人工智能是否有可能具备知觉。数字计算机在离散时间中运行(由计算机的时钟频率决定),与大脑不同,它们可以轻松暂停或改变时钟速度。现在,假设我们正在运行一个新型的人工神经网络模拟,假如它是有意识的。那么,如果我们将时钟速度降低到每年转一圈,会发生什么呢?人工智能是否会在主观状态下“冻结”一年?

大多数意识理论,例如全局工作空间理论和高阶理论,似乎都默认假设意识与大脑的连续时间动态相关。在这些理论中,意识就像音乐:只有当它随着时间流动时才存在。而且,根据人工神经网络运行在CPU、GPU或TPU上(以及核心数量)的不同,在一个时间步内,ANN中的所有状态不会实时同步更新——这意味着,任何意识状态都将依赖于硬件的细节,即使输入输出关系是相同的。

关于意识依赖于大脑动态的观点,有一个例外,那就是具有争议的泛心论整合信息理论(Integrated-Information Theory,IIT)。IIT 不是一个神经科学理论,而是一个基础物理学理论——尽管它与其他物理法则无关。粗略来说,IIT 量化了相比于随机配置,当前系统状态在多大程度上限制了过去和未来的状态。IIT 进一步声称,这个量度直接等同于意识。

正如已经指出的,IIT 仅适用于离散系统。遗憾的是这意味着,IIT 对于大多数传统的物理系统是不适用的,因为这些系统是可以连续变化的。因此当尝试将 IIT 应用于我们唯一确知的有意识的事物时,这就成了一个特别严重的问题。因此,适用于大脑动态系统的意识理论似乎排除了在离散冯·诺依曼架构中运行的人工智能出现知觉的可能性。

毫无疑问,人工智能和神经科学将继续进行协同互动。人工智能在发展过程中将继续借鉴神经科学的新发现。然而,展望未来,人工智能可能会为神经科学提供更多的启示,而不是反过来。迄今为止,神经科学家对于从人工智能中获得的一些早期教训消化得较慢。其中一个教训是,人工或生物神经网络的完整连通组的价值有限。ChatGPT 的每一个连接、权重和偏倚都是已知的,但对这些知识的获取并没有转化为对其工作原理的即时或深刻理解——这并不是说这些知识没有用。一个潜在的教训可能是,神经科学家需要重新审视如何理解像大脑这样复杂且高度分布的系统的涌现性质。

计算机科学之所以独立于神经科学发展,是因为大脑并不拥有处理信息的独占权。人工智能和神经科学将继续分道扬镳,因为大脑并不拥有创造智能的独占权。

本文由:杨羊羊小编超级会员 发布于外推号,转载请注明出处:https://mp.waituikr.com/15041.html

(0)
上一篇 2025年2月12日 上午9:07
下一篇 2025年2月12日 上午9:11

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

微信:LXB209188
邮箱:2544449188@qq.com
备注:周一至周五,请告知来意。