Ilya Sutskever深度访谈:从扩展时代走向研究时代

Ilya Sutskever深度访谈:从扩展时代走向研究时代

嘉宾:Ilya Sutskever (Safe Superintelligence Inc. 创始人) 主持人:Dwarkesh Patel 访谈日期:2025年11月26日 原始来源:Dwarkesh Podcast


前言

“这些模型的泛化能力不知何故比人类差得多。这是一件非常根本的事情。”

“我们完全是一家研究时代的公司。”

在人工智能发展的关键时刻,前OpenAI首席科学家、Safe Superintelligence Inc.(SSI)创始人Ilya Sutskever接受了深度访谈。这次对话深入探讨了AI发展的核心问题:当前模型的根本局限、从扩展时代向研究时代的转变、超级智能的未来路径,以及如何确保AI的安全对齐。

作为深度学习历史上最具影响力的研究者之一,Ilya参与了从AlexNet到GPT系列的众多突破性工作。在这次访谈中,他分享了对AI未来发展的深刻洞察,以及SSI正在探索的全新技术路径。


目录


一、当前AI模型的根本局限

1.1 评测表现与实际能力的脱节

当前AI模型呈现出一个令人困惑的现象:在各种评测中表现优异,但经济影响却远远落后。模型能够在相当困难的基准测试中取得出色成绩,但在实际应用中却常常出现基础性错误。

一个典型的例子是代码辅助工具的使用场景。当用户指出一个bug时,模型承认错误并尝试修复,却引入了新的bug。当再次指出新问题时,模型又会带回原来的bug,在两个错误之间反复循环。这种现象揭示了模型能力的某种根本性问题。

1.2 强化学习训练的过度专注

对于这一现象,存在两种可能的解释。第一种是强化学习训练可能使模型过于单一思维和狭隘专注,虽然在某些方面提升了模型的意识,但也限制了其处理基本问题的能力。

第二种更为深刻的解释涉及训练数据的选择策略。在预训练时代,数据选择相对简单——使用所有可获得的数据。但在强化学习训练中,研究人员需要精心设计训练环境,这就带来了巨大的自由度。

各公司都有专门的团队不断产生新的强化学习环境并加入训练组合。问题在于,这些环境的设计往往从评测中获得灵感。研究人员希望模型在发布时表现优异,因此会针对性地设计强化学习训练来提升特定评测的表现。

这种策略结合模型本身泛化能力的不足,可以解释评测表现与实际应用能力之间的巨大脱节。真正的奖励黑客可能不是AI系统本身,而是那些过于专注于评测的人类研究人员。

1.3 泛化能力:AI的核心短板

一个有启发性的类比来自竞争性编程。假设有两个学生,第一个投入10,000小时专门练习竞争性编程,解决所有问题,记住所有证明技术,成为该领域的顶尖高手。第二个学生只练习了100小时,也取得了不错的成绩。在后续职业生涯中,第二个学生往往会表现得更好。

当前的AI模型更像第一个学生,甚至更加极端。研究人员获取每一个竞争性编程问题,进行数据增强产生更多问题,然后对模型进行密集训练。虽然产生了优秀的竞争性程序员,但这种过度准备并不能很好地泛化到其他任务。

第二个学生在投入100小时微调之前所具备的”那个东西”(the “it” factor),正是当前AI模型所缺失的关键能力。预训练提供了大量数据和特征,但可能并不比强化学习更具泛化性。预训练的优势在于其自然性和丰富性,但其泛化机制仍然难以推理和理解。

这指向了当前AI发展面临的最根本挑战:这些模型的泛化能力不知何故比人类差得多。这不仅仅是一个技术细节,而是一个非常根本的问题,关系到AI能否真正实现通用智能。


二、情绪、价值函数与决策机制

2.1 情绪在人类决策中的关键作用

人类的预训练可以类比为生命的前15-18年,或者更长远地,将进化视为进行了30亿年的搜索过程。但人类与AI模型之间存在关键差异:15年后的人类虽然接触的数据远少于预训练模型,但在某种程度上理解得更深,不会犯AI常犯的错误。

神经科学研究揭示了情绪在人类决策中的关键作用。有案例显示,某些大脑损伤患者失去了情绪处理能力,虽然仍能正常表达、解决小问题,在测试中表现正常,但在做任何决定时都变得极其困难。他们可能花几个小时决定穿哪双袜子,做出非常糟糕的财务决策。

这说明内置的情绪系统对于成为有效的决策者至关重要。这种能力是否能从预训练中获得,目前还不完全明确。

2.2 价值函数:缩短学习反馈周期

情绪在机器学习中的对应概念应该是某种价值函数。在当前的强化学习中,模型接收问题,可能需要数千或数十万次行动产生解决方案,然后解决方案被评分,分数用于为整个轨迹中的每个行动提供训练信号。

这意味着如果任务需要很长时间完成,模型在提出完整解决方案之前不会进行任何学习。这是朴素强化学习的做法,也是o1、R1等系统表面上采用的方法。

价值函数的作用是在某些时候提供中间反馈。在下棋时,失去一个棋子就知道犯了错误,不需要下完整局。在数学或编程中,经过一千步思考后得出某个方向没有希望,就可以在决定追求该路径的时刻获得奖励信号,而不必等到提出完整解决方案。

虽然DeepSeek R1论文指出轨迹空间广阔,从中间轨迹学习价值映射可能很困难,但这不应成为放弃的理由。深度学习的强大之处在于能够处理看似困难的问题。价值函数应该是有用的,预计将在未来得到更广泛应用。

2.3 情绪的进化起源与AI应用

人类失去情绪中心的案例暗示,人类的价值函数可能以某种重要方式被进化硬编码的情绪所调节。这对人类在世界上有效运作可能很重要。

情绪相对简单,与AI学习和讨论的复杂内容相比,甚至可能简单到可以用人类可理解的方式绘制出来。但就效用而言,存在复杂性-鲁棒性的权衡:复杂的事物可能在特定情况下非常有用,而简单的事物在非常广泛的情况下都能发挥作用。

人类的情绪主要从哺乳动物祖先进化而来,在成为人科动物时稍微微调。虽然人类确实有相当数量的社会情绪,但它们并不十分复杂。正因为不复杂,它们在与我们祖先生活环境截然不同的现代世界中仍能很好地服务我们。

当然,情绪系统也会犯错误。例如,我们对饥饿的直觉在这个食物丰富的世界中并未能正确引导我们的行为。这提示我们,即使是进化产生的简单而鲁棒的系统,在环境剧变时也可能需要调整。


三、从扩展时代回归研究时代

3.1 扩展时代的兴起与局限

机器学习的早期发展主要依靠研究人员不断尝试和修补,试图获得有趣的结果。扩展洞察的到来改变了这一切。扩展定律和GPT-3的成功让所有人意识到应该扩展规模。

“扩展”这个词本身就具有强大的力量,因为它明确告诉人们该做什么。预训练成为首要的扩展对象,形成了特定的扩展配方:将计算与数据混合到一定规模的神经网络中,就能得到可预测的结果。扩大配方规模,就能获得更好的性能。

这种可预测性对企业极具吸引力,因为它提供了低风险的资源投资方式。相比之下,纯粹的研究投资要困难得多——你不能简单地对研究人员说”去研究并提出成果”,而获取更多数据和计算则能保证从预训练中得到确定的回报。

从2020年到2025年可以称为扩展时代,一个词概括一切:扩展。公司不断追加投资,持续扩大规模。但这一时代正在走向终点。

3.2 研究时代的回归

数据是有限的,这一点非常明显。虽然看起来Gemini找到了从预训练中获得更多价值的方法,但预训练终将耗尽数据。接下来必须采用某种增强的预训练方法,或者转向强化学习,或者探索其他全新的途径。

现在计算规模已经非常大,但信念正在改变。关键问题是:如果拥有100倍的计算,一切会完全不同吗?答案可能不是决定性的。100倍的规模当然会带来改进,但不太可能产生质的飞跃。

因此,AI发展正在回归研究时代,只是这次拥有了大型计算资源。从2012年到2020年是第一个研究时代,2020年到2025年是扩展时代,现在我们正在进入拥有大规模计算的新研究时代。

人们已经在扩展强化学习,因为RL可以消耗大量计算。长rollout需要大量计算,而从每个rollout中获得的学习相对有限,因此可以投入巨大的计算资源。

但这甚至不应该称为”扩展”,而应该问:你正在做的事情是使用计算资源最有成效的方式吗?能找到更有成效的使用方式吗?价值函数可能就是这样一个方向,一旦掌握了价值函数,就能更有成效地使用资源。

3.3 SSI的研究定位

扩展时代的一个后果是扩展吸走了所有注意力。每个人都开始做同样的事情,导致公司数量比想法数量还多。硅谷有句话说”想法很便宜,执行就是一切”,但也有人反驳”如果想法如此便宜,为什么没有人有任何想法?”两者都是真实的。

从瓶颈的角度思考研究进展,存在多个瓶颈。想法是一个瓶颈,将想法付诸实践的能力(包括计算和工程)是另一个瓶颈。在90年代,许多人有好想法,如果有更大的计算机可能能够证明想法可行,但由于计算限制,只能做出非常小的演示,无法说服任何人。那时瓶颈是计算。

在扩展时代,计算显著增加。虽然需要多少计算仍是问题,但计算已经足够大,不再明显需要最大规模的计算来证明某个想法。AlexNet建立在两个GPU上,Transformer建立在8到64个GPU上,没有任何Transformer论文实验使用超过64个2017年的GPU(相当于今天的两个GPU)。ResNet、o1推理等都不是世界上计算量最大的项目。

对于研究,确实需要一定数量的计算,但远不明显需要有史以来绝对最大数量的计算。如果想构建绝对最好的系统,拥有更多计算会有所帮助,特别是当每个人都在同一范式内时,计算成为主要区分因素之一。

SSI筹集了30亿美元,在绝对意义上这是很多资金。虽然其他公司筹集了更多,但他们的大量计算用于推理服务。这些大额贷款专门用于推理。此外,如果要运营一个提供推理服务的产品,需要大量工程师、销售人员,很多研究需要专门用于生产各种产品相关功能。

当审视实际剩余用于研究的资源时,不同公司之间的差异变得小得多。而且,如果正在做一些不同的事情,真的需要绝对最大的规模来证明它吗?在SSI的情况下,拥有足够的计算来证明和说服自己及他人所做的是正确的。

SSI完全是一家”研究时代”的公司,正在取得进展。过去一年实际上取得了相当好的进展,但需要继续取得更多进展,进行更多研究。这是一次尝试,一次成为声音和参与者的尝试,主要依靠不同的技术方法。


四、人类与AI:泛化能力的巨大差距

4.1 样本效率的悬殊差异

当前AI模型在学习时需要比人类多得多的数据,这种样本效率的差距是一个核心问题。但同样重要的第二个问题是:即使撇开所需数据量,为什么将想要的能力教给模型比教给人类要困难得多?

对于人类,我们不需要设置可验证的奖励。在指导研究人员时,导师与他们交谈,展示代码,展示思考方式。从中,研究人员学习导师的思维方式和研究方法。不需要为他们设置复杂的课程,不需要处理训练不稳定性,不需要繁琐的定制过程。

这种持续学习能力和样本效率问题可能以某种方式相关,但它们体现了AI与人类学习的根本差异。

4.2 进化的先验知识

人类样本效率的一个可能解释是进化。进化给了我们少量可能最有用的信息。对于视觉、听觉和运动等方面,进化赋予了我们大量先验知识。

人类的灵巧性远远超过在模拟中训练的机器人。虽然机器人经过大量模拟训练也能变得灵巧,但在现实世界中像人类一样快速掌握新技能似乎遥不可及。这可以归因于运动方面的进化先验——我们所有的祖先都需要良好的运动能力。

视觉也是如此。孩子们经过约10小时的练习就能学会开车,这确实令人印象深刻。但我们的视觉系统本身已经极其优秀。五岁孩子的汽车识别能力就已经足以支持驾驶。作为五岁孩子,看到的数据并不多,数据多样性也非常低,大部分时间都在父母的房子里。

但在语言、数学和编码方面,情况可能不同。这些领域直到最近才真正存在,因此不太可能有强大的进化先验。

4.3 无监督学习与鲁棒性

模型在语言、数学和编码方面确实比普通人更强大,但在学习这些能力方面是否比普通人更好?答案是否定的,人类在学习方面绝对更好。

语言、数学和编码,特别是后两者,表明使人类擅长学习的可能不是复杂的先验,而是某种更根本的东西。

考虑一个人们表现出卓越可靠性的技能。如果这项技能对我们的祖先非常有用已有数百万甚至数亿年,可以说人类擅长它是因为进化先验。但如果人们在一个直到最近才存在的领域表现出卓越的能力、可靠性、鲁棒性和学习能力,这更多地表明人类可能只是有更好的机器学习机制。

学习开车的青少年展现了几个有趣的特点:需要更少的样本,更加无监督(不是通过预先构建的可验证奖励,而是通过与机器和环境的互动),更加鲁棒。人的鲁棒性真的令人震惊。

4.4 人类价值函数的鲁棒性

青少年司机如何在没有外部老师的情况下自我纠正并从经验中学习?答案是他们有价值函数。他们有一般性的判断能力,而且这种能力在人类身上极其鲁棒。

除了围绕成瘾的少数例外,人类的价值函数实际上非常非常鲁棒。对于正在学习开车的青少年,他们开始开车时立即就有感觉,知道自己开得如何,有多不自信。经过仅仅10小时的练习,他们就可以上路了。

如何重新概念化训练模型的方式,使这样的事情成为可能?存在某种方法可以做到这一点。人类就是这样的事实,证明了这是可能的。不过可能还有一个障碍,那就是人类神经元可能进行的计算比我们认为的更多。如果这起着重要作用,事情可能会更困难。

但无论如何,这确实指向某些机器学习原理的存在。虽然环境使得很难详细讨论具体方法,但这个方向的探索对于实现真正的通用智能至关重要。


五、通往超级智能的路径

5.1 SSI的战略选择

SSI的默认计划是直接冲刺超级智能,但这并非一成不变。这种策略有其价值,因为不受日常市场竞争影响是非常有益的。但有两个原因可能导致计划改变。

第一是务实的考虑:如果时间线变得很长,这是可能的。第二,让最好最强大的AI在世界上产生影响有很大价值。这是一件有意义的事情。

支持直接冲刺的理由是,在市场上面临的挑战之一是必须参与激烈竞争。激烈的竞争非常困难,因为它迫使你做出困难的权衡。能够将自己与所有这些隔绝,只专注于研究,只有在准备好时才发布,这是很好的。

反对的观点也同样有效:让世界看到强大的AI是有用的。这不仅仅是传达想法,而是传达AI本身。假设写一篇关于AI的文章说”AI将是这样,将是那样”,读者会说”这是一篇有趣的文章”。但如果看到一个AI做这个,做那个,这是无与伦比的体验。

AI在公众中的展示将带来巨大的好处,这是不完全直接冲刺的一个重要原因。

5.2 持续学习:超级智能的本质

“AGI”和”预训练”这两个词塑造了每个人的思维。AGI这个术语的存在,是对”狭隘AI”的反应。过去的国际象棋AI、游戏AI都被称为狭隘智能,只能做一件事。作为回应,人们提出需要通用AI,一个可以做所有事情的AI。

预训练有这样的属性:做更多预训练,模型在一切方面都变得更好,或多或少一致。通用AI加预训练似乎指向AGI。

但AGI和预训练在某种意义上超越了目标。如果思考”AGI”这个术语,特别是在预训练的背景下,会意识到人类不是AGI。是的,人类有技能基础,但人类缺乏大量知识。相反,我们依赖持续学习。

所以当思考”假设我们成功并产生某种安全的超级智能”时,问题是:你如何定义它?它将在持续学习曲线的哪个位置?

可以想象产生一个超级聪明的15岁少年,非常渴望学习。他们知道的不多,但是优秀的学生,非常渴望。你让他们去当程序员,去当医生,去学习。所以部署本身将涉及某种学习试错期。这是一个过程,而不是扔下完成的产品。

5.3 部署即学习

真正的超级智能不是指某个完成的思维,知道如何做经济中的每一份工作。原始OpenAI章程定义AGI为可以做每一份工作、人类可以做的每一件事。但更准确的定义应该是:一个可以学会做每一份工作的思维,这就是超级智能。

一旦有了学习算法,它就像人类劳动者可能加入组织一样被部署到世界。这就是完全正确的愿景。

可能发生两件事。第一,这个超高效的学习算法变得超人,在机器学习研究任务上变得和人类一样好,甚至更好。结果,算法本身变得越来越超人。

第二,即使没有发生递归自我改进,如果有一个单一的模型,其中通过经济部署做不同工作的模型实例,学习如何做这些工作,在工作中持续学习,学习任何人类可以学习的所有技能,但同时学习所有这些,然后合并他们的学习,基本上就有一个功能上变得超级智能的模型,即使没有任何软件的递归自我改进。因为现在有一个可以做经济中每一份工作的模型,而人类无法以同样的方式合并我们的思维。

5.4 智能爆炸的可能性

从广泛部署中产生快速经济增长的可能性很高。一旦达到拥有可以快速学习并且数量众多的AI的地步,除非有某种阻止它的监管,否则将有强大的力量将它们部署到经济中(顺便说一句,监管可能会出现)。

从广泛部署中产生一段时间的非常快速经济增长,这是非常可能的。问题是它将有多快。这很难知道,因为一方面有非常高效的工作者,另一方面,世界真的很大,有很多东西,那些东西以不同的速度移动。但另一方面,现在AI可以…所以非常快速的经济增长是可能的。

我们将看到各种情况,比如不同国家有不同的规则,那些有更友好规则的国家,经济增长将更快。很难准确预测。


六、对齐问题:确保AI安全发展

6.1 展示的力量

思维方式的一个重要变化是,现在更加重视AI被提前增量部署。关于AI的一个非常困难的事情是,我们谈论的是尚不存在的系统,很难想象它们。

正在发生的事情之一是,在实践中,很难感受到AGI。我们可以谈论它,但就像年轻时想象年老体弱的感觉一样困难。你可以进行对话,尝试想象,但回到现实,情况并非如此。围绕AGI及其未来力量的很多问题源于很难想象。

未来的AI将会不同,将会强大。整个AI和AGI的问题就是力量。当力量真的很大时,会发生什么?

过去一年思维改变的一个方式是:如果很难想象,该怎么办?必须展示这个东西。坚持认为,大多数从事AI工作的人也无法想象它,因为它与人们日常看到的东西太不同。

这是一个预测:随着AI变得更强大,人们将改变他们的行为。我们将看到各种前所未有的事情。无论好坏,前沿公司将在发生的事情中发挥非常重要的作用,政府也是如此。将看到激烈竞争的公司开始在AI安全上合作。OpenAI和Anthropic的合作就是第一小步。

随着AI继续变得更强大、更明显地强大,政府和公众也会有做某事的愿望。这是展示AI的一股非常重要的力量。

6.2 关心有感知生命的AI

AI正在被构建,需要做什么?一件将会发生的事情是,现在从事AI工作的人,AI不会感觉强大,因为它的错误。但在某个时候,AI将开始实际上感觉强大。当这种情况发生时,将看到所有AI公司处理安全方式的重大变化。他们会变得更加谨慎。这是一个预测,会看看是否正确。

第三件需要发生的事:公司应该立志构建什么?有一个大想法,每个人都锁定在其中,那就是自我改进的AI。为什么会这样?因为公司比想法多。但有一些更好的东西可以构建,相信每个人都会想要那个。

那就是鲁棒对齐以关心有感知生命的AI。认为构建一个关心有感知生命的AI会比构建一个只关心人类生命的AI更容易,因为AI本身将是有感知的。如果想想镜像神经元和人类对动物的同理心,虽然程度可能不够大,但它存在。这是一个涌现属性,源于我们用用来模拟自己的同一电路来模拟他人,因为这是最有效的方法。

当然,即使让AI关心有感知的生命,大多数有感知的生命将是AI。将会有数万亿,最终数千万亿的AI。人类将是有感知生命的非常小的一部分。所以如果目标是对未来文明的某种人类控制,这可能不是最好的标准。

但关心有感知生命的标准有价值,应该被考虑。如果有某种公司在这种情况下可以使用的想法短名单会有帮助。

6.3 限制最强大系统的力量

如果最强大超级智能的力量以某种方式被限制会有实质性帮助,因为它会解决很多担忧。如何做到这一点的问题还不确定,但当谈论真正强大的系统时,这会有实质性帮助。

超级智能顶部有多少空间?如何看待超级智能?使用学习效率的想法,也许它只是在学习新技能或新知识方面极其快速?它只是有更大的策略池?还是中心有一个单一的内聚”它”更强大或更大?如果是这样,它将与其余人类文明相比是类似神的,还是只是感觉像另一个代理或代理集群?

不同的人有不同的直觉。它肯定会非常强大。最有可能发生的是将大致同时创建多个这样的AI。如果集群足够大——比如如果集群是大陆规模的——那东西可能会非常强大。如果有大陆规模的集群,这些AI可以非常强大。

对于极其强大的AI,真正极其强大的,如果它们能以某种方式受到约束或有某种协议会很好。

超级智能的担忧是什么?如果想象一个足够强大的系统,真正足够强大——即使以非常专一的方式关心有感知生命——我们可能不喜欢结果。这真的就是核心问题。

也许答案是不按通常意义构建RL代理。人类是半RL代理。我们追求奖励,然后情绪使我们对奖励感到厌倦,我们追求不同的奖励。市场是一种非常短视的代理。进化在某些方面非常聪明,但在其他方面非常愚蠢。政府被设计成三个部分之间永无休止的斗争,这有一个效果。

6.4 进化如何编码高级愿望

使这个讨论困难的另一件事是,我们谈论的是不存在的系统,我们不知道如何构建。认为人们现在正在做的将走一段距离然后逐渐减弱。它将继续改进,但它也不会是”它”。我们不知道如何构建的”它”,很多取决于理解可靠的泛化。

可以说导致对齐困难的事情之一是学习人类价值观的能力是脆弱的,然后优化它们的能力也是脆弱的。这些不都是不可靠泛化的实例吗?为什么人类似乎泛化得好得多?如果泛化好得多会怎样?

进化如何编码高级愿望实际上非常神秘。很容易理解进化会如何赋予我们对闻起来好的食物的渴望,因为气味是化学物质。但进化也赋予了我们所有这些社会愿望。我们真的关心被社会积极看待,关心处于良好状态。所有这些社会直觉,强烈感觉它们是固化进去的。但不知道进化是如何做到的,因为它是在大脑中表示的高层概念。

大脑需要进行大量处理来拼凑大量信息位以理解社会上正在发生什么。不知何故进化说,”这就是你应该关心的。”它是如何做到的?而且它做得很快。我们关心的所有这些复杂的社会事物,进化得相当近。进化似乎很容易硬编码这个高级愿望,但没有令人满意的假设解释如何完成。

一个推测是,大脑有脑区,神经元主要与邻居交谈,这解释了为什么会有脑区。所有区域大多位于人与人之间的相同位置。所以也许进化硬编码了大脑上的一个位置,当大脑的GPS坐标发射时,那就是应该关心的。也许这就是进化所做的,因为那将在进化的工具包内。

但对这个理论有一个更强的反驳。有些人在童年时切除了半个大脑,他们仍然拥有所有的脑区,但它们都移动到只是一个半球,这表明脑区的位置不是固定的,所以那个理论不成立。

这是一个谜,但是一个有趣的谜。事实是,不知何故进化能够赋予我们非常可靠地关心社会事物。即使是有各种奇怪精神状况、缺陷和情绪问题的人也倾向于关心这个。

6.5 人机融合的长期均衡

如何让这一切顺利进行?为什么SSI有能力做好这件事?主要区分SSI的是技术方法。有一个不同的技术方法,认为是值得的,正在追求它。

坚持认为最终将会有策略的趋同。随着AI变得更强大,每个人都会或多或少清楚策略应该是什么。需要找到某种方式相互交谈,希望第一个真正的超级智能AI是对齐的,并且不知何故关心有感知生命、关心人、民主,这些中的一个或某些组合。

这是每个人都应该为之努力的条件,这就是SSI正在努力的。认为这一次,如果不是已经,所有其他公司都会意识到他们正在努力实现同样的事情。随着AI变得更强大,世界将真正改变,事情将真正不同,人们将真正不同地行动。

对于类人学习超级智能的预测是大约5到20年。

关于长期均衡,一种方法是也许每个人都会有一个AI来执行他们的命令,那很好。如果那可以无限期地维持,那是真的。但缺点是,AI去为人赚钱并在政治领域倡导他们的需求,也许写一份小报告说,”这是我做的,这是情况”,人说”很好,保持下去”。但人不再是参与者。那是一个不稳定的地方。

一个不太喜欢但可行的解决方案是:如果人们用某种Neuralink++成为部分AI。因为结果会发生的是,现在AI理解了一些东西,我们也理解它,因为现在理解是全批量传输的。所以现在如果AI在某种情况下,你自己完全参与那个情况。这可能是均衡的答案。


七、研究品味与突破性创新

7.1 从大脑汲取正确的灵感

什么是研究品味?显然在进行AI研究方面拥有被公认的最佳品味之一,从AlexNet到GPT-3等等,是深度学习历史上最大突破的共同作者。

指导个人研究的一件事是通过思考人是如何的来判断AI应该如何,但要正确地思考。很容易错误地思考人是如何的,但正确地思考人意味着什么?

一些例子:人工神经元的想法直接受大脑启发,这是一个伟大的想法。为什么?因为大脑有所有这些不同的器官,它有褶皱,但褶皱可能不重要。为什么认为神经元重要?因为它们有很多。这感觉是对的,所以想要神经元。想要一些局部学习规则,将改变神经元之间的连接。大脑这样做似乎是合理的。

分布式表示的想法。大脑响应经验,因此神经网络应该从经验中学习的想法。大脑从经验中学习,神经网络应该从经验中学习。有点问自己,什么是根本的还是不根本的?事物应该如何。

7.2 美、简单与优雅

这一直在相当大程度上指导研究,从多个角度思考并寻找几乎美、美和简单。丑陋,没有丑陋的空间。这是美、简单、优雅、从大脑获得正确的灵感。所有这些东西需要同时存在。它们越存在,对自上而下的信念就越有信心。

7.3 自上而下的信念

自上而下的信念是当实验与你矛盾时支撑你的东西。因为如果一直相信数据,有时可能在做正确的事情,但有一个bug。但你不知道有bug。怎么知道应该继续调试还是得出结论这是错误的方向?

这是自上而下的判断。可以说事情必须是这样的。类似这样的东西必须工作,因此我们必须继续前进。这就是自上而下的信念,它基于这种多方面的美和大脑的灵感。


八、自我博弈、多样性与竞争

8.1 自我博弈的价值与局限

为什么不同的模型,即使是由完全不同的公司发布的,在潜在的非重叠数据集上训练的,LLM彼此如此相似?也许数据集不像看起来那样不重叠。

但有某种意义上,即使单个人类可能不如未来的AI有生产力,也许人类团队比AI团队可能有的更多样性。如何在AI之间引出有意义的多样性?只是提高温度只会导致胡言乱语。想要更像不同的科学家有不同的偏见或不同的想法。

没有多样性的原因是因为预训练。所有预训练的模型几乎相同,因为它们在相同的数据上预训练。现在RL和后训练是一些分化开始出现的地方,因为不同的人想出不同的RL训练。

关于自我博弈,认为它有趣的原因是因为它提供了一种仅使用计算创建模型的方式,而不需要数据。如果认为数据是最终瓶颈,那么仅使用计算就非常有趣。

但自我博弈,至少它过去完成的方式——当有以某种方式相互竞争的代理时——它只适用于开发一组特定的技能。它太窄了。它只适用于谈判、冲突、某些社交技能、战略化,那种东西。如果关心这些技能,那么自我博弈将是有用的。

8.2 AI系统的多样性问题

实际上,认为自我博弈确实找到了一个家,只是以不同的形式。像辩论、证明者-验证者这样的东西,有某种LLM-as-a-Judge,它也被激励在工作中找到错误。可以说这不完全是自我博弈,但这是人们正在做的相关对抗设置。

真正的自我博弈是代理之间更一般竞争的特例。对竞争的自然反应是试图变得不同。所以如果把多个代理放在一起,告诉他们”你们都需要在某个问题上工作,你是一个代理,你正在检查其他人在做什么”,他们会说,”如果他们已经在采取这种方法,我应该追求它就不清楚了。我应该追求一些不同的东西。”所以类似这样的东西也可以为方法的多样性创造激励。

8.3 竞争驱动的专业化

关于市场竞争和专业化,假设有很多类人学习者,有一些从中产生大量利润的公司。然后有另一家公司进来并开始竞争。竞争的方式将通过专业化。竞争喜欢专业化。在市场上看到它,在进化中也看到它。

将有很多不同的生态位,将有很多占据不同生态位的不同公司。在这个世界中,可能一家AI公司在某个真正复杂的经济活动领域真的相当好,不同的公司在另一个领域更好。第三家公司真的擅长诉讼。

这似乎与类人学习所暗示的相矛盾,因为它可以学习任何东西。但有累积的学习。有很大的投资。花了很多计算来变得真的很好,在这件事上真的了不起。其他人花了大量计算和大量经验在其他事情上变得真的很好。应用了很多人类学习到达那里,但现在在这个高点,其他人会说,”我不想开始学习你学到的东西。”

这需要许多不同的公司同时开始在类人持续学习代理上工作,以便他们可以在不同的分支中开始他们不同的树搜索。但如果一家公司首先获得该代理或首先获得该学习者,对一家公司来说,为经济中的每一份工作都有一个实例学习似乎是可行的。

这是一个有效的论点,但强烈的直觉是它不会那样发展。理论上,理论和实践之间没有区别。实际上,有。这将是其中之一。


九、展望:5到20年的时间线

对于类人学习并随后变得超人的系统,预测是大约5到20年。

如何看待世界的到来?还有几年,这些其他公司正在继续当前的方法,它停滞了。停滞将看起来像在所有不同公司之间都非常相似。即使停滞了,认为这些公司也可以产生惊人的收入。也许不是利润,因为他们需要努力工作以将彼此区分开来,但肯定是收入。

更多地谈论对齐策略的趋同。认为技术方法的最终趋同可能也会发生,但主要指对齐策略的趋同。究竟应该做什么?

目前有这些不同的公司,期望他们的方法继续产生收入,但无法到达类人学习者。现在有这些不同的公司分支。也许其中一个找到了正确的方法。但产品的发布使其他人清楚某种不同的东西是可能的,这是信息。人们然后会试图弄清楚它是如何工作的。

随着AI能力的每次增加,认为会有某种变化,但不知道确切是哪些,在事情如何完成方面。这将很重要,但不能准确说出那是什么。

默认情况下,会期望拥有该模型的公司获得所有这些收益,因为他们拥有正在世界上建立技能和知识的模型。但认为从市场角度来看,那里会发生类似的事情。

一家公司产生了进步,另一家公司急忙产生了一些类似的东西,在一段时间后他们开始在市场上竞争并压低价格。我们在谈论好的世界。什么是好的世界?它是我们有这些强大的类人学习者,它们也…也许还没有讨论超级智能AI规格的另一件事,认为值得考虑。那就是你让它变窄,它可以同时有用和窄。可以有很多窄的超级智能AI。


参考资料

  1. 原始访谈
  2. 相关背景资料
    • Safe Superintelligence Inc. 官方网站
    • OpenAI GPT系列论文
    • AlexNet论文 (Krizhevsky et al., 2012)
    • Transformer论文 (Vaswani et al., 2017)
  3. 延伸阅读
    • 《深度学习》(Ian Goodfellow, Yoshua Bengio, Aaron Courville)
    • 关于AI对齐问题的学术研究
    • 强化学习与价值函数相关文献

编者按:

这次访谈深入探讨了AI发展的核心问题,揭示了当前技术路径的根本局限,并指出了未来研究的关键方向。Ilya Sutskever的核心洞察在于:存在一个”那个东西”——一种让人类样本高效学习和泛化的根本机制,这是当前AI缺失的,也是实现真正通用智能的关键。

从扩展时代回归研究时代,不是简单地放弃规模化,而是在拥有大规模计算资源的基础上,重新聚焦于根本性的机器学习原理创新。这种转变将定义AI发展的下一个十年。

整理时间: 2025年12月2日 整理者注: 本文基于原始访谈音频和文字稿整理,去除了时间戳和口语化表达,保留了核心观点和论述逻辑,并重新组织了章节结构以便阅读。




相关文章推荐:

  • 李飞飞:从文字到世界,空间智能是AI的下一个前沿
  • Anthropic 研究员详解:构建高效 Claude 智能体的完整方法论
  • Claude Code自定义命令在知识管理与内容创作中的系统化应用研究
  • 18个改变人生的习惯:科学证据支持的长期主义指南
  • OpenAI双巨头首次详解GPT-5:不是下一代GPT,终极形态是AI研究员
  • KIMI创始人杨植麟深度访谈:攀登无限之山
  • Jason Wei:理解2025年AI进展的三种关键思路
  • Nick Joseph访谈:Anthropic预训练的核心思考与实践