KIMI创始人杨植麟深度访谈：攀登无限之山

主持人：张小珺
时间：2025年7月
地点：北京知春路京东科技大厦13层

第一章一座无限的山

01 The Beginning of Infinity

张小珺：在你创业第一年结束的时候，2024年我们访谈标题是《向延绵而未知的雪山前进》。现在又过了一年，站在此刻，2025年7月，你最新的感受是怎样的？

杨植麟：你刚刚提到这个词，我感觉好像过了很久……AI一天，人间一年。AI的一年我不知道是人间多少天。确实很多东西发生了变化，但你说的”雪山的感觉”，倒是差不太多。

往山顶方向，我们又走了一段距离。

张小珺：现在行进到哪里了？

杨植麟：站在现在看，模型的进步挺大——两年前写一篇文章都写不太明白，现在不光可以写很好的文章，还能连续工作几小时，帮你完成一个很复杂的代码任务。这在两年前很难想象。

在爬雪山的过程中，解锁了一些新的场景，大概知道中间这条路是什么样的；但同时，在往上的过程中，你还是观察到类似的景象——接下来，仍然会有很多未知的技术问题要去解决。

张小珺：在四下都是大雪的山峰上，你是更清晰了，还是更迷惘了？

杨植麟：肯定会有很多东西变得更清楚。两年前各种强化学习（RL，Reinforcement Learning）的范式该怎么做，怎么让模型有更强的推理能力，或更强的Agentic（智能体式）能力，当时都没那么清楚。那时更多关注模型的预训练（Pre-Training）怎么做得更好，怎么用RLHF（Reinforcement Learning from Human Feedback，人类反馈强化学习）提升对话体验。

但现在有一些问题得到了答案，同时这些答案又展开，带来了新的其他问题。

现在虽然可以做强化学习，但它最终还是依赖一个很好的评估或验证机制。你让模型去做一道数学题，或者做一些有test case（测试样例）的编程任务，可能做得比较好。但如果让它去做一个更复杂的端到端任务，有时很难找到一个合适的评估或衡量方式。所以，这个系统又会产生新的问题。

这有点像我最近在看的一本书，叫The Beginning of Infinity（无穷的开始），我看了好几遍。书中说，有两句话可以刻在石头上：一句是”问题是不可避免的”，另一句是”问题是可以解决的”。

《无穷的开始》（The Beginning of Infinity）是物理学家David Deutsch撰写的一本科普哲学著作。

书中观点：科学知识和理性探究能带来无限的进步和理解，世界上的问题无穷无尽，但绝大多数问题都可以通过理性思考和科学方法得到解决。知识的增长无界限，科学探索是一个不断解决问题、产生新问题的过程，这是人类文明不断前进的动力。

你可以认为，启蒙运动前，这个社会是静态的。大家不追求创新，会用很多神秘主义来解释所看到的现象，但这些解释并不是好的解释。比如，你看到天上打雷，会觉得雷公在发怒；你看到冬天下雪，会说某个神心情不好——整个社会结构是静态的，只有极少数人在真正做科学研究或知识创造。

但启蒙运动之后，社会变成了动态的，新的知识不断被创造。每当你解决一个问题，就会带来新的问题。问题是源源不断的，因为你的知识边界在拓展，你就会遇到新的问题。

现在做AI研发也恰好处于这样的状态。你解决了强化学习的一些问题，接下来就遇到评估、衡量、验证这些问题，又需要我们寻找新的答案。

但这也正是它有意思的地方——你总是会有新的问题去解决，而每当你解决一个问题，技术就能再往上攀登几百米。

也许有一天会发现，这座雪山没有尽头——我不知道——我希望它一直没有尽头。

The Beginning of Infinity的意思就是这样：

它是一座无限的山。

02 它还是一个”缸中之脑”

张小珺：我们回望一下，过去一年全球大模型在你脑海中最重要的几件事是什么？有哪些是人工智能范式级的变化？

杨植麟：一个是长思考的推理模型（Reasoning Model），以o1作为第一个做出来的代表。本质上，它通过让模型在过程中做很多尝试和反思，反思是其中的重点。

反思是两种能力：一种是提出新的猜想，一种是验证猜想。

你可以理解为：模型在解决问题的过程中，会不断提出新的猜想，这个猜想会得到自我验证。比如，它提出这个猜想之后，要判断是对是错，需要具备一定的验证能力。虽然你不是显式地训练一个验证模型，但它在推理过程中隐式地进行了验证。它对这个问题做了多次猜想和验证，最后得到一个答案。

这大大提升了模型的能力。你本来只能做一次，直接给出一个答案，这个答案可能对，也可能错，你没有这个过程。但现在你可以不断提出猜想去验证，相当于等价尝试了好几次。

你可以把Pass@k变成Pass@1，本质是这样的道理。

Pass@k：用于评估大模型的一种指标，表示模型在一次任务中生成k个候选答案时，至少有一个答案正确的概率。

这跟人做科研或解题的过程很像，不断提出新的猜想，然后验证它。

张小珺：是一个自由探索的过程，而不是一个线性的过程。

杨植麟：它有效的工作方式，很多时候还是比较线性的。如果不考虑并行采样，假设做的是串行采样，它就是线性过程。

你每次提出新的猜想，这个猜想可能基于之前的猜想，甚至是你已经否定过的猜想，再提出一个新的猜想。它会接近更线性的过程。

现在你也可以把线性过程和并行策略搭配，比如同时采样很多个，结合了并行和串行两种方式。最近也有一些paper讲串行采样上限更高，这跟我们的实验结论一致。

上面说的是一种范式，但它还是一个“缸中之脑”（brain in a vat），并不需要跟外界交互。

张小珺：缸中之脑？

杨植麟：想象一个鱼缸，你把一个脑子放在里面，跟外界没有联系。它只是在自己大脑里面想，一直想，不需要跟外界产生任何交互，就能解一道题。

但有另一个很重要的范式，就是基于多轮的Agent（智能体）强化学习范式，或者通过强化学习技术训练出来的Agentic模型，它的特点是会跟外界做很多交互。

比如我边思考边去做一些操作，可能做很多轮操作，一会儿调用一个搜索，一会儿使用一下浏览器，一会儿写几行代码，通过多轮解决一个问题。

它就不再是“缸中之脑”，是跟外界有交互的——我的下一步行为，是根据交互中得到的反馈，和外界给我的新状态的更新有关系。

但这两个东西都指向了同一个东西，是：test-time scaling（测试时扩展）。意思是，可以在测试时，或者在推理时，做到更好的规模化。

比如之前做Chat（聊天），更多是单轮地输出一个结果：我让你写一篇文章，你就写一篇文章；我再让你润色一下，你又输出几百个token（词元），这个token数量是很少的。但不管是基于长思考的强化学习，还是Agent的强化学习，本质上都是一种在预测时对token进行规模化扩展的方式。

你不管是把轮数打得更多，还是在每一轮有更多思考的token，都是一种规模化token的方法，让你能完成更复杂的任务。

这也伴随完成时间更长。你现在花几小时去做一件复杂的事，过程中不需要人工参与。比如，把一个代码仓库克隆下来，翻译成另一种新语言，调试、测试，把所有bug（漏洞）修复，让它能正常运行。这样的工作可以端到端完成，得益于测试时计算（test-time）的规模化。

还有一个很有意思的趋势是，现在有更多模型公司去做“一方的Agent产品”。

“一方的Agent产品”：指模型公司自己下场做产品，自己控制上下文环境、工具接口、prompt结构等，也就是自己当”使用方”，而不是只给别人提供模型API。一开始，我们看半年前或者去年，很多产品是基于基础模型，你在上面搭一些脚手架，或者设计一些工具去更好地让模型使用，从而搭建一个产品。张小珺：享受模型溢出的能力。杨植麟：对，它本质做的是逆向工程这个模型的训练过程。因为模型训练过程也是通过各种手段——你可以认为Anthropic在内部（in-house）的环境、工具、脚手架，可能训练出这样一个模型，但它没有直接开放给你。

你通过逆向，更接近拟合它的分布——到底用什么工具效果会好？到底用什么样的System Prompt（系统提示）效果会好？到底用什么样的Context Engineering（上下文工程）效果会好？这是一个逆向的过程。

但你会发现，如果模型公司去做“一方的产品”，逻辑完全不一样。

你不再需要这个逆向的过程，更多是正向的做法。我先把这些工具设计好，我的Context Engineering（上下文工程）的方法都设计好，我就在这个环境里训练这个模型，所以模型天然在你的环境里表现更好。

这是两种不同思路，但第二种思路上限也许更高。

你可以更好整合工具和模型。模型如果有些地方解决不好，你可以调整工具设计，把它设计得更好，同时又可以端到端训练。这也是在开发方式一个比较大的变量。

张小珺：让大家比较好理解。第一种你说的脚手架，就是像Manus这种开发方式；第二种是你们这样的端到端训练模型的方式。

杨植麟：对。当然，我们现在在“一方产品”投入还不算特别多，是以模型为主线。但Claude Code或ChatGPT Agent，就是“一方的产品”，应该也会是一个很大趋势。

后面就看“一方”和“三方”产品怎么配合，在生态里会是什么样的状态。

03 L1到L5不一定是串行关系

张小珺：说到主线，OpenAI设置了从L1到L5的分级，我一直很好奇它背后的内在逻辑。

L1是Chatbot（聊天机器人），L2是Reasoner（推理者），L3是Agent（智能体），L4是Innovator（创新者），L5是Organizer（组织者）。

为什么是在有了Chatbot和Reasoner之后才有Agent？为什么接下来又是Innovator和Organizer？这个顺序在能力结构上是怎样递进的？

杨植麟：它是能力一步一步的依赖。Agent的（L3）上限取决于，你有很强的Reasoning（L2、推理）能力，但并不是必须先有Reasoning。

假设我们把技术发展的顺序稍微换一下，你先做出来Agent能力，再去做狭义的Reasoning，就是long CoT（长链式思维）的Reasoning，可能也是成立的。

你可以认为Claude的路线就是bet（押注）这一点：它在Reasoning上做得不是特别多，但在Agent上做得非常好。这背后是不同技术路径的bet（押注）。但最终你绕不开，如果你想往山顶再多爬几步，这两个能力都要有，只是时间问题。

所以，他们并不一定是互相依赖的。不是非得先做Reasoning再做Agent。但要做到最好的Agent，就必须把Reasoning也做到最好。而有了Agent的能力，就可以去做后面的一些事。

为什么说下一阶段（L4）是Innovation（创新）？这里面最关键的是：模型什么时候能参与模型本身的开发？只有当模型参与到开发过程，才能解锁真正的Innovator（创新者）阶段。

我们希望K2能参与到K3的开发，如果你没有Agentic能力，很难做到这件事。但当你具备了Agentic能力，它就可以提出一些新的想法，做对应的实验，分析实验结果，得出结论，迭代下一版想法，或者优化某个Infra（基础设施）性能。这些都依赖很强的Agentic能力才能做。

Innovation（L4、创新）和Organization（L5、组织）也不一定是完全线性的关系，有的也是并行的。我们已经看到这样的趋势——

比如说，当你有了一个Agent，就可以拓展成Multi-Agent System（多智能体系统）。你可以从一个Agent fork（分叉）出很多不同的Agents，让它们去做不同的事情。有些是串行的，有些是并行的，然后再合并，再拆分成不同的task（任务）。可能有的写测试，有的写文档，有的设计软件框架，有各自的分工。

Multi-Agent System（多智能体系统）：由多个相互独立但可以协作或竞争的智能体组成的系统。多智能体系统可以表现为多个由语言模型驱动的Agent在一个环境中协作、对话、解决任务，例如：一个Agent负责规划（planner），一个负责执行（executor），另一个监督结果（evaluator）。多个Agent扮演不同专家角色，围绕一个复杂问题展开”思辨式”讨论。所以它不一定是线性关系，可能两个（L4和L5）同时发生。

但Reasoning（L2）和Agent（L3），可能是Innovation（L4）和Organization（L5）的前提。

张小珺：Innovation（L4）的标志是模型自我迭代，那Organization（L5）呢？

杨植麟：比较简单的一个思考是，它会是一个 Multi-Agent（多智能体）系统。

当然，你怎么把Multi-Agent系统很好地做端到端训练，不要过拟合到某几种Agent类型，让它有更好的泛化性，比较有挑战。

张小珺：Organization是模型的“雪山封顶”吗？

杨植麟：也不是，可能它真的就没有顶。

张小珺：所以你把L1到L5的分级当作一个什么样的刻度？

杨植麟：它是几个重要的技术milestone（里程碑），但它并不一定是串行关系。它不是我们预期某一个能力被解决之后，才去解决下面的问题。

比如Reasoning。如果你真的要解决开放性推理问题，就需要做很强的Innovation，提出新的模型架构，而这又对推理能力提出了更高要求。本质上，是用L4的方法去解决L2的问题，把L2做得更好。

这几个能力，随着时间推移，会持续变得更好。

不过，你在里面有不同技术bet，会让你短期路径出现一些区别。这些短期路径的区别也会有影响——因为你面对的是动态的市场。

张小珺：以前我们会固化认为终点是AGI，今天的终点不是AGI了，那么AGI是什么？

杨植麟：AGI不是某一级台阶，你爬到了这级台阶，突然一夜之间达到AGI。而是说：它是一个方向。

今天在很多领域，你可以认为已经AGI了，做得比99%人类更好。很多数学或编程竞赛，按现在的提升速度，预想很快有很多问题被充分解决。

AGI有两个层面：一方面技术一直在提升；另一方面是技术对人类社会的影响。后者是一个更长周期的事情，也是AGI的一部分。

这有点像蒸汽机产生后，社会变化需要几十、几百年去消化。一些工作变得不再必要，但会产生新的工作。每个人变成“超人”，可以做更多事情。社会的工作方式和运行效率会发生巨大变化。

虽然我们用“登月”（Moonshot）命名公司，但它跟登月有区别。登月是你站上月球那一刻，可以号称“我达到了”。而AI很难在某个时间突然喊出口号，说“我们此时此刻实现了AGI”。

你一直在往上爬。

甚至，过一段时间之后，不一定是你自己在爬，是你用AI在爬。现在我们让K2做数据处理、模型分析、模型训练，以前都要人工做，以后慢慢交给模型做——它像一个放大器，帮你更好地攀登这座山。

张小珺：如果雪山是无尽的，你追求的是什么？

杨植麟：就是攀登的过程。

你原来在山底下，现在又往上提升了一点，能看到的景色不一样。

它是一个动态进化的过程。

第二章 K2是乔戈里峰

04 喂一样多的数据，“脑子”长得更多

张小珺：我们来复盘一下，你创业这两年的关键决策。2023到2024年你的关键决策是——在23年2月决定了创业、开始融资、组建团队；到了下半年，Kimi上线了、bet了长文本。

2024到2025年，这一年你的几个关键决策是什么？

杨植麟：很重要的一点是，技术上我们从以预训练和SFT（Supervised Fine-Tuning，监督微调）为重点研发范式，转变成以预训练和强化学习为重点的方式。这就需要做很多事——不管是人才的储备，还是研发方式的改变。

另一点是，从对话到Agent是一个重要范式转变，很大程度影响我们的实际工作方式。

张小珺：过去半年你们推出了K1.5和K2，它们分别对Kimi意味着什么？

杨植麟：K1.5更多是强化学习技术的验证。

张小珺：追赶o1？

杨植麟：对，我们比较早在这个技术路线投入，得到一些结果，看背后的技术到底怎么做。

当时我们发现不太需要太多的process reward（过程奖励），或者value function（价值函数），甚至它们在训练过程中还有一些副作用。

我们发现，你可能直接用端到端的reward（奖励信号），就能把训练做得非常好。这在早期还不是非常明确。这个过程中，我们积累了一些强化学习的基建，还有一些算法的know-how（诀窍）。

K2的重点有几个：一是我们希望它是一个非常好的基础模型（Base Model）。如果你想有更好的Base Model，就要去看现在整个领域预训练的瓶颈在哪。

我们发现高质量数据的增长确实很缓慢，多模态数据又无法很好提升文本本身的“智商”，你可以认为高质量数据接近一个常数。这种情况下，我们希望能最大化地使用每一份数据，就是所谓的token efficiency（token效率）。

你希望在吃下一样多数据的情况下，脑子能长得更多，你能得到更多智能。

这里和之前的思路不太一样。你现在假设在训练系统做很多性能优化，让训练更快，这当然有价值。但训得更快本身，并不能提升智能上限，因为token数量还是那么多。你训得更快，只是更短时间完成训练，但模型效果不一定变好，这是训练效率或compute efficiency（计算效率）上的优化。

之前有人做过这方面，我们现在更希望提升token efficiency，把一份数据当成几份用。

我们很关注，比如Muon优化器。它很有意思，对token efficiency提升很大。像Adam优化器用了10年，大部分的模型训练都会用Adam，但它的token efficiency并不够好。

Muon优化器不是把每个元素独立考虑，而是把一个矩阵的参数整体考虑它们之间的dependency（依赖关系）。通过这种方式，获得更好的学习效率——你学同样一份数据，能学到更多智能。

我们早期的实验，如果在compute optimal（计算最优）的情况下，基本会有两倍提升。也就是，你学一份数据，相当于用Adam学两份数据。

假设你有30T的高质量token，等价于你现在有60T的高质量token。

张小珺：但它实际还是那么多数据啊。

杨植麟：它学了之后，脑子会长得更快。因为学习效率更高，优化器更好，吸收得更快。

你喂它一样多的数据，它吸收得更好，压缩率会涨得更快，loss（损失）会降得更快。

张小珺：Muon优化器是你们原创吗？

杨植麟：Muon优化器是Keller Jordan（一位计算机科学家和机器学习工程师，于2024年12月加入OpenAI）提出的，我们在他的基础上做了很多优化，使它能适配并训练非常大规模的语言模型。

我们之前有一个Moonlight的工作，让它能够第一次在一定规模的语言模型上训练。后来在进一步规模化的过程中，发现了很多新的坑，比如max logit（最大logit值，观察训练是否正常的一个指标）可能会出现爆炸的问题。

这个问题在小规模实验中很难发现，但在大规模训练时会遇到。于是我们提出了一些新的方法，比如clipping（截断）技术，让它在非常大规模的情况下，仍然能很好地训练。

这非常重要——因为token数量有限，你希望每一份token能产生更大价值。

张小珺：我读了你们的技术报告，你们尝试已有模型改写现有数据，生成新的语料，具体的改写策略是什么样的？——这个在报告里没有提。

杨植麟：我们会对数据做很多Rephrase（改写）操作。比如你有30T token，但其中高质量数据更少，可能只有几十b或者几百b级别（百亿到千亿级参数量）。你希望这些高质量数据能被很好地利用，我们对这些数据做了一些改写，让它们更好地被模型吸收，并且有更好的泛化能力。

主要思想是，如果你同一份数据学很多次，它可能泛化不一定那么好，有一些过拟合问题。我们希望通过改写，让它有一定程度的泛化。

具体改写方式有非常多种，我们找到一种在实验里效果比较好的。

张小珺：哪种？

杨植麟：这个空间也很大，有非常多的研究机会。

张小珺：你怎么看待一种观点——“改写和扩充其实没用，能够写出来知识，说明知识本身就在里面，没有新知识，除非改写的时候用到其他方法。”

杨植麟：这是一个很好的问题，确实跟改写方式有关系。理论上，还是看你有没有新的熵的输入。它对改写方式有一些要求。但我们现在也不一定用了最好的改写方式，有很多探索的空间。

回到刚讲的点，K2这个模型，一方面是希望它成为一个好的Base Model。我们很希望提升它的token efficiency，这些是我们对应的设计，包括通过更大的稀疏度去加更多的参数。

那它的token efficiency也会更高，因为你参数多了之后，虽然学一样多的数据，但你会吸收得更好。反正通过实验可以验证，确实有更好的token efficiency。

第二是我们希望它有好的Agentic能力。你通过各种强化学习，或者对工具和环境的模拟，让它能有比较好的泛化性。

对于一个Agentic模型来讲，现在最大挑战是在模型的泛化上。

因为现在的RL技术，局限性在于，不管是训练任务还是评价指标，很多时候都是单点。比如你就训SWE-bench同分布的数据，它就提升SWE-bench，是很确定的东西。但是你的指标提升上去之后，并不意味着模型的泛化会变得更好。

SWE-bench（ICLR 2024）：一个用于评估大模型在真实软件工程任务中表现的基准测试集。

我们也在尝试去解决一部分泛化问题。不希望过拟合到某一些工具，或者过拟合到某一些环境，或者过拟合到某一些具体任务上。这些任务可能是很好的观测，但我们不希望过拟合它。

这个问题在Agent训练更严重。相比于对话模型，Agent的泛化是一个更大挑战。

张小珺：Agentic能力现在更多在Post-Train阶段训练，为什么不在Pre-Train阶段去训？

杨植麟：这个也是接下来我们想探索的东西。

张小珺：这有可能提高泛化性吗？

杨植麟：取决于你的做法，比如数据分布是不是足够广泛，有没有很好的方法评估。

现在整体的评估，是阻碍Agent模型变得更泛化的重要瓶颈。你会慢慢观察到，现在Agent能用的Benchmark（基准测试）不是非常多。你在那些Benchmark上观察到一个分数，很多时候它并不是对这个能力的反映，比较片面。这是大家要去想办法解决的问题。

有一种潜在思路，我们需要用更AI native（原生人工智能）的方式去训练AI。我们希望让模型参与到更多训练过程。比如，如果你的AI能做很好的alignment research（对齐研究），它理论上会有更好的泛化，不仅只是在优化一些单点任务。

今天Agent还不像对话有这么好的泛化性——接下来雪山上几百个台阶，有可能是这个。

张小珺：听起来K1.5是跟着OpenAI跑，K2是在抢跑。

杨植麟：我们借鉴了很多技术上的方向，但也希望有一些自己的创新。

至少在公开资料，我们是第一个使用非Adam的，或者基于矩阵正交化的方式，去用新的优化器，在这么大规模的模型上去训练。这是一个创新点。

我们在一些Agent数据的做法，至少在公开可查资料里也是比较早去做的。

很有意思的是，当你在雪山上越往上爬，你会发现空间是在变大。因为现在你完成同一个任务用到的token在变多，问题复杂度变得更复杂。

就像刚刚讲的：问题不可避免，但问题总可以被解决。

这些不可避免的问题，看起来会比之前更多，但你的研究空间也会随之更广阔。

（相比2024年1月访谈时，月之暗面已搬到一个更明亮的办公室。在北京知春路的京东科技大厦13层，那架白色钢琴还在。）

05 Muon你去训的时候，它会炸

张小珺：我们具体说到K2这个项目，它是怎么立项的？中间筹备了多长时间？

杨植麟：筹备是比较长时间的，涉及很多技术从去年开始研究。

像Muon的技术，研究需要比较长周期。你一开始做早期实验，发现这个想法有潜力。我们会有一些小的实验验证这个idea（想法）潜力有多大。

有了想法之后，到最后你能把它放到一个万亿模型去训练，要通过不同的scaling（规模化）实验去验证它的有效性。有些问题只有当你scale（扩展）到一定规模之后才会发现——所以周期比较长。

当然，如果你只看这个模型训练，从按下训练按钮到训练结束，时间并没有那么长。但研发需要更前置做很多事，才能最后保证训练比较顺利。

张小珺：做Agentic LLM（智能体大语言模型）这个bet是什么时间点？

杨植麟：也要做很多积累，只是说，不同时间点做法不太一样。

一开始你不一定端到端去做，但会积累一些环境和数据，到了后面更端到端去做强化学习。你中间需要很多基建和数据积累。很难说一两个月就能做得非常好。

我整体觉得，大模型和相关技术很需要时间积累。还是“要做时间的朋友”吧。技术曲线还是有点陡峭，不是今天想做就能做出来。

张小珺：所以什么时候立项的？为什么立这个项？

杨植麟：一年前积累各种技术，但K2肯定是最近几个月，我们决定要去训一个这样的模型，然后把哪些技术用上，大概是这样一个决策。但不是我今天想训这个模型，从0去搞。

我们一直训练下一代模型嘛。无非是一个决策：我下一代模型要加入哪些技术？你期待它是什么样的模型？就像现在也在考虑，K2之后下一代模型应该长什么样？——这是持续要思考和决策的。

每次会看，现在工具箱又多了很多新东西，把哪些拿出来用？是这么一个过程。

张小珺：你们做研究和做训练的团队是分开的吗？如果一年前已经开始研究这些技术，做正式训练，是一个团队在做整件事吗？

杨植麟：是一个团队，这些东西很难分开。你在实际训练中会遇到问题，如果之前不了解，没办法解决它。

张小珺：K2研发过程中遇到什么挑战没有？

杨植麟：Muon你去训的时候，它就会炸。

我们有画一些图在paper里，你的max logit会涨得非常高，涨到几百甚至更高。我们认为这个东西对训练稳定性有影响，你可能训久了，它很多所谓的内科指标（internal metrics）不正常，对模型上限有害。

我们等于又回过头去revisit（重新审视），修复它。因为这个东西是你在小规模实验上没办法预测的，小规模上不会有爆炸的问题。

其他基本还好，都在小规模上做了很多实验，是可迁移的，问题不是很大。唯一有这个问题是你小规模上验证不了，需要在scale（扩展）过程中再临时解决。

张小珺：最近K2火了，你的心情有起伏变化吗？

杨植麟：也没有，还好——这是一个漫长的旅程。

要持续去做下一代模型，还是回到那两句刻在石头上的话：会产生新的问题，然后就去解决它。这也是最有意思的部分。

张小珺：听说，你在内部群里形容K2意味着乔戈里峰。

杨植麟：K2本来就是世界上最难攀登的山峰之一，名字有点重合。

它不是终点，因为它不是最高的山峰，但可能是最难的。这是因为现在有很多范式转变，从对话到Agent，你的Base Model规模进一步变大，本身存在难度。

乔戈里峰（K2）：世界第二高峰，海拔8611米，仅次于珠穆朗玛峰（海拔8848米），位于中国与巴基斯坦交界的喀喇昆仑山脉中。它以极其险峻著称，攀登难度远超珠穆朗玛峰，被登山界誉为”山中之王”或”杀手峰”，因其恶劣的天气条件、复杂的地形和高死亡率而闻名。乔戈里峰多次成为登山者挑战极限的象征，也代表着极端高山探险的终极考验。张小珺：K2发布的结果超出你预期了吗？

杨植麟：差不多，模型训得怎么样，在过程中就已经知道了，没什么惊喜或意外。

张小珺：你在K2训练中收获的最重要几个know-how（技术诀窍）是什么？

杨植麟：我们都写在paper（论文）里写了。

我们都很open（开放），还是想更多跟社区分享嘛。

06 当从“缸中之脑”变成跟世界交互的系统

张小珺：因为K2是一个Agentic大语言模型，你会怎么定义Agent（智能体）并对Agent进行分类？

杨植麟：它可能是一个从“缸中之脑”变成可以跟世界交互，因为所谓Agent最重要的特征，就是它可以多轮地使用工具。

有两个关键点：一个是多轮，一个是工具。

多轮就是你能做很多次，是test time scaling（测试时扩展）的一种方式；工具则是连接这个“脑”跟外部世界的方式。

比如，你用搜索引擎，就可以把模型跟整个互联网连接起来；你可以写代码，就能让“脑”跟数字世界连接，因为数字世界几乎所有自动化都可以用代码描述，它能拥有这种自动化能力。

这两个是我想象中Agent的特征，接下来会有越来越多的工具。当然，工具会呈现长尾分布。如果模型泛化得好，它不只是使用常见工具，能使用非常个性化的工具。

比如，模型能访问公司内部数据库、个人文档，甚至访问定制的API，完成退票、下单等业务操作。它应该能泛化到没见过的工具上。我一直觉得Agent最缺的是泛化能力。

如果泛化能力强，大家讨论的各种垂直Agent就没那么必要了。因为通用Agent泛化到长尾工具上，很多领域专有问题都能通过接入不同工具解决。只要给它加上定制数据库、定制API、定制文档接口，就能做一个非常垂直的Agent。它的普适性会强很多。

多轮主要是实现test time scaling（测试时扩展），可以做复杂任务。不像对话模型一次输出一轮，这个可以做不同的事情——就像人一样——人每天的工作，你可以认为是，多轮使用工具的序列。你希望把人的序列拟合进去，但你又搜集不到这样的数字化数据，你就可以用强化学习来构造。

它本质是在模拟人的行为——不过，你也不能简单说是模拟人，叫“模拟人的行为”不太准确，它其实是通用的。

张小珺：什么叫不能简单说在模拟人，人也很通用。

杨植麟：对，人是通用的，人是所谓的universal constructor（万能构造器）。

“万能构造器”（universal constructor）：指一种能够制造任何物体或系统的机器或装置。这个概念源自理论计算机科学和自动机理论，最早由数学家约翰·冯·诺依曼提出。万能构造器能够读取自身的”蓝图”或程序指令，然后根据这些信息复制自己，或者制造其他复杂结构，理论上可以构建任意复杂的系统。但它主要目的不是去模拟人，主要目的是通用性，这才是设计的目的。

它跟人的做法类似，只是一个恰巧的结果，并不是设计系统的目的。

张小珺：这就好比设计飞机，是为了让它成为交通工具，目的并不是像鸟一样能飞。

杨植麟：我们做Agent系统，更多是为了做一个通用的智能，是跟这个目标对齐；但它刚好跟人相似。

张小珺：怎么提高Agent通用性？你们探索到什么方法没有？

杨植麟：这是很难的问题。今天Agent的泛化有一个风险，可能会陷入某些Benchmark过拟合，但现在又缺少很好的Benchmark。这是接下来的挑战。

不过可能有些解法，我还是觉得能用更多的AI去训练AI，可以一定程度缓解这个问题。

张小珺：什么时候能做到用AI训练AI？现在的瓶颈是什么？

杨植麟：现在部分已经做到，但你希望它做更多。现在很多还是依赖人的设计。

张小珺：这样就到下一个阶段Innovator（L4、创新者）的阶段了。

杨植麟：这很有意思，你要用一些Innovation方式去解决Agent问题。因为Agent泛化不够，你得用创新去解决——用L4的技术去解决L3的问题。

所以L1到L5的定义可能真的不是线性的。没有好的Innovation，没有用AI去训练，或者用AI对齐AI的方式，Agent很难做到好的泛化。

你人工定义一些 task（任务），只fit（拟合）那个 task，但在别的看不见的task表现就不好。只刷几个task分数，但用户在更多OOD（分布外，out-of-distribution）场景中体感没有那么好。

现在这个领域面临的是，Benchmark不够用或失效，Agent泛化有问题的阶段。

张小珺：为什么数学和代码是相对容易泛化的领域？

杨植麟：其实也没有。如果做强化学习，现在也有类似问题。

强化学习本身的泛化性，比做SFT（监督微调）要好，因为过程中有更多的on-policy（基于当前策略）sample（采样），模型从自身采样中学习，泛化看起来更好，而且有负梯度。这两个因素导致从证据来看，泛化表现更好。

但泛化是有限的。比如说，你在某种类型的数学竞赛做到99分，别的数学问题可能提升5个点，但很难直接做到99分。如果不做对应的RL任务，就很难直接做到这样的泛化性。

所以做数学题也有类似问题，是被分布所制约的——还是“种瓜得瓜，种豆得豆”。

但是我们希望强化学习或后训练用更多AI ，让模型摆脱“种瓜得瓜”的情况。

张小珺：有没有可能最终就是摆脱不了，大幅提升不了泛化性？

杨植麟：还是回到刚刚说的，问题不可避免，但问题可以被解决。你每次都会往前推进——泛化会变得更好，它不一定有尽头，一直会有更好的泛化。

张小珺：对于Agent来说，任务和环境非常重要。怎么定义好的任务？怎么定义好的环境？你在探索过程中有没有一些思考？

杨植麟：一种方式是，我给定一个模型，然后设计一些环境，去逆向拟合这个模型。当然你也可以正向设计，假设你是一方的开发者，正向设计工具和环境，让模型在这些环境里提升能力。

关键是让这个设计有更好的通用性。它能做很多任务，不应该为了某些特定任务专门设计工具和环境。当设计足够通用时，模型能在这其中学习，而不是反过来拟合模型。这可能是更好的做法。

张小珺：我注意到一点：一般大家认为在任务设计上，倾向于设计一个足够有挑战的任务，这样会催生一些更本质的新方法；但K2设计的是一些中等难度任务。这是出于什么考虑？这会影响通用性吗？

杨植麟：它也是一个爬山过程。你不能一上来就让模型去证明一个还没有人证明过的数学问题，样本效率（sample efficiency）会非常低。

现在比较好的方法是，强化学习如果搭配好的采样策略，本质是隐式的课程学习（curriculum learning）机制，希望模型从合适的难度开始学习，逐步提升难度，而不是一开始就学非常难的任务。否则采样效率低，基本学不到什么东西，算力可能都会被浪费掉。

但挑战在于，今天的很多任务还是基于人类存量数据或人工设计的任务，AI native的部分还比较少，会带来泛化性问题。

张小珺：在你眼中，Coding Agent（编程智能体）和通用Agent（通用智能体）是什么关系？

杨植麟：Coding Agent是任务的一个子集，但可能是很重要的一个子集。

最后还是希望不仅仅做Coding。包括现在我们训练的模型，也不是只让它做Coding，因为它本身有一些局限性。

张小珺：可以这样说？——Coding相当于人类的手。

相对来说，Coding对Agent是比较容易的任务，是吗？

杨植麟：它比较好验证，所以比较好学习。它也会面临类似挑战——泛化性问题，即便是Coding Agent也会遇到一样的挑战。

Coding Agent是很重要的一个子集在于，它代表了数字世界的自动化。现在很多Agent工具集合是固定的，如果你想创建一个新的工具，本质是写一段或者一大段代码实现。或者如果你想做更好的上下文管理（Context Engineering），背后也对应一个工具，这个工具可能也用代码实现。代码在这里面有独特的位置和作用。

但并不是做了Coding Agent就足够。因为很多非程序员也会用Claude Code完成任务，比如律师、产品经理、设计师，他们用Claude Code是因为模型在一定程度上有泛化能力，不仅仅是写代码。

张小珺：你们想做的是通用Agent，而不是Coding模型？

杨植麟：我们还是希望做通用的模型。

张小珺：从写代码到操纵整个数字世界，Agent目前还缺乏哪些能力？

杨植麟：现在这些高频工具使用还不够好，能力上有很大空间。这也说明现在缺少更好的Benchmark观测。SWE-bench现在可能马上会饱和，很多Benchmark不够好，不够真实反映实际用户体验。

高频工具本身会有空间。长尾工具，在一些你没有见过、完全OOD（Out-of-Distribution，分布外）的情况下，怎么有更好的泛化？也是很重要、需要解决的问题。

张小珺：对于Agent ，Long Context（长上下文）和Long-Term Memory（长期记忆）重要吗？

杨植麟：Long Context也很重要。因为现在很多任务，128K或256K这种Context完全解决不了，你需要百万级甚至更多。

而挑战在于，你不仅要能处理这么长的Context，还要保证“脑子好用”，智商要非常高。

这对于模型的训练，挑战是很大的。一方面你希望压缩率足够高，模型要足够大；另一方面你希望它比较长。这两者之间天然存在一些冲突，所以需要更好的架构。

但是有些架构你会发现，它在更长Context下效果会有提升，但在短Context下不一定会有提升，甚至会有下降，这就涉及架构的平衡问题。

不过这些问题接下来可以逐步被解决，我觉得有一些解法。

此外，当前的RL训练方式还有很大提升空间。比如在训练复杂的多智能体系统（Multi-Agent System）时，如果只使用端到端的reward，很可能不够。中间的reward如何产生？是否能摆脱一些人工设计？

这也是非常值得探索的方向。

第三章既简单又复杂的系统

07 开源 vs 闭源

张小珺：我回看我们去年的对话，有一个问题非常想问你。你去年说，开源会落后于闭源。因为开源的方式跟以前不一样，以前所有人都可以贡献到开源，而现在的大模型开源，本质是中心化的，社区贡献没有经过算力验证。相比之下，闭源阵营会人才和资本聚集，是对市场资源的整合。

你当时说：“领先者不会开源，只有落后者才会这么做。”

但今天你们开源了。

杨植麟：因为我们现在，在全球范围内还没有完全领先（笑）。

有些判断在大方向上是成立的：当你的模型发布，社区可以贡献一些东西。比如，你在推理侧可以做很多事，你可以让模型被更多人免费使用。

但如果要贡献到模型本身、让模型变得更强，目前只有原厂能做。

当然，如果你看Base Model，确实如此；但如果基于一个开源模型去做大量后训练（Post-Training），尤其是Agentic的Post-Training，可能催生新的机会。

假设你现在非常想做一个法律相关Agent，你是创业公司，那你完全可以基于K2，在你的特定工具集合之下训练一个Specialized Agent（专用智能体），它可以在你关注的场景下表现得非常好。这种机会存在。

更多是赋能下游应用，而不是反哺基础模型的提升。当然这个问题要动态观察。

张小珺：你们会长期选择开源吗？

杨植麟：这是我们希望长期做的，但不一定只做开源。我们希望跟社区分享技术know-how，这是加速技术提升的重要点。

大家可以不完全是竞争，也可以有合作，甚至所有开源公司形成一个生态，更好地推动技术发展——雪山可以爬得更好，race to the top（冲向顶峰）。

但也不一定所有都开源。比如跟某些公司合作，不一定都开出来。

张小珺：总的来说，开源是一个技术体系的信仰，还是一个市场博弈的策略？

杨植麟：客观说都有，而且都有好处。但最终我们希望通过这个让技术更安全、更快达到更好的水平。

张小珺：开闭源的生态会怎么演进？在你的认知中，最终开源和闭源全球会剩下几家？

杨植麟：不会很多，但几家还是会有的。你如果看过去两年，这个趋势比较明确——市场逐渐更集中、更收敛、更聚焦。可能一开始有几百个，到几十个，到几个。

几个，或许是最终稳定数量，现在看是大概率的事。

张小珺：你们属于开源那一边还是闭源这一边？

杨植麟：这要动态去观察，我们希望长期分享更多技术。

张小珺：为什么中国公司大部分都开源了？

杨植麟：客观说，有市场博弈的因素。但这对社区是好事。

08 多模态不损伤“脑子”已经很好了

张小珺：你怎么看AI时代的产品？做AI产品跟做移动互联网产品有什么不一样？——你以前很喜欢说“模型即产品”。

杨植麟：我只能说AI产品，移动互联网产品没做过。

（模型即产品）现在没有变化。你做一个Agent产品，需要把模型跟工具和Context结合起来。但你会发现，训练模型的时候，基本得把这一整套系统搭好，才能训练这个模型。

模型训练完成，产品也基本完成了。在这个基础上做一些交互上的改进当然有价值，但那是锦上添花的一步。

你的模型性能在训练中已经打磨好，跟工具和环境有非常好的适配——也就是，产品是在训练过程中完成的。

张小珺：去年，你提到现在的开发方式已经演变成——你要做一个巨大的系统，就像20世纪初Google做搜索引擎系统。你今天对于AI时代的巨大系统，有更多的想象吗？

杨植麟：现在的系统复杂性在于，你想让这个模型变得通用。一方面它变简单了，另一方面它变复杂了。

简单在于，你只要把所有东西放在同一个模型，不需要维护那么多模型，也不需要搞一堆的routing策略（路由策略）。从概念上，或从工程实现上，它变简单了。

但同时，它也变得复杂。如果你希望它通用，就希望这个模型在各种场景下都能工作。比如你做Agent模型，你不希望它只在你的工具集工作，而是希望别人用这个模型时，即便是别的工具集，甚至你没见过的工具，或者定义和实现方式不同的工具，它也能工作。这个要求很高。

像现在Agent里面，可能会有几种不同类型的任务，不管是Coding Agent（代码智能体）、Search Agent（搜索智能体），还是其他Agents，你要把它放在同一个通用模型，就可能有打架的问题。也许工具定义不一样，或者数据pattern（模式）不一样。

就是，你把它做成一个通用模型的过程，有很多技术挑战。

但如果你不做成通用模型，它的泛化性又没那么好，只能做一件事。特别是现在的Agent，它需要很多步才能完成任务。即便是程序员，也不仅仅是写代码；就算写代码，也不仅只做SWE-bench。你要做出很通用的、真正可用的东西，随着步数变多，对通用性要求会更高。

它的系统复杂性，体现在训练模型的过程中，要让这个模型足够通用，而不是只拟合到某些单点能力上。你如果只拟合单点能力，可能Benchmark分数很好看，但通用性不够——这是现在这个系统，我能观察到的比较大的挑战。

有一个例子是，如果你想往模型里加多模态能力，你就需要让这个多模态能力不要损伤它的“脑子”。

张小珺：多模态只能做到不损伤？

杨植麟：对，能不损伤已经很好了。

你希望在多模态模式下，跟文本模式下，共用一个“脑子”；你希望它在多模态的模式下，也能把文本那部分的智商激发出来，而不是进入另外一部分参数，那它可能完全丢掉了原来文本学习的部分。

当你做一个通用模型，会面临这样的挑战。当你有各种模态、各种任务类型，还有Agent、Reasoning、Chat这些，要全部融合到一起，是存在挑战的。

而且现在不仅是做SFT，还要做RL，挑战进一步加重。

通用的Pre-Training比较好做，你只要把所有文本放在一起，它基本不会有太多问题。但越到Post-Train后期，越到RL，这个问题会更加严重——这是它的系统复杂性。

09 当你通过新的交互，收集的信号噪声减少

张小珺：你看，搜索引擎系统是构建在PC互联网之上，推荐引擎系统是构建在手机，也就是移动互联网之上。在AI时代，新的超级节点会出现在哪里？

杨植麟：它会跑在很多数据中心，Jensen（英伟达创始人兼CEO黄仁勋）经常说的AI factory（人工智能工厂）。但还是会有更多终端，终端有些复用现在的，有些可能是新的。

张小珺：会诞生新的交互方式吗？

杨植麟：肯定会。两年前看，Chat是一种新的交互方式。现在Agent，有很多新的交互方式，比如你让它异步执行一个任务，可以看中间结果。

你看Coding，一开始是Copilot，之后有Cursor，再之后有Claude Code——每一代的交互都发生了变化，交互是随着模型的变化而变化。

当你有新一代模型，能力提升很多，就会发现交互可以改了。你不再需要一个一个点accept（接受）修改，而是多步执行一个Agentic Coding任务。

当然，今天Claude Code的交互也不是终极形态，因为模型还会继续提升，能力提升之后，交互会持续变化。比如你有一个Multi-Agent System，交互方式会怎么样？可能随着能力边界不断变化。

张小珺：今天的Scaling Law（扩展定律）放缓了吗？

杨植麟：Scaling Law遇到数据墙了，这是客观事实。你要突破数据墙，就需要提高token efficiency。这也是我们为什么做提高token efficiency的事情，数据墙是存在的，同时你要scale（扩展）更多算力到各种RL任务上。

但我们现在观察，模型变好的速度并没有减少，甚至在加速。

张小珺：为什么AI产品发展到今天，还没有形成数据飞轮？

杨植麟：因为基于算力的scaling太强大了。

比如你先去scale Pre-Training（预训练），再去scale RL（强化学习），而RL的scaling效率又比Pre-Training高很多。因为它是on-policy（基于当前策略）且带负梯度的训练，所以scaling效率更高。

当你有很高scaling效率的时候，你直接去scale compute（算力）、scale FLOPs（浮点运算次数）带来的提升非常大，相比之下其他手段带来的提升很小。这是一方面。

另一方面，所谓数据飞轮很依赖外部环境的feedback（反馈）。这个feedback，我们不希望它有很多噪声。但现在还没有把这个问题解决得非常好。

大模型的学习对噪声比较敏感，它跟传统的，比如推荐系统不太一样。推荐系统可能没那么怕噪声，但大模型是敏感的。

现在看起来，基于FLOPs的scaling是更有效路径。但这个平衡什么时候会发生变化？——也有可能你通过新的交互，让你收集到的信号的噪声能够减少。

张小珺：这就需要创造一种新的交互范式。

杨植麟：对。但这个交互又要适配模型能力的发展。你的交互不能超越模型能力，应该是在当前模型能力范围内，设计一个好的交互。

这是值得尝试的。只是在今天看，去scale FLOPs的维度，或者提升学习效率，是一个确定性更高、更有效的方法。

张小珺：如果按闫俊杰（MiniMax创始人兼CEO）的说法，用户数据无法提高模型的智能，那今天是不是没必要做To C（面向消费者）产品，就一门心思提升智能就好了。

杨植麟：这要看怎么理解。你可能没办法直接使用用户反馈去训练；但有一定用户量的好处是，你知道需求分布是什么样的，知道哪些地方用户用得好或不好，可以把这些东西抽象成evaluation（评估），再去优化模型。如果模型完全没人用，你不知道该往哪个方向优化。

另外也要看用户的商业价值。现在又到了一个新的分水岭：用户是有可能产生商业价值的。你看OpenAI，C端用户产生了很大商业价值，占了它营收比较大比例。

特别是现在很多Agent产品，能端到端产生价值，所以也要看你是什么用户。如果只是闲聊、查天气，商业价值没那么大。但如果是Agent专业用户，本身有很好的生产力价值。

张小珺：最近一年，你对C端产品有哪些新的思考？

杨植麟：更多还是想模型怎么做，因为模型训好了，产品基本做得差不多了。我们还是会沿着这个方式一直做。

张小珺：有人说，Kimi是从最初想做“中国的OpenAI”——当然你以前并不认同这一说法——转而想做“中国的Anthropic”。你们内部有这样的定位转换吗？

杨植麟：很难用这样的方式去定义。中美的语境、土壤不一样，今天更多是从全球视角去思考问题。“做中国的某某”，不太成立。

其实简单一点，我们希望继续爬山，做时间的朋友，和社区一起加速技术的推进。

10 Long Context架构会影响“智商”

张小珺：作为Founder，你现在生活节奏是什么样的？

杨植麟：可能睡得比较晚，哈哈，每天不一样。

但也还好，花很多时间看怎么把模型训得更好。

张小珺：你的时间主要投入在模型训练上？

杨植麟：是吧，但模型训练是个抽象概念，重要的是技术战略，这是公司战略里最关键的一部分——下一步哪些要做，哪些不要做，因为技术空间很大，总要选一些方向重点投入。

我们在很多方向上的bet比较早，且是有效的。我们很早去做long CoT的RL，反应比较快；去做优化器；去做更大规模的Pre-Training；去做第一个Open的Agentic模型，这些都是技术关键决策。这些决策能决定公司五六成走向。

但你要做很好的决策，需要很多证据，还得做很多实验。你得非常了解实验的具体结果，不能拍脑袋，得知道更多信息。

张小珺：这些决策中令你最纠结的是哪个？

杨植麟：也还好。关键是一个收集数据的过程。做实验，看实验是不是扎实。加上你对技术的理解去判断。很多时候只要数据足够充分，判断比较显然。

接下来——至少现在，K2的性能潜力还没完全被压榨出来。我们之前放的更接近是一个Base Model。我们可以加更多Post-Training阶段的FLOPs（浮点运算量），上限应该比现在高很多。

我们还会做下一代模型，但具体怎么做，我们通过实验来决策。

张小珺：也会加多模态吧？

杨植麟：多模态是比较确定的。

但多模态的能力本身要做好不容易。里面有很多工作：怎么让它去借鉴文本的脑子，而不是自己单开一个脑子。比如你MoE（专家混合，Mixture of Experts）里假设有20个expert（专家），专门在做多模态，你可能不希望这种情况出现——这样，你可能学出来的多模态是个“傻的多模态”。

我们希望它是个“聪明的多模态”。

张小珺：接下来还会有哪些重要的技术里程碑？

杨植麟：Agent的泛化性是最重要的。

Long Context的支持，我们会继续研究。特别是在智商很高的情况下，还能有更长的Context，也是很重要的问题。

现在很多Long Context架构还是会影响“智商”。

张小珺：为什么Long Context架构会影响“智商”？

杨植麟：纯粹的Linear Attention（线性注意力机制）可能就是会影响智商，因为这个架构会有一些bias（偏差），这些bias在一些场景下效果没有那么好。但一定程度上是可以被解决的。

张小珺：你怎么看张祥雨（阶跃星辰首席科学家）说的next token prediction（下一个token预测）的本质缺陷？

他的意思是，随着模型规模扩大，对话能力、知识量和情商都在变强，但推理能力尤其是数据表现是先上升后平缓，再扩大反而下降。用更大的模型做数学题，容易跳步、不老实。这是next token prediction的本质缺陷。

杨植麟：所以要搭配强化学习的scaling（扩展）。如果今天不做强化学习，模型很难说很聪明。像数学题，不一定做得非常好。

但更大的base（基础模型），强化学习的上限会更高。因为知识更多，本质是激活一个推理的范式，让它能把知识解锁出来。它的上限更高，但需要搭配RL去激活。

张小珺：你怎么看待世界模型？——有人说，做世界模型是造世界，做Agent是造人。

杨植麟：用AI训练AI有点这个意思。你有一个很好的世界模型，就能模拟这些东西，就是用AI训练AI的方式。

它可能是通往更好泛化的一种路径。

11 边界与现实

张小珺：现在，我们来讨论一些现实问题。

基座模型公司和做Agent产品的应用公司，长期看边界在哪？

杨植麟：我没有明确答案。只能说今天，“一方产品”有个好处，可以垂直整合，把模型放在里面训练，模型和工具融为一体，不是分开做再逆向工程。

但因为Agent领域广阔，“一方产品”不一定能做得过来。如果能找到一些空间，比如工具的实现需要非常多领域的know-how，或者evaluation是“一方产品”考虑不过来的东西，是有机会的。

因为有像K2这样的开源模型，大家可以在上面微调（fine-tune），更容易产生Specialize Agent（专用智能体）、垂直Agent的可能性。

张小珺：那要看通用模型通用到什么程度了。

杨植麟：不管多通用，总还是有一些工具你要做。你有可能不一定做模型，而是把工具做得非常好。

这个工具如果做得太通用，就会和“一方产品”overlap（重叠）比较大——这种情况下，垂直整合优势更大。

但如果工具是专门针对某个场景，甚至别人做不了。比如你掌握了一些线下服务入口，你的下订单或者成交的工具别人做不出来，你可能产生独特价值。

当然也有另外一种可能性，当“一方产品”或通用Agent的流量和商业模式足够成熟，很多专有的、本来垄断的工具也愿意接入，因为整体商业化效率会更高。但商业化效率的提升需要时间。在这段时间窗口内，专有Agent也会有空间。

最终，通用之所以有效，是因为整体商业化效率更高。今天，包括很多内容平台，最终有可能你把内容接到通用Agent，商业化效率会比今天更高——但可能要花很长时间。

张小珺：像Manus这种公司，会是你的潜在客户还是竞争对手？

杨植麟：还很早期，很难判断到底是什么样，产品本身也会演进。

短期，更多是合作大于竞争。今天Cursor、Perplexity、Genspark也都可以看到K2的身影。

但未来会演进，有点像Claude和Cursor的关系。Cursor也可能需要动态调整产品策略。它可能需要一方面具备一定的模型能力，因为技术曲线还很陡峭；另一方面，它能不能有一些别人做不到的工具或环境？

现在没法直接回答。只能说目前，一方的整合优势还存在。

张小珺：你今天怎么思考商业模式？API是好生意吗？

杨植麟：目前明确的商业模式：一是API服务，二是“一方产品”。我们都会做一些尝试。今天最主要优先级是把模型做得更好，这依然是首要目标。

在模型提升过程中，如果在某些方面领先，确实有商业化空间。今天市场规模增长非常快，头部公司有几十亿甚至上百亿美元ARR（年度经常性收入），每一两个季度可能实现两三倍增长。我们会动态观察，做出相应尝试。

张小珺：一位你们的用户说，他很喜欢Kimi，但也担心Kimi赚不到钱，你们能赚钱吗？

杨植麟：还是先投资。能不能赚钱，取决于模型效果怎么样。

我们也愿意服务用户的最后一公里体验，为用户交付高价值问题的deliverable（可交付成果）。

全球百亿美金且高速增长的AI市场里，专注把技术做好，其他反而更有确定性。

第四章在自己的故事里面

12 用RL的方式去管理，而不是用SFT

张小珺：过去一年，你对组织有新的思考没有？

杨植麟：好问题。最近一直在想一个事，有几个东西是联系在一起。

你看科研，或者创造新知识的过程，很像一个强化学习（RL）的过程。

之前有种经验主义理论说，人是通过经验获取知识。但后来很多观点认为不是这样。人类在地球上存在非常多年，直到几百年前没有任何人说“地球是个球”。你一直在经验里，但你不知道事实是什么样的——经验并不能直接给你知识。而是，你提出这个猜想，说我认为“这个球是圆的”，我想各种方法验证它。

包括训练神经网络，你可能观察到一些内科指标不太对，你提出“为什么它会这样”的猜想，设计实验去验证——这个过程和强化学习非常像。

同时，你发现，管理一个团队，也是这样的方法。这是Tim（周昕宇，月之暗面联合创始人）天天跟我讲的——要用RL的方式去管理，而不是用SFT。

当然现在，你做RL的时候也希望加一点SFT，因为SFT是很好的先验，防止模型“飞太远”。但你又要管住自己的手，你不能SFT太多。SFT太多，团队成员会失去主观能动性，没办法创新。这点我现在也在实践，看起来有一些效果。

核心是掌握SFT和RL的平衡。

SFT是你告诉他“这个事情该这样、这样做”； RL是你给他一个奖励，如果做成这样是好的，更多反映在目标上。

可能要以RL为主，用一部分SFT通过先验去控制，或者防止它遗忘重要的东西。

RL是一种很本质的东西。在科研、模型训练、组织管理上，是相通的。

但这也带来一个挑战：在RL过程中，怎么定义reward（奖励）。你简单设定一个目标，比如“把所有Benchmark拉高”，大家会不择手段去overfit指标。但分数高了，模型本身并没有真的更好。

所以，奖励的定义就很重要，需要你很理解具体细节是怎么运作的。不然会出现reward hacking（奖励机制被滥用）。

张小珺：所以在组织内部，怎么定义reward？

杨植麟：你建立更多观测指标，尽可能不要过拟合，是一定程度有效的。这样你才有更好的泛化，不会被hack（利用漏洞）。

用RL管理团队最大问题是，你容易被hack。大家看起来各种结果很好，但实际并没有达到你最终想要的——这是风险。用SFT管理团队的风险，是大家失去创造力。最后这几个东西要有一定程度的balance（平衡）。

当然我也在学习，今天不是做到很完美。

13 AI是人类文明的放大器

张小珺：过去一年Kimi在波峰波谷来回震荡，身处其中，你的心态是什么样的？需要平衡自己的心态吗？

杨植麟：心态就是，做时间的朋友吧。

张小珺：真实的人的心态不会这么简单的。

杨植麟：像你说的，会有高点和低点。可能很重要的是，还是喜欢做这个事情，想把它做好。所以你也不用想别的，就想怎么把它做好。好像也比较简单，没有什么特别复杂的。

很多复杂性都是人为强行加上去的，实际并没有那么复杂。

张小珺：你对人性有更多的理解没有？

杨植麟：这也还需要时间的打磨，不敢说那么深入。

只能说是在自己的这个故事里面——你不断地感受自己到底是什么样的一个人，你为什么要做这个事情——不断去思考这些问题。

张小珺：你是一个什么样的人？你为什么要做这样事情？

杨植麟：就是觉得有意思。

张小珺：什么有意思呢？做实验有意思，做科研有意思，还是做AI有意思？

杨植麟：寻找真相的过程。去不断发现新的问题、解决它的过程。

张小珺：那你也可以解决别的问题啊，为什么一定要解决这个问题？

杨植麟：因为这个东西很重要，AI很重要。

这个问题我也问过Kimi。他说，这个东西是“人类文明的放大器”，我觉得很有道理。

又回到The Beginning of Infinity，从启蒙运动到现在，人类一直在寻找新的方法突破知识的边界。但是，可能下一个突破边界的，是靠AI，它是一个巨大的杠杆。

你今天在任何一个前沿学科，要花二三十年，才能学到最前沿知识。但是AI一夜之间就能学会，往下去做新的突破。

AI会成为Meta science（元科学）。

它是人类文明的放大器。

张小珺：它有可能摧毁人类文明吗？

杨植麟：这个风险不能说不存在，但我们可以有很多事去做。不管是更安全地对齐，还是更好的社会机制。

比如说，当AI可以做一些事情，它很有可能创造一些新的工作，我们需要有一些方法去完成这个过渡。

我exactly问过Kimi这个问题。他说，虽然有这样的风险，但我们不能放弃。因为如果放弃，就等于放弃了人类文明的上限——你不知道上限能做到什么样，有一点“因噎废食”的感觉。

但我承认，我们得做很多去应对。因为你今天看到很多AI的能力，是有点让人震惊的，半年前根本想不到它能做到。

同时我认为，人类的独特价值在这个过程中会持续存在。人的体验、情感，没有办法被AI替代。所以，可能会有不同的活法，希望是能活得更好。

张小珺：什么样不同的活法？

杨植麟：我之前觉得，人的一生有几个意义：创造、体验和爱。当然每个人不一样，对我是这样。

“创造”的很大一部分，也许AI可以做。我享受这个过程，但不得不承认，有一天很多创造性工作是AI去做。但后两条，“体验”和“爱”，会是以人为中心的。

张小珺：如果AI把创造拿走了，也把生产力拿走了。

杨植麟：这无所谓，人可以享受生产的结果，如果我们有好的机制。

但它是一个缓慢过程，不会一两年做完，需要一二十年逐渐调整。

张小珺：你会频繁地和Kimi聊天吗？

杨植麟：当然。我要测试模型。

张小珺：你会和他聊一些很深刻的话题或者自我探索的话题吗？

杨植麟：有时候会。也还好，还有一些是工作上的问题。

张小珺：过去这一年，你有经历过情绪很低落的时刻吗？

杨植麟：我觉得也还好。更多是：有些东西会work，有些东西不work；会解决一些问题，会有新的问题产生——不断在这个过程中。

只要你觉得这个东西有意思，就一直想继续做下去。

14 任何中间状态都有可能成为被批评的对象

张小珺：过去一年，你有没有走过一些弯路？

杨植麟：肯定有。过程中会有很多很多决策，有一些技术决策，有一些业务决策。

很重要的是，一个公司在这个过程中逐渐调整的能力。知识创造的过程也是这样的过程——不可能创造出来的知识，所有东西都是对的，你会发现有些东西也是错的，但它在一定时间内可能是对的，一定时间可能又是错的。但当它错了之后，你就得去做调整。

比如像牛顿做的很多东西，在当时是最好的理论，但不是完美的，在一些场景下是完全错的。万有引力需要有一些别的解释，需要有一些相对论的解释，通过时空的扭曲去解释。

我觉得组织的进化、公司的发展也是一样，是一个动态过程。任何的中间点，你在某个时间点是对的，在另一个时间点可能就是错的。

这也是Kimi跟我讲的——任何中间状态都有可能成为被批评的对象。你总是会有这个时代的局限性。

更重要的是，你怎么在这个过程中，一方面投入一些“不变”的东西，比如人才、技术积累；另一方面适应和调整，针对环境变化和反馈信号做调整。这两个都很重要。

张小珺：互联网产品通过市场推广去扩大DAU，扩大市场规模；AI产品似乎有所不同，增长和获客更依赖模型能力的大幅跃升——智能和推广，哪个更本质？

杨植麟：它还是取决，两个变量哪个大。在技术快速发展的阶段，你很难通过市场推广的方式去赢得战争。它更多是一个辅助手段。

只是说这个辅助手段跟你的主要手段之间，到底什么样的配比？需要动态调整，也取决于你现在商业化进展，或者PMF到底有多强。不同时间点有不同策略。

甚至这个策略也许再过一两年，你发现又是一个好的策略。我觉得也不一定。

我们是用更open的心态去看，但在每个时间点最重要的是去抓住——哪个是最大的变量。

张小珺：又过了一年，你觉得Kimi的成功概率增大了还是失败概率增大？

杨植麟：我觉得（成功概率）增大了。你只要每往上爬，成功概率会变大，因为会有一些人不继续爬了。

张小珺：你恐惧摔下去吗？

杨植麟：肯定有恐惧。

更多要关注你当前这一步，能做什么？——想这个问题更重要。

张小珺：我一直在问你的情绪，你都说：唉，还好、还好。你最近一次或两次“颅内自嗨”是什么情境？

杨植麟：不以物喜，不以己悲。虽然很难做到，但要避免情绪化决策。

张小珺：你会情绪化吗？

杨植麟：多少肯定会——你是一个人嘛。但要避免一些情绪化决策。最终落实到决策和执行上，要更理性一点。

张小珺：过去一年，你最大成长是什么？

杨植麟：认识到这一点：问题不可避免，它会一直存在，持续解决新问题是最重要的，可能也是最有意思的——这是心态上的变化，它会改变很多做事的方式。

张小珺：这听上去是一种正念。

杨植麟：我不知道怎么理解，但可能差不多。（笑）

张小珺：我问你最后几个快问快答。

一个全球范围内你喜欢的食物。

杨植麟：拉面！

张小珺：为什么？

杨植麟：好吃！

张小珺：一个少有人知道但必须知道的知识点。

杨植麟：我好像不太擅长回答这种问题。

张小珺：基于所有读过的书，推荐必读书。

杨植麟：有一本我刚刚一直在讲，就推荐这本。

张小珺：你心目中影响AI进程的几篇论文是什么？

杨植麟：最重要的几篇论文是Backpropagation（反向传播）、Transformer、GPT-3。

当然有一些是building block（基础模块），也很重要，比如ResNet（残差网络），它可能是优化的基础。还有Adam（自适应矩估计优化算法）。现在可能还有Muon。

张小珺：基于当下认知，一个最关键的bet是什么？

杨植麟：泛化的Agent（智能体）。

用Innovation（创新），用L4做L3。

张小珺：这一年，你有没有任何的顿悟时刻？

杨植麟：不知道，我感觉我脑子已经糊了。

我已经把一年的话都讲了。

现场第三位人士：这可能就是，Long Context影响智商。

杨植麟：没办法。

碳基生物的局限性。（笑）

KIMI创始人杨植麟深度访谈：攀登无限之山

目录

第一章 一座无限的山

第二章 K2是乔戈里峰

第三章 既简单又复杂的系统

第四章 在自己的故事里面

第一章 一座无限的山

01 The Beginning of Infinity

02 它还是一个”缸中之脑”

03 L1到L5不一定是串行关系

第二章 K2是乔戈里峰

04 喂一样多的数据，“脑子”长得更多

05 Muon你去训的时候，它会炸

06 当从“缸中之脑”变成跟世界交互的系统

第三章 既简单又复杂的系统

07 开源 vs 闭源

08 多模态不损伤“脑子”已经很好了

09 当你通过新的交互，收集的信号噪声减少

10 Long Context架构会影响“智商”

11 边界与现实

第四章 在自己的故事里面

12 用RL的方式去管理，而不是用SFT

13 AI是人类文明的放大器

14 任何中间状态都有可能成为被批评的对象

第一章一座无限的山

第三章既简单又复杂的系统

第四章在自己的故事里面

第一章一座无限的山

第三章既简单又复杂的系统

第四章在自己的故事里面