杨植麟观点精华：AI时代的技术哲学与实践

整理者：张小珺
时间：2025年7月
来源：KIMI创始人杨植麟深度访谈

一、技术哲学与认知框架

1.1 无限的山：问题与解决的永恒循环

杨植麟深受David Deutsch的《无穷的开始》影响，认为AI研发正处于类似启蒙运动后的动态知识创造状态：

核心观点：

问题的不可避免性：”问题是不可避免的”和”问题是可以解决的”是可以刻在石头上的两句话
知识边界的拓展：每当解决一个问题，就会带来新的问题，因为知识边界在不断拓展
技术进步的本质：每解决一个问题，技术就能往上攀登几百米

实践体现：

解决了强化学习问题，又遇到评估、衡量、验证的新问题
AI研发是一个不断解决问题、产生新问题的过程
“也许有一天会发现，这座雪山没有尽头——我希望它一直没有尽头”

1.2 AGI不是终点，而是方向

对AGI的重新定义：

AGI不是某一级台阶，不会突然一夜之间达到
它是一个持续的方向，而非固定的终点
今天在很多领域已经可以认为达到了AGI水平（如数学、编程竞赛）

两个层面的理解：

技术层面：技术能力持续提升
社会层面：技术对人类社会的影响，需要几十、几百年消化

与登月的区别：

登月有明确的成功标志
AI很难在某个时间点宣布”实现了AGI”
这是一个动态进化的过程

1.3 AI是人类文明的放大器

AI的本质定位：

AI是”人类文明的放大器”和”巨大的杠杆”
它将成为Meta science（元科学）
从启蒙运动到现在，下一个突破知识边界的是AI

对人类价值的思考：

人的一生有三个意义：创造、体验和爱
“创造”的很大部分AI可以做，但”体验”和”爱”会是以人为中心的
人类的独特价值在AI时代会持续存在

风险与应对：

承认AI摧毁人类文明的风险存在
但不能因噎废食，放弃就等于放弃了人类文明的上限
需要更安全的对齐和更好的社会机制

二、技术范式与发展路径

2.1 两种推理范式：”缸中之脑”vs交互式智能体

“缸中之脑”模式（如o1）：

特点：在自己大脑里思考，不需要与外界交互
机制：通过让模型做很多尝试和反思，反思是重点
能力：提出新猜想 + 验证猜想
本质：把Pass@k变成Pass@1

交互式智能体模式：

特点：与外界进行多轮交互
行为：边思考边操作（搜索、浏览器、写代码等）
优势：下一步行为基于交互反馈和状态更新

共同指向：

两种范式都指向Test-time Scaling（测试时扩展）
通过规模化token来完成更复杂任务
能够端到端完成复杂工作，如代码仓库翻译、调试、测试

2.2 L1-L5能力等级的非线性发展

OpenAI分级体系：

L1：Chatbot（聊天机器人）
L2：Reasoner（推理者）
L3：Agent（智能体）
L4：Innovator（创新者）
L5：Organizer（组织者）

杨植麟的核心观点：

非串行关系：这些能力不一定是互相依赖的线性发展
技术路径选择：可以先做Agent再做Reasoning，如Claude的路线
最终融合：要做到最好的Agent，必须把Reasoning也做到最好

L4创新者的关键：

标志：模型参与模型本身的开发
实现：K2参与K3的开发过程
依赖：需要强大的Agentic能力

L4与L3的互相促进：

用L4的技术去解决L3的问题
Agent泛化不够，需要用创新去解决
体现了能力发展的非线性特征

2.3 Test-time Scaling的核心价值

定义与意义：

在测试时或推理时实现更好的规模化
突破传统单轮对话的token限制
通过增加轮数或每轮思考token数来完成复杂任务

实现方式：

长思考的强化学习
Agent的强化学习
多轮交互和工具使用

价值体现：

能够花几小时完成复杂任务，无需人工参与
实现端到端的复杂工作流程
大幅提升模型的实际应用能力

三、模型训练与技术创新

3.1 Token Efficiency：突破数据墙的关键

问题背景：

高质量数据增长缓慢，接近常数
多模态数据无法很好提升文本”智商”
Scaling Law遇到数据墙

解决方案：

提升Token Efficiency，把一份数据当成几份用
使用Muon优化器，获得两倍提升效果
通过数据改写（Rephrase）提升泛化能力

Muon优化器的优势：

不是独立考虑每个元素，而是整体考虑矩阵参数的依赖关系
在compute optimal情况下，学一份数据相当于用Adam学两份数据
解决了大规模训练中的max logit爆炸问题

数据改写策略：

对高质量数据进行多种改写操作
避免同一份数据多次学习的过拟合问题
通过改写增加一定程度的泛化能力

3.2 强化学习范式的转变

技术路线转变：

从预训练+SFT转向预训练+强化学习
发现不需要太多process reward或value function
直接用端到端的reward就能训练得很好

强化学习的优势：

泛化性比SFT更好
有更多on-policy采样，模型从自身采样中学习
具有负梯度，scaling效率比Pre-Training高很多

挑战与限制：

泛化仍然有限，”种瓜得瓜，种豆得豆”
需要搭配好的评估和验证机制
希望通过更多AI参与训练来摆脱局限

3.3 Agent泛化性的挑战与解决

核心挑战：

Agent最缺的是泛化能力
现有RL技术局限于单点任务和评价指标
容易过拟合到特定工具、环境或任务

泛化的重要性：

如果泛化能力强，垂直Agent就没那么必要
通用Agent能泛化到长尾工具，解决专有问题
只需接入定制数据库、API、文档接口即可

解决思路：

用AI训练AI：让模型参与更多训练过程
AI native方式：摆脱人工设计的局限
更好的评估机制：解决Benchmark不够用或失效的问题
课程学习：从中等难度任务开始，逐步提升

Agent的两个关键特征：

多轮：实现test-time scaling
工具：连接”脑”与外部世界

四、产品与商业思考

4.1 模型即产品的理念

核心理念：

训练模型时就要把整套系统搭好
模型训练完成，产品也基本完成
产品在训练过程中完成，而非训练后开发

Agent产品的特殊性：

需要把模型与工具和Context结合
模型性能在训练中已经与工具、环境适配好
交互改进只是锦上添花

系统复杂性：

简单：所有东西放在同一个模型，不需要维护多个模型
复杂：要让模型在各种场景下都能工作，对通用性要求很高
挑战：避免只拟合单点能力，要保证真正的通用性

4.2 开源vs闭源的战略选择

对开源的重新认识：

承认之前”领先者不会开源”的判断，因为月之暗面在全球范围内还没完全领先
开源更多是赋能下游应用，而非反哺基础模型提升
社区贡献主要在推理侧，模型本身的提升仍只有原厂能做

开源的价值：

可基于开源模型做Agentic Post-Training，催生专用智能体
与社区分享技术know-how，加速技术提升
形成开源生态，推动技术发展

战略平衡：

希望长期分享更多技术，但不一定只做开源
既有技术信仰，也有市场博弈策略
最终希望让技术更安全、更快达到更好水平

4.3 “一方产品”的竞争优势

定义：

模型公司自己做产品，控制上下文环境、工具接口、prompt结构
自己当”使用方”，而不只是提供API

相对于”三方产品”的优势：

正向设计vs逆向工程
先设计好工具和Context Engineering，再在此环境中训练模型
模型天然在自己环境中表现更好
可以更好整合工具和模型，端到端训练

发展趋势：

Claude Code、ChatGPT Agent都是”一方产品”
上限可能更高，但不一定能覆盖所有Agent领域
与”三方产品”会形成合作与竞争并存的生态

五、组织管理与个人成长

5.1 用RL方式管理团队

管理哲学的转变：

科研、模型训练、组织管理都遵循RL原理
从SFT式管理转向RL式管理
核心是掌握SFT和RL的平衡

RL管理的特点：

给团队成员目标和奖励，而非具体指令
保持团队成员的主观能动性和创新能力
建立多个观测指标，避免过拟合单一目标

挑战与风险：

Reward Hacking：容易被利用漏洞，看起来结果很好但实际没达到目标
奖励定义：需要深入理解具体细节，合理定义reward
平衡艺术：SFT太多会失去创造力，RL过度会被hack

5.2 技术决策的方法论

决策原则：

基于充分的实验数据，不能拍脑袋
需要非常了解实验的具体结果
技术战略是公司战略的关键部分

关键技术bet：

很早投入long CoT的RL
采用新的优化器（Muon）
做更大规模的Pre-Training
做第一个开源的Agentic模型

决策流程：

持续思考下一代模型应该什么样
看工具箱里有什么新技术可以用
通过实验验证技术的有效性
数据足够充分时，判断比较显然

5.3 创业心态与价值观

核心驱动力：

“寻找真相的过程，去不断发现新问题、解决它的过程”
认为AI很重要，是人类文明的放大器
享受攀登无限之山的过程本身

心态管理：

“做时间的朋友”
“不以物喜，不以己悲”，避免情绪化决策
关注当前能做什么，而非过度担忧未来

成长感悟：

最大成长：认识到问题不可避免但可以解决，持续解决新问题是最有意思的
在自己的故事里不断感受和思考
很多复杂性是人为强加的，实际并没有那么复杂

对成功的理解：

只要每往上爬，成功概率就会变大
会有恐惧，但更重要的是专注当下这一步
任何中间状态都可能被批评，但要在投入”不变”的东西和适应调整之间找平衡

总结

杨植麟的思想体系体现了一个技术创业者的深度思考：从哲学层面理解AI发展的本质规律，到技术层面的具体创新实践，再到组织管理和个人成长的方法论。他将AI视为人类文明的放大器，将技术发展视为攀登无限之山的过程，既有理想主义的高度，又有实用主义的深度。这种思想框架不仅指导着月之暗面的技术发展方向，也为AI时代的创业者提供了有价值的思考范式。

杨植麟观点精华：AI时代的技术哲学与实践

目录

一、技术哲学与认知框架

二、技术范式与发展路径

三、模型训练与技术创新

四、产品与商业思考

五、组织管理与个人成长

一、技术哲学与认知框架

1.1 无限的山：问题与解决的永恒循环

1.2 AGI不是终点，而是方向

1.3 AI是人类文明的放大器

二、技术范式与发展路径

2.1 两种推理范式：”缸中之脑”vs交互式智能体

2.2 L1-L5能力等级的非线性发展

2.3 Test-time Scaling的核心价值

三、模型训练与技术创新

3.1 Token Efficiency：突破数据墙的关键

3.2 强化学习范式的转变

3.3 Agent泛化性的挑战与解决

四、产品与商业思考

4.1 模型即产品的理念

4.2 开源vs闭源的战略选择

4.3 “一方产品”的竞争优势

五、组织管理与个人成长

5.1 用RL方式管理团队

5.2 技术决策的方法论

5.3 创业心态与价值观

总结