杨植麟观点精华:AI时代的技术哲学与实践
前言
本文基于2025年7月对月之暗面创始人杨植麟的深度访谈整理而成。作为AI领域的重要创业者和技术专家,杨植麟在这次访谈中分享了他对AI发展的深度思考,从哲学层面的认知框架到具体的技术实践,从产品理念到组织管理,构建了一个完整的AI时代思考体系。
一、技术哲学与认知框架
1.1 无限的山:问题与解决的永恒循环
杨植麟深受David Deutsch的《无穷的开始》影响,认为AI研发正处于类似启蒙运动后的动态知识创造状态:
核心观点:
- 问题的不可避免性:”问题是不可避免的”和”问题是可以解决的”是可以刻在石头上的两句话
- 知识边界的拓展:每当解决一个问题,就会带来新的问题,因为知识边界在不断拓展
- 技术进步的本质:每解决一个问题,技术就能往上攀登几百米
实践体现:
- 解决了强化学习问题,又遇到评估、衡量、验证的新问题
- AI研发是一个不断解决问题、产生新问题的过程
- “也许有一天会发现,这座雪山没有尽头——我希望它一直没有尽头”
1.2 AGI不是终点,而是方向
对AGI的重新定义:
- AGI不是某一级台阶,不会突然一夜之间达到
- 它是一个持续的方向,而非固定的终点
- 今天在很多领域已经可以认为达到了AGI水平(如数学、编程竞赛)
两个层面的理解:
- 技术层面:技术能力持续提升
- 社会层面:技术对人类社会的影响,需要几十、几百年消化
与登月的区别:
- 登月有明确的成功标志
- AI很难在某个时间点宣布”实现了AGI”
- 这是一个动态进化的过程
1.3 AI是人类文明的放大器
AI的本质定位:
- AI是”人类文明的放大器”和”巨大的杠杆”
- 它将成为Meta science(元科学)
- 从启蒙运动到现在,下一个突破知识边界的是AI
对人类价值的思考:
- 人的一生有三个意义:创造、体验和爱
- “创造”的很大部分AI可以做,但”体验”和”爱”会是以人为中心的
- 人类的独特价值在AI时代会持续存在
风险与应对:
- 承认AI摧毁人类文明的风险存在
- 但不能因噎废食,放弃就等于放弃了人类文明的上限
- 需要更安全的对齐和更好的社会机制
二、技术范式与发展路径
2.1 两种推理范式:”缸中之脑”vs交互式智能体
“缸中之脑”模式(如o1):
- 特点:在自己大脑里思考,不需要与外界交互
- 机制:通过让模型做很多尝试和反思,反思是重点
- 能力:提出新猜想 + 验证猜想
- 本质:把Pass@k变成Pass@1
交互式智能体模式:
- 特点:与外界进行多轮交互
- 行为:边思考边操作(搜索、浏览器、写代码等)
- 优势:下一步行为基于交互反馈和状态更新
共同指向:
- 两种范式都指向Test-time Scaling(测试时扩展)
- 通过规模化token来完成更复杂任务
- 能够端到端完成复杂工作,如代码仓库翻译、调试、测试
2.2 L1-L5能力等级的非线性发展
OpenAI分级体系:
- L1:Chatbot(聊天机器人)
- L2:Reasoner(推理者)
- L3:Agent(智能体)
- L4:Innovator(创新者)
- L5:Organizer(组织者)
杨植麟的核心观点:
- 非串行关系:这些能力不一定是互相依赖的线性发展
- 技术路径选择:可以先做Agent再做Reasoning,如Claude的路线
- 最终融合:要做到最好的Agent,必须把Reasoning也做到最好
L4创新者的关键:
- 标志:模型参与模型本身的开发
- 实现:K2参与K3的开发过程
- 依赖:需要强大的Agentic能力
L4与L3的互相促进:
- 用L4的技术去解决L3的问题
- Agent泛化不够,需要用创新去解决
- 体现了能力发展的非线性特征
2.3 Test-time Scaling的核心价值
定义与意义:
- 在测试时或推理时实现更好的规模化
- 突破传统单轮对话的token限制
- 通过增加轮数或每轮思考token数来完成复杂任务
实现方式:
- 长思考的强化学习
- Agent的强化学习
- 多轮交互和工具使用
价值体现:
- 能够花几小时完成复杂任务,无需人工参与
- 实现端到端的复杂工作流程
- 大幅提升模型的实际应用能力
三、模型训练与技术创新
3.1 Token Efficiency:突破数据墙的关键
问题背景:
- 高质量数据增长缓慢,接近常数
- 多模态数据无法很好提升文本”智商”
- Scaling Law遇到数据墙
解决方案:
- 提升Token Efficiency,把一份数据当成几份用
- 使用Muon优化器,获得两倍提升效果
- 通过数据改写(Rephrase)提升泛化能力
Muon优化器的优势:
- 不是独立考虑每个元素,而是整体考虑矩阵参数的依赖关系
- 在compute optimal情况下,学一份数据相当于用Adam学两份数据
- 解决了大规模训练中的max logit爆炸问题
数据改写策略:
- 对高质量数据进行多种改写操作
- 避免同一份数据多次学习的过拟合问题
- 通过改写增加一定程度的泛化能力
3.2 强化学习范式的转变
技术路线转变:
- 从预训练+SFT转向预训练+强化学习
- 发现不需要太多process reward或value function
- 直接用端到端的reward就能训练得很好
强化学习的优势:
- 泛化性比SFT更好
- 有更多on-policy采样,模型从自身采样中学习
- 具有负梯度,scaling效率比Pre-Training高很多
挑战与限制:
- 泛化仍然有限,”种瓜得瓜,种豆得豆”
- 需要搭配好的评估和验证机制
- 希望通过更多AI参与训练来摆脱局限
3.3 Agent泛化性的挑战与解决
核心挑战:
- Agent最缺的是泛化能力
- 现有RL技术局限于单点任务和评价指标
- 容易过拟合到特定工具、环境或任务
泛化的重要性:
- 如果泛化能力强,垂直Agent就没那么必要
- 通用Agent能泛化到长尾工具,解决专有问题
- 只需接入定制数据库、API、文档接口即可
解决思路:
- 用AI训练AI:让模型参与更多训练过程
- AI native方式:摆脱人工设计的局限
- 更好的评估机制:解决Benchmark不够用或失效的问题
- 课程学习:从中等难度任务开始,逐步提升
Agent的两个关键特征:
- 多轮:实现test-time scaling
- 工具:连接”脑”与外部世界
四、产品与商业思考
4.1 模型即产品的理念
核心理念:
- 训练模型时就要把整套系统搭好
- 模型训练完成,产品也基本完成
- 产品在训练过程中完成,而非训练后开发
Agent产品的特殊性:
- 需要把模型与工具和Context结合
- 模型性能在训练中已经与工具、环境适配好
- 交互改进只是锦上添花
系统复杂性:
- 简单:所有东西放在同一个模型,不需要维护多个模型
- 复杂:要让模型在各种场景下都能工作,对通用性要求很高
- 挑战:避免只拟合单点能力,要保证真正的通用性
4.2 开源vs闭源的战略选择
对开源的重新认识:
- 承认之前”领先者不会开源”的判断,因为月之暗面在全球范围内还没完全领先
- 开源更多是赋能下游应用,而非反哺基础模型提升
- 社区贡献主要在推理侧,模型本身的提升仍只有原厂能做
开源的价值:
- 可基于开源模型做Agentic Post-Training,催生专用智能体
- 与社区分享技术know-how,加速技术提升
- 形成开源生态,推动技术发展
战略平衡:
- 希望长期分享更多技术,但不一定只做开源
- 既有技术信仰,也有市场博弈策略
- 最终希望让技术更安全、更快达到更好水平
4.3 “一方产品”的竞争优势
定义:
- 模型公司自己做产品,控制上下文环境、工具接口、prompt结构
- 自己当”使用方”,而不只是提供API
相对于”三方产品”的优势:
- 正向设计vs逆向工程
- 先设计好工具和Context Engineering,再在此环境中训练模型
- 模型天然在自己环境中表现更好
- 可以更好整合工具和模型,端到端训练
发展趋势:
- Claude Code、ChatGPT Agent都是”一方产品”
- 上限可能更高,但不一定能覆盖所有Agent领域
- 与”三方产品”会形成合作与竞争并存的生态
五、组织管理与个人成长
5.1 用RL方式管理团队
管理哲学的转变:
- 科研、模型训练、组织管理都遵循RL原理
- 从SFT式管理转向RL式管理
- 核心是掌握SFT和RL的平衡
RL管理的特点:
- 给团队成员目标和奖励,而非具体指令
- 保持团队成员的主观能动性和创新能力
- 建立多个观测指标,避免过拟合单一目标
挑战与风险:
- Reward Hacking:容易被利用漏洞,看起来结果很好但实际没达到目标
- 奖励定义:需要深入理解具体细节,合理定义reward
- 平衡艺术:SFT太多会失去创造力,RL过度会被hack
5.2 技术决策的方法论
决策原则:
- 基于充分的实验数据,不能拍脑袋
- 需要非常了解实验的具体结果
- 技术战略是公司战略的关键部分
关键技术bet:
- 很早投入long CoT的RL
- 采用新的优化器(Muon)
- 做更大规模的Pre-Training
- 做第一个开源的Agentic模型
决策流程:
- 持续思考下一代模型应该什么样
- 看工具箱里有什么新技术可以用
- 通过实验验证技术的有效性
- 数据足够充分时,判断比较显然
5.3 创业心态与价值观
核心驱动力:
- “寻找真相的过程,去不断发现新问题、解决它的过程”
- 认为AI很重要,是人类文明的放大器
- 享受攀登无限之山的过程本身
心态管理:
- “做时间的朋友”
- “不以物喜,不以己悲”,避免情绪化决策
- 关注当前能做什么,而非过度担忧未来
成长感悟:
- 最大成长:认识到问题不可避免但可以解决,持续解决新问题是最有意思的
- 在自己的故事里不断感受和思考
- 很多复杂性是人为强加的,实际并没有那么复杂
对成功的理解:
- 只要每往上爬,成功概率就会变大
- 会有恐惧,但更重要的是专注当下这一步
- 任何中间状态都可能被批评,但要在投入”不变”的东西和适应调整之间找平衡
总结
杨植麟的思想体系体现了一个技术创业者的深度思考:从哲学层面理解AI发展的本质规律,到技术层面的具体创新实践,再到组织管理和个人成长的方法论。他将AI视为人类文明的放大器,将技术发展视为攀登无限之山的过程,既有理想主义的高度,又有实用主义的深度。
这种思想框架不仅指导着月之暗面的技术发展方向,也为AI时代的创业者提供了有价值的思考范式。在AI快速发展的当下,这样的深度思考显得尤为珍贵,它提醒我们在追求技术突破的同时,也要思考技术的本质、价值和意义。
相关文章推荐: