杨植麟观点精华:AI时代的技术哲学与实践

前言

本文基于2025年7月对月之暗面创始人杨植麟的深度访谈整理而成。作为AI领域的重要创业者和技术专家,杨植麟在这次访谈中分享了他对AI发展的深度思考,从哲学层面的认知框架到具体的技术实践,从产品理念到组织管理,构建了一个完整的AI时代思考体系。


一、技术哲学与认知框架

1.1 无限的山:问题与解决的永恒循环

杨植麟深受David Deutsch的《无穷的开始》影响,认为AI研发正处于类似启蒙运动后的动态知识创造状态:

核心观点

  • 问题的不可避免性:”问题是不可避免的”和”问题是可以解决的”是可以刻在石头上的两句话
  • 知识边界的拓展:每当解决一个问题,就会带来新的问题,因为知识边界在不断拓展
  • 技术进步的本质:每解决一个问题,技术就能往上攀登几百米

实践体现

  • 解决了强化学习问题,又遇到评估、衡量、验证的新问题
  • AI研发是一个不断解决问题、产生新问题的过程
  • “也许有一天会发现,这座雪山没有尽头——我希望它一直没有尽头”

1.2 AGI不是终点,而是方向

对AGI的重新定义

  • AGI不是某一级台阶,不会突然一夜之间达到
  • 它是一个持续的方向,而非固定的终点
  • 今天在很多领域已经可以认为达到了AGI水平(如数学、编程竞赛)

两个层面的理解

  1. 技术层面:技术能力持续提升
  2. 社会层面:技术对人类社会的影响,需要几十、几百年消化

与登月的区别

  • 登月有明确的成功标志
  • AI很难在某个时间点宣布”实现了AGI”
  • 这是一个动态进化的过程

1.3 AI是人类文明的放大器

AI的本质定位

  • AI是”人类文明的放大器”和”巨大的杠杆”
  • 它将成为Meta science(元科学)
  • 从启蒙运动到现在,下一个突破知识边界的是AI

对人类价值的思考

  • 人的一生有三个意义:创造、体验和爱
  • “创造”的很大部分AI可以做,但”体验”和”爱”会是以人为中心的
  • 人类的独特价值在AI时代会持续存在

风险与应对

  • 承认AI摧毁人类文明的风险存在
  • 但不能因噎废食,放弃就等于放弃了人类文明的上限
  • 需要更安全的对齐和更好的社会机制

二、技术范式与发展路径

2.1 两种推理范式:”缸中之脑”vs交互式智能体

“缸中之脑”模式(如o1)

  • 特点:在自己大脑里思考,不需要与外界交互
  • 机制:通过让模型做很多尝试和反思,反思是重点
  • 能力:提出新猜想 + 验证猜想
  • 本质:把Pass@k变成Pass@1

交互式智能体模式

  • 特点:与外界进行多轮交互
  • 行为:边思考边操作(搜索、浏览器、写代码等)
  • 优势:下一步行为基于交互反馈和状态更新

共同指向

  • 两种范式都指向Test-time Scaling(测试时扩展)
  • 通过规模化token来完成更复杂任务
  • 能够端到端完成复杂工作,如代码仓库翻译、调试、测试

2.2 L1-L5能力等级的非线性发展

OpenAI分级体系

  • L1:Chatbot(聊天机器人)
  • L2:Reasoner(推理者)
  • L3:Agent(智能体)
  • L4:Innovator(创新者)
  • L5:Organizer(组织者)

杨植麟的核心观点

  • 非串行关系:这些能力不一定是互相依赖的线性发展
  • 技术路径选择:可以先做Agent再做Reasoning,如Claude的路线
  • 最终融合:要做到最好的Agent,必须把Reasoning也做到最好

L4创新者的关键

  • 标志:模型参与模型本身的开发
  • 实现:K2参与K3的开发过程
  • 依赖:需要强大的Agentic能力

L4与L3的互相促进

  • 用L4的技术去解决L3的问题
  • Agent泛化不够,需要用创新去解决
  • 体现了能力发展的非线性特征

2.3 Test-time Scaling的核心价值

定义与意义

  • 在测试时或推理时实现更好的规模化
  • 突破传统单轮对话的token限制
  • 通过增加轮数或每轮思考token数来完成复杂任务

实现方式

  • 长思考的强化学习
  • Agent的强化学习
  • 多轮交互和工具使用

价值体现

  • 能够花几小时完成复杂任务,无需人工参与
  • 实现端到端的复杂工作流程
  • 大幅提升模型的实际应用能力

三、模型训练与技术创新

3.1 Token Efficiency:突破数据墙的关键

问题背景

  • 高质量数据增长缓慢,接近常数
  • 多模态数据无法很好提升文本”智商”
  • Scaling Law遇到数据墙

解决方案

  • 提升Token Efficiency,把一份数据当成几份用
  • 使用Muon优化器,获得两倍提升效果
  • 通过数据改写(Rephrase)提升泛化能力

Muon优化器的优势

  • 不是独立考虑每个元素,而是整体考虑矩阵参数的依赖关系
  • 在compute optimal情况下,学一份数据相当于用Adam学两份数据
  • 解决了大规模训练中的max logit爆炸问题

数据改写策略

  • 对高质量数据进行多种改写操作
  • 避免同一份数据多次学习的过拟合问题
  • 通过改写增加一定程度的泛化能力

3.2 强化学习范式的转变

技术路线转变

  • 从预训练+SFT转向预训练+强化学习
  • 发现不需要太多process reward或value function
  • 直接用端到端的reward就能训练得很好

强化学习的优势

  • 泛化性比SFT更好
  • 有更多on-policy采样,模型从自身采样中学习
  • 具有负梯度,scaling效率比Pre-Training高很多

挑战与限制

  • 泛化仍然有限,”种瓜得瓜,种豆得豆”
  • 需要搭配好的评估和验证机制
  • 希望通过更多AI参与训练来摆脱局限

3.3 Agent泛化性的挑战与解决

核心挑战

  • Agent最缺的是泛化能力
  • 现有RL技术局限于单点任务和评价指标
  • 容易过拟合到特定工具、环境或任务

泛化的重要性

  • 如果泛化能力强,垂直Agent就没那么必要
  • 通用Agent能泛化到长尾工具,解决专有问题
  • 只需接入定制数据库、API、文档接口即可

解决思路

  1. 用AI训练AI:让模型参与更多训练过程
  2. AI native方式:摆脱人工设计的局限
  3. 更好的评估机制:解决Benchmark不够用或失效的问题
  4. 课程学习:从中等难度任务开始,逐步提升

Agent的两个关键特征

  • 多轮:实现test-time scaling
  • 工具:连接”脑”与外部世界

四、产品与商业思考

4.1 模型即产品的理念

核心理念

  • 训练模型时就要把整套系统搭好
  • 模型训练完成,产品也基本完成
  • 产品在训练过程中完成,而非训练后开发

Agent产品的特殊性

  • 需要把模型与工具和Context结合
  • 模型性能在训练中已经与工具、环境适配好
  • 交互改进只是锦上添花

系统复杂性

  • 简单:所有东西放在同一个模型,不需要维护多个模型
  • 复杂:要让模型在各种场景下都能工作,对通用性要求很高
  • 挑战:避免只拟合单点能力,要保证真正的通用性

4.2 开源vs闭源的战略选择

对开源的重新认识

  • 承认之前”领先者不会开源”的判断,因为月之暗面在全球范围内还没完全领先
  • 开源更多是赋能下游应用,而非反哺基础模型提升
  • 社区贡献主要在推理侧,模型本身的提升仍只有原厂能做

开源的价值

  • 可基于开源模型做Agentic Post-Training,催生专用智能体
  • 与社区分享技术know-how,加速技术提升
  • 形成开源生态,推动技术发展

战略平衡

  • 希望长期分享更多技术,但不一定只做开源
  • 既有技术信仰,也有市场博弈策略
  • 最终希望让技术更安全、更快达到更好水平

4.3 “一方产品”的竞争优势

定义

  • 模型公司自己做产品,控制上下文环境、工具接口、prompt结构
  • 自己当”使用方”,而不只是提供API

相对于”三方产品”的优势

  • 正向设计vs逆向工程
  • 先设计好工具和Context Engineering,再在此环境中训练模型
  • 模型天然在自己环境中表现更好
  • 可以更好整合工具和模型,端到端训练

发展趋势

  • Claude Code、ChatGPT Agent都是”一方产品”
  • 上限可能更高,但不一定能覆盖所有Agent领域
  • 与”三方产品”会形成合作与竞争并存的生态

五、组织管理与个人成长

5.1 用RL方式管理团队

管理哲学的转变

  • 科研、模型训练、组织管理都遵循RL原理
  • 从SFT式管理转向RL式管理
  • 核心是掌握SFT和RL的平衡

RL管理的特点

  • 给团队成员目标和奖励,而非具体指令
  • 保持团队成员的主观能动性和创新能力
  • 建立多个观测指标,避免过拟合单一目标

挑战与风险

  • Reward Hacking:容易被利用漏洞,看起来结果很好但实际没达到目标
  • 奖励定义:需要深入理解具体细节,合理定义reward
  • 平衡艺术:SFT太多会失去创造力,RL过度会被hack

5.2 技术决策的方法论

决策原则

  • 基于充分的实验数据,不能拍脑袋
  • 需要非常了解实验的具体结果
  • 技术战略是公司战略的关键部分

关键技术bet

  • 很早投入long CoT的RL
  • 采用新的优化器(Muon)
  • 做更大规模的Pre-Training
  • 做第一个开源的Agentic模型

决策流程

  • 持续思考下一代模型应该什么样
  • 看工具箱里有什么新技术可以用
  • 通过实验验证技术的有效性
  • 数据足够充分时,判断比较显然

5.3 创业心态与价值观

核心驱动力

  • “寻找真相的过程,去不断发现新问题、解决它的过程”
  • 认为AI很重要,是人类文明的放大器
  • 享受攀登无限之山的过程本身

心态管理

  • “做时间的朋友”
  • “不以物喜,不以己悲”,避免情绪化决策
  • 关注当前能做什么,而非过度担忧未来

成长感悟

  • 最大成长:认识到问题不可避免但可以解决,持续解决新问题是最有意思的
  • 在自己的故事里不断感受和思考
  • 很多复杂性是人为强加的,实际并没有那么复杂

对成功的理解

  • 只要每往上爬,成功概率就会变大
  • 会有恐惧,但更重要的是专注当下这一步
  • 任何中间状态都可能被批评,但要在投入”不变”的东西和适应调整之间找平衡

总结

杨植麟的思想体系体现了一个技术创业者的深度思考:从哲学层面理解AI发展的本质规律,到技术层面的具体创新实践,再到组织管理和个人成长的方法论。他将AI视为人类文明的放大器,将技术发展视为攀登无限之山的过程,既有理想主义的高度,又有实用主义的深度。

这种思想框架不仅指导着月之暗面的技术发展方向,也为AI时代的创业者提供了有价值的思考范式。在AI快速发展的当下,这样的深度思考显得尤为珍贵,它提醒我们在追求技术突破的同时,也要思考技术的本质、价值和意义。




    相关文章推荐:

  • 姚顺雨AI与Agent研究观点集