OpenAI双巨头首次详解GPT-5:不是下一代GPT,终极形态是AI研究员

OpenAI双巨头首次详解GPT-5:不是下一代GPT,终极形态是AI研究员

访谈对象:Jakub Pachocki(OpenAI首席科学家)、Mark Chen(OpenAI首席研究官)
时间:2025年10月
来源:硅谷风投a16z深度访谈


前言

“我们希望模型能自己发现新想法,自己推进研究。”

“GPT-5不是GPT-4的简单升级,而是一个重要的转折点。”

前不久,OpenAI的两大巨头——首席科学家Jakub Pachocki与首席研究官Mark Chen共同接受硅谷风投a16z深度访谈,首次系统性地揭示了GPT-5的真实定位。震撼的不是GPT-5本身,而是它背后的野心:打造”自动化研究员”

三个关键信号值得所有人关注:

  1. 融合革命:GPT-5将整合GPT系列的”快速响应”与o1系列的”深度推理”,让模型自主判断”这个问题需要几秒还是几小时思考”
  2. 硬科学突破已现:物理学家、数学家试用后震惊地发现,GPT-5能提出非平凡的新数学结果
  3. 从”vibe coding”到”vibe researching”:OpenAI的真正目标是与AI协同做研究,这将彻底改变科研的传统方式

目录


一、GPT-5诞生:从”快速响应”到”深度推理”

1.1 两条技术路线的融合

Mark介绍,过去OpenAI有两条并行的技术路线:

GPT系列

  • 从GPT-2到GPT-4
  • 特点是快速响应、即时输出

o系列

  • 不追求速度,而是”思考更久”
  • 力求给出最优答案

GPT-5做了一件关键的事:把这两条路线彻底融合。

它能自主判断”这个问题需要几秒钟还是几个小时思考”,不用用户手动选择模式。这让”推理能力”和”类代理能力”成了模型的默认配置,也让GPT-5成为首个真正意义上的”推理模型”。

1.2 推理过程的突破

在推理过程中,GPT-5像人类一样,也会经历“尝试—失败—调整—再尝试”的过程。更重要的是,它能显著延长”不跑偏”的持续推理时长,解决了行业里”步骤过多就会质量下降”的老难题。

1.3 训练中的挑战

不过,训练GPT-5的过程也并不是一帆风顺的。最常见的麻烦是“双重bug”

  • 既有代码层面的漏洞
  • 也有研究者思维上的”偏差假设”

这些问题一旦出现,可能让几个月的实验白费。Jakub坦言,很多重大突破的本质,其实就是”识别并修正这些隐藏的错误”。

1.4 GPT-5 Codex:推理智能落地编程

除了推理能力的融合,GPT-5还有一个重要延伸——GPT-5 Codex,专门让推理智能落地到编程场景。

Codex团队做了三个升级:

  1. 处理更复杂的真实编码环境:适配工业级开发需求
  2. 关注开发者的风格和习惯:能根据需求调整”模型主动性”
  3. 优化延迟时间:简单题快速答复,复杂题花更多时间求最优解,解决了过去”简单题耗时、难题不深入”的失衡问题

二、评估标准大转向:从”考高分”到”创造新可能”

2.1 传统评估的饱和

在GPT-2到GPT-4的时代,模型进步靠”评测(evals)”验证,分数从98%追到99%,已经逼近饱和。

但根据Jakub所言,GPT-5的价值,并不被定位在”答对多少题”上,而在于”能不能提出全新解法”。

2.2 新的评估维度

现在,OpenAI更关注三个维度:

  1. 模型能不能自主发现问题?
  2. 能不能在开放领域持续推进研究?
  3. 能不能在没有提示的情况下找到新路径?

2.3 顶尖赛事中的表现

这种评估转向,在实际场景里已经有了清晰体现。比如在AtCoder、IMO(国际数学奥林匹克)、IOI(国际信息学奥林匹克)这些顶尖赛事中,GPT-5已经接近人类顶尖水平。

但Jakub强调:

“这些比赛的排名不是重点,真正的进步是模型开始能发现新思路。”

2.4 硬科学领域的突破

更让人惊喜的是硬科学领域的突破。OpenAI团队邀请许多物理学家、数学家试用后发现:

  • GPT-5能提出”非平凡的新数学结果”
  • 过去学生要花数月计算的内容,模型几乎能自动完成
  • 对研究者来说,这简直是”灵光一现的时刻”

2.5 开放领域的探索

而在没有明确对错的开放领域,GPT-5的能力也很关键。

Jakub认为:

“真正要推动科研,有明确定义的问题和开放性问题之间的界限会逐渐模糊。”

就像数学千禧难题,需要跨物理、数学分支设计研究路线,这和AI的推理本质高度契合。现在GPT-5正用长时推理能力,在这些开放领域探索未知路径。


三、强化学习:推理的”引擎”,潜力仍然巨大

3.1 RL远未到顶点

外界很多人觉得,强化学习(RL)的潜力已经耗尽了,但Jakub并不认同这种观点:

“RL还远未到顶点,它正让语言模型学会在复杂目标中自我进化。”

3.2 语言建模与强化学习的结合

其实OpenAI早在大语言模型出现前,就开始探索强化学习了。近些年来,他们最大的突破,是把”语言建模”和”强化学习”结合到了一起:

  • 语言模型为RL提供丰富的环境
  • RL则让模型学会执行复杂目标、自主决策和修正

3.3 对企业的启发

这对企业来说也有启发。现在很多公司不知道怎么设计RL奖励模型,Jakub给出了建议:

RL会逐渐变得更自然,未来会从”人工设置奖励”走向”类人学习”模式。

大家别被”当前的做法”限制,给模型一些试错空间,比制定更多规则更重要。


四、AI编程革命:从”vibe coding”到”vibe researching”

4.1 编程能力的飞跃

作为曾经的竞技编程选手,Jakub和Mark对AI编程的进步感触很深。现在GPT-5在很多编程比赛中已经接近顶尖人类水平,差距还在快速缩小。

过去Jakub并不习惯使用AI工具进行编程工作,但现在他坦言:

“GPT-5能在15分钟里完美重构30个文件,这种生产力提升根本无法忽视。”

4.2 当前的临界期

不过目前行业还处在一个”有点不自然的临界期”——模型不像真正的同事,但大家又必须依赖它。

就像Mark说的,很多年轻人已经把“vibe coding”(与模型协同写代码)当成默认工作方式。

4.3 更远大的目标

但OpenAI的目标更加远大,他们想尽快跨过这个阶段,进入“vibe researching”(与模型协同做研究)的新时代。


五、AI的未来:瞄准”自动化研究员”

5.1 长远目标

谈到未来1-5年的路线,Jakub明确表示,GPT-5的长远目标是成为”自动化研究员”。

他再次强调:

“我们希望模型能自己发现新想法,自己推进研究。”

而且这不只限于机器学习领域,还要推动物理、数学等其他科学领域的自动化进展。

5.2 两个关键突破方向

要实现这个目标,有两个关键方向要突破。

5.2.1 延长”思考跨度”

目前GPT-5能连续推理1-5小时解决复杂任务,下一步要让它在更长时间线上保持规划和记忆能力,像人类研究者一样”持续推进工作”,而不是只做”短平快”的答题。

5.2.2 资源支撑

和过去相同,OpenAI仍然倾向于把计算资源投入核心算法研究,而不是单纯优化产品。

Mark直言:

“在前沿AI研究中,计算力几乎决定一切。”

目前行业仍受算力限制,而非外界传言的”数据瓶颈”。

5.3 驻留研究员项目

为了培养更多研究人才,OpenAI还推出了“驻留研究员”项目

这个项目能让物理、金融等非AI背景的研究者快速上手,通过”亲手实现核心成果、在错误中建立直觉”,相当于”加速版博士训练”,正好补充了学术界”长期攻坚”的优势。


六、团队文化:持续学习,长期主义

6.1 永不停止的学习

OpenAI能一直保持领先,离不开它独特的团队文化。Mark一句话道出了核心:

“在OpenAI,你永远不会停止学习。”

这里每周都有新突破,研究者必须全力以赴才能跟上,避免了其他公司”前两年学习、后续进入平台期”的困境。

6.2 多元化背景

背景的多元化也注定了研究者们需要具备持续学习的能力。OpenAI最成功的研究者,很多来自物理、数学、金融等非AI领域。

他们的共同点不是背景,而是:

  • 扎实的技术基础
  • 能坚持攻克极具挑战的问题

6.3 用人标准

在用人层面,OpenAI团队并不简单看重”社交媒体活跃度”或”表面成果”,而是更认可两种人:

  1. 擅长”提出新方向”的:不局限于实现现有想法,而是能打开全新研究思路
  2. 擅长”深挖与验证”的:能把一个想法彻底落地,通过反复实验验证价值

6.4 研究与产品的平衡

作为兼具顶尖研究机构和优秀产品公司属性的组织,OpenAI从研究人员的特质出发,努力做到“研究与产品”的平衡

对研究人员的安排:

  • 关心产品的研究员会和产品团队紧密合作
  • 专注基础探索的研究员则能自由创新

团队协作方式:

  • 产品团队和领导层从不把现有产品当终点
  • 和研究团队一起,锚定”自动化研究员”的长期目标
  • 把扩散模型、代码推理等多样化方向,统一到同一路线图中

6.5 应对外界反馈的定力

面对外界反馈,比如竞品发布新模型,OpenAI也有自己的定力——不被短期产品反应左右研究的优先级。

Mark强调:

“研究的节奏是长期的,产品迭代更快。”

团队始终聚焦”未来一两年甚至更久的重大问题”,不会陷入”竞速思维”。


结语:AI从”回答者”变成”合作者”

GPT-5不只是”长时推理时代”的开端,更在编程、硬科学领域打开了新可能。现在它不再是被动的”回答者”,而是能和人类协同研究、创造新解法的”合作者”。

对企业的三个转变

  1. 使用AI时:从”提问等待”升级为”共同研究”
  2. 衡量AI时:从”分数高低”转向”创新与洞见”
  3. 管理团队时:从”追热点”转向”培养长期攻坚与学习能力”

通往未来的里程碑

GPT-5不是终点,而是通往”自动化研究员”的关键里程碑。当AI能提出新数学定理、”vibe researching”成为常态,知识边界与创新模式都会被彻底重塑。

AI已经进入”长思考”时代,我们要学的不只是怎么用它,更是怎么跟上它的思考速度。


来源: 硅谷风投a16z深度访谈
整理: OpenAI双巨头首次系统性揭示GPT-5定位




相关文章推荐:

  • 李飞飞:从文字到世界,空间智能是AI的下一个前沿
  • Anthropic 研究员详解:构建高效 Claude 智能体的完整方法论
  • Claude Code自定义命令在知识管理与内容创作中的系统化应用研究
  • 18个改变人生的习惯:科学证据支持的长期主义指南
  • KIMI创始人杨植麟深度访谈:攀登无限之山
  • Jason Wei:理解2025年AI进展的三种关键思路
  • Nick Joseph访谈:Anthropic预训练的核心思考与实践
  • 徐扬生院士:人工智能时代的教育
  • Andrej Karpathy深度对话:Agent的十年征程与AI的幽灵本质