Patrick Hsu-Evo2华人科学家:虚拟细胞迈向GPT-2阶段,合成生物学将深刻改变世界

Patrick Hsu-Evo2华人科学家:虚拟细胞迈向GPT-2阶段,合成生物学将深刻改变世界

访谈对象:Patrick Hsu(Arc Institute联合创始人、加州大学伯克利分校生物工程教授)
时间:2025年9月29日
来源:a16z深度访谈


前言

后AlphaFold时代,大模型正在重塑生物学。Evo2作为里程碑式成果,是目前最大的开源AI生物学模型,拥有超400亿参数,首次整合了DNA、RNA和蛋白质进行通用预测和设计任务,引发学术与工业界的强烈关注。

这个突破的背后,来自成立仅4年的非营利研究机构——Arc Institute。与传统高校研究不同,Arc以颠覆性的体制支持科学技术发展,解决生物学中最棘手的挑战。如今,Arc启动了”登月计划”:打造虚拟细胞,用AI模型预测细胞行为。

本文基于硅谷顶级风投a16z对Arc Institute联合创始人Patrick Hsu博士的深度访谈整理而成。Patrick Hsu师从基因编辑大牛张锋,现任加州大学伯克利分校生物工程教授,是Evo2的核心科学家和虚拟细胞项目的重要推动者。


核心观点

生物学基础模型的突破:Evo2的出现证实了生物学基础模型的Scaling Law能够实现,生物学有望复制GPT的发展轨迹

基础研究的重要性:太多AI制药公司的愿景走到了基础研究的前面,因此Arc真正投入的虚拟细胞,正是让这种基础突破成为可能

虚拟细胞的里程碑:虚拟细胞的”AlphaFold”时刻,意味着模型以90%高准确率预测出细胞状态,并且能被实验验证

AI基础设施化:AI最终会像互联网一样,成为药物研发中无处不在、不可或缺的基础设施,而不仅仅是营销噱头

未来技术融合:未来,脑机接口、合成生物与机器人只要一定程度上取得成功,将彻底改变人们的生活方式


一、Arc Institute的”登月计划”:构建虚拟细胞

1.1 科学研究加速的愿景

Patrick Hsu的核心观点

“我想让科学研究变得更高效。科学研究是发生在现实世界中的,科学家必须培养细胞、组织和动物,这些都需要在现实世界中耗费大量时间完成。”

虚拟细胞的价值

  • 极大加速生物学研究过程
  • 实现大规模并行化实验
  • 用基础模型模拟人类生物学
  • 成为细胞生物学家的第一选择工具

1.2 科学研究缓慢的根本原因

复杂的”戈尔迪之结”

  • 激励机制问题:如何激励长期职业发展?
  • 资源分配:科研经费的充足性和分配合理性
  • 跨学科挑战:研究团队很难同时精通多个领域
  • 专业化局限:同时精通五个以上领域变得极其困难

Arc的组织实验

  • 聚集神经科学、免疫学、机器学习、化学生物学和基因组学人才
  • 增加不同领域的碰撞频率
  • 打开单个团队无法触及的巨大问题空间

两个旗舰项目

  1. 寻找阿尔茨海默症的药物靶点
  2. 构建”虚拟细胞”

1.3 模型驱动的科学加速

“除了人才和基础设施,模型本身也能真正让科学变快——如果这些模型足够准确和实用,我们就能以神经网络前向传播的速度来做实验。”

二、虚拟细胞:从概念到实现

2.1 虚拟细胞的”AlphaFold时刻”

学习AlphaFold的成功经验

“当前AI生物学中成功案例是AlphaFold,它解决了蛋白质折叠问题。虽然不完美,也无法模拟生物物理和分子动力学,但它能以90%以上的准确率给出最终结构的状态。”

虚拟细胞的目标

  • 达到与AlphaFold同样的地位和准确性
  • 以90%高准确率预测细胞状态变化
  • 能够被实验验证和应用

2.2 扰动预测:药物研发的新范式

核心概念

  • 细胞状态流形:心肌细胞、血细胞、肺细胞等多种细胞类型和状态
  • 状态转换:细胞在流形上移动(发炎、凋亡、细胞周期停滞、应激等)
  • 扰动识别:找出让细胞在空间中移动的关键”扰动”

药物研发的本质

“无论是小分子药物还是抗体,我们本质上都在寻找越来越特异的’探针’。过去我们靠实验方法来制造这些探针,现在我们有了计算方法来’零样本’生成这些结合体。”

从单靶点到多靶点

  • 传统方式:药物偶然作用于多个靶点
  • 新方式:有目的地、组合式地操纵靶点
  • 时序控制:按时间顺序进行复杂的状态转换

2.3 实验室的AI副驾驶

实用性导向

“我们想要打造一个湿实验室生物学家的’副驾驶’(Copilot),能帮他们决定明天实验室里该做什么。”

干湿实验室闭环

  1. 模型预测
  2. 实验验证
  3. 改进模型
  4. 再次预测

最终目标

  • 实现”计算机内靶点识别”
  • 发现新的药物靶点
  • 设计药物组合方案
  • 打造AI驱动的垂直整合制药公司

2.4 发展阶段:处于GPT-1到GPT-2之间

与GPT发展类比

“可以用GPT-1、GPT-2、GPT-3、GPT-4、GPT-5的能力来类比。我认为我们现在大概处于GPT-1到GPT-2之间。”

当前成果

  • Evo系列DNA基础模型展示了规模法则的可行性
  • “基因组生成”结果像是生命的”模糊图像”
  • 虽然合成基因组还无法存活,但方向是正确的

全栈式攻克方法

  • 整理公共数据
  • 生成海量内部私有数据
  • 建立基准测试
  • 训练新模型
  • 开发新架构

三、技术挑战与解决方案

3.1 生物学建模的独特难点

语言理解的差异

“自然语言和视频建模,确实比建模生物学要简单得多。如果你懂机器学习,你就已经’会说话’了,你也’会看图’。但我们并不’懂’生物学的语言,我们顶多是以非常浓重的口音在说。”

验证周期的挑战

  • 无法天然理解DNA模型的输入输出token
  • 需要”实验室闭环”验证模型预测
  • 真实实验数据验证拖慢迭代周期
  • 提高验证过程的速度和维度至关重要

3.2 数据不完整性的应对策略

测量局限性

  • 无法以高通量、高空间分辨率测量代谢物
  • 缺乏可扩展的蛋白组学测量技术
  • 许多生物学现象无法直接观测

分阶段能力提升

  1. 单个细胞模拟
  2. 细胞对交互
  3. 组织中细胞行为
  4. 完整生理系统建模

RNA作为”镜像”策略

“RNA的表达是一种’镜像’——它可能是蛋白质层面发生事件的低分辨率映射。当我们有海量基因组数据时,大量RNA数据开始反映出蛋白质层面正在发生的事情,就像一种’镜像回声’。”

3.3 Arc的三层方法论

发明-工程-规模化框架

  • 发明(Invention):开发全新的生物技术
  • 工程(Engineering):优化现有技术实现
  • 规模化(Scaling):大规模应用成熟技术

当前策略

  • 专注于可扩展的单细胞和转录信息
  • 逐步加入蛋白质、空间和时间动态信息
  • 投入大量资源开发新技术,为未来做准备

四、生物学的”GPT时刻”与评估体系

4.1 基于经典生物学发现的评估

生物学的知识优势

“生物学的好处在于,我们拥有大量真实可靠的知识基础。有整本整本书籍详细描述了细胞信号传导、细胞生物学以及这些系统是如何运作的。”

经典案例重现能力

1. 山中伸弥因子预测

  • 输入:干细胞状态 + 成纤维细胞状态
  • 预测:四种转录因子的重编程能力
  • 目标:从已有知识推出2009年诺贝尔奖成果

2. 细胞分化因子发现

  • 预测Neurogenin 2、Ascl1、MyoD等分化因子
  • 预测干细胞向神经元、肌肉细胞转化
  • 验证发育生物学经典案例

3. FDA药物机制重现

  • 乳腺癌细胞状态下HER2抑制效应
  • 预测克隆的转移性和耐药性
  • 微小残留病灶的形成机制

4.2 超越机器学习基准的评估体系

传统评估的局限

  • 仅依赖量化指标(如基因差异表达的平均绝对误差)
  • 缺乏生物学意义的解释
  • 无法被生物学家理解和接受

新评估体系的要求

  • 基于教科书中的经典案例
  • 提升评估复杂度
  • 让从未接触AI的老教授也能理解结果

4.3 知识体系的演进

教科书的本质

“教科书是对知识的压缩。那些经典的细胞信号通路图示:A信号激活B,B抑制C,这非常二维化,是对复杂系统理解的简化表达。”

科学发现的机制

  • 教科书代表公认的可靠知识体系
  • 存在无数例外等待发现
  • 发现例外正是科学发现的本质

4.4 渐进式复杂性构建

从基本单元开始

“为什么我们如此焦虑于模拟整个身体,却连单个细胞都还做不到?细胞被广泛认为是生物学的基本计算单元,我们应该从这里开始。”

发展路径类比

  • 早期AI从语言翻译、基础NLP任务开始
  • 通过逐步积累最终构建超级智能
  • 生物学AI也应复制这样的发展轨迹

长期愿景

  • 预测药物毒性
  • 理解衰老过程
  • 解释肝硬化发展机制
  • 预测各种化学或环境扰动效应

五、药物研发的挑战与AI的角色

5.1 从SaaS竞争到研发预算竞争

商业模式的转变

  • 初期策略:向制药公司销售软件,竞争有限的SaaS预算
  • 现实认知:必须转向竞争更大的研发预算
  • 新一代定位:”生物智能体”取代人力,直接参与研发预算竞争

关键问题

“这能否实现,取决于这些技术是否真能显著提升药物研发效率。我认为这是这个行业最重要的问题。”

5.2 药物失败的根本原因

90%失败率的两大原因

  1. 错误的靶点选择:最初选择了错误的药物靶点
  2. 分子设计缺陷:设计的药物分子本身无法完成任务

问题的复杂性

  • 具体失败原因往往不清楚
  • 可能是单一原因,也可能两者兼有
  • 需要时间逐步厘清各种因素

5.3 精准靶向的技术挑战

虚拟细胞的建议vs现实限制

“即使在’虚拟细胞’模型达到90%准确率的情况下,它可能会建议:你需要只在心脏中靶向某个GPCR受体,而在其他所有组织中都不作用。但目前我们根本没有能实现这种精准靶向的药物分子。”

技术发展需求

  • 研究新型化学物质
  • 实现组织特异性调控
  • 开发细胞类型特异性药物
  • 对多重功能靶点的精准控制

5.4 生物学进展的”摩尔定律”

复杂性的层层嵌套

“生物学进展缓慢的原因,就在于理解、干预和安全性评估方面存在一层又一层的’俄罗斯套娃’式复杂性。”

惊人的进步速度

  • 过去:早期单细胞测序论文只分析20或40个细胞
  • 现在:即将生成包含数十亿次扰动的单细胞数据
  • 技术融合:单细胞基因组学、人类遗传学、CRISPR基因编辑同步发展

生物学的”摩尔定律”: 数据生成和处理能力呈指数级增长,为AI在生物学领域的应用奠定基础

5.5 AI在生物学的炒作与现实

被炒作的领域

  • 毒性预测模型:存在过度炒作现象
  • 多模态生物模型:概念模糊,实际价值有限

真正有进展的领域

  • 蛋白质相关技术:蛋白质结合和设计已有实质性进展
  • 病理学AI:自动化病理学家和放射科医生工作,价值显著
  • 文档处理:监管文件、报告撰写等,不需要复杂基础模型但很有价值

5.6 AI药物研发的现实挑战

“第一个AI药物”的争夺

“AI用于药物研发是一个很奇怪的现象:业内每个人都试图宣称自己的药物是第一个由AI设计出来的分子。”

AI基础设施化的未来

“再过几年,AI将成为整个研发流程中不可或缺的一部分,就像我们使用互联网和手机一样自然。它会融入到我们所做的每一个环节。”

药物研发的复杂性

  • 漫长且多因素参与的过程:设计、合成、测试、审批
  • 安全性和有效性是两大支柱
  • 需要更快预测分子的有效性和安全性

计算模拟的价值与限制

  • 可以模拟小分子与整个蛋白质组的对接情况
  • 优化结合选择性和亲和力
  • 但需要实验验证,形成反馈闭环
  • 实验耗时长(几小时到几年)

5.7 数据不完整性的哲学思考

现实的局限性

“很明显,当前生物学并没有测量到许多最重要的东西。生物学研究最终主要依赖两种高通量手段:成像和测序。”

两种模型范式

1. 机制性模型

  • 试图解释生物学现象的原因机制
  • 需要完整的数据和深度理解

2. 气象模拟类模型

  • 专注于预测结果,不解释原因
  • 类似天气预测:不解释为什么下雨,但能预测是否下雨

AlphaFold的启示

“虚拟细胞模型可能不会告诉我为什么细胞会这样反应,就像AlphaFold不会解释蛋白质’为什么’这样折叠,但它给出了准确的最终状态,这就已经非常重要了。”

六、未来技术融合:合成生物学、脑机接口与机器人

6.1 改变世界的三大技术方向

Patrick Hsu的投资哲学

“我的目标是找到能改善人类体验的方法,而且是在我们有生之年就能实现的。如果我们这一代人能把几件事做好,就能彻底改变世界,以及我们未来的生活方式。”

三大重点领域

1. 合成生物学

  • GLP-1类药物开发
  • 改善睡眠的技术
  • 延长寿命的方法
  • 各种让人兴奋的生物技术应用

2. 脑机接口(BCI)

  • 未来几十年将取得重大突破
  • 直接连接大脑与计算机
  • 扩展人类认知能力

3. 工业和消费级机器人

  • 以有趣的方式扩展体力劳动规模
  • 改变制造业和服务业形态
  • 提升人类生产力

6.2 投资实践与使命感

关键投资项目

  • New Limit:抗衰老公司
  • Nudge:脑机接口公司
  • The Bot Company:机器人公司

投资驱动力

“有些事,如果不是我们在正确的时间把正确的人聚集起来并提供资金,它就根本不会发生,这才是真正激励我的地方。这些是我认为必须发生的事,因此应该发生。”

6.3 AI智能体的革命性价值

真正的生产力替代

“智能体(Agents)最酷的一点是,它们能完成真实工作。与之前的SaaS公司相比,智能体能真正替代生产力。”

发展时间线

  • 通用计算机操作智能体可能比代码生成智能体晚一年左右
  • 从完成几分钟任务发展到几小时、几天
  • 将出现完全不同的产品形态

应用领域

  • 法律服务
  • 业务流程外包
  • 医疗健康
  • 其他服务行业

经济影响

“全球经济中最大的开支是服务,而不是软件。我们之所以对AI如此兴奋,正是因为它能冲击服务经济。”

6.4 技术架构的变革需求

当前架构的局限

  • 现有架构可追溯到2017年
  • 深度学习历史显示,大约每八年出现一次重大变革
  • 2025年急需全新架构突破

机器学习”黄金时代”的复活

  • 2009-2015年许多被埋没的小众论文
  • 引用次数仅二三十次的研究思路
  • 随着算力成本下降,这些想法将被放大验证
  • 在更大参数规模下验证扩展规律

新机遇的出现

“这将为新的超级智能实验室创造大量机会,超越当前主流基础模型公司的做法。这些大公司正逐渐变成应用型AI企业。”

未来发展方向

  • 探索新的学习方式
  • 开发新的奖励信号获取方法
  • 超越当前强化学习环境的限制

结语

Patrick Hsu博士的深度访谈为我们揭示了AI生物学革命的全貌。从Arc Institute的”登月计划”到虚拟细胞的技术突破,从生物学建模的独特挑战到药物研发的现实困境,再到未来技术融合的宏大愿景,这场对话展现了一个科学家-投资人对于技术发展的深刻洞察。

关键启示

  1. 基础研究的重要性:在AI制药公司的愿景走在基础研究前面的时代,Arc真正投入虚拟细胞这样的基础突破,为整个行业奠定基础

  2. 渐进式发展路径:从GPT-1到GPT-2的发展阶段类比,提醒我们虚拟细胞也需要循序渐进的能力提升

  3. 实用性导向:不追求理论完美,而是专注于为实验科学家提供实际有用的工具

  4. 技术融合的力量:合成生物学、脑机接口和机器人技术的融合,将在我们有生之年深刻改变世界

正如Patrick Hsu所言:”即使这些领域只是取得一定程度的成功,也会深刻地改变世界。”在AI生物学的黄金时代,我们正站在科学革命的起点,见证着计算生物学向虚拟细胞的历史性跨越。


本文基于a16z对Arc Institute联合创始人Patrick Hsu博士的深度访谈整理而成,展现了AI生物学领域的前沿思考与实践探索。




相关文章推荐:

  • 李飞飞:从文字到世界,空间智能是AI的下一个前沿
  • Anthropic 研究员详解:构建高效 Claude 智能体的完整方法论
  • Claude Code自定义命令在知识管理与内容创作中的系统化应用研究
  • 18个改变人生的习惯:科学证据支持的长期主义指南
  • OpenAI双巨头首次详解GPT-5:不是下一代GPT,终极形态是AI研究员
  • KIMI创始人杨植麟深度访谈:攀登无限之山
  • Jason Wei:理解2025年AI进展的三种关键思路
  • Nick Joseph访谈:Anthropic预训练的核心思考与实践
  • 徐扬生院士:人工智能时代的教育