李飞飞:空间智能是AI的下一个前沿

李飞飞教授 - 斯坦福大学教授、ImageNet创始人、World Labs联合创始人

前言

“空间智能将改变我们创造和交互现实与虚拟世界的方式——彻底革新叙事、创造力、机器人学、科学发现,以及更多领域。这,正是AI的下一个前沿。”

1950年,当计算机还只是自动化算术和简单逻辑时,艾伦·图灵提出了一个至今仍回荡的问题:机器能思考吗?

今天,以大语言模型(LLM)为代表的前沿AI技术,已经开始改变人类获取与处理抽象知识的方式。然而,它们仍然是”黑暗中的文字匠”:能言善辩,却无经验;知识丰富,却缺乏根基。

左:空间智能让AI理解三维世界 | 右:World Labs致力于构建具备空间智能的AI系统

一、引言:从图灵之问到空间智能

图灵的愿景与AI的征程

1950年,艾伦·图灵的问题催生了一场持续至今的科学征程——人工智能(AI)。在我投身AI研究的25年中,图灵的愿景依然不断启发着我。

当前AI的成就与局限

今天,以大语言模型(LLM)为代表的前沿AI技术展示了曾被认为不可能的能力:生成连贯的文本、成山的代码、逼真的图像,甚至短视频。

然而,它们仍然是”黑暗中的文字匠”:

能言善辩,却无经验
知识丰富,却缺乏根基
无法真正理解物理世界

为什么空间智能是下一个前沿

空间智能(spatial intelligence)将改变我们创造和交互现实与虚拟世界的方式——彻底革新叙事、创造力、机器人学、科学发现,以及更多领域。

自我进入这一领域以来,对视觉与空间智能的探索就一直是我的”北极星”:

构建了 ImageNet——首个大规模视觉学习与评测数据集
在斯坦福实验室将计算机视觉与机器人学习相结合
与联合创始人创建 World Labs,第一次真正实现这一可能性

ImageNet奠定了现代AI基础 | AI从语言走向空间理解 | 世界模型是下一代AI架构

二、空间智能:人类认知的脚手架

进化的基石:感知-行动循环

视觉长期以来是人类智能的基石,但它的力量源自更为根本的东西。早在动物能筑巢、抚育后代、用语言交流或建立文明之前,那看似简单的”感知行为”就已经悄然点燃了通向智能的进化旅程。

从感知到智能的桥梁:

这种从外部世界汲取信息的能力,在感知与生存之间搭建起一座桥梁。神经元层层叠加,形成能解释世界、协调生物与环境互动的神经系统。因此,许多科学家认为,“感知—行动”循环成为了智能进化的核心机制。

日常生活中的空间智能

空间智能在我们与物理世界的互动中扮演着基础性的角色。每天,我们都在依赖它完成最平常的动作:

日常场景示例:

停车时想象车尾与路缘的距离
接住被抛来的钥匙
在人群中穿行而不碰撞
半睡半醒间准确地将咖啡倒进杯中

人类依赖空间智能完成日常任务

人类创造力的根基

空间智能同样是我们想象力与创造力的基石。讲故事的人在脑中构建出丰富的世界,并用各种视觉媒介将之传达给他人:

原始洞穴壁画
现代电影
沉浸式电子游戏

无论是孩子在沙滩上筑城堡,还是在电脑上玩《我的世界》,这种以空间为根基的想象构成了人与虚拟世界交互体验的基础。

推动文明进步的力量

历史上那些塑造文明的关键时刻中,空间智能往往扮演着核心角色。

埃拉托色尼测量地球周长(古希腊):

通过对阴影的几何化思考
在亚历山大测得太阳影子形成的7度角
与赛恩(Syene)”正午无影”的现象进行对比
从而计算出了地球的周长

沃森与克里克揭示DNA结构:

依赖于他们亲手搭建的三维分子模型
用金属板与铁丝不断调整、拼接
直到碱基对的空间排布完美契合

空间智能推动了科学发现:从测量地球到揭示DNA结构

当前AI的空间智能缺陷

虽然过去几年确实取得了巨大进步,多模态大语言模型(MLLMs)初步具备了空间感知能力,但坦率地说,AI的空间能力依然远未接近人类水平。

基本空间理解的失败:

最先进的MLLM在估计距离、方向、大小等任务上表现往往不比随机猜测好多少
无法”心智旋转”物体——即从新角度再现同一对象的形状
不会在迷宫中导航、识别捷径,或预测基本的物理规律

缺乏空间智能的后果:

缺乏它,AI将:

无法真正安全地驾驶汽车
无法在家庭与医院中引导机器人
无法创造全新的沉浸式学习与娱乐体验
也无法加速材料科学与医学的发现

哲学家维特根斯坦曾写道:“语言的边界就是我世界的边界”。我不是哲学家,但我知道,对AI而言,世界不止于语言。空间智能代表着超越语言的前沿。

三、构建世界模型:AI的下一个十年

什么是世界模型

那么,我们该如何打造拥有空间智能的AI?

答案:世界模型(World Models)

要实现这样的AI,我们需要比LLM更具雄心的体系:世界模型。这是一种全新的生成式模型,其在理解、推理、生成与交互方面的能力,将超越当今LLM所能触及的极限。它能够在语义、物理、几何与动态层面上,理解并生成复杂的虚拟或真实世界。

从大语言模型到世界模型:AI理解世界的范式转变

世界模型的三大核心能力

在这个新兴领域中,最重要的是确立指导发展方向的核心原则。对于空间智能而言,我将”世界模型”定义为具备以下三项核心能力的系统:

能力1:生成性(Generative)

世界模型能够生成具有感知、几何与物理一致性的世界

要实现空间理解与推理,世界模型必须能够生成自身的模拟世界。核心要求:

能在语义或感知指令的引导下,生成无限多样、变化丰富的虚拟世界
同时保持几何、物理与动态上的一致性
无论这些世界是现实的还是虚拟的

时间连贯性:

尤其重要的是,模型对当下世界的理解必须与其过去的状态保持连贯一致——理解当前,就是理解它是如何演化而来的。

能力2:多模态(Multimodal)

世界模型在设计上就是多模态的

正如人类与动物一样,世界模型应能处理多种形式的输入。面对不完整的信息——无论是:

图像
视频
深度图
文本指令
手势
还是动作

世界模型都应能预测或生成尽可能完整的世界状态。

能力3:交互性(Interactive)

世界模型能根据输入动作输出下一个状态

当动作(actions)和/或目标(goals)作为输入提示的一部分时,世界模型的输出必须包含世界的下一个状态。随着空间智能世界模型在推理与生成能力上不断增强,未来模型不仅能预测世界的下一个状态,还将能够基于该状态预测下一步行动。

世界模型的三大核心能力:生成性、多模态、交互性

技术挑战与研究方向

这一挑战的规模,超越了AI以往所面临的一切。语言是人类认知中纯粹生成的现象,而”世界”遵循的规则则复杂得多。

在World Labs,我们的研究团队正致力于这一目标的基础性突破。以下是我们当前研究的几个方向:

方向1:新的通用训练任务函数

在世界模型研究中,一个长期目标是定义一种像LLM中”下一个token预测”一样简洁优雅的通用任务函数。这一目标函数及其对应表征必须符合几何与物理规律。

方向2:大规模训练数据

训练世界模型所需的数据远比文本复杂。关键在于构建能够在相似规模上有效利用视觉数据的架构,并结合高质量的合成数据和额外模态(如深度、触觉)。

方向3:新的模型架构与表征学习

世界模型研究将不可避免地推动模型架构与学习算法的革新。在World Labs,我们最近开发了一种基于帧的实时生成模型——RTFM(Real-Time Generative Frame-based Model),以空间为基础的帧作为空间记忆形式。

World Labs的研究进展

Marble:首个世界模型产品

我们最近向部分用户展示了 Marble 的早期版本:

Marble的特点:

全球首个可通过多模态输入生成并保持一致性3D环境的世界模型
让用户与创作者能够探索、交互并在其中继续构建他们的创意世界

Marble - World Labs的首个世界模型产品,能够生成一致性3D环境

四、用世界模型构建更美好的世界

人工智能的发展动机

作为推动现代AI时代到来的科学家之一,我的动机始终十分明确:AI应当增强人类的能力,而非取而代之。

务实的立场:

当下关于”技术乌托邦”与”世界末日”的极端叙事比比皆是,但我依然持一种更务实的立场:

AI是由人开发、被人使用、并由人治理的
它必须始终尊重人的自主性与尊严
它的”魔力”在于拓展我们的能力,让我们变得更具创造力、更紧密相连、更高效并更有成就感

这一信念,正是我将空间智能视为AI下一个伟大前沿领域的根本原因。

创造力:为叙事注入超能力

“创意,是智慧的乐趣。” ——爱因斯坦

故事的力量

在人类发明文字之前,我们就会讲故事。今天,空间智能有潜力彻底变革我们创作与体验叙事的方式,从娱乐到教育,从设计到建造。

Marble平台的能力:

World Labs的Marble平台将前所未有的空间表达能力与编辑控制权交到创作者手中:

电影人
游戏设计师
建筑师
及各类讲述者

空间智能赋能创意产业:从电影制作到游戏设计

三大应用方向

1. 多维叙事体验

电影人和游戏设计师可以利用 Marble 构建整个世界,不受预算或地理限制。随着媒介与娱乐的界限模糊化,我们正接近一种全新的互动体验形态。

2. 以设计讲述空间故事

几乎所有被制造的物品或建造的空间,都必须在物理实现之前经过虚拟3D设计。空间智能能够:

让建筑师在数分钟内可视化并漫游尚不存在的建筑
让设计师即时将想象转化为形态

3. 全新的沉浸与互动体验

如今,空间智能结合VR、XR(扩展现实)头显与沉浸式显示设备,将体验提升到前所未有的高度。人们”走进”多维世界将如同打开一本书般自然。

机器人:具身智能的实践

从昆虫到人类,动物都依赖空间智能来理解、导航并与世界交互。机器人也不会例外。

空间智能是实现通用机器人的关键

三大应用方向

1. 通过世界模型扩展机器人学习

机器人的学习进步取决于可扩展的训练数据方案。世界模型将在此发挥决定性作用。随着其感知精度与计算效率的提高:

世界模型生成的输出将迅速缩小模拟与现实之间的差距
让机器人能在数不清的状态、互动与环境中学习

2. 人机协作伙伴

机器人可以扩展劳动力并提升社会生产力。但要做到这一点,机器人必须具备空间智能:

能感知、推理、规划、行动
保持对人类目标与行为的同理一致

应用示例:

实验室机器人:替代科学家完成仪器操作
家庭助理机器人:帮助老人做饭,而不剥夺他们的乐趣与自主性

3. 扩展的具身形态

将来自更加多样的设计:

输送药物的纳米机器人
穿行狭窄空间的软体机器人
以及为深海或外太空而造的机器

世界模型将为仿真数据、训练环境和评测任务提供支持。

更长远的地平线:科学、医疗与教育

除了创造性与机器人应用外,”空间智能”的深远影响还将延伸至更多能够增强人类能力、拯救生命、加速发现的领域。

空间智能在科学、医疗和教育领域的应用前景

1. 科学研究:模拟实验与假设验证

具备空间智能的系统可以:

模拟实验
并行验证假设
探索人类无法亲临的环境——从深海到遥远的行星

这项技术有望彻底变革气候科学、材料研究等领域的计算建模方式。

2. 医疗领域:从实验室到病床

在医疗领域,空间智能将重塑从实验室到病床的全过程:

药物研发:通过多维建模加速药物研发
诊断辅助:辅助放射科医生识别影像中的模式
环境感知式监护:为患者与护理人员提供持续支持

3. 教育领域:沉浸式学习体验

空间智能能够实现沉浸式学习:

学生:以多维方式探索细胞机器或”亲历”历史事件
教师:借助互动环境进行个性化教学
专业人士:在高度逼真的仿真环境中安全地练习复杂技能

统一的目标

跨越这些领域,目标始终如一:

让AI成为增强人类专长、加速人类发现、放大人类关怀的力量——而不是取代那份属于人的判断力、创造力与共情力。

五、结语:构建与世界契合的智能

历史性的时刻

人类历史上第一次,我们正站在这样一个时刻:有望构建出与物理世界高度契合的机器,让它们成为我们应对重大挑战的真正伙伴。

无论是:

加速疾病研究
革新故事叙述方式
还是在病痛、受伤或衰老的脆弱时刻给予支持

我们都正处于一场技术变革的门槛上,它将提升我们最珍视的生命价值。

关于生活的愿景

这是一个关于更深刻、更丰富、更有力量的生活的愿景。

距自然在原始动物中首次显现空间智能的曙光已近五亿年,而我们有幸成为这一代技术创造者:

可能即将赋予机器同样能力的人类
也有幸能将此能力用于全人类的福祉

我的”北极星”

若没有空间智能,我们关于”真正智能机器”的梦想将永远不完整。

这场探索,是我的”北极星”。邀请你一同追寻它。

空间智能:AI的下一个伟大前沿

作者简介: 李飞飞(Fei-Fei Li)是斯坦福大学教授、ImageNet创始人、World Labs联合创始人。她是计算机视觉和人工智能领域的先驱,致力于构建具备空间智能的AI系统。

来源: World Labs 官方博客 发布时间: 2025年11月10日

相关链接:

注: 本文图片需要替换为实际图片。建议使用的图片包括:

李飞飞教授照片
World Labs品牌图片
空间智能概念图
机器人与AI应用场景
科学、医疗、教育领域的AI应用图片