李飞飞:空间智能是AI的下一个前沿
从文字到世界,World Labs开启空间智能新时代
前言
“空间智能将改变我们创造和交互现实与虚拟世界的方式——彻底革新叙事、创造力、机器人学、科学发现,以及更多领域。这,正是AI的下一个前沿。”
1950年,当计算机还只是自动化算术和简单逻辑时,艾伦·图灵提出了一个至今仍回荡的问题:机器能思考吗?
今天,以大语言模型(LLM)为代表的前沿AI技术,已经开始改变人类获取与处理抽象知识的方式。然而,它们仍然是”黑暗中的文字匠”:能言善辩,却无经验;知识丰富,却缺乏根基。
一、引言:从图灵之问到空间智能
图灵的愿景与AI的征程
1950年,艾伦·图灵的问题催生了一场持续至今的科学征程——人工智能(AI)。在我投身AI研究的25年中,图灵的愿景依然不断启发着我。
当前AI的成就与局限
今天,以大语言模型(LLM)为代表的前沿AI技术展示了曾被认为不可能的能力:生成连贯的文本、成山的代码、逼真的图像,甚至短视频。
然而,它们仍然是”黑暗中的文字匠”:
- 能言善辩,却无经验
- 知识丰富,却缺乏根基
- 无法真正理解物理世界
为什么空间智能是下一个前沿
空间智能(spatial intelligence)将改变我们创造和交互现实与虚拟世界的方式——彻底革新叙事、创造力、机器人学、科学发现,以及更多领域。
自我进入这一领域以来,对视觉与空间智能的探索就一直是我的”北极星”:
- 构建了 ImageNet——首个大规模视觉学习与评测数据集
- 在斯坦福实验室将计算机视觉与机器人学习相结合
- 与联合创始人创建 World Labs,第一次真正实现这一可能性
二、空间智能:人类认知的脚手架
进化的基石:感知-行动循环
视觉长期以来是人类智能的基石,但它的力量源自更为根本的东西。早在动物能筑巢、抚育后代、用语言交流或建立文明之前,那看似简单的”感知行为”就已经悄然点燃了通向智能的进化旅程。
从感知到智能的桥梁:
这种从外部世界汲取信息的能力,在感知与生存之间搭建起一座桥梁。神经元层层叠加,形成能解释世界、协调生物与环境互动的神经系统。因此,许多科学家认为,“感知—行动”循环成为了智能进化的核心机制。
日常生活中的空间智能
空间智能在我们与物理世界的互动中扮演着基础性的角色。每天,我们都在依赖它完成最平常的动作:
日常场景示例:
- 停车时想象车尾与路缘的距离
- 接住被抛来的钥匙
- 在人群中穿行而不碰撞
- 半睡半醒间准确地将咖啡倒进杯中
人类创造力的根基
空间智能同样是我们想象力与创造力的基石。讲故事的人在脑中构建出丰富的世界,并用各种视觉媒介将之传达给他人:
- 原始洞穴壁画
- 现代电影
- 沉浸式电子游戏
无论是孩子在沙滩上筑城堡,还是在电脑上玩《我的世界》,这种以空间为根基的想象构成了人与虚拟世界交互体验的基础。
推动文明进步的力量
历史上那些塑造文明的关键时刻中,空间智能往往扮演着核心角色。
埃拉托色尼测量地球周长(古希腊):
- 通过对阴影的几何化思考
- 在亚历山大测得太阳影子形成的7度角
- 与赛恩(Syene)”正午无影”的现象进行对比
- 从而计算出了地球的周长
沃森与克里克揭示DNA结构:
- 依赖于他们亲手搭建的三维分子模型
- 用金属板与铁丝不断调整、拼接
- 直到碱基对的空间排布完美契合
当前AI的空间智能缺陷
虽然过去几年确实取得了巨大进步,多模态大语言模型(MLLMs)初步具备了空间感知能力,但坦率地说,AI的空间能力依然远未接近人类水平。
基本空间理解的失败:
- 最先进的MLLM在估计距离、方向、大小等任务上表现往往不比随机猜测好多少
- 无法”心智旋转”物体——即从新角度再现同一对象的形状
- 不会在迷宫中导航、识别捷径,或预测基本的物理规律
缺乏空间智能的后果:
缺乏它,AI将:
- 无法真正安全地驾驶汽车
- 无法在家庭与医院中引导机器人
- 无法创造全新的沉浸式学习与娱乐体验
- 也无法加速材料科学与医学的发现
哲学家维特根斯坦曾写道:“语言的边界就是我世界的边界”。我不是哲学家,但我知道,对AI而言,世界不止于语言。空间智能代表着超越语言的前沿。
三、构建世界模型:AI的下一个十年
什么是世界模型
那么,我们该如何打造拥有空间智能的AI?
答案:世界模型(World Models)
要实现这样的AI,我们需要比LLM更具雄心的体系:世界模型。这是一种全新的生成式模型,其在理解、推理、生成与交互方面的能力,将超越当今LLM所能触及的极限。它能够在语义、物理、几何与动态层面上,理解并生成复杂的虚拟或真实世界。
世界模型的三大核心能力
在这个新兴领域中,最重要的是确立指导发展方向的核心原则。对于空间智能而言,我将”世界模型”定义为具备以下三项核心能力的系统:
能力1:生成性(Generative)
世界模型能够生成具有感知、几何与物理一致性的世界
要实现空间理解与推理,世界模型必须能够生成自身的模拟世界。核心要求:
- 能在语义或感知指令的引导下,生成无限多样、变化丰富的虚拟世界
- 同时保持几何、物理与动态上的一致性
- 无论这些世界是现实的还是虚拟的
时间连贯性:
尤其重要的是,模型对当下世界的理解必须与其过去的状态保持连贯一致——理解当前,就是理解它是如何演化而来的。
能力2:多模态(Multimodal)
世界模型在设计上就是多模态的
正如人类与动物一样,世界模型应能处理多种形式的输入。面对不完整的信息——无论是:
- 图像
- 视频
- 深度图
- 文本指令
- 手势
- 还是动作
世界模型都应能预测或生成尽可能完整的世界状态。
能力3:交互性(Interactive)
世界模型能根据输入动作输出下一个状态
当动作(actions)和/或目标(goals)作为输入提示的一部分时,世界模型的输出必须包含世界的下一个状态。随着空间智能世界模型在推理与生成能力上不断增强,未来模型不仅能预测世界的下一个状态,还将能够基于该状态预测下一步行动。
技术挑战与研究方向
这一挑战的规模,超越了AI以往所面临的一切。语言是人类认知中纯粹生成的现象,而”世界”遵循的规则则复杂得多。
在World Labs,我们的研究团队正致力于这一目标的基础性突破。以下是我们当前研究的几个方向:
方向1:新的通用训练任务函数
在世界模型研究中,一个长期目标是定义一种像LLM中”下一个token预测”一样简洁优雅的通用任务函数。这一目标函数及其对应表征必须符合几何与物理规律。
方向2:大规模训练数据
训练世界模型所需的数据远比文本复杂。关键在于构建能够在相似规模上有效利用视觉数据的架构,并结合高质量的合成数据和额外模态(如深度、触觉)。
方向3:新的模型架构与表征学习
世界模型研究将不可避免地推动模型架构与学习算法的革新。在World Labs,我们最近开发了一种基于帧的实时生成模型——RTFM(Real-Time Generative Frame-based Model),以空间为基础的帧作为空间记忆形式。
World Labs的研究进展
Marble:首个世界模型产品
我们最近向部分用户展示了 Marble 的早期版本:
Marble的特点:
- 全球首个可通过多模态输入生成并保持一致性3D环境的世界模型
- 让用户与创作者能够探索、交互并在其中继续构建他们的创意世界
四、用世界模型构建更美好的世界
人工智能的发展动机
作为推动现代AI时代到来的科学家之一,我的动机始终十分明确:AI应当增强人类的能力,而非取而代之。
务实的立场:
当下关于”技术乌托邦”与”世界末日”的极端叙事比比皆是,但我依然持一种更务实的立场:
- AI是由人开发、被人使用、并由人治理的
- 它必须始终尊重人的自主性与尊严
- 它的”魔力”在于拓展我们的能力,让我们变得更具创造力、更紧密相连、更高效并更有成就感
这一信念,正是我将空间智能视为AI下一个伟大前沿领域的根本原因。
创造力:为叙事注入超能力
“创意,是智慧的乐趣。” ——爱因斯坦
故事的力量
在人类发明文字之前,我们就会讲故事。今天,空间智能有潜力彻底变革我们创作与体验叙事的方式,从娱乐到教育,从设计到建造。
Marble平台的能力:
World Labs的Marble平台将前所未有的空间表达能力与编辑控制权交到创作者手中:
- 电影人
- 游戏设计师
- 建筑师
- 及各类讲述者
三大应用方向
1. 多维叙事体验
电影人和游戏设计师可以利用 Marble 构建整个世界,不受预算或地理限制。随着媒介与娱乐的界限模糊化,我们正接近一种全新的互动体验形态。
2. 以设计讲述空间故事
几乎所有被制造的物品或建造的空间,都必须在物理实现之前经过虚拟3D设计。空间智能能够:
- 让建筑师在数分钟内可视化并漫游尚不存在的建筑
- 让设计师即时将想象转化为形态
3. 全新的沉浸与互动体验
如今,空间智能结合VR、XR(扩展现实)头显与沉浸式显示设备,将体验提升到前所未有的高度。人们”走进”多维世界将如同打开一本书般自然。
机器人:具身智能的实践
从昆虫到人类,动物都依赖空间智能来理解、导航并与世界交互。机器人也不会例外。
三大应用方向
1. 通过世界模型扩展机器人学习
机器人的学习进步取决于可扩展的训练数据方案。世界模型将在此发挥决定性作用。随着其感知精度与计算效率的提高:
- 世界模型生成的输出将迅速缩小模拟与现实之间的差距
- 让机器人能在数不清的状态、互动与环境中学习
2. 人机协作伙伴
机器人可以扩展劳动力并提升社会生产力。但要做到这一点,机器人必须具备空间智能:
- 能感知、推理、规划、行动
- 保持对人类目标与行为的同理一致
应用示例:
- 实验室机器人:替代科学家完成仪器操作
- 家庭助理机器人:帮助老人做饭,而不剥夺他们的乐趣与自主性
3. 扩展的具身形态
将来自更加多样的设计:
- 输送药物的纳米机器人
- 穿行狭窄空间的软体机器人
- 以及为深海或外太空而造的机器
世界模型将为仿真数据、训练环境和评测任务提供支持。
更长远的地平线:科学、医疗与教育
除了创造性与机器人应用外,”空间智能”的深远影响还将延伸至更多能够增强人类能力、拯救生命、加速发现的领域。
1. 科学研究:模拟实验与假设验证
具备空间智能的系统可以:
- 模拟实验
- 并行验证假设
- 探索人类无法亲临的环境——从深海到遥远的行星
这项技术有望彻底变革气候科学、材料研究等领域的计算建模方式。
2. 医疗领域:从实验室到病床
在医疗领域,空间智能将重塑从实验室到病床的全过程:
- 药物研发:通过多维建模加速药物研发
- 诊断辅助:辅助放射科医生识别影像中的模式
- 环境感知式监护:为患者与护理人员提供持续支持
3. 教育领域:沉浸式学习体验
空间智能能够实现沉浸式学习:
- 学生:以多维方式探索细胞机器或”亲历”历史事件
- 教师:借助互动环境进行个性化教学
- 专业人士:在高度逼真的仿真环境中安全地练习复杂技能
统一的目标
跨越这些领域,目标始终如一:
让AI成为增强人类专长、加速人类发现、放大人类关怀的力量——而不是取代那份属于人的判断力、创造力与共情力。
五、结语:构建与世界契合的智能
历史性的时刻
人类历史上第一次,我们正站在这样一个时刻:有望构建出与物理世界高度契合的机器,让它们成为我们应对重大挑战的真正伙伴。
无论是:
- 加速疾病研究
- 革新故事叙述方式
- 还是在病痛、受伤或衰老的脆弱时刻给予支持
我们都正处于一场技术变革的门槛上,它将提升我们最珍视的生命价值。
关于生活的愿景
这是一个关于更深刻、更丰富、更有力量的生活的愿景。
距自然在原始动物中首次显现空间智能的曙光已近五亿年,而我们有幸成为这一代技术创造者:
- 可能即将赋予机器同样能力的人类
- 也有幸能将此能力用于全人类的福祉
我的”北极星”
若没有空间智能,我们关于”真正智能机器”的梦想将永远不完整。
这场探索,是我的”北极星”。邀请你一同追寻它。
作者简介: 李飞飞(Fei-Fei Li)是斯坦福大学教授、ImageNet创始人、World Labs联合创始人。她是计算机视觉和人工智能领域的先驱,致力于构建具备空间智能的AI系统。
来源: World Labs 官方博客 发布时间: 2025年11月10日
相关链接:
注: 本文图片需要替换为实际图片。建议使用的图片包括:
- 李飞飞教授照片
- World Labs品牌图片
- 空间智能概念图
- 机器人与AI应用场景
- 科学、医疗、教育领域的AI应用图片