李飞飞:从文字到世界,空间智能是AI的下一个前沿

作者:李飞飞 (Fei-Fei Li) 职位:斯坦福大学教授、World Labs 联合创始人 发布时间:2025年11月 来源:World Labs 官方博客

前言

“空间智能将改变我们创造和交互现实与虚拟世界的方式——彻底革新叙事、创造力、机器人学、科学发现,以及更多领域。这,正是AI的下一个前沿。”

“今天的AI是’黑暗中的文字匠’:能言善辩,却无经验;知识丰富,却缺乏根基。”

1950年,当计算机还只是自动化算术和简单逻辑时,艾伦·图灵提出了一个至今仍回荡的问题:机器能思考吗?

他能看到别人尚未看到的未来,需要非凡的想象力——那就是:智能或许有一天可以被”构建”,而非”诞生”。

今天,以大语言模型(LLM)为代表的前沿AI技术,已经开始改变人类获取与处理抽象知识的方式。然而,它们仍然是”黑暗中的文字匠”:能言善辩,却无经验;知识丰富,却缺乏根基。

李飞飞教授在这篇文章中,系统阐述了空间智能的重要性、世界模型的构建原则,以及这项技术将如何深刻重塑创造力、具身智能与人类进步。

一、引言:从图灵之问到空间智能

1.1 图灵的愿景与AI的征程

1950年,当计算机还只是自动化算术和简单逻辑时,艾伦·图灵提出了一个至今仍回荡的问题:机器能思考吗?

他能看到别人尚未看到的未来,需要非凡的想象力——那就是:智能或许有一天可以被”构建”,而非”诞生”。

这一洞见催生了一场持续至今的科学征程——人工智能(AI)。在我投身AI研究的25年中,图灵的愿景依然不断启发着我。但我们距离那一愿景有多近?答案并不简单。

1.2 当前AI的成就与局限

今天,以大语言模型(LLM)为代表的前沿AI技术,已经开始改变人类获取与处理抽象知识的方式。

它们展示了曾被认为不可能的能力:生成连贯的文本、成山的代码、逼真的图像,甚至短视频。AI是否会改变世界?——从任何合理的定义来看,它已经做到了。

然而,它们仍然是”黑暗中的文字匠”:

能言善辩,却无经验
知识丰富,却缺乏根基
无法真正理解物理世界

1.3 为什么空间智能是下一个前沿

仍有大量潜能未被触及:

自动化机器人的愿景依然诱人却遥远
疾病治疗、新材料发现、粒子物理等领域的研究加速梦仍未实现
真正能够理解并赋能人类创作者的AI仍未到来

空间智能将改变一切:

空间智能(spatial intelligence)将改变我们创造和交互现实与虚拟世界的方式——彻底革新叙事、创造力、机器人学、科学发现,以及更多领域。这,正是AI的下一个前沿。

1.4 我的”北极星”

自我进入这一领域以来,对视觉与空间智能的探索就一直是我的”北极星”:

构建了 ImageNet——首个大规模视觉学习与评测数据集
与神经网络算法、现代算力(如GPU)一道,成为孕育现代AI的三大关键要素
在斯坦福实验室将计算机视觉与机器人学习相结合
与联合创始人创建 World Labs,第一次真正实现这一可能性

在这篇文章中,我将解释:

什么是空间智能
为什么它重要
如何构建能够解锁它的”世界模型”

二、空间智能:人类认知的脚手架

2.1 进化的基石:感知-行动循环

视觉长期以来是人类智能的基石,但它的力量源自更为根本的东西。

进化的起点:

早在动物能筑巢、抚育后代、用语言交流或建立文明之前,那看似简单的”感知行为”:

感受到一缕光
触到一种质感

就已经悄然点燃了通向智能的进化旅程。

从感知到智能的桥梁:

这种从外部世界汲取信息的能力,在感知与生存之间搭建起一座桥梁,而这一桥梁在漫长的进化中变得愈发复杂。

神经元层层叠加,形成能解释世界、协调生物与环境互动的神经系统。因此,许多科学家认为,“感知—行动”循环成为了智能进化的核心机制,也是自然孕育出我们这个物种的根基——一个能感知、学习、思考与行动的终极存在。

2.2 日常生活中的空间智能

空间智能在我们与物理世界的互动中扮演着基础性的角色。每天,我们都在依赖它完成最平常的动作:

日常场景示例:

停车时想象车尾与路缘的距离
接住被抛来的钥匙
在人群中穿行而不碰撞
半睡半醒间准确地将咖啡倒进杯中

极端情况:

消防员穿行于坍塌建筑与浓烟之中,瞬间判断稳定性与生死抉择
通过肢体语言和本能默契沟通——这些都无可言传
婴儿则在学会语言前的漫长时光里,通过玩耍与环境互动来认识世界

这一切都在直觉中、自然而然地发生——一种机器至今未能获得的流畅能力。

2.3 人类创造力的根基

空间智能同样是我们想象力与创造力的基石。

从古至今的视觉媒介:

讲故事的人在脑中构建出丰富的世界,并用各种视觉媒介将之传达给他人:

原始洞穴壁画
现代电影
沉浸式电子游戏

虚拟世界的构建:

无论是孩子在沙滩上筑城堡,还是在电脑上玩《我的世界》,这种以空间为根基的想象构成了人与虚拟世界交互体验的基础。

工业应用:

在工业应用中,对物体、场景与动态交互环境的模拟则支撑着:

工业设计
数字孪生
机器人训练

等无数关键场景。

2.4 推动文明进步的力量

历史上那些塑造文明的关键时刻中,空间智能往往扮演着核心角色。

埃拉托色尼测量地球周长(古希腊):

通过对阴影的几何化思考完成了惊人的壮举:

在亚历山大测得太阳影子形成的7度角
与赛恩(Syene)”正午无影”的现象进行对比
从而计算出了地球的周长

哈格里夫斯的”珍妮纺纱机”:

源于空间洞察:

意识到只需将多个纺锤并列安装在一个机架上
一个工人就能同时纺出多股线
生产效率因此提高了八倍

沃森与克里克揭示DNA结构:

依赖于他们亲手搭建的三维分子模型:

用金属板与铁丝不断调整、拼接
直到碱基对的空间排布完美契合

在这些案例中,空间智能都推动了文明的进步——当科学家与发明家需要操纵物体、想象结构、在物理空间中推理时,这些能力是纯文字永远无法承载的。

2.5 当前AI的空间智能缺陷

虽然我们大多数人并不会每天像埃拉托色尼那样发现新的真理,但我们几乎时时刻刻都以同样的方式在思考:

通过感官去理解这个复杂世界
依托对物理与空间规律的直觉认知,使其变得可理解

遗憾的是,当今的AI还无法以这样的方式思考。

多模态大语言模型的进展

过去几年确实取得了巨大进步。多模态大语言模型(MLLMs),在文本之外又引入了大量多媒体数据进行训练,初步具备了空间感知能力:

可以分析图像、回答与之相关的问题
甚至生成超写实的图像与短视频

同时,借助传感器与触觉技术的突破,最先进的机器人已经能在严格受限的环境中开始操控物体与工具。

根本性局限

然而,坦率地说,AI的空间能力依然远未接近人类水平。其局限也显而易见:

基本空间理解的失败:

最先进的MLLM在估计距离、方向、大小等任务上,表现往往不比随机猜测好多少
无法”心智旋转”物体——即从新角度再现同一对象的形状
不会在迷宫中导航、识别捷径,或预测基本的物理规律

视频生成的连贯性问题:

生成的视频虽然新奇炫目,却常在几秒钟后失去连贯性

根本性的脱节:

如今的顶级AI擅长阅读、写作、检索与模式识别,但当涉及对物理世界的表征或交互时,却存在根本性局限。

我们人类理解世界的方式是整体性的:

不仅仅看到”眼前的东西”
还理解它们在空间上的关系
在语义上的意义
以及在现实中的重要性

而这种通过想象、推理、创造与交互来理解世界的能力,正是空间智能的力量。

缺乏空间智能的后果

缺乏它,AI就与它所试图理解的物理现实脱节。它将:

无法真正安全地驾驶汽车
无法在家庭与医院中引导机器人
无法创造全新的沉浸式学习与娱乐体验
也无法加速材料科学与医学的发现

超越语言的前沿

哲学家维特根斯坦曾写道:“语言的边界就是我世界的边界”。

我不是哲学家,但我知道,对AI而言,世界不止于语言。空间智能代表着超越语言的前沿。

它连接想象、感知与行动,为机器真正提升人类生活打开了新的可能:

从医疗到创造力
从科学发现到日常辅助

三、构建世界模型:AI的下一个十年

3.1 什么是世界模型

那么,我们该如何打造拥有空间智能的AI?

如何让模型具备:

像埃拉托色尼那样的空间推理能力
像工业设计师那样的工程精度
像讲故事的人那样的创造性想象力
以及像应急救援人员那样与环境流畅互动的能力?

答案:世界模型(World Models)

要实现这样的AI,我们需要比LLM更具雄心的体系:世界模型(World Models)。

这是一种全新的生成式模型,其在理解、推理、生成与交互方面的能力,将超越当今LLM所能触及的极限。它能够在语义、物理、几何与动态层面上,理解并生成复杂的虚拟或真实世界。

领域现状:

这一领域尚处于萌芽阶段,现有方法从抽象推理模型到视频生成系统不等。

World Labs成立于2024年初,正是基于这样一种信念:基础性方法仍在形成之中,而这将成为未来十年人工智能的决定性挑战。

3.2 世界模型的三大核心能力

在这个新兴领域中,最重要的是确立指导发展方向的核心原则。对于空间智能而言,我将”世界模型”定义为具备以下三项核心能力的系统:

能力1:生成性(Generative)

世界模型能够生成具有感知、几何与物理一致性的世界

要实现空间理解与推理,世界模型必须能够生成自身的模拟世界。

核心要求:

能在语义或感知指令的引导下,生成无限多样、变化丰富的虚拟世界
同时保持几何、物理与动态上的一致性
无论这些世界是现实的还是虚拟的

表征形式的探索:

研究界目前正在探索,这些世界应当以隐式(implicit)还是显式(explicit)的几何结构形式表示。

我的观点:

除了强大的潜在表征(latent representations)之外,我认为通用世界模型的输出还应当:

允许生成显式、可观测的世界状态
以便适应不同的应用场景

时间连贯性:

尤其重要的是,模型对当下世界的理解必须与其过去的状态保持连贯一致——理解当前,就是理解它是如何演化而来的。

能力2:多模态(Multimodal)

世界模型在设计上就是多模态的

正如人类与动物一样,世界模型应能处理多种形式的输入。在生成式AI领域中,这些输入被称为”提示词(prompts)”。

多样化的输入:

面对不完整的信息——无论是:

图像
视频
深度图
文本指令
手势
还是动作

世界模型都应能预测或生成尽可能完整的世界状态。

处理要求:

这要求模型:

既要以真实视觉的精度处理图像输入
又能以同样的灵活性理解语义性指令

交互方式:

如此一来,无论是智能体还是人类,都能:

通过多样的输入形式与模型就”世界”进行交流
以多样的方式接收输出

能力3:交互性(Interactive)

世界模型能根据输入动作输出下一个状态

最后,当动作(actions)和/或目标(goals)作为输入提示的一部分时,世界模型的输出必须包含世界的下一个状态。

状态表征:

这一状态可以是隐式的,也可以是显式的。

一致性要求:

当输入仅包含一个动作(有无目标皆可)时,世界模型应能生成与以下内容相一致的输出:

世界先前状态
预期目标状态(如有)
其语义意义
物理规律
动态行为

未来展望:

随着空间智能世界模型在推理与生成能力上不断增强,我们可以想象,未来模型不仅能预测世界的下一个状态,还将能够基于该状态预测下一步行动。

3.3 技术挑战与研究方向

这一挑战的规模,超越了AI以往所面临的一切。

挑战的复杂性

语言是人类认知中纯粹生成的现象,而”世界”遵循的规则则复杂得多。

在地球上,例如:

重力决定运动
原子结构决定光的颜色与亮度
无数物理定律约束着一切交互

即使是最奇幻、最具创造性的世界:

也由遵守物理与动态规律的空间对象与智能体构成

核心难题:

要在模型中一致地协调这些——语义、几何、动力学与物理层面——需要全新的方法论。因为”世界”的维度远比语言这种一维的序列信号复杂得多。

World Labs的研究方向

要实现像人类一样具备普适空间智能的世界模型,必须跨越若干巨大的技术壁垒。

在World Labs,我们的研究团队正致力于这一目标的基础性突破。以下是我们当前研究的几个方向示例:

方向1:新的通用训练任务函数

在世界模型研究中,一个长期目标是定义一种像LLM中”下一个token预测”一样简洁优雅的通用任务函数。

挑战:

世界模型输入与输出空间的复杂性使这一函数的设计更加困难

要求:

这一目标函数及其对应表征必须符合几何与物理规律
忠实体现世界模型在想象与现实之间的”落地表征”本质

方向2:大规模训练数据

训练世界模型所需的数据远比文本复杂。

好消息:

我们已经拥有了庞大的数据资源
互联网上规模宏大的图像与视频集合为训练提供了丰富的素材

挑战:

如何让算法从二维图像或视频帧(RGB)中提取更深层次的空间信息

关键问题:

过去十年的研究揭示了语言模型中数据量与模型规模的scaling law
对于世界模型,关键在于构建能够在相似规模上有效利用视觉数据的架构

补充数据源:

高质量的合成数据
额外模态(如深度、触觉)
在训练过程的关键阶段起到补充作用

未来发展取决于:

更先进的传感系统
更稳健的信号提取算法
以及更强大的神经仿真方法

方向3:新的模型架构与表征学习

世界模型研究将不可避免地推动模型架构与学习算法的革新,特别是超越当下的多模态LLM与视频扩散模型(video diffusion)。

当前模型的局限:

这些模型通常将数据编码为一维或二维序列,使得简单的空间任务变得异常困难:

在短视频中数清不同的椅子
记住一小时前房间的样子

新的架构思路:

或许能改进这一点,例如:

具备3D或4D感知能力的token化
上下文与记忆机制

World Labs的RTFM模型:

在World Labs,我们最近开发了一种基于帧的实时生成模型——RTFM(Real-Time Generative Frame-based Model)。

它的特点:

以空间为基础的帧(spatially-grounded frames)作为空间记忆形式
实现了高效实时生成的同时
保持了生成世界的持续性与一致性

3.4 World Labs的研究进展

显然,在完全释放空间智能的潜力之前,我们仍面临艰巨的挑战。但这项研究不仅仅是理论工作,它正成为新一代创造性与生产力工具的核心引擎。

Marble:首个世界模型产品

在World Labs的进展令人鼓舞。我们最近向部分用户展示了 Marble 的早期版本:

Marble的特点:

全球首个可通过多模态输入生成并保持一致性3D环境的世界模型
让用户与创作者能够探索、交互并在其中继续构建他们的创意世界

当前状态:

我们正全力以赴,努力尽快将其向公众开放

未来展望

Marble只是我们的第一步。随着研究的加速,科研人员、工程师、用户与商业领袖们都开始意识到这一方向的巨大潜能。

下一代世界模型将:

使机器在空间智能上达到全新的层次
开启AI迄今仍普遍缺乏的核心能力
真正让人工智能进入理解与创造世界的时代

四、用世界模型构建更美好的世界

4.1 人工智能的发展动机

人工智能的发展动机至关重要。作为推动现代AI时代到来的科学家之一,我的动机始终十分明确:AI应当增强人类的能力,而非取而代之。

多年来,我一直致力于让AI的开发、部署与治理与人类需求保持一致。

务实的立场:

当下关于”技术乌托邦”与”世界末日”的极端叙事比比皆是,但我依然持一种更务实的立场:

AI是由人开发、被人使用、并由人治理的
它必须始终尊重人的自主性与尊严
它的”魔力”在于拓展我们的能力,让我们变得更具创造力、更紧密相连、更高效并更有成就感

空间智能的愿景:

空间智能正体现了这一愿景——一种能赋能人类创造者、照护者、科学家与梦想家的AI,使他们实现曾经不可能的目标。

这一信念,正是我将空间智能视为AI下一个伟大前沿领域的根本原因。

4.2 应用的时间尺度

空间智能的应用横跨不同的时间尺度:

当下(短期):

创作工具正在当下出现
World Labs的 Marble 已经让创作者与讲故事的人能够亲手掌握这种能力

中期:

机器人领域代表着中期的雄心目标
我们正致力于完善感知与行动之间的闭环

长期:

最具变革意义的科学应用可能需要更长时间
但它们将深刻地促进人类的福祉

集体努力的需要:

在所有时间线中,有几个领域的潜力尤其突出,足以重塑人类的能力。要实现这些潜力,需要集体努力:

远超任何一个团队或公司的能力范围
需要整个AI生态系统的参与:研究者、创新者、创业者、企业家,乃至政策制定者
共同朝着一个愿景努力

而这个愿景,值得我们追求。以下是未来的图景:

4.3 创造力:为叙事注入超能力

“创意,是智慧的乐趣。” ——爱因斯坦

故事的力量

在人类发明文字之前,我们就会讲故事:

把故事画在洞穴壁上
代代相传
并以共享的叙事建立文化

故事是人类:

理解世界
跨越时空连接彼此
探索”人之为人”的方式
也是我们在生活与爱中寻找意义的途径

彻底变革叙事方式

今天,空间智能有潜力彻底变革我们创作与体验叙事的方式,从娱乐到教育,从设计到建造,赋予它们更深远的影响力。

Marble平台的能力:

World Labs的Marble平台将前所未有的空间表达能力与编辑控制权交到创作者手中:

电影人
游戏设计师
建筑师
及各类讲述者

无需传统3D设计软件的繁复流程:

快速创造、迭代、探索完整的三维世界

人类仍是核心:

创造的行为依然是人类的核心活动
AI只是放大并加速创意实现的过程

三大应用方向

1. 多维叙事体验

电影人和游戏设计师可以利用 Marble 构建整个世界:

不受预算或地理限制
探索传统制作流程中无法实现的场景与视角

媒介融合:

随着媒介与娱乐的界限模糊化,我们正接近一种全新的互动体验形态:

融合艺术、模拟与游戏的个性化世界
让任何人(而不仅仅是大型工作室)都能创造并进入自己的故事

2. 以设计讲述空间故事

几乎所有被制造的物品或建造的空间,都必须在物理实现之前经过虚拟3D设计——这一过程往往耗费大量时间与成本。

空间智能的加速:

建筑师可以在数分钟内可视化并漫游尚不存在的建筑
工业或时装设计师可以即时将想象转化为形态
探索物体与人体及空间的交互

3. 全新的沉浸与互动体验

人类体验的最深层方式之一,就是创造意义的体验本身。

历史限制:

在整个人类历史上,我们只共享一个三维世界:物理世界。直到近几十年,通过游戏与早期虚拟现实(VR),我们才得以初步窥见”自造世界”的可能。

技术融合:

如今,空间智能结合VR、XR(扩展现实)头显与沉浸式显示设备,将这种体验提升到前所未有的高度。

未来愿景:

人们”走进”多维世界将如同打开一本书般自然
空间智能让造世界的权力从专业团队扩展到每一位拥有愿景的创作者、教育者与普通人

4.4 机器人:具身智能的实践

从昆虫到人类,动物都依赖空间智能来理解、导航并与世界交互。机器人也不会例外。

长久以来的梦想

自该领域诞生以来,”具备空间感知的机器”就是人类的梦想,包括我在斯坦福研究实验室与学生、合作者共同进行的研究。

正因如此,我对用 World Labs 构建的模型实现这一愿景感到异常兴奋。

三大应用方向

1. 通过世界模型扩展机器人学习

机器人的学习进步取决于可扩展的训练数据方案。

核心需求:

要让机器人具备理解、推理、规划与交互的能力,它们需要覆盖极为庞大的状态空间。

当前共识:

许多研究者认为,三者结合是实现可泛化机器人的关键:

互联网数据
合成仿真数据
人类演示的真实采集

数据稀缺性:

然而,与语言模型不同,如今机器人的训练数据极为稀缺。

世界模型的作用:

世界模型将在此发挥决定性作用。随着其感知精度与计算效率的提高:

世界模型生成的输出将迅速缩小模拟与现实之间的差距
从而让机器人能在数不清的状态、互动与环境中学习

2. 人机协作伙伴

无论是:

实验室中协助科学家的研究助理机器人
还是陪伴独居老人的家用助理

机器人都可以扩展劳动力并提升社会生产力。

核心要求:

但要做到这一点,机器人必须具备空间智能:

能感知、推理、规划、行动
并且最重要的是:保持对人类目标与行为的同理一致

应用示例:

实验室机器人:可以替代科学家完成仪器操作,让人专注于需要推理的部分
家庭助理机器人:可以帮助老人做饭,而不剥夺他们的乐趣与自主性

关键能力:

真正具备空间智能的世界模型能够:

预测下一个状态
甚至推断与之匹配的下一步行动
是实现这一愿景的关键

3. 扩展的具身形态

人形机器人只是我们为自身世界打造的一个形式。

真正的创新红利:

将来自更加多样的设计:

输送药物的纳米机器人
穿行狭窄空间的软体机器人
以及为深海或外太空而造的机器

通用要求:

无论形态如何,未来的空间智能模型都必须将环境与机器人自身的感知、运动一体化建模。

关键挑战:

开发这些机器人面临的关键挑战在于:缺乏多样化形态的训练数据。

世界模型的作用:

世界模型将在这一过程中发挥关键作用:

为仿真数据提供支持
为训练环境提供支持
为评测任务提供支持

4.5 更长远的地平线:科学、医疗与教育

除了创造性与机器人应用外,”空间智能”的深远影响还将延伸至更多能够增强人类能力、拯救生命、加速发现的领域。

以下我将重点介绍三个具有深刻变革潜力的方向。当然,空间智能的应用远不止于此,它的影响范围几乎遍及所有行业。

1. 科学研究:模拟实验与假设验证

核心能力:

在科学研究中,具备空间智能的系统可以:

模拟实验
并行验证假设
探索人类无法亲临的环境——从深海到遥远的行星

变革领域:

这项技术有望彻底变革:

气候科学
材料研究
等领域的计算建模方式

关键优势:

通过将多维度模拟与真实世界数据采集相结合,这些工具能:

显著降低计算壁垒
拓展每一个实验室可观察与理解的边界

2. 医疗领域:从实验室到病床

在医疗领域,空间智能将重塑从实验室到病床的全过程。

我的经验:

在斯坦福,我与学生及合作者多年来一直与医院、养老机构以及居家患者合作。这些经验让我深信空间智能在医疗领域的变革潜力。

三大应用方向:

药物研发:

通过多维建模加速药物研发

诊断辅助:

通过辅助放射科医生识别影像中的模式来提升诊断质量

环境感知式监护:

支持环境感知式监护系统
在不取代人类关怀的前提下
为患者与护理人员提供持续支持

机器人辅助:

更不用说机器人在不同场景中帮助医护人员和患者的巨大潜力

3. 教育领域:沉浸式学习体验

空间智能能够实现沉浸式学习:

让抽象或复杂的概念变得可感知
创造出符合人类大脑与身体学习方式的迭代体验

AI时代的学习需求:

在AI时代,更快速、更高效的学习与技能重塑对于儿童与成人都至关重要。

三大应用场景:

学生:

可以以多维方式探索细胞机器
或”亲历”历史事件

教师:

可借助互动环境进行个性化教学

专业人士:

外科医生、工程师等专业人士则能在高度逼真的仿真环境中安全地练习复杂技能

统一的目标

跨越这些领域,可能性是无限的,但目标始终如一:

让AI成为增强人类专长、加速人类发现、放大人类关怀的力量——而不是取代那份属于人的判断力、创造力与共情力。

五、结语:构建与世界契合的智能

5.1 AI成为全球现象

过去十年间,人工智能已成为全球现象,在科技、经济乃至地缘政治层面都带来了转折。

5.2 图灵精神的延续

然而,作为一名研究者、教育者和创业者,最令我振奋的仍是图灵七十五年前那道问题背后的精神。

我依然与他共享那份好奇与惊叹——正是这份好奇,让我每天都为探索空间智能的挑战而充满动力。

5.3 历史性的时刻

人类历史上第一次,我们正站在这样一个时刻:有望构建出与物理世界高度契合的机器,让它们成为我们应对重大挑战的真正伙伴。

应用前景:

无论是:

加速疾病研究
革新故事叙述方式
还是在病痛、受伤或衰老的脆弱时刻给予支持

我们都正处于一场技术变革的门槛上,它将提升我们最珍视的生命价值。

5.4 关于生活的愿景

这是一个关于更深刻、更丰富、更有力量的生活的愿景。

距自然在原始动物中首次显现空间智能的曙光已近五亿年,而我们有幸成为这一代技术创造者:

可能即将赋予机器同样能力的人类
也有幸能将此能力用于全人类的福祉

5.5 我的”北极星”

若没有空间智能,我们关于”真正智能机器”的梦想将永远不完整。

这场探索,是我的”北极星”。邀请你一同追寻它。

作者简介: 李飞飞(Fei-Fei Li)是斯坦福大学教授、ImageNet创始人、World Labs联合创始人。她是计算机视觉和人工智能领域的先驱,致力于构建具备空间智能的AI系统。

来源: World Labs 官方博客 整理时间: 2025年11月10日

李飞飞:从文字到世界,空间智能是AI的下一个前沿

前言

目录

一、引言:从图灵之问到空间智能

1.1 图灵的愿景与AI的征程

1.2 当前AI的成就与局限

1.3 为什么空间智能是下一个前沿

1.4 我的”北极星”

二、空间智能:人类认知的脚手架

2.1 进化的基石:感知-行动循环

2.2 日常生活中的空间智能

2.3 人类创造力的根基

2.4 推动文明进步的力量

2.5 当前AI的空间智能缺陷

多模态大语言模型的进展

根本性局限

缺乏空间智能的后果

超越语言的前沿

三、构建世界模型:AI的下一个十年

3.1 什么是世界模型

3.2 世界模型的三大核心能力

能力1:生成性(Generative)

能力2:多模态(Multimodal)

能力3:交互性(Interactive)

3.3 技术挑战与研究方向

挑战的复杂性

World Labs的研究方向

3.4 World Labs的研究进展

Marble:首个世界模型产品

未来展望

四、用世界模型构建更美好的世界

4.1 人工智能的发展动机

4.2 应用的时间尺度

4.3 创造力:为叙事注入超能力

故事的力量

彻底变革叙事方式

三大应用方向

4.4 机器人:具身智能的实践

长久以来的梦想

三大应用方向

4.5 更长远的地平线:科学、医疗与教育

1. 科学研究:模拟实验与假设验证

2. 医疗领域:从实验室到病床

3. 教育领域:沉浸式学习体验

统一的目标

五、结语:构建与世界契合的智能

5.1 AI成为全球现象

5.2 图灵精神的延续

5.3 历史性的时刻

5.4 关于生活的愿景

5.5 我的”北极星”