这项由加州大学戴维斯分校主导的研究,于2026年6月以预印本形式发布在arXiv平台,编号为arXiv:2606.05833。研究提出了一个名为GeoVR的新框架,核心目标只有一个:让当前最先进的多模态大语言模型真正"看懂"三维空间,而且只用普通的视频素材就能做到,不依赖任何昂贵的3D标注数据。
**一道裂缝藏在最先进的AI眼里**
当你站在一个房间里,你能立刻判断沙发离你多远、柜子有多高、走廊有多深。这件事对人类来说轻而易举,但对目前最顶尖的多模态大语言模型而言,却是一道难以跨越的裂缝。
所谓多模态大语言模型,就是那种既能读图又能聊天的AI系统,比如GPT-4o、Gemini这类产品。它们在回答图片相关问题、描述场景、做图文推理等任务上表现惊艳。然而,一旦问题涉及真实的三维空间关系——"这张桌子离镜头有多远"、"这扇门比窗户高多少"、"走过这条走廊再右转就能到达目标吗"——它们就会频繁出错,甚至给出令人啼笑皆非的答案。
这背后有一个根本原因:这些模型从头到尾都在二维图像和文字的世界里长大。训练它们的数据是大量的图片和文本对,监督信号也只有语言——"这是猫"、"这是沙发"、"这里有一棵树"。模型学会了辨认物体、理解语义,却从未被要求理解"这只猫距离我两米"、"这棵树比楼房矮"这类带有真实物理尺度的空间信息。换句话说,它们的内部表示(可以理解为大脑里存储认知的方式)只是一张扁平的语义地图,而非一个有深度、有距离感的立体模型。
加州大学戴维斯分校的研究团队用一个非常直观的实验揭示了这一问题。他们把同一段视频分别输入给一个顶级的多模态大语言模型(Qwen3-VL)和一个专为三维重建设计的基础模型(VGGT),然后把各自提取到的内部特征可视化出来——就像给大脑拍了一张"思维彩色照片"。结果非常鲜明:VGGT的"照片"里,同一个物体在不同角度下的颜色保持一致,物体边界清晰,整个场景像一个有结构的立体模型;而Qwen3-VL的"照片"则像被泼了一桶随机颜料,同一个物体在不同帧里颜色完全不同,边界模糊,毫无几何规律可言。这说明语言驱动的训练让模型学会了认识物体,却没有让它真正理解这些物体在三维空间里的位置关系。
**现有方案的两条老路,都有各自的硬伤**
面对这个问题,研究界此前已经摸索出两条路,但两条路都有明显的局限。
第一条路是直接喂给模型三维数据。也就是把点云(一种用大量三维坐标点描述物体形状的数据格式,可以理解为用密密麻麻的空间坐标点描绘出一个立体雕塑)、三维网格等真实的立体信息输入给模型,让它从中学习空间关系。代表性工作包括PointLLM、3D-LLM、SpatialLM等。这条路的问题在于:高质量的三维标注数据极其稀缺且昂贵,采集一个室内场景的完整点云需要专业设备和大量人工。数据量的瓶颈严重限制了模型的泛化能力,而且学了三维数据之后,模型在普通二维图像理解任务上的表现往往会退步。
第二条路是"外挂插件"式的融合。思路是保留原来的多模态大语言模型不动,同时接入一个专门的三维基础模型(比如VGGT、DepthAnything等),让这个三维模型实时提取空间特征,然后把这些特征"粘贴"到原模型的二维特征上。代表性工作有VG-LLM、Spatial-MLLM(通过逐元素相加融合)、VLM-3R、SpaceMind(通过注意力机制融合)等。这条路的问题同样突出:每次推理(也就是模型回答问题的时候)都需要同时运行两个大模型,计算成本翻倍,推理速度大幅下降。更根本的问题是,这种融合方式只是在表面上把两种特征混在一起,三维模型的几何理解并没有真正渗入多模态大语言模型的内部表示里,只是在最外层打了个补丁。
**GeoVR的核心哲学:用视频"重塑大脑"**
加州大学戴维斯分校的研究团队提出的GeoVR走的是第三条路,核心理念是:不借助昂贵的三维标注数据,也不在推理时外挂三维模型,而是在训练阶段通过一套精心设计的几何学习任务,从根本上改变多模态大语言模型内部的表示方式。
打个比方:前两条路分别是"给学生专门的立体图纸练习"和"考试时允许携带3D眼镜作弊",而GeoVR的做法是在日常训练里加入大量空间推理练习,让学生的大脑本身就发展出立体感知能力,考试时不需要任何辅助工具。
具体来说,GeoVR使用普通的视频序列作为训练素材——就是手机拍摄的室内视频,没有任何三维标注。在训练过程中,它额外引入一个冻结的(不更新参数的)三维基础模型作为"老师"。这位老师的职责不是在推理时帮忙,而是在训练时提供几何知识的参考答案。训练完成后,老师退场,学生独立上阵。
**四道几何题,重塑模型的空间大脑**
GeoVR在训练阶段给多模态大语言模型布置了四道几何题,每道题都从不同角度逼迫模型发展出真正的空间感知能力。这四道题紧密配合,缺一不可。
第一道题叫做"摄像机姿态估计"。当你拿着手机绕着客厅走一圈拍视频,手机的位置和朝向每一帧都在变化——向左转了多少度、向前移动了多少厘米、俯仰角度变了多少。这些信息在专业上称为"摄像机位姿",包含了拍摄者的空间运动轨迹。GeoVR要求模型从视频中预测出每一帧的摄像机姿态,具体来说是一个9维的数值向量:3个数描述位置平移、4个数描述旋转方向(用四元数表示,这是描述三维旋转的一种数学工具)、2个数描述视野角度。
为了让模型完成这道题,研究团队设计了一个专门的"摄像机令牌"——可以理解为在每一帧图像的特征序列末尾塞入一个特殊的记忆槽,这个记忆槽会通过模型内部的注意力机制从周围所有帧的视觉信息中汇聚空间线索,最终输出摄像机姿态预测。训练时用三维教师模型预测的姿态作为参考答案,用加权L1损失(一种衡量预测值与真实值之间差距的数学工具)来督促模型的预测越来越准。这道题的效果是:模型开始理解"观察者在移动"这件事,从而发展出对多视角一致性的感知。
第二道题叫做"深度图预测"。深度图就是给图像的每一个像素都贴上一个距离标签——这个像素对应的物体距离摄像机多少米。对人类来说,这种感知是本能的(你不需要计算就知道远处的山比近处的椅子更远),但对只在二维图像里生活的模型来说,这需要从像素颜色和纹理中推断出真实的物理距离,是一项相当有挑战性的任务。
GeoVR从模型内部的多个层次提取特征——浅层特征捕捉边缘和纹理细节,深层特征包含语义理解,两者共同输入一个轻量化的DPT头(一种专为密集预测设计的网络结构,擅长把多尺度特征整合成高分辨率的输出图)。这个头部网络同时输出深度图和置信图,置信图告诉模型"我对哪个像素的深度估计更有把握"。损失函数结合了绝对误差和梯度误差(梯度可以理解为深度的变化速率,捕捉物体边界处的深度跳变),并用置信图动态调整各像素的权重。这道题的效果是:模型开始把每个视觉位置与真实的物理距离关联起来,理解遮挡和空间布局。
第三道题叫做"公制尺度校准"。前两道题解决的是"相对"关系:A比B远、这里有个台阶。但现实问题往往需要"绝对"尺度:这张桌子有多少厘米高、这个房间有多少平方米。单靠相对深度图,模型只知道某个物体是另一个物体的两倍远,却不知道具体是1米还是10米。
为了解决这个问题,GeoVR引入了一个全局的"尺度令牌"。这是一个附加在整个视频特征序列末尾的特殊标记,通过模型的全局注意力机制汇聚整段视频里的所有空间线索,最终预测一个正实数——这个数就是把相对深度换算成真实物理距离的缩放系数。为了保证数值稳定(室内场景的尺度可能从厘米到几十米不等,数值范围极大),损失函数在对数空间里计算,可以理解为先把大数字"压缩"再比较差距,确保各种规模的场景都能得到均衡的训练信号。这道题的效果是:模型获得了对真实物理尺度的感知能力,能够在绝对意义上理解空间大小。
第四道题叫做"多尺度几何表示对齐"。前三道题都是显式的、有具体数值的预测任务。这道题则更像是一种"思维方式"的传授:直接让模型的内部特征在空间上向三维教师模型靠拢。研究团队从三维教师模型(VGGT)的第5、12、18、24层分别提取中间特征,作为"几何知识的样本",然后要求多模态大语言模型在对应深度的层次上,让自己的特征尽可能接近这些样本。
由于两个模型的图像分辨率处理方式不同(产生的特征图大小不一样),研究团队设计了一个投影函数:先把多模态大语言模型的特征从一维序列恢复成二维空间网格,通过双线性插值(一种平滑缩放图像的数学方法)对齐到三维模型的特征尺寸,再用一个小型MLP(多层感知机,可以理解为几层简单的全连接网络)调整特征维度,最后用余弦相似度来衡量两个特征向量的"方向一致程度"并最小化差距。这道题覆盖了模型的浅层到深层,确保几何知识在各个抽象层次上都得到渗透,而非只在某一个层次上发生表面对齐。
这四道题在训练时同时进行,与原来的语言预测任务共同优化,用超参数控制各自的权重比例。训练结束后,承担这四道题的所有额外网络头、三维教师模型全部丢弃,只留下被改造过内部结构的多模态大语言模型本身。
**数据从哪里来:视频就是免费的几何教材**
一个关键问题是:四道几何题的"参考答案"从哪里获得?总不能人工标注每一帧视频的深度和摄像机姿态吧——那样又回到了依赖昂贵标注的老路。
GeoVR的解决方案是把三维基础模型(VGGT)当作一个零样本的自动标注工具。VGGT经过大规模预训练,只需输入普通视频帧,就能直接输出摄像机姿态、深度图等几何信息,不需要任何额外标注。对于公制尺度,则借助另一个专门的公制深度模型(DepthAnything3的公制版本)来对齐相对深度图,推导出全局尺度因子。
这样一来,GeoVR的训练数据完全是"自给自足"的:任意一段普通视频进来,三维教师模型自动生成参考答案,多模态大语言模型在这些答案的督导下完成四道几何题的训练。整个流程不需要任何人工三维标注,可以轻松扩展到海量的网络视频数据。研究团队实际使用的训练数据是VSI-590K和VLM-3R两个数据集的混合,共约数十万条视频样本,训练一轮即可。
**实验成绩:2B模型力压8B竞品,甚至超越GPT-5**
衡量空间理解能力,研究团队使用了VSI-Bench这个专门的空间推理测试基准。这个测试集来自真实的室内扫描视频,包含五千多道题,分成两大类:需要给出具体数字的"数值答案题"(比如"这张椅子离门有多少米")和需要在选项中选择的"选择题"(比如"哪个方向是卧室")。八种具体任务涵盖了物体计数、绝对距离、物体尺寸、房间大小、相对距离、相对方向、路径规划和出现顺序。
GeoVR基于一个20亿参数规模的基础模型(Qwen3-VL-2B-Instruct)微调而来,最终在VSI-Bench的综合得分上达到69.1分。这个成绩意味着什么?对比一下就清楚了。原始的Qwen3-VL-2B基础模型得50.3分,GeoVR提升了整整18.8分,提升幅度接近40%。GPT-5在这个测试上得55分,被GeoVR以14分的优势甩在身后。Gemini 2.5 Pro得53.5分,同样远落后于GeoVR。在开源的专用空间智能模型中,SpaceMind-8B得69.6分、VLM-3R-7B得60.9分——注意,这两个模型的参数量是GeoVR的四倍,而且在推理时都需要外挂三维模型,带来大量额外计算。GeoVR以五分之一不到的参数量(2B对比8B)、零额外推理开销,取得了与最强竞品相当甚至更优的成绩。
具体拆解各项任务,GeoVR在几个关键指标上表现尤为突出。绝对距离任务得54.5分,高于大多数竞品;房间大小任务得72.3分,处于同档位最高水平;出现顺序任务得86.7分,在所有对比模型中几乎排名第一。这些任务恰好是最需要真实三维感知能力的方向,与GeoVR的设计目标高度吻合。
**深挖实验:每道几何题究竟贡献了什么**
研究团队还做了一系列消融实验,逐一验证四道几何题各自的贡献(消融实验可以理解为"一道一道摘掉零件,看整体性能如何变化")。
仅使用语言预测任务作为基线,得分为56.7。单独加入摄像机姿态估计任务,得分跳到59.8,相对方向这项指标从57.7飙升到66.9——这很直观,因为理解摄像机在移动直接帮助模型判断方向关系。单独加入深度预测任务,得分同样到59.7,房间大小这项指标从48.8跃升到62.5——因为理解深度直接帮助模型感知房间的空间尺度。两者合并,得分升到60.3,说明两道题注入的是互补而非重叠的空间知识。再加入尺度校准,得分到60.9,验证了"知道多远"和"知道多远的绝对数值"是两种不同层次的空间感知。最终把几何表示对齐也加进来,四道题全部激活,得分达到62.1,是所有组合里的最高点。值得注意的是,单独使用几何表示对齐的得分只有57.5,说明这道题如果脱离了前三道显式几何任务的物理锚定,效果会大打折扣——四者协同才能真正重塑模型的空间认知。
在选择哪个三维模型作为教师方面,研究团队对比了VGGT、VGGT-Ω(VGGT的改进版)和DepthAnything3。出乎意料的是,标准版VGGT(62.1分)反而比改进版VGGT-Ω(60.7分)表现更好。原因在于VGGT-Ω为了降低计算成本,把一部分全局注意力替换成了"寄存器注意力"(一种更聚合的注意力机制),这虽然节省了计算,却损失了密集图像特征里的精细空间对应关系,作为老师时传授的几何知识就没那么精准了。DepthAnything3(58.7分)表现最弱,可能因为其架构主要优化深度估计,对摄像机姿态和多视角一致性的建模不如VGGT全面。
在特征对齐的层次选择上,研究团队发现均匀覆盖整个网络深度(第5、12、18、24层全部对齐)的策略(59.67分)明显优于只对齐单个层次(单层对齐约57-58分)或只对齐两个不均衡层次(56-57分)的策略。这说明几何知识需要在浅层到深层的所有尺度上都得到渗透,只做表面对齐是不够的。
在深度预测网络结构的选择上,研究团队对比了三种设计:纯MLP头(参数量1360万)、标准DPT头(参数量3270万)和融合了卷积与MLP的混合Dense头(参数量3230万)。Dense头在使用L1损失时性能最好,达到60.30分。这反映了空间推理任务更需要绝对精度而非相对尺度的不变性,所以优先选择了对绝对误差更敏感的L1损失,而非对尺度变化更宽容的SILog损失。
**特征可视化:用"思维彩照"看清改造效果**
研究团队最后用两种直观的可视化方式证明了GeoVR确实在模型内部发生了真正的改变。一种是PCA投影(可以理解为把高维的内部特征"压缩"成可以用颜色显示的三维数据),结果显示,经过GeoVR改造的模型,同一个物体在不同角度下呈现出一致的颜色,物体边界清晰,整体色彩分布规律,与VGGT的几何特征高度相似;而原始Qwen3-VL的特征则色彩混乱、边界模糊,完全看不出几何规律。另一种是直接用GeoVR预测出的深度图和摄像机姿态,把视频里的像素投影回三维空间,重建出点云。结果显示,GeoVR重建出的三维点云虽然比VGGT专业模型略显粗糙,但基本的空间结构和房间布局是清晰可辨的——这是一个只做过二维视频训练、完全没有接触过三维重建任务的模型做到的事情。
说到底,GeoVR做的事情可以用一句话概括:把三维世界的几何智慧,以一种训练时借力、推理时自立的方式,悄悄注入了多模态大语言模型的思维方式里。它不需要你去采集昂贵的点云数据,不需要推理时扛着两个大模型跑,只需要一段普通的室内视频,加上四道精心设计的几何练习题,就让模型从根本上学会了用立体的眼光看世界。
这意味着,未来的家用机器人在帮你整理房间时,不再需要昂贵的激光雷达就能判断椅子的位置;辅助视障人士的AI眼镜可以更准确地告知"前方台阶距您1.2米";工厂里的AI质检系统可以更可靠地判断零件尺寸是否符合规格。这些应用的背后,都需要AI真正理解空间——而GeoVR提供了一条成本可控、效果出色的实现路径。
研究团队表示,未来计划把GeoVR的框架扩展到更大规模的模型和更多类型的数据上,并探索其在更复杂的空间智能任务中的潜力。有兴趣深入了解技术细节的读者,可以通过编号arXiv:2606.05833查阅完整论文,代码也将在GitHub上的WHB139426/GeoVR-MLLM仓库公开。
Q&A
Q1:GeoVR框架训练完成后,推理阶段需要额外的三维模型参与吗?
A:不需要。GeoVR的三维教师模型(如VGGT)和所有辅助的几何预测网络头,只在训练阶段发挥作用,用来提供参考答案和监督信号。训练结束后,这些额外组件全部丢弃,推理时只运行被改造过的多模态大语言模型本身,没有任何额外计算开销,也不需要真实的三维数据输入。
Q2:GeoVR的四道几何任务分别解决了什么问题?
A:四道任务各自补足空间感知的不同维度。摄像机姿态估计帮助模型理解多视角下的视点变化;深度图预测让模型感知每个像素的物理距离;公制尺度校准把相对距离转换为真实的绝对物理尺寸;多尺度几何表示对齐则通过特征层面的知识蒸馏,让模型的内部思维方式在浅层到深层都接近专业三维模型的几何理解方式。四者协同效果最好,单独使用任意一道任务的提升效果均有限。
Q3:VSI-Bench上GeoVR得分69.1意味着什么水平?
A:这个得分让GeoVR超越了GPT-5(55分)、Gemini 2.5 Pro(53.5分)等顶级商业大模型,也超越了Cambrian-S-7B(67.5分)、VLM-3R-7B(60.9分)等参数量更大的开源专用空间模型,与SpaceMind-8B(69.6分)基本持平。GeoVR仅使用20亿参数,是许多竞品的四分之一规模,且推理时无需外挂三维模型,性价比在当前同类方案中处于最高水平。