ICML 2026|武汉大学 悉尼大学: 多模态模型越练越会想?它可能只是越练越会“猜”
2026/5/16 21:05:44 网站建设 项目流程

多模态模型做题时,最容易骗过人的,不是答错,而是答案对了,理由却是编的

比如医学影像问答里,模型最后选对了“肺部不健康”,但中间推理却说“肺野清晰、没有异常”。如果只看最终选项,样本会被当成好数据;如果把推理链读完,就会发现它根本没有认真看图,只是靠语言经验撞上了答案。

VISTA 要处理的正是多模态自训练里的盲区。现在很多多模态推理模型会用自我改进训练:模型自己生成推理过程,答案对的留下来,再拿来训练自己。听起来很聪明,但风险也藏在这里。答案正确不代表推理可靠,推理流畅也不代表视觉证据充分。一旦把“猜对但没看图”的样本喂回模型,模型可能不是越练越会推理,而是越练越会用语言先验绕开图像。

Motivation

核心问题是:多模态模型做自我改进时,不能只用最终答案当作训练数据的质量标准。

自我改进的基本流程很简单。模型先对每个问题生成多条 reasoning trace,再用标准答案筛掉错误结果,最后把正确样本拿去做 SFT 或偏好学习。相比人工标注推理链,方式便宜、可扩展,也很适合长 CoT 训练。但多模态任务多了一层麻烦。模型不只是要会推理,还要把推理建立在视觉信息上。医学图像、几何图形、图表问答,如果模型没看清图,后面说得再像样都不可靠。

作者指出,自我改进在 MLLM 上会遇到两个坑。一个是数据不均衡:简单题很容易采到大量正确推理,难题却很难采到正确解。训练集越滚越大,里面反而大多是模型已经会做的题。另一个是语言先验偏置:模型靠题干、常识和数据偏见猜中答案,推理链却和图像对不上。
前者让模型反复练简单题,后者让模型学习假推理。

现象剖析:答对也会错

作者先观察自生成样本,而不是直接堆新算法。结果很清楚:难题里的正确样本明显不足。

在 Geometry3K 这种更难的任务里,超过 40% 的 query 没有采到任何正确解。相反,SLAKE 这类相对容易的任务能产生很多正确解。筛完数据后,训练样本天然偏向简单题。模型看似在自我提升,其实是在反复强化已有能力。

另一个现象更隐蔽:答案正确的样本里,仍然有不少视觉幻觉。模型会描述图里不存在的内容,或者推理过程和最终答案互相打架。用最终答案筛数据时,样本不会被剔除,因为结果是对的。

作者进一步看模型 attention,发现视觉 token 虽然在上下文里占比很大,但很多层里拿到的注意力很少,模型反而更关注系统提示和问题文本。也就是说,模型不是没有图像输入,而是推理时经常被语言信息牵着走。多模态推理失败,很多时候不是不会想,而是没看准就开始想。

核心解读:先回收,再筛选

VISTA 的思路很顺:先从失败样本里回收可用部分,再从成功样本里筛掉不看图的部分。

Prefix Resampling 用来解决难题样本不足。很多错误推理并不是从头错到尾,前半段可能是对的,只是在某个关键 token 之后开始偏离。过去的自训练方法会把整条错误轨迹丢掉,VISTA 选择把前面正确的 prefix 保留下来,从出错位置附近重新采样后续推理。

可以把它想成学生解题。前面公式列对了,后面某一步算错了,真正应该做的是从出错处继续改,而不是把整张草稿纸扔掉。Prefix Resampling 就是在模型自己的失败轨迹里找到“还值得保留的草稿”。

VAS,也就是 Vision-aware Attention Score,用来判断正确样本是否真的看图。它不需要额外训练一个评判模型,而是直接用 MLLM 内部 attention,看推理 token 在生成时分给视觉 token 的比例。视觉关注越低,越可能是靠语言先验猜出来的推理。

最终,VISTA 会保留两类更有价值的数据:难题里重新采样出的正确解,以及视觉关注更充分的正确解。这样得到的训练集不只是答案正确,还更均衡、更 grounded。

图表深度解读

图1:答案正确也可能视觉幻觉

画面描述:图1展示了一个医学图像问答例子。问题是判断肺部是否健康,两条模型自生成推理都给出了正确答案,但其中一条推理说“肺部清晰、没有异常”,明显和图像里的病理特征不一致;另一条推理则能指出图像中的异常区域。

深度解读:把多模态自训练的核心漏洞讲得很直观:答案对,不代表推理链真的可靠。如果只用最终答案筛选训练数据,那些“猜对了但没看图”的推理也会被当成好样本继续训练。VISTA 后面设计 VAS,就是为了识别这类表面正确、视觉上不 grounded 的样本。

图2:自我改进的两个偏差

画面描述:图2分三部分:一部分展示每个 query 能采到多少正确解;一部分展示不同难度样本在训练数据中的比例;另一部分展示模型在不同层里对 system prompt、visual tokens 和 instruction tokens 的注意力分配。

深度解读:自我改进训练的问题不是单点失误,而是数据机制本身有偏。简单题容易产生大量正确样本,难题却很难采到正确解;同时,模型在推理时对视觉 token 的关注并不充分,反而更依赖文本提示。也就是说,模型一边在反复训练自己已经会的题,一边又可能把“语言猜测”当成推理能力。

图3:VISTA 框架

画面描述:图3展示了 VISTA 的整体流程。前半部分是 Prefix Resampling:从错误推理中找到还可用的正确前缀,再重新采样后续推理;后半部分是 Vision-aware Attention Score:用模型内部 attention 衡量推理过程是否关注视觉信息,并过滤掉低 VAS 的样本。

深度解读:对应 VISTA 的两步核心设计。Prefix Resampling 解决“难题样本太少”的问题,VAS 解决“正确答案里混入视觉幻觉”的问题。它的重点不是简单增加样本数量,而是重新定义哪些自生成推理值得继续训练:不仅要答对,还要尽量来自困难样本,并且推理过程要真的依赖图像证据。

实验结果说明了什么?

实验结果表明,提升主要来自训练数据质量,而不是简单增加采样数量。

在 Qwen2.5-VL-3B 上,VISTA-SFT 在 SLAKE、VQA-Rad、Geometry3K 上带来 +13.66% 的平均提升;在 Qwen2.5-VL-7B 上也有 +6.67% 增益。相比 STaR、ReSTEM、RFT、R3V,VISTA 的优势尤其体现在更难的 Geometry3K 上,说明 Prefix Resampling 确实缓解了困难样本不足。

模型和任务扩展后,结果仍然稳定。Qwen3-VL、InternVL3-2B、InternVL3-8B 都能从 VISTA 受益;ScienceQA、ChartQA 上也保持领先。它不是针对某个模型或数据集的小技巧,而是适配多种 MLLM 自训练场景的数据治理方法。

VAS 的实验也很有说服力。用低 VAS 样本训练,模型性能会明显下降,在 IllusionBench 上更容易出现幻觉;用高 VAS 样本训练,则能改善视觉 grounding。OOD 测试同样支持这一点:基线方法迭代后常常泛化变差,而 VISTA 在 PathVQA、MathVista、MMMU、BLINK、MathVerse 等测试上更稳。

为什么值得关注?

VISTA 提醒我们,多模态 reasoning 的后训练不能只追求“更多 CoT”。数据越多不一定越好,如果数据里充满简单题和假推理,模型反而会被带偏。

对纯文本任务来说,最终答案常常是一个足够强的筛选信号。多模态任务不一样。模型可能不看图也能猜中答案,尤其在医学、几何、图表这些任务里,语言先验经常会制造一种“看起来合理”的错觉。

VISTA 给出的启发很实用:自训练样本至少要同时满足三个条件——答案正确、难度结构合理、推理过程依赖视觉证据。未来 MLLM 的自我改进,不能只问“答对了吗”,还要问“是看图答对的吗”。

总结一下

VISTA 不是让模型单纯多生成几条推理链,而是在修正自我改进训练里的数据选择逻辑。

它把错误样本里可用的前缀回收回来,让困难问题有更多训练机会;再用视觉注意力筛掉“猜对但没看图”的推理,减少语言先验带来的幻觉。多模态模型真正需要学的不是把答案说对,而是把视觉证据、推理过程和最终结论对齐。

如果继续只用答案正确来筛 CoT,多模态模型可能会越来越会编理由。VISTA 的价值就在于提醒我们:模型学会思考之前,先得学会看。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询