ICML 2026｜武汉大学悉尼大学: 多模态模型越练越会想？它可能只是越练越会“猜”-二趣网

多模态模型做题时，最容易骗过人的，不是答错，而是答案对了，理由却是编的。

比如医学影像问答里，模型最后选对了“肺部不健康”，但中间推理却说“肺野清晰、没有异常”。如果只看最终选项，样本会被当成好数据；如果把推理链读完，就会发现它根本没有认真看图，只是靠语言经验撞上了答案。

VISTA 要处理的正是多模态自训练里的盲区。现在很多多模态推理模型会用自我改进训练：模型自己生成推理过程，答案对的留下来，再拿来训练自己。听起来很聪明，但风险也藏在这里。答案正确不代表推理可靠，推理流畅也不代表视觉证据充分。一旦把“猜对但没看图”的样本喂回模型，模型可能不是越练越会推理，而是越练越会用语言先验绕开图像。

Motivation

核心问题是：多模态模型做自我改进时，不能只用最终答案当作训练数据的质量标准。

自我改进的基本流程很简单。模型先对每个问题生成多条 reasoning trace，再用标准答案筛掉错误结果，最后把正确样本拿去做 SFT 或偏好学习。相比人工标注推理链，方式便宜、可扩展，也很适合长 CoT 训练。但多模态任务多了一层麻烦。模型不只是要会推理，还要把推理建立在视觉信息上。医学图像、几何图形、图表问答，如果模型没看清图，后面说得再像样都不可靠。

作者指出，自我改进在 MLLM 上会遇到两个坑。一个是数据不均衡：简单题很容易采到大量正确推理，难题却很难采到正确解。训练集越滚越大，里面反而大多是模型已经会做的题。另一个是语言先验偏置：模型靠题干、常识和数据偏见猜中答案，推理链却和图像对不上。
前者让模型反复练简单题，后者让模型学习假推理。

现象剖析：答对也会错

作者先观察自生成样本，而不是直接堆新算法。结果很清楚：难题里的正确样本明显不足。

在 Geometry3K 这种更难的任务里，超过 40% 的 query 没有采到任何正确解。相反，SLAKE 这类相对容易的任务能产生很多正确解。筛完数据后，训练样本天然偏向简单题。模型看似在自我提升，其实是在反复强化已有能力。

另一个现象更隐蔽：答案正确的样本里，仍然有不少视觉幻觉。模型会描述图里不存在的内容，或者推理过程和最终答案互相打架。用最终答案筛数据时，样本不会被剔除，因为结果是对的。

作者进一步看模型 attention，发现视觉 token 虽然在上下文里占比很大，但很多层里拿到的注意力很少，模型反而更关注系统提示和问题文本。也就是说，模型不是没有图像输入，而是推理时经常被语言信息牵着走。多模态推理失败，很多时候不是不会想，而是没看准就开始想。

核心解读：先回收，再筛选

VISTA 的思路很顺：先从失败样本里回收可用部分，再从成功样本里筛掉不看图的部分。

Prefix Resampling 用来解决难题样本不足。很多错误推理并不是从头错到尾，前半段可能是对的，只是在某个关键 token 之后开始偏离。过去的自训练方法会把整条错误轨迹丢掉，VISTA 选择把前面正确的 prefix 保留下来，从出错位置附近重新采样后续推理。

可以把它想成学生解题。前面公式列对了，后面某一步算错了，真正应该做的是从出错处继续改，而不是把整张草稿纸扔掉。Prefix Resampling 就是在模型自己的失败轨迹里找到“还值得保留的草稿”。

VAS，也就是 Vision-aware Attention Score，用来判断正确样本是否真的看图。它不需要额外训练一个评判模型，而是直接用 MLLM 内部 attention，看推理 token 在生成时分给视觉 token 的比例。视觉关注越低，越可能是靠语言先验猜出来的推理。

最终，VISTA 会保留两类更有价值的数据：难题里重新采样出的正确解，以及视觉关注更充分的正确解。这样得到的训练集不只是答案正确，还更均衡、更 grounded。

图表深度解读

图1：答案正确也可能视觉幻觉

画面描述：图1展示了一个医学图像问答例子。问题是判断肺部是否健康，两条模型自生成推理都给出了正确答案，但其中一条推理说“肺部清晰、没有异常”，明显和图像里的病理特征不一致；另一条推理则能指出图像中的异常区域。

深度解读：把多模态自训练的核心漏洞讲得很直观：答案对，不代表推理链真的可靠。如果只用最终答案筛选训练数据，那些“猜对了但没看图”的推理也会被当成好样本继续训练。VISTA 后面设计 VAS，就是为了识别这类表面正确、视觉上不 grounded 的样本。

图2：自我改进的两个偏差

画面描述：图2分三部分：一部分展示每个 query 能采到多少正确解；一部分展示不同难度样本在训练数据中的比例；另一部分展示模型在不同层里对 system prompt、visual tokens 和 instruction tokens 的注意力分配。

深度解读：自我改进训练的问题不是单点失误，而是数据机制本身有偏。简单题容易产生大量正确样本，难题却很难采到正确解；同时，模型在推理时对视觉 token 的关注并不充分，反而更依赖文本提示。也就是说，模型一边在反复训练自己已经会的题，一边又可能把“语言猜测”当成推理能力。

图3：VISTA 框架

画面描述：图3展示了 VISTA 的整体流程。前半部分是 Prefix Resampling：从错误推理中找到还可用的正确前缀，再重新采样后续推理；后半部分是 Vision-aware Attention Score：用模型内部 attention 衡量推理过程是否关注视觉信息，并过滤掉低 VAS 的样本。

深度解读：对应 VISTA 的两步核心设计。Prefix Resampling 解决“难题样本太少”的问题，VAS 解决“正确答案里混入视觉幻觉”的问题。它的重点不是简单增加样本数量，而是重新定义哪些自生成推理值得继续训练：不仅要答对，还要尽量来自困难样本，并且推理过程要真的依赖图像证据。

实验结果说明了什么？

实验结果表明，提升主要来自训练数据质量，而不是简单增加采样数量。

在 Qwen2.5-VL-3B 上，VISTA-SFT 在 SLAKE、VQA-Rad、Geometry3K 上带来 +13.66% 的平均提升；在 Qwen2.5-VL-7B 上也有 +6.67% 增益。相比 STaR、ReSTEM、RFT、R3V，VISTA 的优势尤其体现在更难的 Geometry3K 上，说明 Prefix Resampling 确实缓解了困难样本不足。

模型和任务扩展后，结果仍然稳定。Qwen3-VL、InternVL3-2B、InternVL3-8B 都能从 VISTA 受益；ScienceQA、ChartQA 上也保持领先。它不是针对某个模型或数据集的小技巧，而是适配多种 MLLM 自训练场景的数据治理方法。

VAS 的实验也很有说服力。用低 VAS 样本训练，模型性能会明显下降，在 IllusionBench 上更容易出现幻觉；用高 VAS 样本训练，则能改善视觉 grounding。OOD 测试同样支持这一点：基线方法迭代后常常泛化变差，而 VISTA 在 PathVQA、MathVista、MMMU、BLINK、MathVerse 等测试上更稳。

为什么值得关注？

VISTA 提醒我们，多模态 reasoning 的后训练不能只追求“更多 CoT”。数据越多不一定越好，如果数据里充满简单题和假推理，模型反而会被带偏。

对纯文本任务来说，最终答案常常是一个足够强的筛选信号。多模态任务不一样。模型可能不看图也能猜中答案，尤其在医学、几何、图表这些任务里，语言先验经常会制造一种“看起来合理”的错觉。

VISTA 给出的启发很实用：自训练样本至少要同时满足三个条件——答案正确、难度结构合理、推理过程依赖视觉证据。未来 MLLM 的自我改进，不能只问“答对了吗”，还要问“是看图答对的吗”。

总结一下

VISTA 不是让模型单纯多生成几条推理链，而是在修正自我改进训练里的数据选择逻辑。

它把错误样本里可用的前缀回收回来，让困难问题有更多训练机会；再用视觉注意力筛掉“猜对但没看图”的推理，减少语言先验带来的幻觉。多模态模型真正需要学的不是把答案说对，而是把视觉证据、推理过程和最终结论对齐。

如果继续只用答案正确来筛 CoT，多模态模型可能会越来越会编理由。VISTA 的价值就在于提醒我们：模型学会思考之前，先得学会看。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～

企业官网建设流程全解析

Motivation

现象剖析：答对也会错

核心解读：先回收，再筛选

图表深度解读

图1：答案正确也可能视觉幻觉

图2：自我改进的两个偏差

图3：VISTA 框架

实验结果说明了什么？

为什么值得关注？

总结一下

学AI大模型的正确顺序，千万不要搞错了

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

Motivation

现象剖析：答对也会错

核心解读：先回收，再筛选

图表深度解读

图1：答案正确也可能视觉幻觉

图2：自我改进的两个偏差

图3：VISTA 框架

实验结果说明了什么？

为什么值得关注？

总结一下

学AI大模型的正确顺序，千万不要搞错了

热门文章

文章分类

标签云

相关文章

紧急预警：Midjourney 6.1版本已悄然关闭默认Mud材质继承通道！立即启用--mud-legacy参数保底方案

交互式待办事项列表：当任务获得“完成态”时发生了什么？

Python 开发中“使用 read() 读取大文件导致内存溢出” 问题详解

需要专业的网站建设服务？