1. 多视角问题及专家解答
1.1 Virgo 模型的核心目标是什么?
答:Virgo 模型的核心目标是探索如何构建具备类似 OpenAI o1 的“慢思考”能力的多模态大语言模型 (MLLM)。它尝试通过微调一个已有的MLLM (Qwen2-VL-72B-Instruct),使其能够在进行视觉推理任务时,展现出类似 o1 模型的长推理链能力。
1.2 文章提出了哪两种方法来实现慢思考能力的迁移?
答:文章提出了两种方法:(1)使用纯文本的长推理链数据进行微调,将慢思考能力从文本模态迁移到多模态;(2)从已有的慢思考 MLLM (例如 QVQ) 中蒸馏出多模态长推理链数据,并用其进行微调。
1.3 为什么选择 Qwen2-VL-72B-Instruct 作为基础模型?
答:选择 Qwen2-VL-72B-Instruct 是因为它具备强大的多模态能力,并且之前的研究表明,更强大的模型更容易获得慢思考能力。
1.4 文本长推理链数据是如何收集的?
答:文本长推理链数据是从之前的研究中收集的,主要来自 DeepSeek-R1-Lite-Preview 和 QwQ-32B-preview 两个开源慢思考推理系统,涵盖数学、科学、代码和谜题等领域,其中数学领域的数据最多。
1.5 视觉长推理链数据是如何构建的?
答:视觉长推理链数据是通过从现有的慢思考 MLLM (QVQ) 中蒸馏,或利用经过文本长推理链数据微调的 MLLM 自蒸馏获得的。数据来源包括 LLaVA-OneVision 数据集中的几何、表格、图表和对象等领域的数据集。
1.6 实验在哪些基准数据集上进行?主要结果如何?
答:实验在 MathVerse、MathVision、OlympiadBench 和 MMMU 四个基准数据集上进行。结果表明,仅使用纯文本的长推理链数据微调,Virgo 模型就取得了非常有竞争力的结果,甚至超过了一些商业推理系统。然而,视觉长推理链数据并没有显著提升性能。
1.7 文章发现了哪些重要的结论?
答:文章的主要结论包括:(1)慢思考能力可以通过纯文本推理数据跨模态迁移;(2)文本推理指令在激发 MLLM 的慢思考能力方面通常比多模态推理数据更有效;(3)更难的任务从长推理链中受益更多;(4)并非所有视觉问题都需要复杂的推理过程,强制进行较长的推理过程可能会导致 MLLM 性能下降。
Virgo:复现类似 o1 的多模态大语言模型的初步探索
摘要: 近期,“慢思考”推理系统在大型语言模型 (LLM) 领域引起了广泛关注,其核心思想是通过延长推理时间来提升模型的推理能力。将这种能力迁移到多模态大语言模型 (MLLM) 也成为了一个重要的研究方向。由于 MLLM 需要处理跨不同模态的复杂数据语义,实现多模态慢思考系统更加具有挑战性。本文探索了一种简单有效的方法,通过使用少量文本长推理链数据微调一个强大的 MLLM,构建了一个名为 Virgo(Visual reasoning with long thought)的多模态慢思考系统。我们发现,以自然语言表达的长推理过程可以有效地迁移到 MLLM 中。此外,文本推理数据在激发 MLLM 慢思考能力方面似乎比视觉推理数据更有效。尽管这项工作尚处于初步阶段,但它证明了慢思考能力与语言模型组件之间存在根本联系,并且这种能力可以跨模态或跨领域迁移。这一发现可以指导更强大的慢思考推理系统的开发。
一、引言
近年来,“慢思考”推理系统 (例如 OpenAI o1、DeepSeek R1 和 Qwen QwQ) 在各种基准测试中展现出显著的性能提升,尤其是在先前大型语言模型 (LLM) 表现不佳的难题上。这些系统通过训练和测试阶段的扩展来提高解决复杂任务的准确性和能力,通常涉及在得出最终解决方案之前进行称为“思考”的扩展推理过程。虽然这些系统主要关注文本问题,但最新的进展也显示了在多模态场景中的良好结果(例如 QVQ)。
尽管商业公司尚未公开创建慢思考系统的底层技术,但研究人员已在推进该领域的公共技术方面做出了重大努力。文献表明,实现慢思考推理系统有两种典型方法。第一种方法是利用显式搜索结构(例如蒙特卡洛树搜索),并使用经过专门训练的奖励模型来引导搜索过程走向正确的路径。第二种方法包括以长思维链 (CoT) 的形式提取或构建指令数据,然后微调一个强大的 LLM 来学习这种推理模式。可以使用诸如直接偏好优化和强化学习之类的自我改进或自我博弈方法来进一步增强此方法。
这些研究的一个主要局限性是它们主要关注文本任务,而对多模态场景的考虑相对较少。据我们所知,开发多模态推理系统的现有工作仍然远远落后于 o1 和 QVQ 等商业系统。本文旨在探索多模态慢思考推理系统的实现,使其性能可以与这些商业系统相媲美。与基于文本的推理系统不同,多模态推理系统(即多模态 LLM 或 MLLM)通常同时利用感知能力(即理解输入图形的视觉语义)和推理能力(即确定解决给定任务的方法)。因此,目前尚不清楚慢思考如何在多模态输入上运作。
总的来说,我们认为开发多模态慢思考推理系统是一项重大挑战,因为它涉及解决多模态任务中固有的复杂数据和建模机制。考虑到这一挑战,我们旨在探索一个简单的想法来实现多模态推理系统:我们可以通过使用基于文本的长思维数据对其进行微调来直接调整 MLLM 吗?其直觉是,由于推理主要由 MLLM 内的 LLM 组件处理,我们或许能够使用纯文本指令来激发其慢思考能力。事实上,越来越多的证据表明,通过利用更广泛的纯文本指令可以增强 MLLM 的能力。
在本文中,我们设计了一种简单的方法,通过利用基于文本的长思维数据来增强 MLLM 的慢思考能力。我们的主要重点是研究两个关键问题:(1)慢思考能力是否可以通过使用基于文本的长思维数据进行微调来跨模态迁移?(2)基于文本的长思维数据获得的能力是否可以与从多模态慢思考系统中提取的能力相媲美?具体来说,我们考虑收集先前研究共享的文本推理指令,以及通过从多模态慢思考系统中提取来生成视觉推理指令。按照这种方法,我们实现了一个多模态慢思考系统,表示为 Virgo(具有长思维的视觉推理)。我们选择了一个强大的 MLLM,Qwen2-VL-72B-Instruct,作为骨干模型,并使用不同的指令数据集来微调这个 MLLM。这种方法使我们能够检查在使用各种指令数据集进行训练时 MLLM 的推理性能。
为了研究我们提出的研究问题,我们对四个具有挑战性的基准进行了广泛的实验:MathVerse、MathVision、OlympiadBench 和 MMMU。我们的实证研究表明,即使仅使用基于文本的长思维数据,Virgo 也能取得非常有希望的结果,与商业推理系统相当甚至超过它们。另一个主要发现是,文本推理指令通常比多模态推理数据更有效地激发 MLLM 的慢思考能力。