Virgo：复现类似 o1 的多模态大语言模型的初步探索

步子哥

1. 多视角问题及专家解答

1.1 Virgo 模型的核心目标是什么？

答：Virgo 模型的核心目标是探索如何构建具备类似 OpenAI o1 的“慢思考”能力的多模态大语言模型 (MLLM)。它尝试通过微调一个已有的MLLM (Qwen2-VL-72B-Instruct)，使其能够在进行视觉推理任务时，展现出类似 o1 模型的长推理链能力。

1.2 文章提出了哪两种方法来实现慢思考能力的迁移？

答：文章提出了两种方法：（1）使用纯文本的长推理链数据进行微调，将慢思考能力从文本模态迁移到多模态；（2）从已有的慢思考 MLLM (例如 QVQ) 中蒸馏出多模态长推理链数据，并用其进行微调。

1.3 为什么选择 Qwen2-VL-72B-Instruct 作为基础模型？

答：选择 Qwen2-VL-72B-Instruct 是因为它具备强大的多模态能力，并且之前的研究表明，更强大的模型更容易获得慢思考能力。

1.4 文本长推理链数据是如何收集的？

答：文本长推理链数据是从之前的研究中收集的，主要来自 DeepSeek-R1-Lite-Preview 和 QwQ-32B-preview 两个开源慢思考推理系统，涵盖数学、科学、代码和谜题等领域，其中数学领域的数据最多。

1.5 视觉长推理链数据是如何构建的？

答：视觉长推理链数据是通过从现有的慢思考 MLLM (QVQ) 中蒸馏，或利用经过文本长推理链数据微调的 MLLM 自蒸馏获得的。数据来源包括 LLaVA-OneVision 数据集中的几何、表格、图表和对象等领域的数据集。

1.6 实验在哪些基准数据集上进行？主要结果如何？

答：实验在 MathVerse、MathVision、OlympiadBench 和 MMMU 四个基准数据集上进行。结果表明，仅使用纯文本的长推理链数据微调，Virgo 模型就取得了非常有竞争力的结果，甚至超过了一些商业推理系统。然而，视觉长推理链数据并没有显著提升性能。

1.7 文章发现了哪些重要的结论？

答：文章的主要结论包括：（1）慢思考能力可以通过纯文本推理数据跨模态迁移；（2）文本推理指令在激发 MLLM 的慢思考能力方面通常比多模态推理数据更有效；（3）更难的任务从长推理链中受益更多；（4）并非所有视觉问题都需要复杂的推理过程，强制进行较长的推理过程可能会导致 MLLM 性能下降。

Virgo：复现类似 o1 的多模态大语言模型的初步探索

摘要: 近期，“慢思考”推理系统在大型语言模型 (LLM) 领域引起了广泛关注，其核心思想是通过延长推理时间来提升模型的推理能力。将这种能力迁移到多模态大语言模型 (MLLM) 也成为了一个重要的研究方向。由于 MLLM 需要处理跨不同模态的复杂数据语义，实现多模态慢思考系统更加具有挑战性。本文探索了一种简单有效的方法，通过使用少量文本长推理链数据微调一个强大的 MLLM，构建了一个名为 Virgo（Visual reasoning with long thought）的多模态慢思考系统。我们发现，以自然语言表达的长推理过程可以有效地迁移到 MLLM 中。此外，文本推理数据在激发 MLLM 慢思考能力方面似乎比视觉推理数据更有效。尽管这项工作尚处于初步阶段，但它证明了慢思考能力与语言模型组件之间存在根本联系，并且这种能力可以跨模态或跨领域迁移。这一发现可以指导更强大的慢思考推理系统的开发。

一、引言

近年来，“慢思考”推理系统 (例如 OpenAI o1、DeepSeek R1 和 Qwen QwQ) 在各种基准测试中展现出显著的性能提升，尤其是在先前大型语言模型 (LLM) 表现不佳的难题上。这些系统通过训练和测试阶段的扩展来提高解决复杂任务的准确性和能力，通常涉及在得出最终解决方案之前进行称为“思考”的扩展推理过程。虽然这些系统主要关注文本问题，但最新的进展也显示了在多模态场景中的良好结果（例如 QVQ）。

尽管商业公司尚未公开创建慢思考系统的底层技术，但研究人员已在推进该领域的公共技术方面做出了重大努力。文献表明，实现慢思考推理系统有两种典型方法。第一种方法是利用显式搜索结构（例如蒙特卡洛树搜索），并使用经过专门训练的奖励模型来引导搜索过程走向正确的路径。第二种方法包括以长思维链 (CoT) 的形式提取或构建指令数据，然后微调一个强大的 LLM 来学习这种推理模式。可以使用诸如直接偏好优化和强化学习之类的自我改进或自我博弈方法来进一步增强此方法。

这些研究的一个主要局限性是它们主要关注文本任务，而对多模态场景的考虑相对较少。据我们所知，开发多模态推理系统的现有工作仍然远远落后于 o1 和 QVQ 等商业系统。本文旨在探索多模态慢思考推理系统的实现，使其性能可以与这些商业系统相媲美。与基于文本的推理系统不同，多模态推理系统（即多模态 LLM 或 MLLM）通常同时利用感知能力（即理解输入图形的视觉语义）和推理能力（即确定解决给定任务的方法）。因此，目前尚不清楚慢思考如何在多模态输入上运作。

总的来说，我们认为开发多模态慢思考推理系统是一项重大挑战，因为它涉及解决多模态任务中固有的复杂数据和建模机制。考虑到这一挑战，我们旨在探索一个简单的想法来实现多模态推理系统：我们可以通过使用基于文本的长思维数据对其进行微调来直接调整 MLLM 吗？其直觉是，由于推理主要由 MLLM 内的 LLM 组件处理，我们或许能够使用纯文本指令来激发其慢思考能力。事实上，越来越多的证据表明，通过利用更广泛的纯文本指令可以增强 MLLM 的能力。

在本文中，我们设计了一种简单的方法，通过利用基于文本的长思维数据来增强 MLLM 的慢思考能力。我们的主要重点是研究两个关键问题：（1）慢思考能力是否可以通过使用基于文本的长思维数据进行微调来跨模态迁移？（2）基于文本的长思维数据获得的能力是否可以与从多模态慢思考系统中提取的能力相媲美？具体来说，我们考虑收集先前研究共享的文本推理指令，以及通过从多模态慢思考系统中提取来生成视觉推理指令。按照这种方法，我们实现了一个多模态慢思考系统，表示为 Virgo（具有长思维的视觉推理）。我们选择了一个强大的 MLLM，Qwen2-VL-72B-Instruct，作为骨干模型，并使用不同的指令数据集来微调这个 MLLM。这种方法使我们能够检查在使用各种指令数据集进行训练时 MLLM 的推理性能。

为了研究我们提出的研究问题，我们对四个具有挑战性的基准进行了广泛的实验：MathVerse、MathVision、OlympiadBench 和 MMMU。我们的实证研究表明，即使仅使用基于文本的长思维数据，Virgo 也能取得非常有希望的结果，与商业推理系统相当甚至超过它们。另一个主要发现是，文本推理指令通常比多模态推理数据更有效地激发 MLLM 的慢思考能力。

步子哥

二、相关工作

慢思考推理系统： 近年来，慢思考推理系统展现出强大的推理能力。例如，OpenAI 的 o1 模型、DeepSeek 的 R1 模型以及 Qwen 的 QwQ 模型都采用了“慢思考”策略，通过引入中间推理步骤，显著提高了在复杂问题上的求解性能。这些模型通常采用强化学习或模仿学习等方法进行训练，并结合搜索算法进行推理。

多模态大语言模型： MLLM 结合了语言和视觉模态，能够理解和处理图像、文本等多模态信息。一些具有代表性的 MLLM 包括 LLaVA, MiniGPT-4, BLIP-2 等。这些模型在图像描述生成、视觉问答等任务上取得了显著进展，但其推理能力仍有待提高。

知识蒸馏： 知识蒸馏是一种将知识从一个大型模型（教师模型）迁移到一个小型模型（学生模型）的技术。在本文中，我们利用知识蒸馏技术从已有的慢思考 MLLM 中提取视觉推理数据，用于训练 Virgo 模型。

三、方法

A. 文本长推理链数据迁移

数据收集: 我们从之前的研究 [18] 中收集了大约 5k 个文本长推理链指令实例，这些数据来自 DeepSeek-R1-Lite-Preview 和 QwQ-32B-preview 两个开源慢思考推理系统。数据涵盖数学、科学、代码和谜题等多个领域，其中数学领域的数据最多。
模型微调: 我们使用收集到的文本长推理链数据对 Qwen2-VL-72B-Instruct 模型进行微调。在微调过程中，我们采用交叉熵损失函数，并使用 AdamW 优化器。

B. 视觉长推理链数据蒸馏

数据收集与构建: 我们主要从两个来源收集视觉长推理链数据：
- 从 QVQ 中蒸馏: 我们使用 QVQ 模型对 LLaVA-OneVision 数据集中的几何、表格、图表和对象等领域的数据进行推理，并提取其推理过程作为视觉长推理链数据。
- 自蒸馏: 我们使用经过文本长推理链数据微调的 Virgo 模型对 LLaVA-OneVision 数据集进行推理，并提取其推理过程作为视觉长推理链数据。
模型微调: 我们使用收集到的视觉长推理链数据对 Qwen2-VL-72B-Instruct 模型进行微调，微调过程与文本数据迁移类似。

C. 多阶段微调策略: 我们采用多阶段微调策略，先使用文本长推理链数据进行微调，然后再使用视觉长推理链数据进行微调，以期获得更好的性能。

四、实验

A. 实验设置: 我们在 MathVerse、MathVision、OlympiadBench 和 MMMU 四个基准数据集上评估 Virgo 模型的性能。我们使用准确率作为评估指标。

B. 主要结果: 实验结果表明，即使只使用文本长推理链数据进行微调，Virgo 模型在四个基准数据集上都取得了非常有竞争力的结果，甚至超过了一些商业推理系统。与使用视觉长推理链数据微调的模型相比，使用文本长推理链数据微调的模型性能更好。

C. 进一步分析: 我们进一步分析了不同难度任务上的表现以及推理链长度的影响。结果表明，更难的任务从长推理链中受益更多。对于一些简单的视觉问题，强制进行较长的推理过程反而可能会导致性能下降。

五、讨论

A. 文本数据迁移的有效性分析: 我们认为，文本数据迁移的有效性主要是因为慢思考能力与语言模型组件之间存在根本联系。通过文本长推理链数据，MLLM 可以学习到更有效的推理模式，从而提高其在多模态任务上的推理能力。

B. 视觉数据蒸馏的局限性分析: 视觉数据蒸馏的局限性可能在于当前 MLLM 的视觉理解能力仍然有限，导致提取的视觉推理数据质量不高。

C. 未来研究方向: 未来的研究方向包括探索更有效的视觉推理数据构建方法，以及研究如何更好地结合文本和视觉信息进行推理。

六、结论

本文提出了 Virgo 模型，一种通过文本长推理链数据迁移实现慢思考能力的 MLLM。实验结果表明，该方法能够有效提高 MLLM 在多模态推理任务上的性能。未来的研究将集中于探索更有效的视觉推理数据构建方法，以及研究如何更好地结合文本和视觉信息进行推理。

步子哥

🌌 慢思考的力量：探索 Virgo 系统的多模态推理之道

在人工智能的浩瀚星海中，慢思考（slow-thinking）系统如同一颗冉冉升起的新星，正在重新定义大模型推理的边界。近年来，基于大语言模型（LLMs）的慢思考推理系统因其在复杂问题上的卓越表现而备受瞩目。然而，当慢思考从单一的文本领域扩展到多模态领域时，挑战骤增。今天，我们聚焦于一项开创性的研究——Virgo，一个致力于多模态慢思考推理的系统，它通过巧妙的算法设计和精细的模型调优，探索了如何让多模态大模型（MLLMs）具备如同人类般的深度思考能力。

🌟 慢思考的崛起：从文本到多模态的跨越

慢思考推理系统的核心理念是通过延长推理时间，逐步构建复杂问题的解决路径。这种方法在文本领域已经取得了显著成果，例如 OpenAI 的 o1 和 DeepSeek R1 系统。然而，多模态推理系统需要同时处理视觉和文本信息，这使得推理过程更加复杂。传统的多模态模型通常依赖于感知能力（如理解图像的语义）和推理能力（如解决问题的逻辑路径）。但如何将慢思考能力迁移到多模态领域，仍然是一个未解的谜题。

Virgo 的核心创新在于：通过对现有多模态大模型（如 Qwen2-VL-72B-Instruct）进行微调，利用文本长链推理数据（long thought data）来激发模型的慢思考能力。研究表明，推理能力主要由模型的语言部分驱动，因此即使是纯文本数据，也可以有效地提升多模态模型的推理表现。

🛠️ 算法实现：Virgo 的慢思考之路

Virgo 的实现分为两个主要阶段：基于文本的慢思考能力迁移和多模态长链推理数据的蒸馏。接下来，我们将深入探讨每个阶段的具体实现细节。

✍️ 第一阶段：文本长链推理数据的迁移

1. 数据收集与处理

为了让模型掌握慢思考能力，研究团队收集了约 5,000 条文本长链推理指令数据。这些数据主要来源于两个开源慢思考系统：DeepSeek-R1-Lite-Preview 和 QwQ-32B-preview，涵盖了数学、科学、代码和谜题等多个领域。其中，数学领域占据了大多数，因为数学问题通常需要更长的推理过程。

每条指令数据被格式化为两个部分：

推理过程：用特殊符号 <|begin_of_thought|> 和 <|end_of_thought|> 标记。
最终解答：用 <|begin_of_solution|> 和 <|end_of_solution|> 标记。

这种清晰的格式化方式不仅便于模型学习，还能帮助模型区分推理过程和最终答案。

2. 模型微调

在微调阶段，研究团队选择了 Qwen2-VL-72B-Instruct 作为基础模型。微调的目标是优化模型的语言部分和跨模态连接器（cross-modal connector），而视觉编码器的参数则保持冻结状态。这种策略的好处是可以专注于提升模型的推理能力，而不会干扰其已有的感知能力。

具体的优化设置如下：

学习率：$7 \times 10^{-6}$
批量大小：128
训练轮数：10
模型选择：基于开发集表现，选取第 5 轮的模型用于评估。

值得注意的是，研究团队并未使用更复杂的训练算法（如直接偏好优化 DPO 或强化学习 RLHF），而是采用了简单的模仿学习方法。这种方法的目的是探索文本长链推理数据在慢思考能力迁移中的潜力。

🖼️ 第二阶段：多模态长链推理数据的蒸馏

1. 数据构建

为了生成多模态长链推理数据，研究团队从多个视觉问题数据集中挑选了高质量的样本。这些数据集包括几何、表格、图表和物体领域的经典数据集，例如 GeoQA+、FigureQA 和 CLEVR。每个样本都包含问题描述、图像和答案三部分。

在数据生成过程中，团队采用了两种方法：

外部蒸馏：从现有的慢思考多模态模型（如 QVQ）中提取推理过程。
自蒸馏：利用已经微调过文本长链推理数据的 Virgo 模型生成推理过程。

2. 数据过滤与优化

为了确保数据质量，团队对生成的推理过程进行了严格筛选，仅保留那些能够在合理次数内成功解答的问题。对于更复杂的问题，团队采用多次采样的方法生成候选推理路径，并选取最优路径进行训练。

3. 模型微调

在微调阶段，团队采用了与文本数据相同的策略，仅更新模型的语言部分和跨模态连接器参数。实验结果表明，即使视觉数据中包含图像信息，更新视觉编码器的参数对性能提升的影响也非常有限。

此外，团队还设计了一种多阶段微调方法：

首先使用文本长链推理数据微调模型，得到初始模型 $M_0$。
利用 $M_0$ 生成视觉长链推理数据，并进一步微调原始模型。

这种方法通过自蒸馏的方式，将文本推理能力逐步扩展到多模态领域。

📊 实验与分析：Virgo 的性能表现

1. 实验设置

研究团队在四个具有挑战性的基准数据集上对 Virgo 进行了全面评估：

MathVerse：多学科数学问题。
MathVision：数学竞赛问题。
OlympiadBench：奥林匹克级别的数学与物理问题。
MMMU：涵盖 30 个学科的综合性问题。

评估指标包括准确率和推理路径的质量。团队将 Virgo 的表现与多个行业领先的模型（如 OpenAI o1 和 QVQ）进行了对比。

2. 实验结果

实验结果显示，Virgo 在使用仅 5,000 条文本长链推理数据微调后，已经能够在多个基准数据集上达到甚至超越商业系统的表现。例如：

在 MathVision 上，Virgo 的准确率达到 38.8%，超过了 QVQ 的 35.9%。
在 OlympiadBench 上，Virgo 的准确率为 29.9%，显著高于基础模型的 11.2%。

此外，研究还发现：

文本推理数据比视觉推理数据更有效地激发了模型的慢思考能力。
在更复杂的任务（如 OlympiadBench）中，长链推理数据的效果尤为显著。

🧠 深入思考：慢思考的未来方向

尽管 Virgo 已经展示了令人瞩目的性能，但研究团队也指出了一些需要改进的方向。例如，当前的视觉推理数据质量仍有待提升，尤其是在生成高质量、复杂推理路径方面。此外，模型在感知结果上的反思能力较弱，这可能导致推理过程中的错误累积。

未来的研究可以尝试：

设计更复杂的视觉问题，并生成更高质量的推理路径。
引入多模态反思机制，让模型能够同时反思感知结果和推理过程。

🔗 结语：慢思考的启示

Virgo 的研究表明，慢思考能力不仅可以通过文本数据迁移到多模态领域，还可以显著提升模型在复杂任务上的表现。这一发现为多模态推理系统的设计提供了新的思路，也为 AI 在教育、科学和工程等领域的应用打开了新的大门。

正如研究团队所言，这仅仅是一个开始。未来，随着更多挑战性数据和创新算法的引入，慢思考系统必将在多模态领域绽放更耀眼的光芒。

📚 参考文献

Yifan Du et al., "Virgo: A Preliminary Exploration on Reproducing o1-like MLLM," arXiv:2501.01904v1, 2025.
DeepSeek R1-Lite-Preview, https://github.com/DeepSeek.
QwQ-32B-preview, https://github.com/QwQ-model.

步子哥

Virgo是一种旨在提升多模态大语言模型 (MLLM) 慢思考推理能力的方法。其核心思想是将慢思考能力通过微调的方式迁移到MLLM中，并探索文本推理数据和视觉推理数据的有效性。

方法核心:

Virgo主要探索两种方法来赋予MLLM慢思考能力：

基于纯文本指令的能力迁移: 利用已有的文本长程思考数据微调MLLM，验证慢思考能力能否跨模态迁移。
- 数据收集: 从DeepSeek-R1-Lite-Preview (R1) 和 QwQ-32B-preview (QwQ) 等开源慢思考推理系统中收集约5k条文本长程思考指令数据，主要涵盖数学、科学、代码和谜题等领域，其中数学领域数据占比最大。数据格式包含以<|begin_of_thought|> 和 <|end_of_thought|>标记的思考过程，以及以<|begin_of_solution|> 和 <|end_of_solution|>标记的最终答案。
- 微调: 选择Qwen2-VL-72B-Instruct作为目标MLLM，冻结视觉编码器参数，仅训练LLM和跨模态连接器的参数。采用7e-6的学习率、128的批量大小，训练10个epoch，并选择第5个epoch的模型进行评估。没有使用更高级的训练算法（如DPO和RLHF），旨在探索通过简单微调迁移慢思考能力的潜力。
从慢思考MLLM中蒸馏能力: 直接从现有的慢思考MLLM（例如QVQ）中蒸馏多模态长程思考数据。
- 视觉长程思考数据收集: 从LLaVA-OneVision数据集中选择几何、表格、图表和物体等领域的视觉问答数据集，包括Geos、GeoQA+、Geometry3K、UniGeo、TabMWP、FigureQA、ChartQA和CLEVR等，构建包含问题描述、图像和参考答案的数据集。使用QVQ和微调后的MLLM（使用文本长程思考数据微调）通过 rollout 方法生成推理过程，并过滤掉无法在合理 rollout 次数内解决的问题。
- 微调: 与文本长程思考数据微调类似，仅微调LLM和模态连接器的参数。实验表明，更新视觉编码器并不能显著提升性能。此外，还设计了一种多阶段微调方法用于自蒸馏：首先使用文本长程思考数据集 DT 微调 MLLM 得到模型 M0，然后使用 M0 自蒸馏生成视觉长程思考数据集 DSD，再用 DSD 微调原始 MLLM。

实验:

在 MathVerse、MathVision、OlympiadBench 和 MMMU 四个基准数据集上进行实验，与 OpenAI o1、QVQ-72B-preview、GPT-4o、Gemini-Pro 和 Claude-3.5-Sonnet 等模型进行比较。

主要发现:

使用纯文本推理数据即可有效迁移慢思考能力，且效果与甚至优于一些商业模型。
无论是通过蒸馏还是自蒸馏获得的视觉指令，在微调MLLM时，其效果并不显著优于文本推理指令。
更难的任务从长程思考推理中获益更多。
更长的推理过程并不一定保证更好的结果。
文本推理指令的领域分布对性能有影响。

核心结论:

Virgo证明了慢思考能力可以通过文本数据跨模态迁移到MLLM中，并且文本推理数据在激发MLLM的慢思考能力方面通常比多模态推理数据更有效。这为更强大的慢思考推理系统的开发提供了指导。