🌟 引言:从香农的猜测到视频的未来
1951年,信息论之父克劳德·香农提出了一个“猜词游戏”,以此估算英语的熵值。这一想法后来成为了现代自然语言处理的基础。七十年后,Transformer 模型的诞生(Vaswani et al., 2017)让这种“猜词”的任务成为了大型语言模型的核心(如 GPT-3)。然而,鲜为人知的是,早在1954年,Fred Attneave 提出了一个类似的猜测任务,用于图像。他设想将图像分解为小元素,并逐步预测每个元素的颜色。
如今,随着视频数据的爆炸式增长,研究者们开始将这种“猜测”的任务扩展到视频领域。本文的主角——名为 Toto 的自回归视频模型家族,正是这一领域的最新尝试。研究者们将视频视为视觉标记(visual tokens)的序列,利用 Transformer 模型进行下一标记预测任务。其核心思想是通过自回归预训练,从视频和图像中提取强大的视觉表示,并将这些表示应用于图像分类、视频分类、目标跟踪等多种下游任务。
接下来,我们将深入探讨 Toto 模型的具体实现细节,揭示其背后的算法设计与技术创新。
🧩 核心算法:从视频到标记的自回归预训练
1. 标记化:从像素到视觉语言
在 Toto 的实现中,视频和图像首先被转化为离散的视觉标记(tokens)。这一过程的核心是使用 dVAE(differentiable Variational Autoencoder)(Ramesh et al., 2021)作为标记器,将每帧图像分解为 16 \times 16 的标记网格。具体步骤如下:
- 帧预处理:将视频帧调整到固定分辨率(如 128 \times 128),并裁剪为正方形。
- 标记生成:使用 dVAE 将每帧图像编码为 16 \times 16 的离散标记,每个标记对应一个视觉词汇表中的条目(词汇表大小为 8k)。
- 序列化:将每帧的标记展平为一维序列,并按照时间顺序拼接,形成视频的标记序列。
这一过程的结果是,每个视频帧被编码为 256 个离散标记,而整个视频被表示为一个长达 4096 个标记的序列。
2. 自回归建模:预测下一个标记
Toto 的核心任务是通过自回归方式预测下一个标记。其目标是最大化标记序列的条件概率:
p(x) = \prod_{i=1}^n p(x_i | x_1, x_2, ..., x_{i-1}; \theta)
其中,\theta 是模型参数,x_i 是序列中的第 i 个标记。为了优化这一目标,研究者使用了负对数似然损失函数:
L_{\text{pre-train}} = - \mathbb{E}_{x \sim X} \log p(x)
在具体实现中,Toto 使用了基于 LLaMA 架构(Touvron et al., 2023)的因果 Transformer 模型。每个标记的预测依赖于其之前的所有标记,模型通过多头自注意力机制捕获序列中的长程依赖关系。
🔍 模型架构:从基础到大规模的设计
Toto 的架构设计充分借鉴了语言模型的成功经验,同时针对视觉数据的特点进行了优化。以下是 Toto 模型的关键组成部分:
1. Transformer 基础架构
Toto 的核心是一个标准的 Transformer 模型,具体包括以下组件:
- 多头自注意力(MHSA):捕获标记之间的全局依赖关系。
- RMSNorm:在每层的输入上应用归一化。
- SwiGLU 激活函数:提高非线性表达能力。
- RoPE(旋转位置编码):为标记引入相对位置信息,特别适用于高分辨率数据。
模型的每一层可以表示为以下公式:
H_{l+1} = H_l + \text{MHSA}(\text{RMSNorm}(H_l)) + \text{MLP}(\text{RMSNorm}(H_l))
其中,H_l 是第 l 层的中间表示,MLP 是多层感知机。
2. 多尺度模型
为了适应不同的计算资源和任务需求,Toto 提供了多种规模的模型,包括:
模型 | 参数量 | 隐藏维度 | 注意力头数 | 层数 |
Base | 120M | 768 | 12 | 12 |
Large | 280M | 1024 | 16 | 16 |
1B | 1.1B | 2048 | 16 | 22 |
这些模型均使用 AdamW 优化器进行训练,学习率采用余弦退火策略。
📊 数据与训练:从海量视频中学习
1. 数据集构建
Toto 的预训练数据集涵盖了超过 100,000 小时的视频和 1 万亿个视觉标记,来源包括:
- ImageNet:图像分类的经典数据集。
- Kinetics-600:动作识别视频。
- Ego4D:第一人称视角视频。
- HowTo100M:包含教程视频的大规模数据集。
这些数据集以不同的比例混合,每个训练批次中约 60% 的数据来自 HowTo100M。
2. 训练过程
Toto 的训练分为两个阶段:
- 低分辨率预训练:模型首先在低分辨率(如 128 \times 128)上进行训练,以加速收敛。
- 高分辨率微调:通过 RoPE 位置编码,模型能够快速适应更高分辨率(如 256 \times 256)的数据。
研究发现,这种分阶段训练策略不仅提高了性能,还显著降低了计算成本。
🛠️ 实验与评估:从图像到机器人控制
1. 图像分类
在 ImageNet 上,Toto 的表现优于许多早期的自回归模型。例如,Toto-1B 在线性探测任务中的 Top-1 准确率达到 75.3%,显著超过了 iGPT 的 65.2%。
2. 视频分类与预测
在 Kinetics-400 动作识别任务中,Toto-1B 的 Top-1 准确率为 74.4%,首次展示了自回归生成模型在视频分类中的竞争力。
此外,在 Ego4D 的动作预测任务中,Toto 通过结合自监督损失和任务相关损失,实现了领先的性能。
3. 目标跟踪与机器人控制
Toto 的视觉表示还被应用于目标跟踪和机器人控制任务。在 DAVIS 数据集上的实验表明,Toto 的特征能够有效地传播目标标签。在机器人控制任务中,Toto 的预训练表示显著提高了强化学习的样本效率。
🚀 未来展望与挑战
尽管 Toto 展示了自回归预训练的巨大潜力,但仍存在一些挑战:
- 数据冗余:视频帧之间的冗余可能限制模型的学习效率。
- 标记器的局限性:当前的标记器(如 dVAE)对生成质量的提升存在瓶颈。
- 任务泛化性:模型在密集预测和复杂时间动态任务上的表现仍需进一步探索。
未来的研究可以尝试开发更高效的标记器,或探索新的训练目标,以进一步提升自回归模型的表现。
📚 结论
Toto 模型的研究表明,自回归预训练不仅适用于语言和图像,还可以在视频领域取得令人瞩目的成果。通过将视频视为视觉标记的序列,Toto 实现了从图像分类到机器人控制的广泛应用。这一工作为未来的视频理解研究提供了重要的启示,也为构建通用视觉模型铺平了道路。
参考文献
- Vaswani, A., et al. (2017). Attention is All You Need.
- Ramesh, A., et al. (2021). Zero-Shot Text-to-Image Generation.
- Touvron, H., et al. (2023). LLaMA: Open and Efficient Foundation Language Models.
- Carreira, J., et al. (2019). A Short Note on the Kinetics-600 Dataset.
- Grauman, K., et al. (2022). Ego4D: Around the World in 3,000 Hours of First-Person Video.