Qwen2.5-VL 技术报告粗读

关键词：深度学习、模型、多模态

引言

Qwen2.5-VL 是千问团队在 2025 年发布的一个多模态模型，具有三种尺寸：Qwen2.5-VL-72B、Qwen2.5-VL-7B、Qwen2.5-VL-3B。

Qwen2.5-VL 的贡献有四个方面：

在视觉编码器中实现了 窗口注意力机制，优化推理效率；
引入了 动态帧率采样，将动态分辨率扩展到时间维度，从而实现跨不同采样率的全面视频理解；
将 MRoPE 与绝对时间对齐，在时间域中对其进行了升级，从而促进更复杂的时间序列学习；
在为预训练和监督微调精心策划高质量数据方面付出了巨大努力，进一步将预训练语料库规模从120万亿标记扩展到410万亿标记。

Qwen2.5‑VL的突出特性如下：

强大的 文档解析能力 ：Qwen2.5‑VL将文字识别升级为全文档解析，擅长处理多场景、多语言
以及各种内置（手写、表格、图表、化学公式和乐谱）文档。
跨格式精准物体定位 ：Qwen2.5‑VL实现了检测、指向和计数物体时更精准的定位，支持绝对坐
标和JSON格式以进行高级空间推理。
超长视频理解和细粒度视频定位：我们的模型将原生动态分辨率扩展到时间维度，增强了理解数据的能力，
小时视频的能力，同时能提取秒级的事件片段。
增强的智能体功能（适用于计算机和移动设备）：利用先进的定位、推理和决策能力，在智能手
机和计算机上为模型提供更优越的智能体功能。

Qwen2.5-VL 模型架构

Qwen2.5-VL 模型整体由三部分组成：大语言模型（LLM）、视觉编码器（Vision Encoder）和基于 MLP 的视觉语言合并器（Vision Language Merger）。

LLM

Qwen2.5‑VL 使用 Qwen2.5 LLM 的预训练权重进行初始化。并且为了更好地满足多模态理解的需求，将1D RoPE（旋转位置嵌入）修改为与绝对时间对齐的多模态旋转位置嵌入。

LLM 的配置：

Configuration	Qwen2.5-VL-3B	Qwen2.5-VL-7B	Qwen2.5-VL-72B
Hidden Size	2048	3,584	8192
# Layers	36	28	80
# KVHeads	2	4	8
Head Size	128	128	128
Intermediate Size	4864	18944	29568
Embedding Tying	✓	✗	✗
Vocabulary Size	151646	151646	151646
# Trained Tokens	4.1T	4.1T	4.1T

Vision Language Merger

为了解决由长序列图像特征带来的效率挑战，所以特征序列输入 LLM 之前对其进行压缩，操作如下：

不直接使用由 ViT 提取的原始 Patch 特征，而是首先将空间上相邻的四个 Patch 特征进行分组；
将这些分组的特征进行拼接，并通过一个两层的 MLP 将其投影到与 LLM 中使用的 Text Embedding 维度相匹配的尺寸。

该方法不仅降低了计算成本，还提供了一种灵活的方式，可动态压缩不同长度的图像特征序列。

Vision Encoder

视觉编码器采用重新设计的 ViT 架构。在结构上，集成了2D‑RoPE 和窗口注意力机制，以支持原生输入分辨率，同时加速整个视觉编码器的计算。在训练和推理过程中，输入图像的高度和宽度都会被调整到 28 的倍数，然后再输入到 ViT 中。视觉编码器通过以 14 的步长将图像分割成块来处理图像，生成一组图像特征。

ViT 的配置：

Configuration	Qwen2.5-VL-3B	Qwen2.5-VL-7B	Qwen2.5-VL-72B
Hidden Size	1280	1280	1280
# Layers	32	32	32
# NumHeads	16	16	16
Intermediate Size	3456	3456	3456
Patch Size	14	14	14
Window Size	112	112	112
Full Attention Block Indexes	{7,15,23,31}	{7,15,23,31}	{7,15,23,31}

qwen2.5-vl-architecture

References

Qwen2.5-VL Technical Report. arXiv:2502.13923