关键词:深度学习、模型、多模态
引言
Qwen2.5-VL 是千问团队在 2025 年发布的一个多模态模型,具有三种尺寸:Qwen2.5-VL-72B、Qwen2.5-VL-7B、Qwen2.5-VL-3B。
Qwen2.5-VL 的贡献有四个方面:
- 在视觉编码器中实现了 窗口注意力机制,优化推理效率;
- 引入了 动态帧率采样,将动态分辨率扩展到时间维度,从而实现跨不同采样率的全面视频理解;
- 将 MRoPE 与绝对时间对齐,在时间域中对其进行了升级,从而促进更复杂的时间序列学习;
- 在为预训练和监督微调精心策划高质量数据方面付出了巨大努力,进一步将预训练语料库规模从120万亿标记扩展到410万亿标记。
Qwen2.5‑VL的突出特性如下:
- 强大的 文档解析能力 :Qwen2.5‑VL将文字识别升级为全文档解析,擅长处理多场景、多语言
以及各种内置(手写、表格、图表、化学公式和乐谱)文档。 - 跨格式精准物体定位 :Qwen2.5‑VL实现了检测、指向和计数物体时更精准的定位,支持绝对坐
标和JSON格式以进行高级空间推理。 - 超长视频理解和细粒度视频定位:我们的模型将原生动态分辨率扩展到时间维度,增强了理解数据的能力,
小时视频的能力,同时能提取秒级的事件片段。 - 增强的智能体功能(适用于计算机和移动设备):利用先进的定位、推理和决策能力,在智能手
机和计算机上为模型提供更优越的智能体功能。
Qwen2.5-VL 模型架构
Qwen2.5-VL 模型整体由三部分组成:大语言模型(LLM)、视觉编码器(Vision Encoder) 和基于 MLP 的 视觉语言合并器(Vision Language Merger)。
LLM
Qwen2.5‑VL 使用 Qwen2.5 LLM 的预训练权重进行初始化。并且为了更好地满足多模态理解的需求,将1D RoPE(旋转位置嵌入)修改为与绝对时间对齐的多模态旋转位置嵌入。
LLM 的配置:
| Configuration | Qwen2.5-VL-3B | Qwen2.5-VL-7B | Qwen2.5-VL-72B |
|---|---|---|---|
| Hidden Size | 2048 | 3,584 | 8192 |
| # Layers | 36 | 28 | 80 |
| # KVHeads | 2 | 4 | 8 |
| Head Size | 128 | 128 | 128 |
| Intermediate Size | 4864 | 18944 | 29568 |
| Embedding Tying | ✓ | ✗ | ✗ |
| Vocabulary Size | 151646 | 151646 | 151646 |
| # Trained Tokens | 4.1T | 4.1T | 4.1T |
Vision Language Merger
为了解决由长序列图像特征带来的效率挑战,所以特征序列输入 LLM 之前对其进行压缩,操作如下:
- 不直接使用由 ViT 提取的原始 Patch 特征,而是首先将空间上相邻的四个 Patch 特征进行分组;
- 将这些分组的特征进行拼接,并通过一个两层的 MLP 将其投影到与 LLM 中使用的 Text Embedding 维度相匹配的尺寸。
该方法不仅降低了计算成本,还提供了一种灵活的方式,可动态压缩不同长度的图像特征序列。
Vision Encoder
视觉编码器采用重新设计的 ViT 架构。在结构上,集成了2D‑RoPE 和窗口注意力机制,以支持原生输入分辨率,同时加速整个视觉编码器的计算。在训练和推理过程中,输入图像的高度和宽度都会被调整到 28 的倍数,然后再输入到 ViT 中。视觉编码器通过以 14 的步长将图像分割成块来处理图像,生成一组图像特征。
ViT 的配置:
| Configuration | Qwen2.5-VL-3B | Qwen2.5-VL-7B | Qwen2.5-VL-72B |
|---|---|---|---|
| Hidden Size | 1280 | 1280 | 1280 |
| # Layers | 32 | 32 | 32 |
| # NumHeads | 16 | 16 | 16 |
| Intermediate Size | 3456 | 3456 | 3456 |
| Patch Size | 14 | 14 | 14 |
| Window Size | 112 | 112 | 112 |
| Full Attention Block Indexes | {7,15,23,31} | {7,15,23,31} | {7,15,23,31} |
