Qwen-VL：阿里巴巴全能的视觉语言模型超越了 GPT-4V

Name: Jennie Rose

Published on 2024/4/30

深入了解 Qwen-VL，阿里巴巴强大的视觉语言模型，在各种基准测试中超越了 GPT-4V 和其他模型，并提供了在本地运行它的指南。

阿里巴巴最近推出了 Qwen-VL，这是一系列的大规模视觉语言模型（LVLM），旨在感知和理解文本和图像。基于 Qwen-LM 的基础上，Qwen-VL 通过精心设计的视觉感知模块、输入输出接口、三阶段训练流程和多语言多模态清洗语料库赋予了视觉能力。

想要了解最新的 LLM 新闻吗？请查看最新的 LLM 排行榜！

Qwen-VL 的关键特性和能力

Qwen-VL 接受图像、文本和边界框作为输入，并输出文本和边界框。它支持英语、中文和其他语言的多语言对话，并可以处理对话中的多个图像。Qwen-VL 还支持高分辨率图像，可达到数百万像素和各种长宽比。

该模型展示了强大的视觉推理、文本识别和少样本学习能力。它可以精确识别和描述图像中的各种元素，提供详细的背景信息，回答问题，并分析复杂的视觉内容。Qwen-VL 在问题解决和推理任务中也表现出色，包括数学问题解决和对图表的深入解读。

Qwen-VL 最突出的特点之一是其能够进行多模态对话。用户可以提供文本和图像的组合作为输入，模型将根据对话的上下文生成相关的回应。这使得人类和人工智能之间的交互更加自然和直观，因为模型不仅可以理解和回应文字提示，还可以理解和回应视觉提示。

Qwen-VL 的多语言支持是另一个重要优势。该模型经过在多种语言的多样性语料库上的训练，使其能够理解并生成英语、中文等多种语言的回应。这使得 Qwen-VL 成为跨文化沟通和全球应用的宝贵工具。

基准性能

Qwen-VL 在各种基准测试中取得了令人印象深刻的成果，超越了现有的开源大规模视觉语言模型（LVLM），甚至与更大的模型如 GPT-4V 和 Gemini Ultra 相媲美。

在 VQAv2、OKVQA 和 GQA 的基准测试中，Qwen-VL 分别实现了 79.5%、58.6% 和 59.3% 的准确率，超过了最近的 LVLM。Qwen-VL-Max 在各种多模态任务上与 Gemini Ultra 和 GPT-4V 的性能相当，而 Qwen-VL-Plus 和 Qwen-VL-Max 显著优于开源模型以前的最佳结果。

Model	DocVQA	ChartQA	TextVQA	MMMU	MM-Bench-CN
Gemini Pro	88.1%	74.1%	74.6%	45.2%	74.3%
Gemini Ultra	90.9%	80.8%	82.3%	53.0%	-
GPT-4V	88.4%	78.5%	78.0%	49.9%	73.9%
Qwen-VL-Plus	91.4%	78.1%	78.9%	43.3%	68.0%
Qwen-VL-Max	93.1%	79.8%	79.5%	51.0%	75.1%

值得注意的是，Qwen-VL-Max 在涉及中文问题回答和中文文本理解的任务中超越了来自 OpenAI 的 GPT-4V 和来自 Google 的 Gemini。这突显了该模型在处理中文语言任务方面的强大性能，使其成为面向中文使用者的应用程序的有价值资源。

除了上述提到的基准测试，Qwen-VL 在其他任务中也展现了令人印象深刻的结果，如图像字幕、视觉对齐和视觉推理。例如，在用于图像字幕的 Flickr30k 数据集上，Qwen-VL 的 BLEU-4 分数达到了 41.2，超过了以前最先进的模型。

在用于视觉对齐的 RefCOCO 数据集上，Qwen-VL 的准确率达到了 87.5%，大大优于现有模型。这展示了该模型根据文本描述能够准确地定位和识别图像中的对象。

此外，Qwen-VL 在视觉推理任务（如 NLVR2 数据集）上表现出色，该任务要求模型根据提供的图像确定陈述的真实性。Qwen-VL 在此任务中取得了 85.7% 的准确率，证明了它在推理图像中对象和属性之间关系方面的能力。

这些基准测试结果突显了 Qwen-VL 在广泛的视觉语言任务中的多功能性和鲁棒性。该模型在英语和中文任务上表现出色，同时在多模态基准测试中的强大性能，使其与其他视觉语言模型区别开来，并使其成为各种应用的强大工具。

在本地运行 Qwen-VL

要在本地运行 Qwen-VL，可以使用 Ollama 平台。以下是一步一步的指南：

在设备上安装 Ollama：
```
pip install ollama
```
选择要运行的 Qwen-VL 模型大小（0.5B 到 72B 可用）：
```
ollama run qwen:7b
```
或者，您可以使用自己的 Qwen-VL 模型的 GGUF 文件运行 Ollama：
```
ollama run path/to/your/model.gguf
```

以下是使用 Python 与 Qwen-VL 进行交互的示例代码片段：

from qwen_vl import QwenVL
 
model = QwenVL("qwen-vl-7b")
 
# 与 Qwen 进行问候，没有对话历史记录

使用qwen_vl模块中的QwenVL类后，我们首先导入QwenVL类。然后通过指定所需的模型大小（如“qwen-vl-7b”）来实例化一个Qwen-VL模型。

要与模型互动，我们使用chat方法，它接受tokenizer、文本提示、可选的图像路径和对话历史作为参数。模型根据提供的输入生成响应，并返回响应以及更新后的对话历史。

我们可以通过打招呼的方式开始对话，而无需先前的历史记录。模型将根据打招呼生成响应。然后，我们可以传递对话历史以在后续互动中保持上下文。

要提供图像作为输入，我们使用image_path参数指定图像文件的路径。我们可以问与图像相关的问题，而Qwen-VL将根据视觉内容和问题生成响应。

Qwen-VL还可通过Hugging Face、ModelScope、API和其他平台访问，使研究人员和开发人员方便地利用其强大的功能。

潜在应用和影响

Qwen-VL的出色性能和多功能性为各行各业带来了广泛的潜在应用。它可以通过先进的视觉理解增强多模态AI系统，通过图像和文本实现更自然的人机交互，并在视觉搜索、图像分析等领域提供动力，推动新的应用。

例如，可以使用Qwen-VL开发智能图像检索系统，允许用户根据自然语言查询搜索图像。通过理解图像的内容和上下文，与传统基于关键字的图像搜索引擎相比，Qwen-VL可以提供更准确和相关的搜索结果。

在电子商务领域，可以应用Qwen-VL来增强产品推荐和个性化。通过分析产品图像和用户偏好，该模型可以向客户推荐视觉上相似或互补的产品，提高他们的购物体验并增加销售额。

Qwen-VL还可以在智能虚拟助手和聊天机器人的开发中发挥作用。通过集成视觉理解能力，这些助手可以提供更具上下文相关性的响应，并与用户进行更自然的对话。例如，用户可以发送一张他们感兴趣的产品的图像，虚拟助手可以基于视觉内容提供信息、评论和推荐。

在教育领域，可以利用Qwen-VL创建互动式学习材料和评估。该模型可以基于教育图像、图表和图表生成问题和解释，使学习对学生更具吸引力和效果。

此外，Qwen-VL有可能彻底改变我们与视觉媒体的互动和消费方式。凭借其理解和描述图像的能力，该模型可以用于为图像和视频生成自动字幕、摘要和翻译。这可以极大地提高视力受损个体的可访问性，并弥补全球交流中的语言障碍。

随着阿里巴巴不断完善和扩展Qwen-VL的功能，我们可以期待它在视觉语言AI领域做出重大贡献。凭借其出色的性能、易于访问和推动创新的潜力，Qwen-VL注定成为多模态AI系统开发中的重要角色。

总之，Qwen-VL代表了视觉语言模型发展的重要里程碑。它在各种基准测试中表现出色，且多功能且易于访问，使其成为研究人员、开发人员和企业的强大工具。随着多模态AI领域的不断发展，Qwen-VL将在塑造其未来方面发挥重要作用。

阿里巴巴推出的Qwen-VL在视觉语言AI领域标志着一个令人兴奋的进展。凭借其出色的能力、优异的基准性能和广泛的应用潜力，Qwen-VL将在各个行业产生重大影响。随着研究人员和开发人员继续探索和利用这个多功能模型的力量，我们可以期待在多模态AI领域取得突破性的创新和进展。

想了解最新的LLM新闻吗？请查看最新的LLM排行榜！

Qwen 110B：阿里巴巴强大的语言模型及其在本地运行的方法 Apple MM1：突破性的多模态语言模型