Qwen-VL:阿里巴巴全能的视觉语言模型超越了 GPT-4V
Published on
阿里巴巴最近推出了 Qwen-VL,这是一系列的大规模视觉语言模型(LVLM),旨在感知和理解文本和图像。基于 Qwen-LM 的基础上,Qwen-VL 通过精心设计的视觉感知模块、输入输出接口、三阶段训练流程和多语言多模态清洗语料库赋予了视觉能力。
想要了解最新的 LLM 新闻吗?请查看最新的 LLM 排行榜!
Qwen-VL 的关键特性和能力
Qwen-VL 接受图像、文本和边界框作为输入,并输出文本和边界框。它支持英语、中文和其他语言的多语言对话,并可以处理对话中的多个图像。Qwen-VL 还支持高分辨率图像,可达到数百万像素和各种长宽比。
该模型展示了强大的视觉推理、文本识别和少样本学习能力。它可以精确识别和描述图像中的各种元素,提供详细的背景信息,回答问题,并分析复杂的视觉内容。Qwen-VL 在问题解决和推理任务中也表现出色,包括数学问题解决和对图表的深入解读。
Qwen-VL 最突出的特点之一是其能够进行多模态对话。用户可以提供文本和图像的组合作为输入,模型将根据对话的上下文生成相关的回应。这使得人类和人工智能之间的交互更加自然和直观,因为模型不仅可以理解和回应文字提示,还可以理解和回应视觉提示。
Qwen-VL 的多语言支持是另一个重要优势。该模型经过在多种语言的多样性语料库上的训练,使其能够理解并生成英语、中文等多种语言的回应。这使得 Qwen-VL 成为跨文化沟通和全球应用的宝贵工具。
基准性能
Qwen-VL 在各种基准测试中取得了令人印象深刻的成果,超越了现有的开源大规模视觉语言模型(LVLM),甚至与更大的模型如 GPT-4V 和 Gemini Ultra 相媲美。
在 VQAv2、OKVQA 和 GQA 的基准测试中,Qwen-VL 分别实现了 79.5%、58.6% 和 59.3% 的准确率,超过了最近的 LVLM。Qwen-VL-Max 在各种多模态任务上与 Gemini Ultra 和 GPT-4V 的性能相当,而 Qwen-VL-Plus 和 Qwen-VL-Max 显著优于开源模型以前的最佳结果。
Model | DocVQA | ChartQA | TextVQA | MMMU | MM-Bench-CN |
---|---|---|---|---|---|
Gemini Pro | 88.1% | 74.1% | 74.6% | 45.2% | 74.3% |
Gemini Ultra | 90.9% | 80.8% | 82.3% | 53.0% | - |
GPT-4V | 88.4% | 78.5% | 78.0% | 49.9% | 73.9% |
Qwen-VL-Plus | 91.4% | 78.1% | 78.9% | 43.3% | 68.0% |
Qwen-VL-Max | 93.1% | 79.8% | 79.5% | 51.0% | 75.1% |
值得注意的是,Qwen-VL-Max 在涉及中文问题回答和中文文本理解的任务中超越了来自 OpenAI 的 GPT-4V 和来自 Google 的 Gemini。这突显了该模型在处理中文语言任务方面的强大性能,使其成为面向中文使用者的应用程序的有价值资源。
除了上述提到的基准测试,Qwen-VL 在其他任务中也展现了令人印象深刻的结果,如图像字幕、视觉对齐和视觉推理。例如,在用于图像字幕的 Flickr30k 数据集上,Qwen-VL 的 BLEU-4 分数达到了 41.2,超过了以前最先进的模型。
在用于视觉对齐的 RefCOCO 数据集上,Qwen-VL 的准确率达到了 87.5%,大大优于现有模型。这展示了该模型根据文本描述能够准确地定位和识别图像中的对象。
此外,Qwen-VL 在视觉推理任务(如 NLVR2 数据集)上表现出色,该任务要求模型根据提供的图像确定陈述的真实性。Qwen-VL 在此任务中取得了 85.7% 的准确率,证明了它在推理图像中对象和属性之间关系方面的能力。
这些基准测试结果突显了 Qwen-VL 在广泛的视觉语言任务中的多功能性和鲁棒性。该模型在英语和中文任务上表现出色,同时在多模态基准测试中的强大性能,使其与其他视觉语言模型区别开来,并使其成为各种应用的强大工具。
在本地运行 Qwen-VL
要在本地运行 Qwen-VL,可以使用 Ollama 平台。以下是一步一步的指南:
-
在设备上安装 Ollama:
pip install ollama
-
选择要运行的 Qwen-VL 模型大小(0.5B 到 72B 可用):
ollama run qwen:7b
-
或者,您可以使用自己的 Qwen-VL 模型的 GGUF 文件运行 Ollama:
ollama run path/to/your/model.gguf
以下是使用 Python 与 Qwen-VL 进行交互的示例代码片段:
from qwen_vl import QwenVL
model = QwenVL("qwen-vl-7b")
# 与 Qwen 进行问候,没有对话历史记录
使用qwen_vl
模块中的QwenVL
类后,我们首先导入QwenVL
类。然后通过指定所需的模型大小(如“qwen-vl-7b”)来实例化一个Qwen-VL模型。
要与模型互动,我们使用chat
方法,它接受tokenizer、文本提示、可选的图像路径和对话历史作为参数。模型根据提供的输入生成响应,并返回响应以及更新后的对话历史。
我们可以通过打招呼的方式开始对话,而无需先前的历史记录。模型将根据打招呼生成响应。然后,我们可以传递对话历史以在后续互动中保持上下文。
要提供图像作为输入,我们使用image_path
参数指定图像文件的路径。我们可以问与图像相关的问题,而Qwen-VL将根据视觉内容和问题生成响应。
Qwen-VL还可通过Hugging Face、ModelScope、API和其他平台访问,使研究人员和开发人员方便地利用其强大的功能。
潜在应用和影响
Qwen-VL的出色性能和多功能性为各行各业带来了广泛的潜在应用。它可以通过先进的视觉理解增强多模态AI系统,通过图像和文本实现更自然的人机交互,并在视觉搜索、图像分析等领域提供动力,推动新的应用。
例如,可以使用Qwen-VL开发智能图像检索系统,允许用户根据自然语言查询搜索图像。通过理解图像的内容和上下文,与传统基于关键字的图像搜索引擎相比,Qwen-VL可以提供更准确和相关的搜索结果。
在电子商务领域,可以应用Qwen-VL来增强产品推荐和个性化。通过分析产品图像和用户偏好,该模型可以向客户推荐视觉上相似或互补的产品,提高他们的购物体验并增加销售额。
Qwen-VL还可以在智能虚拟助手和聊天机器人的开发中发挥作用。通过集成视觉理解能力,这些助手可以提供更具上下文相关性的响应,并与用户进行更自然的对话。例如,用户可以发送一张他们感兴趣的产品的图像,虚拟助手可以基于视觉内容提供信息、评论和推荐。
在教育领域,可以利用Qwen-VL创建互动式学习材料和评估。该模型可以基于教育图像、图表和图表生成问题和解释,使学习对学生更具吸引力和效果。
此外,Qwen-VL有可能彻底改变我们与视觉媒体的互动和消费方式。凭借其理解和描述图像的能力,该模型可以用于为图像和视频生成自动字幕、摘要和翻译。这可以极大地提高视力受损个体的可访问性,并弥补全球交流中的语言障碍。
随着阿里巴巴不断完善和扩展Qwen-VL的功能,我们可以期待它在视觉语言AI领域做出重大贡献。凭借其出色的性能、易于访问和推动创新的潜力,Qwen-VL注定成为多模态AI系统开发中的重要角色。
总之,Qwen-VL代表了视觉语言模型发展的重要里程碑。它在各种基准测试中表现出色,且多功能且易于访问,使其成为研究人员、开发人员和企业的强大工具。随着多模态AI领域的不断发展,Qwen-VL将在塑造其未来方面发挥重要作用。
阿里巴巴推出的Qwen-VL在视觉语言AI领域标志着一个令人兴奋的进展。凭借其出色的能力、优异的基准性能和广泛的应用潜力,Qwen-VL将在各个行业产生重大影响。随着研究人员和开发人员继续探索和利用这个多功能模型的力量,我们可以期待在多模态AI领域取得突破性的创新和进展。
想了解最新的LLM新闻吗?请查看最新的LLM排行榜!