Qwen-VL: El versátil modelo de visión y lenguaje de Alibaba supera a GPT-4V

Name: Jennie Rose

Published on 30/4/2024

Un análisis exhaustivo de Qwen-VL, el potente modelo de visión y lenguaje de Alibaba que supera a GPT-4V y otros modelos en varios puntos de referencia, con una guía sobre cómo ejecutarlo localmente.

Alibaba ha presentado recientemente Qwen-VL, una serie de modelos de visión y lenguaje a gran escala (LVLM) diseñados para percibir y comprender tanto el texto como las imágenes. Basado en la base de Qwen-LM, Qwen-VL ha sido dotado de capacidades visuales mediante un receptor visual meticulosamente diseñado, una interfaz de entrada y salida, una tubería de entrenamiento de 3 etapas y un corpus multilingüe y multimodal limpio.

¿Quieres conocer las últimas noticias de LLM? ¡Consulta el último ranking LLM!

Características clave y capacidades de Qwen-VL

Qwen-VL acepta imágenes, texto y cuadros delimitadores como entrada, y produce como salida texto y cuadros delimitadores. Admite conversaciones multilingües en inglés, chino y otros idiomas, y puede procesar múltiples imágenes en una conversación. Qwen-VL también admite imágenes de alta resolución de hasta millones de píxeles y diversas relaciones de aspecto.

El modelo demuestra un fuerte razonamiento visual, reconocimiento de texto y capacidades de aprendizaje con pocos ejemplos. Puede identificar y describir con precisión varios elementos dentro de las imágenes, proporcionar información detallada sobre el contexto, responder preguntas y analizar contenido visual complejo. Qwen-VL también sobresale en tareas de resolución de problemas y razonamiento, incluyendo resolución de problemas matemáticos e interpretaciones profundas de gráficos y diagramas.

Una de las características destacadas de Qwen-VL es su capacidad para participar en conversaciones multimodales. Los usuarios pueden proporcionar una combinación de texto e imágenes como entrada, y el modelo generará respuestas relevantes basadas en el contexto de la conversación. Esto permite interacciones más naturales e intuitivas entre humanos y IA, ya que el modelo puede comprender y responder a señales visuales además de las indicaciones textuales.

El soporte multilingüe de Qwen-VL es otra ventaja significativa. El modelo ha sido entrenado con un corpus diverso de datos en múltiples idiomas, lo que le permite comprender y generar respuestas en idiomas como inglés, chino y otros. Esto convierte a Qwen-VL en una herramienta valiosa para la comunicación intercultural y aplicaciones globales.

Rendimiento en puntos de referencia

Qwen-VL ha logrado resultados impresionantes en varios puntos de referencia, superando a los modelos de visión y lenguaje (LVLM) de código abierto existentes y compitiendo con modelos más grandes como GPT-4V y Gemini Ultra.

En los puntos de referencia VQAv2, OKVQA y GQA, Qwen-VL logra precisión del 79.5%, 58.6% y 59.3%, respectivamente, superando a los LVLM recientes. Qwen-VL-Max tiene un rendimiento similar a Gemini Ultra y GPT-4V en varias tareas multimodales, mientras que Qwen-VL-Plus y Qwen-VL-Max superan significativamente los mejores resultados anteriores de modelos de código abierto.

Modelo	DocVQA	ChartQA	TextVQA	MMMU	MM-Bench-CN
Gemini Pro	88.1%	74.1%	74.6%	45.2%	74.3%
Gemini Ultra	90.9%	80.8%	82.3%	53.0%	-
GPT-4V	88.4%	78.5%	78.0%	49.9%	73.9%
Qwen-VL-Plus	91.4%	78.1%	78.9%	43.3%	68.0%
Qwen-VL-Max	93.1%	79.8%	79.5%	51.0%	75.1%

Es especialmente destacable que Qwen-VL-Max supera tanto a GPT-4V de OpenAI como a Gemini de Google en tareas relacionadas con la respuesta a preguntas en chino y comprensión de texto en chino. Esto resalta el sólido rendimiento del modelo en el manejo de tareas en el idioma chino, lo que lo convierte en un recurso valioso para aplicaciones dirigidas a usuarios de habla china.

Además de los puntos de referencia mencionados anteriormente, Qwen-VL también ha demostrado resultados impresionantes en otras tareas como la generación de subtítulos de imágenes, localización visual y razonamiento visual. Por ejemplo, en el conjunto de datos Flickr30k para la generación de subtítulos de imágenes, Qwen-VL logra una puntuación BLEU-4 de 41.2, superando a los modelos anteriores referentes.

En el conjunto de datos RefCOCO para la localización visual, Qwen-VL alcanza una precisión del 87.5%, superando a los modelos existentes por un margen significativo. Esto demuestra la capacidad del modelo para localizar e identificar con precisión objetos dentro de las imágenes en función de descripciones textuales.

Además, Qwen-VL ha mostrado un gran rendimiento en tareas de razonamiento visual como el conjunto de datos NLVR2, que requiere que el modelo determine la veracidad de una afirmación en función de la imagen proporcionada. Qwen-VL logra una precisión del 85.7% en esta tarea, demostrando su capacidad para razonar sobre las relaciones entre objetos y sus atributos en imágenes.

Estos resultados en puntos de referencia destacan la versatilidad y robustez de Qwen-VL en una amplia gama de tareas de visión y lenguaje. La capacidad del modelo para sobresalir tanto en tareas en inglés como en chino, así como su fuerte rendimiento en puntos de referencia multimodales, lo distingue de otros modelos de visión y lenguaje y lo posiciona como una herramienta potente para diversas aplicaciones.

Ejecución de Qwen-VL localmente

Para ejecutar Qwen-VL localmente, puedes utilizar la plataforma Ollama. Aquí tienes una guía paso a paso:

Instala Ollama en tu dispositivo:
```
pip install ollama
```
Elige el tamaño del modelo Qwen-VL que deseas ejecutar (disponible desde 0.5B hasta 72B):
```
ollama run qwen:7b
```
Alternativamente, puedes ejecutar Ollama con tus propios archivos GGUF de modelos Qwen-VL:
```
ollama run ruta/a/tu/modelo.gguf
```

Aquí tienes un fragmento de código de muestra para interactuar con Qwen-VL utilizando Python:

from qwen_vl import QwenVL
 
model = QwenVL("qwen-vl-7b")
 
# Saludo a Qwen sin historial de conversación

response, history = model.chat(tokenizer, "¡Hola Qwen!", history=None)
print("Qwen:", response)
 
# Pasando el historial para el contexto
response, history = model.chat(tokenizer, "¿Algún pensamiento sobre el significado de la vida, el universo y todo lo demás?", history=history)
print("Qwen:", response)
 
# Proveer una imagen y una pregunta
image_path = "ruta/a/tu/imagen.jpg"
question = "¿Qué objetos puedes ver en esta imagen?"
response, history = model.chat(tokenizer, question, image_path=image_path, history=history)
print("Qwen:", response)

En el fragmento de código anterior, primero importamos la clase QwenVL del módulo qwen_vl. Luego, instanciamos un modelo Qwen-VL especificando el tamaño de modelo deseado (por ejemplo, "qwen-vl-7b").

Para interactuar con el modelo, utilizamos el método chat, que toma el tokenizador, un texto de inicio opcional, una ruta opcional de imagen y el historial de conversación como argumentos. El modelo genera una respuesta basada en la entrada proporcionada y devuelve la respuesta junto con el historial de conversación actualizado.

Podemos comenzar una conversación saludando a Qwen sin ningún historial previo. El modelo generará una respuesta basada en el saludo. Luego podemos pasar el historial de conversación para mantener el contexto en interacciones posteriores.

Para proporcionar una imagen como entrada, especificamos la ruta al archivo de imagen utilizando el argumento image_path. Podemos hacer una pregunta relacionada con la imagen y Qwen-VL generará una respuesta basada en el contenido visual y la pregunta.

Qwen-VL también es accesible a través de Hugging Face, ModelScope, API y otras plataformas, lo que facilita a los investigadores y desarrolladores aprovechar sus poderosas capacidades.

Posibles aplicaciones e impacto

El impresionante rendimiento y la versatilidad de Qwen-VL abren un amplio rango de posibles aplicaciones en diferentes industrias. Puede mejorar los sistemas de IA multimodales con una comprensión visual avanzada, permitir una interacción más natural entre humanos y computadoras a través de imágenes y texto, y potenciar nuevas aplicaciones en áreas como la búsqueda visual, el análisis de imágenes y más.

Por ejemplo, Qwen-VL se puede utilizar para desarrollar sistemas inteligentes de recuperación de imágenes que permitan a los usuarios buscar imágenes basándose en consultas en lenguaje natural. Al comprender el contenido y el contexto de las imágenes, Qwen-VL puede proporcionar resultados de búsqueda más precisos y relevantes en comparación con los motores de búsqueda de imágenes tradicionales basados en palabras clave.

En el campo del comercio electrónico, Qwen-VL se puede aplicar para mejorar las recomendaciones de productos y la personalización. Al analizar las imágenes de los productos y las preferencias de los usuarios, el modelo puede sugerir productos visualmente similares o complementarios a los clientes, mejorando su experiencia de compra y aumentando las ventas.

Qwen-VL también se puede utilizar en el desarrollo de asistentes virtuales y chatbots inteligentes. Al integrar capacidades de comprensión visual, estos asistentes pueden proporcionar respuestas contextualmente relevantes y participar en conversaciones más naturales con los usuarios. Por ejemplo, un usuario podría enviar una imagen de un producto en el que está interesado y el asistente virtual podría proporcionar información, reseñas y recomendaciones basadas en el contenido visual.

En el ámbito de la educación, Qwen-VL se puede utilizar para crear materiales de aprendizaje interactivos y evaluaciones. El modelo puede generar preguntas y explicaciones basadas en imágenes educativas, diagramas y gráficos, lo que hace que el aprendizaje sea más atractivo y efectivo para los estudiantes.

Además, Qwen-VL tiene el potencial de revolucionar la forma en que interactuamos y consumimos medios visuales. Con su capacidad para comprender y describir imágenes, el modelo se puede utilizar para generar subtítulos automáticos, resúmenes y traducciones para imágenes y videos. Esto puede mejorar en gran medida la accesibilidad para las personas con discapacidad visual y superar las barreras del idioma en la comunicación global.

A medida que Alibaba continúa perfeccionando y ampliando las capacidades de Qwen-VL, podemos esperar que realice contribuciones significativas en el campo de la IA de visión-lenguaje. Con su sólido rendimiento, facilidad de acceso y potencial para impulsar la innovación, Qwen-VL está preparado para convertirse en un actor clave en el desarrollo de sistemas de IA multimodales.

En conclusión, Qwen-VL representa un hito importante en el avance de los modelos de visión-lenguaje. Su rendimiento excepcional en diferentes evaluaciones, junto con su versatilidad y accesibilidad, lo convierten en una herramienta poderosa para investigadores, desarrolladores y empresas por igual. A medida que el campo de la IA multimodal continúa evolucionando, Qwen-VL está bien posicionado para desempeñar un papel significativo en la configuración de su futuro.

La presentación de Qwen-VL por parte de Alibaba marca un emocionante desarrollo en el campo de la IA de visión-lenguaje. Con sus impresionantes capacidades, sólido rendimiento en evaluaciones y potencial para diversas aplicaciones, Qwen-VL está listo para tener un impacto significativo en diversas industrias. A medida que los investigadores y desarrolladores continúen explorando y aprovechando el poder de este modelo versátil, podemos anticipar innovaciones y avances revolucionarios en el campo de la IA multimodal.

¿Quieres estar al tanto de las últimas noticias de LLM? ¡Consulta la última tabla de clasificación de LLM!

Qwen 110B: El Potente Modelo de Lenguaje de Alibaba y Cómo Ejecutarlo Localmente Apple MM1: Un Modelo de Lenguaje Multimodal Innovador