Qwen-VL : Le modèle polyvalent Vision-Language d'Alibaba surpasse GPT-4V
Published on
Alibaba a récemment introduit Qwen-VL, une série de modèles VLM (modèles Vision-Language) à grande échelle conçus pour percevoir et comprendre à la fois le texte et les images. Construit sur la base de Qwen-LM, Qwen-VL dispose de capacités visuelles grâce à un récepteur visuel soigneusement conçu, une interface d'entrée-sortie, un pipeline de formation en 3 étapes et un corpus multilingue multimodal nettoyé.
Envie de connaître les dernières nouvelles sur les VLM ? Consultez le dernier classement des VLM !
Principales caractéristiques et capacités de Qwen-VL
Qwen-VL accepte des images, du texte et des boîtes englobantes en tant qu'entrée, et produit du texte et des boîtes englobantes en tant que sortie. Il prend en charge les conversations multilingues en anglais, chinois et d'autres langues, et peut traiter plusieurs images lors d'une conversation. Qwen-VL prend également en charge des images haute résolution jusqu'à des millions de pixels et de différents rapports d'aspect.
Le modèle démontre de solides capacités de raisonnement visuel, de reconnaissance de texte et d'apprentissage à faible échantillonnage. Il peut identifier et décrire avec précision divers éléments dans les images, fournir des informations détaillées sur le contexte, répondre à des questions et analyser du contenu visuel complexe. Qwen-VL excelle également dans les tâches de résolution de problèmes et de raisonnement, y compris la résolution de problèmes mathématiques et les interprétations approfondies de graphiques et de tableaux.
L'une des principales caractéristiques de Qwen-VL est sa capacité à participer à des conversations multimodales. Les utilisateurs peuvent fournir une combinaison de texte et d'images en entrée, et le modèle générera des réponses pertinentes en fonction du contexte de la conversation. Cela permet des interactions plus naturelles et intuitives entre les humains et l'IA, car le modèle peut comprendre et répondre aux indices visuels en plus des invitations textuelles.
Le support multilingue de Qwen-VL est un autre avantage significatif. Le modèle a été entraîné sur un corpus diversifié de données dans plusieurs langues, ce qui lui permet de comprendre et de générer des réponses dans des langues telles que l'anglais, le chinois et d'autres. Cela fait de Qwen-VL un outil précieux pour la communication interculturelle et les applications mondiales.
Performance sur les benchmarks
Qwen-VL a obtenu des résultats impressionnants sur divers benchmarks, surpassant les modèles de vision-language (VLM) open-source existants et rivalisant même avec des modèles plus grands comme GPT-4V et Gemini Ultra.
Sur les benchmarks VQAv2, OKVQA et GQA, Qwen-VL atteint des précisions respectives de 79,5%, 58,6% et 59,3%, dépassant les récents VLMs. Qwen-VL-Max offre des performances similaires à Gemini Ultra et GPT-4V sur diverses tâches multimodales, tandis que Qwen-VL-Plus et Qwen-VL-Max surpassent largement les meilleurs résultats précédents des modèles open-source.
Modèle | DocVQA | ChartQA | TextVQA | MMMU | MM-Bench-CN |
---|---|---|---|---|---|
Gemini Pro | 88,1% | 74,1% | 74,6% | 45,2% | 74,3% |
Gemini Ultra | 90,9% | 80,8% | 82,3% | 53,0% | - |
GPT-4V | 88,4% | 78,5% | 78,0% | 49,9% | 73,9% |
Qwen-VL-Plus | 91,4% | 78,1% | 78,9% | 43,3% | 68,0% |
Qwen-VL-Max | 93,1% | 79,8% | 79,5% | 51,0% | 75,1% |
À noter, Qwen-VL-Max surpasse à la fois GPT-4V d'OpenAI et Gemini de Google dans les tâches liées à la réponse aux questions en chinois et à la compréhension de texte en chinois. Cela met en évidence les excellentes performances du modèle dans le traitement des tâches en langue chinoise, ce qui en fait une ressource précieuse pour les applications ciblant les utilisateurs chinois.
En plus des benchmarks mentionnés ci-dessus, Qwen-VL a également démontré d'excellents résultats sur d'autres tâches telles que la légende d'images, l'ancrage visuel et le raisonnement visuel. Par exemple, sur l'ensemble de données Flickr30k pour la légende d'images, Qwen-VL atteint un score BLEU-4 de 41,2, surpassant les modèles précédents de pointe.
Sur l'ensemble de données RefCOCO pour l'ancrage visuel, Qwen-VL atteint une précision de 87,5%, surpassant les modèles existants de manière significative. Cela montre la capacité du modèle à localiser et à identifier avec précision les objets dans les images en fonction des descriptions textuelles.
De plus, Qwen-VL a montré de bonnes performances sur des tâches de raisonnement visuel comme le jeu de données NLVR2, qui demande au modèle de déterminer la véracité d'une affirmation en fonction de l'image fournie. Qwen-VL atteint une précision de 85,7% sur cette tâche, démontrant sa capacité à raisonner sur les relations entre les objets et leurs attributs dans les images.
Ces résultats de benchmark mettent en évidence la polyvalence et la robustesse de Qwen-VL dans un large éventail de tâches de vision-language. La capacité du modèle à exceller dans les tâches en anglais et en chinois, ainsi que ses excellentes performances sur les benchmarks multimodaux, le distinguent des autres modèles de vision-language et en font un outil puissant pour diverses applications.
Exécution de Qwen-VL en local
Pour exécuter Qwen-VL en local, vous pouvez utiliser la plateforme Ollama. Voici un guide étape par étape :
-
Installez Ollama sur votre appareil :
pip install ollama
-
Choisissez la taille de modèle Qwen-VL à exécuter (disponible de 0,5B à 72B) :
ollama run qwen:7b
-
Alternativement, vous pouvez exécuter Ollama avec vos propres fichiers GGUF de modèles Qwen-VL :
ollama run chemin/vers/votre/modele.gguf
Voici un extrait de code d'exemple pour interagir avec Qwen-VL en utilisant Python :
from qwen_vl import QwenVL
model = QwenVL("qwen-vl-7b")
# Salutation de Qwen sans historique de conversation
response, history = model.chat(tokenizer, "Bonjour Qwen!", history=None)
print("Qwen:", response)
# En passant l'historique pour le contexte
response, history = model.chat(tokenizer, "Des réflexions sur le sens de la vie, de l'univers et de tout?", history=history)
print("Qwen:", response)
# Fournir une image et une question
image_path = "chemin/vers/votre/image.jpg"
question = "Quels objets pouvez-vous voir dans cette image?"
response, history = model.chat(tokenizer, question, image_path=image_path, history=history)
print("Qwen:", response)
Dans le code ci-dessus, nous importons d'abord la classe QwenVL
du module qwen_vl
. Nous instancions ensuite un modèle Qwen-VL en spécifiant la taille de modèle souhaitée (par exemple, "qwen-vl-7b").
Pour interagir avec le modèle, nous utilisons la méthode chat
, qui prend le tokenizer, une invite de texte, un chemin d'image facultatif et l'historique de conversation en tant qu'arguments. Le modèle génère une réponse en fonction de l'entrée fournie et renvoie la réponse ainsi que l'historique de conversation mis à jour.
Nous pouvons commencer une conversation en saluant Qwen sans historique préalable. Le modèle générera une réponse en fonction de la salutation. Nous pouvons ensuite transmettre l'historique de conversation pour maintenir le contexte dans les interactions ultérieures.
Pour fournir une image en entrée, nous spécifions le chemin vers le fichier d'image en utilisant l'argument image_path
. Nous pouvons poser une question liée à l'image, et Qwen-VL générera une réponse en fonction du contenu visuel et de la question.
Qwen-VL est également accessible via Hugging Face, ModelScope, API et d'autres plateformes, ce qui facilite l'utilisation de ses puissantes capacités pour les chercheurs et les développeurs.
Applications potentielles et impact
Les performances impressionnantes et la polyvalence de Qwen-VL ouvrent un large éventail d'applications potentielles dans divers secteurs. Il peut améliorer les systèmes d'intelligence artificielle multimodaux avec une compréhension visuelle avancée, permettre une interaction homme-ordinateur plus naturelle via des images et du texte, et alimenter de nouvelles applications dans des domaines tels que la recherche visuelle, l'analyse d'images, et plus encore.
Par exemple, Qwen-VL peut être utilisé pour développer des systèmes intelligents de recherche d'images qui permettent aux utilisateurs de rechercher des images en fonction de requêtes en langage naturel. En comprenant le contenu et le contexte des images, Qwen-VL peut fournir des résultats de recherche plus précis et pertinents par rapport aux moteurs de recherche d'images traditionnels basés sur des mots-clés.
Dans le domaine du commerce électronique, Qwen-VL peut être utilisé pour améliorer les recommandations de produits et la personnalisation. En analysant les images des produits et les préférences des utilisateurs, le modèle peut suggérer des produits visuellement similaires ou complémentaires aux clients, améliorant ainsi leur expérience d'achat et augmentant les ventes.
Qwen-VL peut également être utilisé dans le développement d'assistants virtuels intelligents et de chatbots. Grâce à l'intégration des capacités de compréhension visuelle, ces assistants peuvent fournir des réponses contextuellement pertinentes et engager des conversations plus naturelles avec les utilisateurs. Par exemple, un utilisateur pourrait envoyer une image d'un produit qui l'intéresse, et l'assistant virtuel pourrait fournir des informations, des avis et des recommandations basés sur le contenu visuel.
Dans le domaine de l'éducation, Qwen-VL peut être utilisé pour créer des matériels et des évaluations d'apprentissage interactifs. Le modèle peut générer des questions et des explications basées sur des images éducatives, des diagrammes et des graphiques, rendant l'apprentissage plus engageant et efficace pour les étudiants.
De plus, Qwen-VL a le potentiel de révolutionner notre façon d'interagir avec et de consommer des médias visuels. Avec sa capacité à comprendre et à décrire des images, le modèle peut être utilisé pour générer automatiquement des légendes, des résumés et des traductions pour des images et des vidéos. Cela peut grandement améliorer l'accessibilité pour les personnes malvoyantes et combler les barrières linguistiques dans la communication mondiale.
Alors qu'Alibaba continue à perfectionner et à étendre les capacités de Qwen-VL, nous pouvons nous attendre à ce qu'il apporte une contribution significative dans le domaine de l'intelligence artificielle vision-langage. Avec ses performances solides, sa facilité d'accès et son potentiel à stimuler l'innovation, Qwen-VL est destiné à devenir un acteur clé dans le développement de systèmes d'intelligence artificielle multimodaux.
En conclusion, Qwen-VL représente une étape majeure dans l'avancement des modèles vision-langage. Ses performances exceptionnelles sur différents benchmarks, associées à sa polyvalence et à son accessibilité, en font un outil puissant pour les chercheurs, les développeurs et les entreprises. À mesure que le domaine de l'intelligence artificielle multimodale continue d'évoluer, Qwen-VL est bien positionné pour jouer un rôle important dans le façonnement de son avenir.
L'introduction de Qwen-VL par Alibaba marque un développement passionnant dans le domaine de l'intelligence artificielle vision-langage. Avec ses capacités impressionnantes, ses performances solides sur les benchmarks et son potentiel d'applications diverses, Qwen-VL est appelé à avoir un impact significatif dans différents secteurs. Alors que les chercheurs et les développeurs continuent d'explorer et de tirer parti de la puissance de ce modèle polyvalent, nous pouvons anticiper des innovations révolutionnaires et des avancées dans le domaine de l'intelligence artificielle multimodale.
Envie de connaître les dernières actualités sur le LLM? Consultez le dernier classement LLM!