Want to Become a Sponsor? Contact Us Now!🎉

LLM
Qwen-VL: Modelo Versátil de Visão-Linguagem da Alibaba Supera o GPT-4V

Qwen-VL: Modelo Versátil de Visão-Linguagem da Alibaba Supera o GPT-4V

Published on

Um olhar detalhado sobre o Qwen-VL, o poderoso modelo de visão-linguagem da Alibaba que supera o GPT-4V e outros modelos em vários benchmarks, com um guia sobre como executá-lo localmente.

A Alibaba recentemente introduziu o Qwen-VL, uma série de modelos de visão-linguagem em grande escala (LVLMs) projetados para perceber e entender tanto texto quanto imagens. Construído sobre a base do Qwen-LM, o Qwen-VL recebeu capacidades visuais através de um receptor visual meticulosamente projetado, interface de entrada-saída, pipeline de treinamento em 3 estágios e corpus multilíngue multimodal limpo.

Quer ficar atualizado com as últimas notícias sobre LLM? Confira o ranking LLM mais recente!

Anakin AI - The Ultimate No-Code AI App Builder

Recursos e Capacidades Principais do Qwen-VL

O Qwen-VL aceita imagens, texto e caixas delimitadoras como entrada, e produz texto e caixas delimitadoras como saída. Ele suporta conversas multilíngues em inglês, chinês e outros idiomas, e pode processar várias imagens em uma conversa. O Qwen-VL também suporta imagens de alta resolução de até milhões de pixels e várias proporções de aspecto.

O modelo demonstra forte raciocínio visual, reconhecimento de texto e capacidade de aprendizado com poucos exemplos. Ele pode identificar e descrever com precisão vários elementos dentro das imagens, fornecer informações de contexto detalhadas, responder a perguntas e analisar conteúdos visuais complexos. O Qwen-VL também se destaca em tarefas de resolução de problemas e raciocínio, incluindo resolução de problemas matemáticos e interpretações profundas de gráficos e diagramas.

Um dos recursos marcantes do Qwen-VL é sua capacidade de participar de conversas multimodais. Os usuários podem fornecer uma combinação de texto e imagens como entrada, e o modelo irá gerar respostas relevantes com base no contexto da conversa. Isso permite interações mais naturais e intuitivas entre humanos e IA, já que o modelo pode entender e responder a pistas visuais além de prompts textuais.

O suporte multilíngue do Qwen-VL é outra vantagem significativa. O modelo foi treinado em um corpus diversificado de dados em vários idiomas, permitindo que ele entenda e gere respostas em idiomas como inglês, chinês e outros. Isso torna o Qwen-VL uma ferramenta valiosa para comunicação intercultural e aplicações globais.

Desempenho nos Benchmarks

O Qwen-VL obteve resultados impressionantes em vários benchmarks, superando modelos de visão-linguagem (LVLMs) de código aberto existentes e até mesmo competindo com modelos maiores como o GPT-4V e o Gemini Ultra.

Nos benchmarks VQAv2, OKVQA e GQA, o Qwen-VL alcança acurácias de 79.5%, 58.6% e 59.3%, respectivamente, superando LVLMs recentes. O Qwen-VL-Max tem desempenho equivalente ao Gemini Ultra e ao GPT-4V em várias tarefas multimodais, enquanto o Qwen-VL-Plus e o Qwen-VL-Max superam significativamente os melhores resultados anteriores de modelos de código aberto.

ModeloDocVQAChartQATextVQAMMMUMM-Bench-CN
Gemini Pro88.1%74.1%74.6%45.2%74.3%
Gemini Ultra90.9%80.8%82.3%53.0%-
GPT-4V88.4%78.5%78.0%49.9%73.9%
Qwen-VL-Plus91.4%78.1%78.9%43.3%68.0%
Qwen-VL-Max93.1%79.8%79.5%51.0%75.1%

Vale ressaltar que o Qwen-VL-Max supera tanto o GPT-4V da OpenAI quanto o Gemini da Google em tarefas relacionadas à resposta de perguntas em chinês e compreensão de texto em chinês. Isso destaca o desempenho do modelo no manuseio de tarefas em idioma chinês, tornando-o uma ferramenta valiosa para aplicações voltadas para usuários que falam chinês.

Além dos benchmarks mencionados acima, o Qwen-VL também demonstrou resultados impressionantes em outras tarefas, como legendagem de imagens, ancoragem visual e raciocínio visual. Por exemplo, no conjunto de dados Flickr30k para legendagem de imagens, o Qwen-VL alcança uma pontuação BLEU-4 de 41.2, superando os modelos anteriores state-of-the-art.

No conjunto de dados RefCOCO para ancoragem visual, o Qwen-VL atinge uma precisão de 87.5%, superando os modelos existentes por uma margem significativa. Isso demonstra a capacidade do modelo de localizar e identificar com precisão objetos em imagens com base em descrições textuais.

Além disso, o Qwen-VL apresentou um bom desempenho em tarefas de raciocínio visual, como o conjunto de dados NLVR2, que requer que o modelo determine a veracidade de uma afirmação com base na imagem fornecida. O Qwen-VL alcança uma precisão de 85.7% nesta tarefa, demonstrando sua capacidade de raciocinar sobre as relações entre objetos e seus atributos em imagens.

Esses resultados de benchmark destacam a versatilidade e solidez do Qwen-VL em uma ampla variedade de tarefas de visão-linguagem. A capacidade do modelo de se destacar em tarefas em inglês e chinês, assim como seu bom desempenho em benchmarks multimodais, o diferencia de outros modelos de visão-linguagem e o posiciona como uma ferramenta poderosa para diversas aplicações.

Executando o Qwen-VL Localmente

Para executar o Qwen-VL localmente, você pode usar a plataforma Ollama. Aqui está um guia passo a passo:

  1. Instale o Ollama em seu dispositivo:

    pip install ollama
  2. Escolha o tamanho do modelo Qwen-VL para executar (disponível de 0.5B a 72B):

    ollama run qwen:7b
  3. Alternativamente, você pode executar o Ollama com seus próprios arquivos GGUF do modelo Qwen-VL:

    ollama run caminho/para/seu/modelo.gguf

Aqui está um trecho de código de exemplo para interagir com o Qwen-VL usando Python:

from qwen_vl import QwenVL
 
model = QwenVL("qwen-vl-7b")
 
# Cumprimentando o Qwen sem histórico de conversa
response, history = model.chat(tokenizer, "Olá Qwen!", history=None)
print("Qwen:", response)

# Passando o histórico para contexto
response, history = model.chat(tokenizer, "Alguma ideia sobre o significado da vida, do universo e de tudo mais?", history=history)
print("Qwen:", response)

# Fornecendo uma imagem e uma pergunta
image_path = "caminho/para/sua/imagem.jpg"
question = "Quais objetos você pode ver nesta imagem?"
response, history = model.chat(tokenizer, question, image_path=image_path, history=history)
print("Qwen:", response)

No trecho de código acima, primeiro importamos a classe QwenVL do módulo qwen_vl. Em seguida, instanciamos um modelo Qwen-VL especificando o tamanho desejado do modelo (por exemplo, "qwen-vl-7b").

Para interagir com o modelo, usamos o método chat, que recebe o tokenizador, uma mensagem de texto como prompt, um caminho opcional para a imagem e o histórico da conversa como argumentos. O modelo gera uma resposta com base nas entradas fornecidas e retorna a resposta junto com o histórico de conversa atualizado.

Podemos iniciar uma conversa cumprimentando a Qwen sem ter nenhum histórico anterior. O modelo gerará uma resposta com base no cumprimento. Em seguida, podemos passar o histórico de conversa para manter o contexto em interações subsequentes.

Para fornecer uma imagem como entrada, especificamos o caminho para o arquivo de imagem usando o argumento image_path. Podemos fazer uma pergunta relacionada à imagem, e o Qwen-VL gerará uma resposta com base no conteúdo visual e na pergunta.

O Qwen-VL também pode ser acessado por meio da Hugging Face, ModelScope, API e outras plataformas, o que facilita para pesquisadores e desenvolvedores aproveitarem suas capacidades poderosas.

Possíveis Aplicações e Impactos

O desempenho impressionante e a versatilidade do Qwen-VL abrem um amplo leque de possíveis aplicações em várias indústrias. Ele pode aprimorar sistemas de IA multimodais com uma compreensão visual avançada, possibilitar interação mais natural entre humanos e computadores por meio de imagens e texto, e impulsionar novas aplicações em áreas como busca visual, análise de imagens e muito mais.

Por exemplo, o Qwen-VL pode ser usado para desenvolver sistemas de recuperação inteligente de imagens que permitem aos usuários pesquisar imagens com base em consultas em linguagem natural. Ao entender o conteúdo e o contexto das imagens, o Qwen-VL pode fornecer resultados de pesquisa mais precisos e relevantes em comparação com os mecanismos de busca de imagens tradicionais baseados em palavras-chave.

No campo do comércio eletrônico, o Qwen-VL pode ser aplicado para aprimorar recomendações de produtos e personalização. Ao analisar imagens de produtos e preferências do usuário, o modelo pode sugerir produtos visualmente semelhantes ou complementares aos clientes, melhorando sua experiência de compra e aumentando as vendas.

O Qwen-VL também pode ser utilizado no desenvolvimento de assistentes virtuais inteligentes e chatbots. Ao integrar capacidades de compreensão visual, esses assistentes podem fornecer respostas mais relevantes contextualmente e se envolver em conversas mais naturais com os usuários. Por exemplo, um usuário poderia enviar uma imagem de um produto em que está interessado, e o assistente virtual poderia fornecer informações, avaliações e recomendações com base no conteúdo visual.

No campo da educação, o Qwen-VL pode ser utilizado para criar materiais de aprendizagem interativos e avaliações. O modelo pode gerar perguntas e explicações com base em imagens educacionais, diagramas e gráficos, tornando a aprendizagem mais envolvente e eficaz para os estudantes.

Além disso, o Qwen-VL tem o potencial de revolucionar a forma como interagimos com e consumimos mídia visual. Com sua capacidade de entender e descrever imagens, o modelo pode ser usado para gerar legendas automáticas, resumos e traduções para imagens e vídeos. Isso pode ampliar significativamente a acessibilidade para pessoas com deficiência visual e superar barreiras linguísticas na comunicação global.

À medida que a Alibaba continua a aprimorar e expandir as capacidades do Qwen-VL, podemos esperar que ele faça contribuições significativas para o campo da IA de visão e linguagem. Com seu desempenho sólido, facilidade de acesso e potencial para impulsionar a inovação, o Qwen-VL está pronto para se tornar um elemento-chave no desenvolvimento de sistemas de IA multimodais.

Em conclusão, o Qwen-VL representa uma etapa importante no avanço dos modelos de visão e linguagem. Seu desempenho excepcional em diversos benchmarks, aliado a sua versatilidade e acesso, o tornam uma ferramenta poderosa para pesquisadores, desenvolvedores e empresas. Conforme o campo da IA multimodal continua a evoluir, o Qwen-VL tem uma posição privilegiada para desempenhar um papel significativo na moldagem do seu futuro.

A introdução do Qwen-VL pela Alibaba marca um desenvolvimento empolgante no campo da IA de visão e linguagem. Com suas capacidades impressionantes, bom desempenho em benchmarks e potencial de aplicações em várias áreas, o Qwen-VL está preparado para ter um impacto significativo em várias indústrias. Conforme pesquisadores e desenvolvedores continuam a explorar e aproveitar o poder desse modelo versátil, podemos antecipar inovações e avanços pioneiros no campo da IA multimodal.

Quer saber as últimas notícias sobre LLM? Confira a tabela de classificação mais recente do LLM!

Anakin AI - The Ultimate No-Code AI App Builder