Qwen-VL: Modelo Versátil de Visão-Linguagem da Alibaba Supera o GPT-4V
Published on
A Alibaba recentemente introduziu o Qwen-VL, uma série de modelos de visão-linguagem em grande escala (LVLMs) projetados para perceber e entender tanto texto quanto imagens. Construído sobre a base do Qwen-LM, o Qwen-VL recebeu capacidades visuais através de um receptor visual meticulosamente projetado, interface de entrada-saída, pipeline de treinamento em 3 estágios e corpus multilíngue multimodal limpo.
Quer ficar atualizado com as últimas notícias sobre LLM? Confira o ranking LLM mais recente!
Recursos e Capacidades Principais do Qwen-VL
O Qwen-VL aceita imagens, texto e caixas delimitadoras como entrada, e produz texto e caixas delimitadoras como saída. Ele suporta conversas multilíngues em inglês, chinês e outros idiomas, e pode processar várias imagens em uma conversa. O Qwen-VL também suporta imagens de alta resolução de até milhões de pixels e várias proporções de aspecto.
O modelo demonstra forte raciocínio visual, reconhecimento de texto e capacidade de aprendizado com poucos exemplos. Ele pode identificar e descrever com precisão vários elementos dentro das imagens, fornecer informações de contexto detalhadas, responder a perguntas e analisar conteúdos visuais complexos. O Qwen-VL também se destaca em tarefas de resolução de problemas e raciocínio, incluindo resolução de problemas matemáticos e interpretações profundas de gráficos e diagramas.
Um dos recursos marcantes do Qwen-VL é sua capacidade de participar de conversas multimodais. Os usuários podem fornecer uma combinação de texto e imagens como entrada, e o modelo irá gerar respostas relevantes com base no contexto da conversa. Isso permite interações mais naturais e intuitivas entre humanos e IA, já que o modelo pode entender e responder a pistas visuais além de prompts textuais.
O suporte multilíngue do Qwen-VL é outra vantagem significativa. O modelo foi treinado em um corpus diversificado de dados em vários idiomas, permitindo que ele entenda e gere respostas em idiomas como inglês, chinês e outros. Isso torna o Qwen-VL uma ferramenta valiosa para comunicação intercultural e aplicações globais.
Desempenho nos Benchmarks
O Qwen-VL obteve resultados impressionantes em vários benchmarks, superando modelos de visão-linguagem (LVLMs) de código aberto existentes e até mesmo competindo com modelos maiores como o GPT-4V e o Gemini Ultra.
Nos benchmarks VQAv2, OKVQA e GQA, o Qwen-VL alcança acurácias de 79.5%, 58.6% e 59.3%, respectivamente, superando LVLMs recentes. O Qwen-VL-Max tem desempenho equivalente ao Gemini Ultra e ao GPT-4V em várias tarefas multimodais, enquanto o Qwen-VL-Plus e o Qwen-VL-Max superam significativamente os melhores resultados anteriores de modelos de código aberto.
Modelo | DocVQA | ChartQA | TextVQA | MMMU | MM-Bench-CN |
---|---|---|---|---|---|
Gemini Pro | 88.1% | 74.1% | 74.6% | 45.2% | 74.3% |
Gemini Ultra | 90.9% | 80.8% | 82.3% | 53.0% | - |
GPT-4V | 88.4% | 78.5% | 78.0% | 49.9% | 73.9% |
Qwen-VL-Plus | 91.4% | 78.1% | 78.9% | 43.3% | 68.0% |
Qwen-VL-Max | 93.1% | 79.8% | 79.5% | 51.0% | 75.1% |
Vale ressaltar que o Qwen-VL-Max supera tanto o GPT-4V da OpenAI quanto o Gemini da Google em tarefas relacionadas à resposta de perguntas em chinês e compreensão de texto em chinês. Isso destaca o desempenho do modelo no manuseio de tarefas em idioma chinês, tornando-o uma ferramenta valiosa para aplicações voltadas para usuários que falam chinês.
Além dos benchmarks mencionados acima, o Qwen-VL também demonstrou resultados impressionantes em outras tarefas, como legendagem de imagens, ancoragem visual e raciocínio visual. Por exemplo, no conjunto de dados Flickr30k para legendagem de imagens, o Qwen-VL alcança uma pontuação BLEU-4 de 41.2, superando os modelos anteriores state-of-the-art.
No conjunto de dados RefCOCO para ancoragem visual, o Qwen-VL atinge uma precisão de 87.5%, superando os modelos existentes por uma margem significativa. Isso demonstra a capacidade do modelo de localizar e identificar com precisão objetos em imagens com base em descrições textuais.
Além disso, o Qwen-VL apresentou um bom desempenho em tarefas de raciocínio visual, como o conjunto de dados NLVR2, que requer que o modelo determine a veracidade de uma afirmação com base na imagem fornecida. O Qwen-VL alcança uma precisão de 85.7% nesta tarefa, demonstrando sua capacidade de raciocinar sobre as relações entre objetos e seus atributos em imagens.
Esses resultados de benchmark destacam a versatilidade e solidez do Qwen-VL em uma ampla variedade de tarefas de visão-linguagem. A capacidade do modelo de se destacar em tarefas em inglês e chinês, assim como seu bom desempenho em benchmarks multimodais, o diferencia de outros modelos de visão-linguagem e o posiciona como uma ferramenta poderosa para diversas aplicações.
Executando o Qwen-VL Localmente
Para executar o Qwen-VL localmente, você pode usar a plataforma Ollama. Aqui está um guia passo a passo:
-
Instale o Ollama em seu dispositivo:
pip install ollama
-
Escolha o tamanho do modelo Qwen-VL para executar (disponível de 0.5B a 72B):
ollama run qwen:7b
-
Alternativamente, você pode executar o Ollama com seus próprios arquivos GGUF do modelo Qwen-VL:
ollama run caminho/para/seu/modelo.gguf
Aqui está um trecho de código de exemplo para interagir com o Qwen-VL usando Python:
from qwen_vl import QwenVL
model = QwenVL("qwen-vl-7b")
# Cumprimentando o Qwen sem histórico de conversa
response, history = model.chat(tokenizer, "Olá Qwen!", history=None)
print("Qwen:", response)
# Passando o histórico para contexto
response, history = model.chat(tokenizer, "Alguma ideia sobre o significado da vida, do universo e de tudo mais?", history=history)
print("Qwen:", response)
# Fornecendo uma imagem e uma pergunta
image_path = "caminho/para/sua/imagem.jpg"
question = "Quais objetos você pode ver nesta imagem?"
response, history = model.chat(tokenizer, question, image_path=image_path, history=history)
print("Qwen:", response)
No trecho de código acima, primeiro importamos a classe QwenVL
do módulo qwen_vl
. Em seguida, instanciamos um modelo Qwen-VL especificando o tamanho desejado do modelo (por exemplo, "qwen-vl-7b").
Para interagir com o modelo, usamos o método chat
, que recebe o tokenizador, uma mensagem de texto como prompt, um caminho opcional para a imagem e o histórico da conversa como argumentos. O modelo gera uma resposta com base nas entradas fornecidas e retorna a resposta junto com o histórico de conversa atualizado.
Podemos iniciar uma conversa cumprimentando a Qwen sem ter nenhum histórico anterior. O modelo gerará uma resposta com base no cumprimento. Em seguida, podemos passar o histórico de conversa para manter o contexto em interações subsequentes.
Para fornecer uma imagem como entrada, especificamos o caminho para o arquivo de imagem usando o argumento image_path
. Podemos fazer uma pergunta relacionada à imagem, e o Qwen-VL gerará uma resposta com base no conteúdo visual e na pergunta.
O Qwen-VL também pode ser acessado por meio da Hugging Face, ModelScope, API e outras plataformas, o que facilita para pesquisadores e desenvolvedores aproveitarem suas capacidades poderosas.
Possíveis Aplicações e Impactos
O desempenho impressionante e a versatilidade do Qwen-VL abrem um amplo leque de possíveis aplicações em várias indústrias. Ele pode aprimorar sistemas de IA multimodais com uma compreensão visual avançada, possibilitar interação mais natural entre humanos e computadores por meio de imagens e texto, e impulsionar novas aplicações em áreas como busca visual, análise de imagens e muito mais.
Por exemplo, o Qwen-VL pode ser usado para desenvolver sistemas de recuperação inteligente de imagens que permitem aos usuários pesquisar imagens com base em consultas em linguagem natural. Ao entender o conteúdo e o contexto das imagens, o Qwen-VL pode fornecer resultados de pesquisa mais precisos e relevantes em comparação com os mecanismos de busca de imagens tradicionais baseados em palavras-chave.
No campo do comércio eletrônico, o Qwen-VL pode ser aplicado para aprimorar recomendações de produtos e personalização. Ao analisar imagens de produtos e preferências do usuário, o modelo pode sugerir produtos visualmente semelhantes ou complementares aos clientes, melhorando sua experiência de compra e aumentando as vendas.
O Qwen-VL também pode ser utilizado no desenvolvimento de assistentes virtuais inteligentes e chatbots. Ao integrar capacidades de compreensão visual, esses assistentes podem fornecer respostas mais relevantes contextualmente e se envolver em conversas mais naturais com os usuários. Por exemplo, um usuário poderia enviar uma imagem de um produto em que está interessado, e o assistente virtual poderia fornecer informações, avaliações e recomendações com base no conteúdo visual.
No campo da educação, o Qwen-VL pode ser utilizado para criar materiais de aprendizagem interativos e avaliações. O modelo pode gerar perguntas e explicações com base em imagens educacionais, diagramas e gráficos, tornando a aprendizagem mais envolvente e eficaz para os estudantes.
Além disso, o Qwen-VL tem o potencial de revolucionar a forma como interagimos com e consumimos mídia visual. Com sua capacidade de entender e descrever imagens, o modelo pode ser usado para gerar legendas automáticas, resumos e traduções para imagens e vídeos. Isso pode ampliar significativamente a acessibilidade para pessoas com deficiência visual e superar barreiras linguísticas na comunicação global.
À medida que a Alibaba continua a aprimorar e expandir as capacidades do Qwen-VL, podemos esperar que ele faça contribuições significativas para o campo da IA de visão e linguagem. Com seu desempenho sólido, facilidade de acesso e potencial para impulsionar a inovação, o Qwen-VL está pronto para se tornar um elemento-chave no desenvolvimento de sistemas de IA multimodais.
Em conclusão, o Qwen-VL representa uma etapa importante no avanço dos modelos de visão e linguagem. Seu desempenho excepcional em diversos benchmarks, aliado a sua versatilidade e acesso, o tornam uma ferramenta poderosa para pesquisadores, desenvolvedores e empresas. Conforme o campo da IA multimodal continua a evoluir, o Qwen-VL tem uma posição privilegiada para desempenhar um papel significativo na moldagem do seu futuro.
A introdução do Qwen-VL pela Alibaba marca um desenvolvimento empolgante no campo da IA de visão e linguagem. Com suas capacidades impressionantes, bom desempenho em benchmarks e potencial de aplicações em várias áreas, o Qwen-VL está preparado para ter um impacto significativo em várias indústrias. Conforme pesquisadores e desenvolvedores continuam a explorar e aproveitar o poder desse modelo versátil, podemos antecipar inovações e avanços pioneiros no campo da IA multimodal.
Quer saber as últimas notícias sobre LLM? Confira a tabela de classificação mais recente do LLM!