Want to Become a Sponsor? Contact Us Now!🎉

LLM
Miqu-1-70B: O Modelo de Linguagem Vazado Mistral Large LLM?

Miqu-1-70B: O Modelo de Linguagem Vazado que Empurra os Limites da IA Open-Source

No final de janeiro de 2024, a comunidade de IA ficou agitada com o surgimento repentino de um novo modelo de linguagem chamado "Miqu-1-70B". Enviado para a plataforma open-source HuggingFace por um usuário chamado "Miqu Dev", o modelo rapidamente atraiu atenção por seu impressionante desempenho em várias métricas, rivalizando com gigantes da indústria como GPT-4 e GPT-3.5. À medida que a especulação crescia de que Miqu-1-70B era uma versão vazada do modelo não lançado da Mistral AI, as implicações para o futuro da IA open-source se tornaram cada vez mais aparentes.

Published on

Uma análise abrangente do modelo de linguagem Miqu-1-70B, suas impressionantes métricas, comparações com modelos lideres, e um guia para executá-lo localmente.

Quer ficar por dentro das últimas notícias sobre LLM? Confira o mais recente ranking de LLM!

Anakin AI - The Ultimate No-Code AI App Builder

O Vazamento que Sacudiu o Mundo da IA

Em 28 de janeiro de 2024, "Miqu Dev" enviou um conjunto de arquivos para o HuggingFace, revelando o modelo Miqu-1-70B. Simultaneamente, um usuário anônimo, possivelmente "Miqu Dev" ele mesmo, postou um link para os arquivos no 4chan, iniciando um interesse e discussão em larga escala na comunidade de IA.

Suspeitas rapidamente surgiram de que Miqu-1-70B era uma versão quantizada do modelo Mistral Medium não lançado da Mistral AI, dadas as semelhanças no formato de prompt e estilo de interação. Essas suspeitas foram confirmadas pelo CEO da Mistral, Arthur Mensch, que reconheceu que uma versão mais antiga e quantizada de seu modelo havia sido vazada por um funcionário.

Especificações Técnicas e Arquitetura

Por debaixo do capô, Miqu-1-70B é um modelo com 70 bilhões de parâmetros baseado na arquitetura Llama 2 da Meta. Ele foi quantizado para rodar com menos de 24 GB de VRAM, tornando-o mais acessível para usuários sem hardware de ponta. O modelo ostenta um valor theta de 1.000.000 e uma janela máxima de contexto de 32K, diferenciando-o dos modelos padrões do Llama 2 e CodeLlama.

Métricas e Comparações: Miqu-1-70B se Destaca

Apesar de ser um modelo vazado e quantizado, Miqu-1-70B demonstrou um desempenho notável em várias métricas, se aproximando das capacidades de modelos líderes como GPT-4.

Em um teste de questão de múltipla escolha, Miqu-1-70B respondeu corretamente a 17 de 18 perguntas, faltando apenas um ponto para a pontuação perfeita do GPT-4. Ele também alcançou uma impressionante pontuação de 83,5 na EQ-Bench, se aproximando do nível de inteligência emocional do GPT-4.

Em termos de perplexidade, Miqu-1-70B é comparável aos modelos Llama 2 70B finetunados, com uma pontuação inferior a 4 para um comprimento de contexto de 512. Isso supera o modelo CodeLlama 70B enfraquecido, que tem uma perplexidade em torno de 5,5 para o mesmo comprimento de contexto.

ModeloParâmetrosPerplexidadeMMLUEQ-Bench
Miqu-1-70B70B~4 @ 51270+83.5
GPT-4????
GPT-3.5175B???
Llama 2 70B70B~4 @ 512??
CodeLlama 70B70B~5.5 @ 512??
Claude????
Mistral/Mixtral-8x7B-Instruct56B???

Embora dados de benchmark abrangentes para todos os modelos não estejam disponíveis, o desempenho do Miqu-1-70B sugere que ele é competitivo com modelos proprietários líderes como GPT-4 e GPT-3.5, bem como o modelo Mistral/Mixtral-8x7B-Instruct da própria Mistral.

Rodando Miqu-1-70B Localmente: Um Guia Passo a Passo

Para aqueles que desejam experimentar o Miqu-1-70B, é possível executar o modelo localmente usando a biblioteca Transformers para rodar o Miqu-1-70B em Python:

from transformers import LlamaForCausalLM, LlamaTokenizer
 
tokenizer = LlamaTokenizer.from_pretrained("NousResearch/Llama-2-7b-hf")  
input_ids = tokenizer("[INST] eloquent high camp prose about a cute catgirl [/INST]", return_tensors='pt').input_ids.cuda()
 
model = LlamaForCausalLM.from_pretrained("152334H/miqu-1-70b-sf", device_map='auto')
 
outputs = model.generate(input_ids, use_cache=False, max_new_tokens=200)
print(tokenizer.decode(outputs))

Implicações e Perspectivas Futuras

O vazamento do Miqu-1-70B tem implicações significativas para o futuro do desenvolvimento de IA open-source. Ele demonstra o rápido progresso na criação de modelos poderosos e acessíveis que podem rivalizar com o desempenho de sistemas proprietários como o GPT-4.

A resposta do CEO da Mistral, Arthur Mensch, ao vazamento sugere uma possível mudança para uma abordagem mais colaborativa no tratamento de tais incidentes. Ao invés de tomar medidas legais, Mensch reconheceu o vazamento e expressou empolgação com o engajamento da comunidade com o modelo.

Enquanto esperamos pelos próximos lançamentos oficiais da Mistral, que são esperados para superar as capacidades do Miqu-1-70B, a comunidade de IA está ansiosa. O sucesso do Miqu-1-70B estabeleceu um novo padrão para modelos open-source e despertou discussões sobre o potencial de novos paradigmas no desenvolvimento e colaboração em IA.

Conclusão

O surgimento do Miqu-1-70B enviou ondas de choque pela comunidade de IA, mostrando o imenso potencial de modelos open-source para competir com líderes do setor. Seu impressionante desempenho em métricas e sua capacidade de ser executado localmente o tornaram um objeto de grande interesse entre pesquisadores e entusiastas. À medida que testemunhamos a rápida evolução da tecnologia de IA, o vazamento do Miqu-1-70B serve como um lembrete da importância da inovação, colaboração e do poder da comunidade de código aberto em impulsionar o progresso. Com modelos como o Miqu-1-70B empurrando os limites do que é possível, podemos esperar ver ainda mais desenvolvimentos inovadores no futuro próximo.

Quer aprender as últimas notícias sobre LLM? Confira o mais recente quadro de líderes do LLM!

Anakin AI - The Ultimate No-Code AI App Builder