Want to Become a Sponsor? Contact Us Now!🎉

LLM
Miqu-1-70B: 被泄露的Mistral大型LLM?

Miqu-1-70B: 推动开源AI边界的泄露语言模型

2024年1月底,新的大型语言模型"Miqu-1-70B"的突然出现让AI界兴奋不已。该模型由名为"Miqu Dev"的用户上传到开源平台HuggingFace,以其在各种基准测试上的出色性能而迅速引起关注,与GPT-4和GPT-3.5等行业巨头相媲美。随着有关Miqu-1-70B是Mistral AI未发布模型的泄露版本的猜测越发增多,开源AI未来的影响也变得越来越明显。

Published on

对Miqu-1-70B语言模型的全面分析,其令人印象深刻的基准结果,与领先模型的比较,以及在本地运行它的指南。

想要了解最新的LLM新闻吗?请查看最新的LLM排行榜

Anakin AI - The Ultimate No-Code AI App Builder

AI界的泄露传闻

2024年1月28日,"Miqu Dev"向HuggingFace上传了一组文件,揭示了Miqu-1-70B模型的存在。同时,一名匿名用户,可能就是"Miqu Dev"本人,在4chan上发布了文件的链接,引发了AI界的广泛关注和讨论。

人们很快怀疑Miqu-1-70B是Mistral AI未发布的Mistral Medium模型的压缩版本,这是因为它们在提示格式和交互风格上的相似之处。这些怀疑得到了Mistral公司首席执行官亚瑟·门斯的确认,他承认该公司的一位员工泄露了他们的旧版本压缩模型。

技术规格和架构

在内部结构上,Miqu-1-70B是一个基于Meta的Llama 2架构的700亿参数模型。它已经被压缩到可以在不需高端硬件的情况下运行,只需要不到24GB的VRAM。该模型拥有100万的θ值和32K的最大上下文窗口,这使它与标准的Llama 2和CodeLlama模型有所区别。

基准和比较:Miqu-1-70B自成一体

尽管是泄露和压缩的模型,Miqu-1-70B在各种基准测试上表现出色,接近GPT-4等领先模型的性能。

在多项选择题测试中,Miqu-1-70B正确回答了18个问题中的17个,仅比GPT-4的完美得分少一分。它在EQ-Bench测试中也达到了令人印象深刻的83.5分,接近GPT-4的情感智能水平。

在困惑度方面,Miqu-1-70B与经过微调的Llama 2 70B模型相当,对于512上下文长度的输入,困惑度低于4。这超越了削弱版的CodeLlama 70B模型,在相同的上下文长度下,其困惑度约为5.5。

模型参数困惑度MMLUEQ-Bench
Miqu-1-70B70B~4 @ 51270+83.5
GPT-4????
GPT-3.5175B???
Llama 2 70B70B~4 @ 512??
CodeLlama 70B70B~5.5 @ 512??
Claude????
Mistral/Mixtral-8x7B借鉴56B???

虽然目前还无法获得所有模型的全面基准数据,但Miqu-1-70B的性能表明,它与像GPT-4和GPT-3.5这样的领先专有模型以及Mistral自己的Mixtral-8x7B-Instruct模型相竞争。

在本地运行Miqu-1-70B:一步一步的指南

对于那些渴望尝试Miqu-1-70B的人来说,可以使用Transformers库在Python中运行该模型:

from transformers import LlamaForCausalLM, LlamaTokenizer
 
tokenizer = LlamaTokenizer.from_pretrained("NousResearch/Llama-2-7b-hf")  
input_ids = tokenizer("[INST] eloquent high camp prose about a cute catgirl [/INST]", return_tensors='pt').input_ids.cuda()
 
model = LlamaForCausalLM.from_pretrained("152334H/miqu-1-70b-sf", device_map='auto')
 
outputs = model.generate(input_ids, use_cache=False, max_new_tokens=200)
print(tokenizer.decode(outputs))

影响和未来展望

Miqu-1-70B的泄露对于开源AI发展的未来具有重大影响。它展示了正在取得的迅速进展,创造出的功能强大、易于使用的模型可以与像GPT-4这样的专有系统的性能相匹敌。

Mistral公司首席执行官亚瑟·门斯对泄露的回应表明,在处理此类事件时可能会出现转变,朝着更具合作性的方式发展。门斯没有寻求法律行动,而是承认了泄露,并对社区对该模型的参与表达了激动之情。

当我们等待Mistral的下一个官方发布时,预计它将超越Miqu-1-70B的性能时,AI社区充满期待。Miqu-1-70B的成功为开源模型设立了新的基准,并引发了有关AI发展和合作新范式的讨论。

结论

Miqu-1-70B的出现在AI界引起了轩然大波,展示了开源模型与行业领导者竞争的巨大潜力。它在基准测试上的出色表现以及其在本地运行的能力使其成为研究人员和爱好者们极为关注的对象。 随着人工智能技术的快速发展,Miqu-1-70B泄漏事件提醒我们创新、协作和开放源社区在推动进步中的重要性。随着Miqu-1-70B等模型推动可能性的边界,我们可以期待在不久的将来看到更多开创性的发展。

想了解最新的LLM新闻吗?请查看最新的LLM排行榜

Anakin AI - The Ultimate No-Code AI App Builder