Want to Become a Sponsor? Contact Us Now!🎉

LLM
Miqu-1-70B: 누출된 Mistral 대형 LLM?

Miqu-1-70B: 오픈 소스 AI 범위를 넓히는 누출된 언어 모델

2024년 1월 말, AI 커뮤니티는 "Miqu-1-70B"라는 새로운 대형 언어 모델의 갑작스러운 등장으로 핫했다. "Miqu Dev"라는 사용자가 이 모델을 오픈 소스 플랫폼인 HuggingFace에 업로드하자, 이 모델은 곧 GPT-4와 GPT-3.5와 같은 업계 선두주자들을 압도하는 인상적인 성능으로 주목을 받았다. Miqu-1-70B가 Mistral AI의 미출시 모델의 유출 버전인 것으로 오해의 소지가 커지면서, 오픈 소스 AI의 미래에 대한 함의가 점점 분명해졌다.

Published on

Miqu-1-70B 언어 모델에 대한 포괄적인 분석, 인상적인 벤치마크, 주요 모델들과의 비교 및 로컬에서 실행하는 방법 안내.

최신 LLM 뉴스를 알고 싶으신가요? 최신 LLM 리더보드를 확인해보세요!

Anakin AI - The Ultimate No-Code AI App Builder

AI 세계에 우려진 누출 소식

2024년 1월 28일, "Miqu Dev"가 Miqu-1-70B 모델을 HuggingFace에 파일 세트로 업로드했다. 동시에 익명의 사용자, 아마도 "Miqu Dev" 본인,이 파일에 대한 4chan 링크를 게시하여 AI 커뮤니티에서 널리 관심과 논의를 불러 일으키게 했다.

Miqu-1-70B가 Mistral AI의 미출시 Mistral Medium 모델의 양자화 버전일 가능성이 생겼고, 프롬프트 형식과 상호 작용 스타일의 유사성에 의해 이러한 의심이 확증되었다. 이러한 의심은 Mistral의 CEO 인 Arthur Mensch가 이들 모델의 이전 버전이 직원에 의해 누출되었다고 인정한 바람에 확실해졌다.

기술적 사양 및 아키텍처

내부적으로 Miqu-1-70B는 Meta의 Llama 2 아키텍처에 기반한 700억 개의 매개변수 모델이다. 그것은 24GB 미만의 VRAM에서 실행되도록 양자화되어, 고사양 하드웨어가 없는 사용자들에게 더 접근 가능한 모델이 되었다. 이 모델은 1,000,000 theta 값과 32K 이상의 최대 문맥 창을 자랑하며, 일반적인 Llama 2 및 CodeLlama 모델과 구별된다.

벤치마크와 비교: Miqu-1-70B는 자체를 유지한다.

유출된 양자화 모델임에도 불구하고, Miqu-1-70B는 다양한 벤치마크에서 놀랍도록 성능을 발휘하여 GPT-4와 유사한 능력에 접근했다.

다중 선택 질문 테스트에서 Miqu-1-70B는 18문제 중 17문제를 정확히 답변하여 GPT-4의 완벽한 점수와 견줄만한 성과를 보였다. EQ-Bench에서도 83.5의 인상적인 점수를 달성하여 GPT-4의 감정적 지능 수준에 근접하였다.

복잡성 면에서 Miqu-1-70B는 512의 문맥 길이에서 미세 조정된 Llama 2 70B 모델과 비슷한 점수를 기록하여 4 미만의 점수를 얻었다. 이는 동일한 문맥 길이에서 약 5.5의 복잡성을 가진 nerfed CodeLlama 70B 모델보다 우월한 성능을 보였다.

ModelParametersPerplexityMMLUEQ-Bench
Miqu-1-70B70B512에서 ~470+83.5
GPT-4????
GPT-3.5175B???
Llama 2 70B70B512에서 ~4??
CodeLlama 70B70B512에서 ~5.5??
Claude????
Mistral/Mixtral-8x7B-Instruct56B???

모든 모델에 대한 포괄적인 벤치마크 데이터가 존재하지는 않지만, Miqu-1-70B의 성능은 GPT-4와 GPT-3.5와 같은 주요 사유 모델뿐만 아니라 Mistral의 Mixtral-8x7B-Instruct 모델과도 힘겨운 경쟁력을 보여준다.

로컬에서 Miqu-1-70B 실행하기: 단계별 안내서

Miqu-1-70B를 실험해보고 싶은 사용자들은 Transformers 라이브러리를 사용하여 Python에서 모델을 로컬에서 실행할 수 있다:

from transformers import LlamaForCausalLM, LlamaTokenizer
 
tokenizer = LlamaTokenizer.from_pretrained("NousResearch/Llama-2-7b-hf")  
input_ids = tokenizer("[INST] 매력적인 고양이소녀에 대한 훌륭한 하이캠프 심사 좋은 구문 [/ INST]", return_tensors='pt').input_ids.cuda()
 
model = LlamaForCausalLM.from_pretrained("152334H/miqu-1-70b-sf", device_map='auto')
 
outputs = model.generate(input_ids, use_cache=False, max_new_tokens=200)
print(tokenizer.decode(outputs))

함의 및 전망

Miqu-1-70B의 유출은 오픈 소스 AI 개발의 미래에 큰 의미를 가지고 있다. 이는 GPT-4와 같은 프로프리어터리 시스템의 성능과 견줄만한 강력하고 접근 가능한 모델을 만드는 빠른 진보를 보여준다.

Mistral CEO인 Arthur Mensch의 유출에 대한 응답은 이와 같은 사건을 처리하는 더 협력적인 접근 방식으로의 전환을 시사한다. Mensch는 법적 조치를 취하는 대신 유출을 인정하고 커뮤니티가 모델에 열정을 갖고 참여하는 것에 대해 흥분을 표명했다.

우리는 Miqu-1-70B보다 더 강력한 미출시 모델을 기다리면서도, AI 커뮤니티는 그 자체로 기대감에 흥분하고 있다. Miqu-1-70B의 성공은 오픈 소스 모델에 대한 새로운 기준을 세우고, AI 개발과 협력의 가능성에 대한 논의를 일으키고 있다.

결론

Miqu-1-70B의 등장은 AI 커뮤니티에 충격을 주며, 오픈 소스 모델이 산업 리더들과 경쟁할 수 있는 엄청난 잠재력을 보여주었다. 벤치마크에서의 인상적인 성과와 로컬에서 실행 가능한 능력은 연구원과 애호가들 사이에서 큰 관심의 대상이 되었다.

title: 지속적인 혁신, 협업 및 오픈 소스 커뮤니티의 힘 language: ko

인공지능 기술의 빠른 진화를 목격하면서 Miqu-1-70B 유출 사건은 혁신, 협력 및 오픈 소스 커뮤니티의 힘을 강조하는 역할을 한다. Miqu-1-70B와 같은 모델이 가능한 것의 한계를 넘어섬으로써 우리는 가까운 미래에 더욱 혁신적인 발전을 기대할 수 있다.

최신 LLM 뉴스를 알고 싶으세요? 최신 LLM 리더보드를 확인해 보세요!

Anakin AI - The Ultimate No-Code AI App Builder