Miqu-1-70B: 오픈 소스 AI 범위를 넓히는 누출된 언어 모델
2024년 1월 말, AI 커뮤니티는 "Miqu-1-70B"라는 새로운 대형 언어 모델의 갑작스러운 등장으로 핫했다. "Miqu Dev"라는 사용자가 이 모델을 오픈 소스 플랫폼인 HuggingFace에 업로드하자, 이 모델은 곧 GPT-4와 GPT-3.5와 같은 업계 선두주자들을 압도하는 인상적인 성능으로 주목을 받았다. Miqu-1-70B가 Mistral AI의 미출시 모델의 유출 버전인 것으로 오해의 소지가 커지면서, 오픈 소스 AI의 미래에 대한 함의가 점점 분명해졌다.
Published on
최신 LLM 뉴스를 알고 싶으신가요? 최신 LLM 리더보드를 확인해보세요!
AI 세계에 우려진 누출 소식
2024년 1월 28일, "Miqu Dev"가 Miqu-1-70B 모델을 HuggingFace에 파일 세트로 업로드했다. 동시에 익명의 사용자, 아마도 "Miqu Dev" 본인,이 파일에 대한 4chan 링크를 게시하여 AI 커뮤니티에서 널리 관심과 논의를 불러 일으키게 했다.
Miqu-1-70B가 Mistral AI의 미출시 Mistral Medium 모델의 양자화 버전일 가능성이 생겼고, 프롬프트 형식과 상호 작용 스타일의 유사성에 의해 이러한 의심이 확증되었다. 이러한 의심은 Mistral의 CEO 인 Arthur Mensch가 이들 모델의 이전 버전이 직원에 의해 누출되었다고 인정한 바람에 확실해졌다.
기술적 사양 및 아키텍처
내부적으로 Miqu-1-70B는 Meta의 Llama 2 아키텍처에 기반한 700억 개의 매개변수 모델이다. 그것은 24GB 미만의 VRAM에서 실행되도록 양자화되어, 고사양 하드웨어가 없는 사용자들에게 더 접근 가능한 모델이 되었다. 이 모델은 1,000,000 theta 값과 32K 이상의 최대 문맥 창을 자랑하며, 일반적인 Llama 2 및 CodeLlama 모델과 구별된다.
벤치마크와 비교: Miqu-1-70B는 자체를 유지한다.
유출된 양자화 모델임에도 불구하고, Miqu-1-70B는 다양한 벤치마크에서 놀랍도록 성능을 발휘하여 GPT-4와 유사한 능력에 접근했다.
다중 선택 질문 테스트에서 Miqu-1-70B는 18문제 중 17문제를 정확히 답변하여 GPT-4의 완벽한 점수와 견줄만한 성과를 보였다. EQ-Bench에서도 83.5의 인상적인 점수를 달성하여 GPT-4의 감정적 지능 수준에 근접하였다.
복잡성 면에서 Miqu-1-70B는 512의 문맥 길이에서 미세 조정된 Llama 2 70B 모델과 비슷한 점수를 기록하여 4 미만의 점수를 얻었다. 이는 동일한 문맥 길이에서 약 5.5의 복잡성을 가진 nerfed CodeLlama 70B 모델보다 우월한 성능을 보였다.
Model | Parameters | Perplexity | MMLU | EQ-Bench |
---|---|---|---|---|
Miqu-1-70B | 70B | 512에서 ~4 | 70+ | 83.5 |
GPT-4 | ? | ? | ? | ? |
GPT-3.5 | 175B | ? | ? | ? |
Llama 2 70B | 70B | 512에서 ~4 | ? | ? |
CodeLlama 70B | 70B | 512에서 ~5.5 | ? | ? |
Claude | ? | ? | ? | ? |
Mistral/Mixtral-8x7B-Instruct | 56B | ? | ? | ? |
모든 모델에 대한 포괄적인 벤치마크 데이터가 존재하지는 않지만, Miqu-1-70B의 성능은 GPT-4와 GPT-3.5와 같은 주요 사유 모델뿐만 아니라 Mistral의 Mixtral-8x7B-Instruct 모델과도 힘겨운 경쟁력을 보여준다.
로컬에서 Miqu-1-70B 실행하기: 단계별 안내서
Miqu-1-70B를 실험해보고 싶은 사용자들은 Transformers 라이브러리를 사용하여 Python에서 모델을 로컬에서 실행할 수 있다:
from transformers import LlamaForCausalLM, LlamaTokenizer
tokenizer = LlamaTokenizer.from_pretrained("NousResearch/Llama-2-7b-hf")
input_ids = tokenizer("[INST] 매력적인 고양이소녀에 대한 훌륭한 하이캠프 심사 좋은 구문 [/ INST]", return_tensors='pt').input_ids.cuda()
model = LlamaForCausalLM.from_pretrained("152334H/miqu-1-70b-sf", device_map='auto')
outputs = model.generate(input_ids, use_cache=False, max_new_tokens=200)
print(tokenizer.decode(outputs))
함의 및 전망
Miqu-1-70B의 유출은 오픈 소스 AI 개발의 미래에 큰 의미를 가지고 있다. 이는 GPT-4와 같은 프로프리어터리 시스템의 성능과 견줄만한 강력하고 접근 가능한 모델을 만드는 빠른 진보를 보여준다.
Mistral CEO인 Arthur Mensch의 유출에 대한 응답은 이와 같은 사건을 처리하는 더 협력적인 접근 방식으로의 전환을 시사한다. Mensch는 법적 조치를 취하는 대신 유출을 인정하고 커뮤니티가 모델에 열정을 갖고 참여하는 것에 대해 흥분을 표명했다.
우리는 Miqu-1-70B보다 더 강력한 미출시 모델을 기다리면서도, AI 커뮤니티는 그 자체로 기대감에 흥분하고 있다. Miqu-1-70B의 성공은 오픈 소스 모델에 대한 새로운 기준을 세우고, AI 개발과 협력의 가능성에 대한 논의를 일으키고 있다.
결론
Miqu-1-70B의 등장은 AI 커뮤니티에 충격을 주며, 오픈 소스 모델이 산업 리더들과 경쟁할 수 있는 엄청난 잠재력을 보여주었다. 벤치마크에서의 인상적인 성과와 로컬에서 실행 가능한 능력은 연구원과 애호가들 사이에서 큰 관심의 대상이 되었다.
title: 지속적인 혁신, 협업 및 오픈 소스 커뮤니티의 힘 language: ko
인공지능 기술의 빠른 진화를 목격하면서 Miqu-1-70B 유출 사건은 혁신, 협력 및 오픈 소스 커뮤니티의 힘을 강조하는 역할을 한다. Miqu-1-70B와 같은 모델이 가능한 것의 한계를 넘어섬으로써 우리는 가까운 미래에 더욱 혁신적인 발전을 기대할 수 있다.
최신 LLM 뉴스를 알고 싶으세요? 최신 LLM 리더보드를 확인해 보세요!