Want to Become a Sponsor? Contact Us Now!🎉

LLM
WizardLM 2: 다음 세대 상위 언어 모델인 마이크로소프트의 대규모 언어 모델

WizardLM 2: 다음 세대 상위 언어 모델인 마이크로소프트의 대규모 언어 모델

Published on

마이크로소프트는 최근에 WizardLM 2를 도입하고 오픈소스로 공개했습니다. 이는 상위 언어 모델(Large Language Models, LLMs) 분야에서의 다음 세대 모델로, 복잡한 채팅, 다국어, 추론 및 에이전트 기능에서 성능 향상을 보였습니다.

마이크로소프트는 최근에 WizardLM 2를 도입하고 오픈소스로 공개했습니다. 이는 상위 언어 모델(Large Language Models, LLMs) 분야에서의 다음 세대 모델로, 복잡한 채팅, 다국어, 추론 및 에이전트 기능에서 성능 향상을 보였습니다.

Anakin AI - The Ultimate No-Code AI App Builder

WizardLM의 진화

WizardLM 2는 마이크로소프트의 LLM 후훈련 확장 노력의 최신 이정표입니다. 지난 한 해 동안 회사는 복잡한 지시문을 따를 수 있는 대규모 언어 모델에 대한 작업으로 Wizard 시리즈의 교육을 반복해 왔습니다. 이후 코드 및 수학 추론 시나리오로 진화를 가속화했습니다. 이를 통해 Evol-Instruct 및 Instruction&Process Supervised Reinforcement Learning(RLEIF)이 GenAI 커뮤니티에 필수적인 기술이 되었습니다.

WizardLM 2 모델

WizardLM 2 패밀리에는 다음과 같은 세 가지 모델이 포함되어 있습니다:

  1. WizardLM-2 8x22B: 마이크로소프트의 가장 선진적인 모델로, 고도로 복잡한 작업에 대해 내부 평가에서 최고의 오픈소스 LLM입니다.
  2. WizardLM-2 70B: 이 모델은 최상위 추론 기능을 갖추었으며, 해당 크기 범주에서의 첫 번째 선택입니다.
  3. WizardLM-2 7B: 가장 빠른 모델로, 기존 오픈소스 선도 모델의 성능과 비슷합니다. 크기는 10배 더 큽니다.

방법 개요

인공지능에 의해 주의 깊게 생성된 데이터가 점점 고갈되어감에 따라, 마이크로소프트는 AI에 의해 감독되는 AI에 의해 신중하게 생성된 데이터가 더 강력한 AI로 가는 유일한 길이 될 것이라 믿고 있습니다. 이를 위해, 그들은 완전히 AI 기반의 합성 훈련 시스템을 구축했습니다.

데이터 전처리

데이터 전처리 파이프라인은 다음 단계로 구성됩니다:

  1. 데이터 분석: 이 단계에서는 새로운 소스 데이터의 다양한 속성 분포를 이해하는 데 도움이 됩니다.
  2. 가중치 샘플링: 최상의 훈련 데이터의 분포가 항상 인간 채팅 말뭉치의 자연적인 분포와 일치하지는 않습니다. 따라서 실험적 경험을 바탕으로 훈련 데이터의 다양한 속성의 가중치가 조정됩니다.
  3. 점진적 학습: 일회성 훈련에서 모든 데이터를 사용하는 일반적인 방법과 달리, 마이크로소프트는 서로 다른 데이터 파티션을 사용하고 점진적으로 단계별로 훈련함으로써 더 나은 결과를 얻을 수 있다고 발견했습니다.

Evol Lab

Evol Lab은 더 다양하고 복잡한 [지시문, 응답] 쌍을 생성하는데 책임이 있습니다. 두 개의 주요 구성 요소로 구성됩니다:

  1. Evol-Instruct: 이 방법을 사용하면 다양한 에이전트가 자동으로 고품질의 지시문을 생성할 수 있습니다.
  2. Evol-Answer: 모델이 응답을 여러 번 생성 및 재작성하도록 안내함으로써 논리, 정확성 및 적합성을 개선할 수 있습니다.

AI Align AI (AAA)

AI Align AI (AAA)는 WizardLM과 다양한 최첨단 모델을 수집하여 상호 강화적으로 교육하고 개선하는 프레임워크입니다. 두 개의 주요 구성 요소로 구성됩니다:

  1. 공동 교육: 모델들은 시뮬레이션된 채팅, 품질 판단, 개선 제안 및 기술적 능력 간격을 끼치며 상호 교육하고 개선합니다.
  2. 자가 학습: WizardLM은 자체로부터의 능동적 학습을 통해 감독 학습을 위한 새로운 진화 훈련 데이터 및 강화 학습을 위한 기호 데이터를 생성할 수 있습니다.

학습

학습 프로세스는 다음 세 가지 주요 단계로 이루어집니다:

  1. 감독 학습: 레이블이 지정된 데이터를 사용하여 모델을 교육합니다.
  2. Stage-DPO: 더 효과적인 오프라인 강화 학습을 위해 선호도 데이터를 다른 슬라이스로 나누고 모델을 단계별로 점진적으로 개선합니다.
  3. RLEIF: 이 접근 방식은 지시문 품질 보상 모델(IRM)과 프로세스 감독 보상 모델(PRM)을 결합하여 온라인 강화 학습에서 보다 정확한 정확성을 달성합니다.

WizardLM 2 기능

WizardLM 2의 성능을 평가하기 위해 마이크로소프트는 인간 및 자동 평가를 수행하고 다양한 기준 모델과 비교했습니다. 결과는 WizardLM 2가 주요 상용 작품과 모든 최첨단 오픈소스 모델에 비해 매우 경쟁력 있는 성능을 보여준다는 것을 보여줍니다.

인간 선호 평가

실제 세계의 복잡하고 도전적인 지시문을 대상으로 WizardLM 2 모델을 기준 모델과 대조하는 블라인드 이중 비교에서 다음과 같은 결과가 나타났습니다:

  1. WizardLM-2 8x22B는 GPT-4-1106-preview 보다 약간 뒤에 있으며, Command R Plus 및 GPT4-0314보다 훨씬 강력합니다.
  2. WizardLM-2 70B는 GPT4-0613, Mistral-Large 및 Qwen1.5-72B-Chat보다 우수합니다.
  3. WizardLM-2 7B는 Qwen1.5-32B-Chat와 비교 가능하며, Qwen1.5-14B-Chat 및 Starling-LM-7B-beta를 능가합니다.

MT-Bench

마이크로소프트는 또한 GPT-4를 기반으로 한 자동 MT-Bench 평가 프레임워크를 채택하여 모델의 성능을 평가했습니다. 결과는 WizardLM-2 8x22B가 GPT-4-Turbo 및 Claude-3와 같은 가장 선진적인 상용 작업과 매우 경쟁력 있는 성능을 보여준다는 것을 보여줍니다. 한편, WizardLM-2 7B 및 WizardLM-2 70B는 7B에서 70B 모델 규모 사이의 기타 주요 기준 모델 중 성능이 가장 우수합니다.

사용법

제목 : WizardLM-2 모델

마크다운 파일의 한국어 번역을 제공해 드리겠습니다. 만약 frontmatter가 있다면, language 매개변수를 일치하는 한국어로 번역해야 합니다. 코드의 경우 코드 자체를 번역하지 말고 주석만 번역하세요. 샘플 프롬프트의 내용은 번역하지 말아주세요. 다음은 파일 내용입니다:

WizardLM-2 8x22B와 WizardLM-2 7B의 모델 가중치는 Hugging Face에서 공유됩니다. WizardLM-2 70B와 모든 모델의 데모는 곧 제공될 예정입니다. 생성 품질을 보장하기 위해 사용자는 Microsoft에서 제공하는 것과 동일한 시스템 프롬프트를 엄격히 사용해야 합니다.

WizardLM-2는 Vicuna의 프롬프트 형식을 채택하며, 멀티턴 대화를 지원합니다. 프롬프트는 다음과 같아야 합니다:

호기심 많은 사용자와 인공지능 보조원 간의 대화. 보조원은 사용자의 질문에 도움이 되고 자세한, 공손한 답변을 제공합니다.
사용자: 안녕
보조원: 안녕하세요.
사용자: 당신은 누구세요?
보조원: 저는 WizardLM입니다.
...

Microsoft는 또한 GitHub 저장소에서 WizardLM-2 추론 데모 코드를 제공합니다.

결론적으로, WizardLM 2는 대화, 다국어, 추론, 에이전트 기능의 성능이 향상된 대형 언어 모델의 중요한 발전을 대표합니다. Microsoft은 AI 기반의 합성 훈련 시스템과 혁신적인 학습 기술을 활용하여 오픈 소스 언어 모델이 어떤 영역에서 발전할 수 있는지 경계를 넓히고 있습니다.

Anakin AI - The Ultimate No-Code AI App Builder