WizardLM 2：微软的最新一代顶级大型语言模型

Name: Lynn Mikami

Published on 2024/4/30

微软最近推出并开源了WizardLM 2，他们的最新一代顶级大型语言模型（LLMs）。这个新系列包括三个尖端模型：WizardLM-2 8x22B、WizardLM-2 70B和WizardLM-2 7B，在复杂对话、多语言、推理和智能代理能力方面性能得到了提升。

WizardLM的演进

WizardLM 2是微软在LLM模型训练方面规模扩展的最新里程碑。过去一年里，该公司一直在对Wizard系列进行训练的迭代，从使大型语言模型能够遵循复杂指令的工作开始。然后，他们加快了对代码和数学推理场景的演进。结果，Evol-Instruct和Instruction&Process Supervised Reinforcement Learning（RLEIF）已成为GenAI社区的基础技术。

WizardLM 2 模型

WizardLM 2系列包括三个模型：

WizardLM-2 8x22B：微软最先进的模型，它是他们内部评估的最佳开源LLM，适用于高度复杂的任务。
WizardLM-2 70B：该模型具有一流的推理能力，在其规模范围内是首选模型。
WizardLM-2 7B：速度最快的模型，在性能上可与现有的10倍规模更大的领先开源模型媲美。

方法概述

随着人工生成数据的不断消耗，微软认为，由AI精心创建和由AI监督的模型将是实现更强大人工智能的唯一途径。为了实现这一目标，他们建立了一个完全由AI驱动的合成训练系统。

数据预处理

数据预处理流水线包括以下步骤：

数据分析：此步骤有助于了解新源数据中不同属性的分布情况。
加权采样：最佳训练数据的分布并不总是与人类对话语料库的自然分布一致。因此，根据实验经验调整训练数据中不同属性的权重。
渐进学习：与通常一次性使用所有数据进行训练的常规做法不同，微软发现，使用不同的数据分区并逐步训练阶段可以在更少的数据下取得更好的结果。

进化实验室

进化实验室负责生成更多样化和复杂的[指令，回复]对。它由两个主要组成部分组成：

Evol-Instruct：该方法使各种智能代理能够自动生成高质量的指令。
Evol-Answer：引导模型多次生成和重写回复可以提高其逻辑性、正确性和亲和性。

AI Align AI（AAA）

AI Align AI（AAA）是一个集合WizardLMs和各种领先模型进行共同教学和相互提升的框架。它由两个主要组成部分组成：

共同教学：模型进行模拟对话、质量评估、改进建议和弥合技能差距的交互，以相互教学和提升。
自我教学：WizardLM可以通过从自身主动学习，为监督学习生成新的演化训练数据和偏好数据，用于强化学习。

学习

学习过程包括三个主要步骤：

监督学习：使用标记数据对模型进行训练。
Stage-DPO：为了更有效地进行离线强化学习，偏好数据被分割为不同的片段，并逐步改进模型。
RLEIF：这种方法使用指令质量奖励模型（IRM）和过程监督奖励模型（PRM）相结合，以在在线强化学习中实现更精确的正确性。

WizardLM 2 的能力

为了评估WizardLM 2的性能，微软进行了人工和自动评估，并将其模型与各种基准进行了比较。结果表明，与领先的专有作品和所有现有的顶级开源模型相比，WizardLM 2展现出高竞争力的性能。

人类偏好评估

在盲目的两两比较中，使用一组复杂和具有挑战性的真实世界指令对WizardLM 2模型进行评估。结果显示：

WizardLM-2 8x22B 仅略逊于GPT-4-1106-preview，显著强于Command R Plus和GPT4-0314。
WizardLM-2 70B 优于GPT4-0613、Mistral-Large和Qwen1.5-72B-Chat。
WizardLM-2 7B 与Qwen1.5-32B-Chat相当，并优于Qwen1.5-14B-Chat和Starling-LM-7B-beta。

MT-Bench

微软还采用了基于GPT-4的自动MT-Bench评估框架来评估其模型的性能。结果显示，与最先进的专有作品（例如GPT-4-Turbo和Claude-3）相比，WizardLM-2 8x22B展现出高竞争力的性能。与其他7B到70B模型规模的领先基线相比，WizardLM-2 7B和WizardLM-2 70B是性能最佳的模型。

用法

WizardLM-2 8x22B和WizardLM-2 7B的模型权重已在Hugging Face上共享，WizardLM-2 70B和所有模型的演示将在未来几天内发布。为了保证生成质量，用户应严格按照Microsoft提供的相同系统提示使用。

WizardLM-2采用了Vicuna的提示格式，并支持多轮对话。提示的格式应如下：

一位好奇的用户和一位人工智能助手之间的对话。助手给出用户问题的有用、详细和礼貌的回答。
用户：你好
助手：你好。
用户：你是谁？
助手：我是WizardLM。
...

Microsoft还在他们的GitHub存储库上提供了一个WizardLM-2推断演示代码。

总之，WizardLM 2在大型语言模型方面取得了重大突破，展示了在复杂数字信息聊天、多语言、推理和代理能力方面的改进性能。通过利用AI驱动的合成训练系统和创新学习技术，Microsoft推动了开源语言模型能够实现的边界。

WizardCoder：革命性的AI重构代码生成 Zephyr-7b：改变游戏规则的语言模型