WizardLM 2: La próxima generación de modelos de lenguaje grandes de última tecnología de Microsoft
Published on
Microsoft ha presentado y abierto el código de WizardLM 2, su próxima generación de modelos de lenguaje grandes (LLMs) de última tecnología. Esta nueva familia incluye tres modelos de vanguardia: WizardLM-2 8x22B, WizardLM-2 70B y WizardLM-2 7B, que han mostrado un rendimiento mejorado en capacidades de chat complejo, multilingüe, razonamiento y agente.
La evolución de WizardLM
WizardLM 2 es el último hito en el esfuerzo de Microsoft por escalar el entrenamiento posterior de LLM. Durante el último año, la empresa ha estado iterando en el entrenamiento de la serie Wizard, comenzando con su trabajo en capacitar a los modelos de lenguaje grandes para seguir instrucciones complejas. Luego aceleraron la evolución hacia escenarios de razonamiento en código y matemáticas. Como resultado, Evol-Instruct y el Aprendizaje por Reforzamiento Supervisado de Instrucción y Proceso (RLEIF) se han convertido en tecnologías fundamentales para la comunidad de GenAI.
Modelos de WizardLM 2
La familia de WizardLM 2 consta de tres modelos:
- WizardLM-2 8x22B: El modelo más avanzado de Microsoft, es el mejor LLM de código abierto en su evaluación interna para tareas altamente complejas.
- WizardLM-2 70B: Este modelo alcanza capacidades de razonamiento de primer nivel y es la opción preferida en su categoría de tamaño.
- WizardLM-2 7B: El modelo más rápido, logra un rendimiento comparable con los modelos líderes de código abierto existentes que son 10 veces más grandes.
Descripción general del método
A medida que los datos generados por humanos se van agotando cada vez más, Microsoft cree que los datos cuidadosamente creados por IA y los modelos supervisados por IA serán el único camino hacia una IA más poderosa. Para lograr esto, han construido un sistema de entrenamiento sintético totalmente impulsado por IA.
Preprocesamiento de datos
El pipeline de preprocesamiento de datos consta de los siguientes pasos:
- Análisis de datos: Este paso ayuda a comprender la distribución de diferentes atributos en los nuevos datos de origen.
- Muestreo ponderado: La distribución de los mejores datos de entrenamiento no siempre es consistente con la distribución natural de los corpus de chat humano. Por lo tanto, los pesos de varios atributos en los datos de entrenamiento se ajustan en base a la experiencia experimental.
- Aprendizaje progresivo: A diferencia de la práctica común de utilizar todos los datos para un entrenamiento único, Microsoft descubrió que utilizar diferentes particiones de datos y entrenar progresivamente etapa por etapa puede lograr mejores resultados con menos datos.
Evol Lab
Evol Lab es responsable de generar pares de [instrucción, respuesta] más diversos y complejos. Consta de dos componentes principales:
- Evol-Instruct: Este método permite que varios agentes generen automáticamente instrucciones de alta calidad.
- Evol-Answer: Guiar al modelo para generar y reescribir respuestas múltiples veces puede mejorar su lógica, corrección y afinidad.
AI Align AI (AAA)
AI Align AI (AAA) es un marco que recopila WizardLMs y varios modelos de última tecnología para enseñarse y mejorar entre sí. Consta de dos componentes principales:
- Co-Enseñanza: Los modelos participan en conversaciones simuladas, evaluación de calidad, sugerencias de mejora y cierre de brechas de habilidades para enseñarse y mejorarse mutuamente.
- Autoenseñanza: WizardLM puede generar nuevos datos de entrenamiento de evolución para el aprendizaje supervisado y datos de preferencia para el aprendizaje por refuerzo a través del aprendizaje activo a partir de sí mismo.
Aprendizaje
El proceso de aprendizaje involucra tres pasos principales:
- Aprendizaje supervisado: Los modelos se entrenan utilizando datos etiquetados.
- Stage-DPO: Para un aprendizaje por refuerzo sin conexión más efectivo, los datos de preferencia se dividen en diferentes "rebanadas" y el modelo se mejora progresivamente etapa por etapa.
- RLEIF: Este enfoque utiliza modelos de recompensa de calidad de instrucción (IRM, por sus siglas en inglés) combinados con modelos de recompensa de supervisión de proceso (PRM, por sus siglas en inglés) para lograr una corrección más precisa en el aprendizaje por refuerzo en línea.
Capacidades de WizardLM 2
Para evaluar el rendimiento de WizardLM 2, Microsoft llevó a cabo evaluaciones tanto humanas como automáticas, comparando sus modelos con diversos puntos de referencia. Los resultados muestran que WizardLM 2 demuestra un rendimiento altamente competitivo en comparación con los principales trabajos propietarios y consistently supera a todos los modelos de última tecnología de código abierto existentes.
Evaluación de preferencias humanas
En una comparación ciega de pares, los modelos WizardLM 2 fueron evaluados contra puntos de referencia utilizando un conjunto complejo y desafiante de instrucciones del mundo real. Los resultados mostraron que:
- WizardLM-2 8x22B está ligeramente por detrás de GPT-4-1106-preview y significativamente más fuerte que Command R Plus y GPT4-0314.
- WizardLM-2 70B es mejor que GPT4-0613, Mistral-Large y Qwen1.5-72B-Chat.
- WizardLM-2 7B es comparable con Qwen1.5-32B-Chat y supera a Qwen1.5-14B-Chat y Starling-LM-7B-beta.
MT-Bench
Microsoft también adoptó el marco de evaluación automática MT-Bench basado en GPT-4 para evaluar el rendimiento de sus modelos. Los resultados mostraron que WizardLM-2 8x22B demuestra un rendimiento altamente competitivo en comparación con los trabajos propietarios más avanzados, como GPT-4-Turbo y Claude-3. Mientras tanto, WizardLM-2 7B y WizardLM-2 70B son los modelos con mejor rendimiento entre otros puntos de referencia líderes en escalas de modelos de 7B a 70B.
Uso
El modelo WizardLM-2 8x22B y el modelo WizardLM-2 7B comparten los pesos del modelo en Hugging Face, y el modelo WizardLM-2 70B y la demostración de todos los modelos estarán disponibles en los próximos días. Para garantizar la calidad de la generación, los usuarios deben utilizar estrictamente los mismos comandos del sistema proporcionados por Microsoft.
WizardLM-2 adopta el formato de comandos de Vicuna y admite conversaciones de múltiples turnos. El comando debe ser el siguiente:
Una conversación entre un usuario curioso y un asistente de inteligencia artificial. El asistente brinda respuestas útiles, detalladas y educadas a las preguntas del usuario.
USUARIO: Hola
ASISTENTE: Hola.
USUARIO: ¿Quién eres tú?
ASISTENTE: Soy WizardLM.
...
Microsoft también proporciona un código de demostración de inferencia de WizardLM-2 en su repositorio de GitHub.
En conclusión, WizardLM 2 representa un avance significativo en los modelos de lenguaje grandes, mostrando un rendimiento mejorado en la conversación compleja, multilingüe, razonamiento y capacidades de agente. Al aprovechar los sistemas de entrenamiento sintético impulsados por IA y técnicas de aprendizaje innovadoras, Microsoft ha llevado los límites de lo que los modelos de lenguaje de código abierto pueden lograr.