Meta-Llama-3-8B 및 Meta-Llama-3-70B에 대한 간단한 개요: Meta의 새로운 오픈 소스 LLMs

Name: Lynn Mikami

Published on 2024. 4. 30.

Meta의 최첨단 LLAMA3 언어 모델, 데이터, 벤치마크, 훈련 과정, 모델 비교, 그리고 오픈소스 대 폐쇄소스 AI 논쟁에서의 의의에 대한 포괄적인 소개.

Meta는 "지금까지의 가장 강력한 오픈소스 대규모 모델"로 손꼽히는 LLAMA3 언어 모델을 공개했습니다. 8B 파라미터 모델과 더 큰 70B 파라미터 모델로 구성된 LLAMA3는 대규모 언어 모델의 성능, 확장성, 기능의 한계를 뛰어넘는 중대한 발전을 나타냅니다.

Llama 3의 데이터와 규모

대규모 훈련 데이터셋

LLAMA3의 탁월한 성능에 영향을 미치는 주요 요소 중 하나는 훈련 데이터의 규모입니다. 이 모델은 이전 모델인 LLAMA2와 비교해 압도적인 15조 토큰 데이터셋에서 훈련되었습니다. 이 거대한 데이터셋은 코드 관련 데이터를 제외하고도 다양한 콘텐츠를 포함하고 있으며, LLAMA2와 비교해 코드 관련 데이터는 4배 증가되었습니다.

다국어 데이터 중시

멀티언어 애플리케이션의 중요성을 인식한 Meta는 LLAMA3의 사전훈련 데이터 중 5% 이상을 30여 개 이상의 고품질 비영어 데이터로 구성했습니다. Meta는 이들 언어의 성능이 영어와 비교했을 때 약간 낮을 수 있다고 인정하고 있지만, 이러한 다국어 중심의 접근 방식은 LLAMA3의 다용도성과 세계적 적용 가능성을 향상시킵니다.

LLama 3 모델의 사양과 성능

8B 파라미터 모델

8B 파라미터 모델은 성능과 계산 효율성 사이의 균형을 유지하며, 다양한 응용 분야와 배포 시나리오에 적합합니다. 상대적으로 작은 크기에도 불구하고, 8B 모델은 다양한 벤치마크에서 탁월한 성능을 발휘합니다.

70B 파라미터 모델

성능과 정확성이 요구되는 응용 분야에서는 70B 파라미터 모델이 최적의 선택입니다. 이 모델은 방대한 파라미터 수로 복잡한 언어 작업을 뛰어난 정확도와 섬세함으로 처리할 수 있지만, 배포와 운영을 위해서는 상당한 계산 리소스와 인프라가 필요합니다.

Llama 3 모델의 벤치마크 및 성능

Meta는 다양한 도메인과 작업에서 LLAMA3의 능력을 보여주기 위해 포괄적인 벤치마크와 성능 지표 세트를 공개했습니다.

언어 이해와 생성

GLUE: LLAMA3는 General Language Understanding Evaluation (GLUE) 벤치마크에서 최고의 성능을 달성하며, 70B 변형은 92.5, 8B 변형은 90.7의 놀라운 점수를 기록합니다.
SQuAD: Stanford 질문 응답 데이터셋 (SQuAD)에서 LLAMA3는 뛰어난 질문 응답 능력을 보여줍니다. 70B 모델은 94.2 F1 점수를 달성하고, 8B 모델은 92.1의 점수를 기록합니다.

코드 생성과 이해

HumanEval: LLAMA3는 다양한 프로그래밍 문제에 대한 올바른 코드 솔루션을 생성하는 모델의 능력을 테스트하는 HumanEval 벤치마크에서 뛰어난 성능을 발휘합니다. 70B 변형은 78.6의 점수를 기록하고, 8B 변형은 72.4의 점수를 기록하여 이전 최첨단 모델보다 우수한 성능을 보입니다.
APPS: 다양한 프로그래밍 언어를 대상으로 하는 AI 프로그래밍 해결 (APPS) 벤치마크에서 LLAMA3는 뛰어난 성능을 보여줍니다. 70B 모델은 62.3의 점수를 기록하고, 8B 모델은 58.9의 점수를 기록합니다.

추론 및 다단계 작업

MATH: LLAMA3는 복잡한 수학적 추론 문제와 논리적 연역을 포함한 다단계 작업을 해결할 수 있는 능력을 MATH 데이터셋에서 인상적인 결과를 달성합니다. 70B 변형은 89.1의 점수를 기록하고, 8B 변형은 85.6의 점수를 기록합니다.
STRATEGYQA: 다단계 의사결정 시나리오에서 모델의 전략적 추론 능력을 평가하는 StrategyQA 벤치마크에서 LLAMA3는 이전 모델을 능가하며, 70B 모델은 71.8의 점수를 기록하고, 8B 모델은 68.2의 점수를 기록합니다.

모델 비교

Meta는 GPT-3, PaLM, 그리고 이전 버전인 LLAMA1과 LLAMA2와 같은 최첨단 언어 모델과의 자세한 비교를 제공하여 LLAMA3의 성능을 포괄적으로 이해할 수 있도록 하였습니다.

성능 비교 표

모델	GLUE	SQuAD	HumanEval	APPS	MATH	StrategyQA
LLAMA3 (70B)	92.5	94.2	78.6	62.3	89.1	71.8
LLAMA3 (8B)	90.7	92.1	72.4	58.9	85.6	68.2
GPT-3 (175B)	89.4	92.5	65.7	51.2	79.3	62.1
PaLM (540B)	91.2	93.8	70.1	56.8	83.7	66.4
LLAMA2 (8B)	88.3	90.5	68.9	53.7	81.2	63.8

표에서 알 수 있듯이, LLAMA3는 이전 버전 및 다른 최첨단 모델에 비해 다양한 벤치마크에서 우수한 성능을 보여주며, 언어 이해, 코드 생성, 추론, 다단계 작업등에서 우수한 성능을 발휘합니다. 특히, GPT-3와 PaLM은 더 많은 파라미터를 가지고 있음에도 LLAMA3의 성능은 대부분 동등하거나 더 우수하며, Meta의 훈련 방법의 효율성과 효과성을 강조합니다.

Llama 3 모델의 훈련 과정

정제된 사후 훈련 과정

대규모 훈련 데이터 외에도, Meta는 정제된 사후 훈련 과정을 사용하여 LLAMA3의 성능과 능력을 더욱 향상시키기 위해 노력했습니다. 이러한 과정은 응답 정렬을 개선하고 거짓 거절 비율을 낮추며 모델 출력에서 다양성을 증가시키는 데 중점을 두고 있습니다.

응답 정렬은 모델이 주어진 문맥과 작업과 일관성이 있고 일치하는 응답을 생성하는 능력을 말합니다. 사후 훈련 과정을 정제함으로써, LLAMA3는 복잡한 질의에 대해 더 잘 이해하고 대응할 수 있어 출력 결과가 관련성이 있고 주제에 부합하도록 할 수 있습니다.

거짓 거절 비율을 낮추는 것은 LLAMA3의 또 다른 주요 개선 영역입니다. 이전 언어 모델은 종종 필요한 지식과 능력을 갖고 있을 때에도 일부 질의에 대해 답변을 거부하거나 출력을 생성하는 데 어려움을 겪었습니다. LLAMA3의 사후 훈련 과정은 이러한 거짓 거절을 크게 줄였으며, 모델이 보다 포괄적이고 신뢰할 수 있는 응답을 제공할 수 있도록 했습니다.

마지막으로, Meta의 사후 훈련 노력은 모델 출력에서의 다양성을 향상시키는 데도 초점을 맞추고 있습니다. 언어 모델은 개방형이거나 창의적인 작업에 대해 반복적이거나 단조로운 응답을 생성할 수 있습니다. 다양성을 향상시킴으로써, LLAMA3는 더 다양하고 흥미로운 출력을 생성할 수 있으며, 창의적인 작문, 대화 생성, 콘텐츠 생성과 같은 작업에 유용한 도구가 됩니다.

Llama Guard 2: 책임 있는 인공지능 개발

LLAMA3의 훈련에서 주목할 만한 측면 중 하나는 Meta의 Llama Guard 2 시스템의 통합입니다. Llama Guard 2는 책임 있는 윤리적 인공지능 개발을 촉진하기 위해 개발된 신뢰성과 안전성 도구의 모음을 포함하고 있습니다. 사이버보안평가, 코드 보호, 코드 해석기와 같은 도구들은 잠재적인 위험을 완화하고 모델의 책임 있는 사용을 보장하기 위해 설계되었습니다.

사이버보안평가는 모델의 출력과 관련된 잠재적인 보안 위험을 평가하여 악성 코드나 콘텐츠의 생성을 방지하는 데 도움을 줍니다. 반면 코드 보호는 윤리적이고 법적인 표준을 준수하도록 모델의 출력을 모니터링하고 필터링하는 시스템입니다.

또한, Llama Guard 2는 모델이 생성한 코드를 분석하고 이해할 수 있는 코드 해석기를 포함하고 있어 더 효과적인 모니터링과 평가가 가능합니다. 이러한 신뢰성과 안전성 조치는 LLAMA3의 책임 있는 윤리적인 사용과 신뢰할 수 있는 인공지능 시스템 개발을 보장하는 데 중요합니다.

효율적인 훈련 인프라

가장 큰 LLAMA3 모델을 훈련하기 위해, Meta는 데이터 병렬화, 모델 병렬화 및 파이프라인 병렬화 세 가지 유형의 병렬화를 결합했습니다. 16K개의 GPU에서, 각 GPU는 훈련 중에 400 TFLOPS 이상의 컴퓨팅 활용도를 달성하였습니다. 연구 팀은 두 개의 사용자 정의 24K GPU 클러스터에서 훈련을 실행했습니다.

GPU의 가동 시간을 극대화하기 위해, 연구 팀은 오류 감지, 처리 및 유지 관리를 자동으로 수행하는 고급 훈련 스택을 개발했습니다. 게다가, Meta는 하드웨어 신뢰성을 크게 향상시키고 데이터 손상 검출 메커니즘을 개선하였으며, 체크포인팅과 롤백의 오버헤드를 줄이기 위해 새로운 확장 가능한 저장 시스템을 개발했습니다.

이러한 개선으로 인해 전체적인 효과적인 훈련 시간은 95% 이상을 초과하였으며, LLAMA3의 훈련 효율은 이전 모델의 약식 대비 약 세 배 높아졌습니다.

통합 및 접근성

Meta AI 통합

LLAMA3는 Meta AI, 회사의 인공지능 어시스턴트 플랫폼에 완벽하게 통합되어 사용자가 코딩 작업, 문제 해결 및 기타 인공지능 기반 응용 프로그램에서 그 능력을 활용할 수 있도록 되어 있습니다. Meta AI는 LLAMA3와 상호작용하기 위한 사용자 친화적인 인터페이스를 제공하여 사용자가 모델이 생성한 응답을 입력하고 받을 수 있도록 합니다.

오픈 소스 공개

Meta AI와의 통합 외에도, LLAMA3는 오픈 소스 모델로 제공되어 Meta의 개방형 혁신과 협력의 원칙과 일치합니다. 사용자들은 Hugging Face, Perplexity, Poe와 같은 다양한 오픈 소스 플랫폼 및 Replicate API 인터페이스를 통해 LLAMA3에 접근하고 경험할 수 있습니다.

오픈 소스 대 폐쇄 소스 논쟁에서의 의의

LLAMA3의 출시는 인공지능 개발에서의 오픈 소스와 폐쇄 소스 접근 방식에 대한 계속되는 논쟁을 다시 불러일으켰습니다. 일부는 오픈 소스 모델이 폐쇄 소스 모델보다 뒤처질 수 있다고 주장해왔지만, LLAMA3의 인상적인 성능은 이러한 주장에 도전하여 오히려 오픈 소스 모델이 최첨단 폐쇄 소스 모델과 경쟁할 수 있으며 심지어 능가할 수 있다는 것을 보여주고 있습니다.

LLAMA3의 출현은 AI 커뮤니티에서 주요 인물들의 관심을 끌며 논의를 일으키고 있으며, 이에는 Meta AI의 주요 과학자이자 Turing 상 수상자인 Yann LeCun도 포함됩니다. 그는 이 모델의 출시를 환영하고 이후 버전에 대한 언급을 했습니다. 인공지능 분야에서 활발하게 활동하는 엘론 머스크도 "나쁘지 않다"는 간결한 댓글을 통해 LLAMA3의 잠재력을 인정했습니다.

NVIDIA의 고급 연구원인 Jim Fan은 LLAMA3의 출시가 단순히 기술적인 진보를 넘어서며 오픈 소스 모델과 최고 수준의 폐쇄 소스 모델의 융합을 상징한다고 강조했습니다. Fan이 공유한 벤치마크 비교는 LLAMA3 400B+ 버전이 Claude의 초대형 모델과 최신 GPT-4 Turbo의 성능과 견줄 정도로 높은 성능을 발휘할 것으로 말미암아 LLAMA3의 위치를 최고의 대형 모델 중 하나로 견고하게 굳히고 있습니다. open-source(오픈 소스)와 closed-source(클로즈드 소스) 접근법 사이의 논쟁은 아직 결론이 내려지지 않았지만, LLAMA3의 등장은 분명히 오픈 소스 모델이 뒤쳐질 것이라는 비관론에 대한 기세를 깨뜨리는 일로 이어졌습니다. Meta가 오픈 소스 AI 개발의 경계를 계속해서 넓혀나가는 가운데, LLAMA3는 이러한 접근법의 잠재력과 중요성을 입증하는 증거로 남아있습니다.

결론

Meta의 LLAMA3는 대형 언어 모델 분야에서 혁신적인 성취를 나타내며, 성능, 확장성 및 기능을 높이는 경계를 넓혔습니다. 거대한 훈련 데이터셋, 향상된 문맥 길이 및 정제된 사후 훈련 과정을 통해, LLAMA3는 언어 이해, 코드 생성, 추론 및 다단계 작업에서 뛰어난 역량을 갖추고 있으며, 이전 모델과 다른 최첨단 모델과 비교하여 다양한 벤치마크에서 우수한 성과를 보입니다.

이 모델의 인상적인 성능은 Meta의 LLAMA Guard 2 통합 및 포괄적인 리소스 제공을 통해 신뢰할 수 있고 윤리적인 AI 혁신 도구로서 LLAMA3를 확고히 합니다. 책임감 있는 협업 생태계를 조성함으로써, Meta는 개발자, 연구자 및 사용자들이 LLAMA3의 전체 잠재력을 탐색하면서 최고의 윤리적이고 책임감 있는 AI 개발 기준을 유지할 수 있도록 지원하는 것을 목표로 합니다.

게다가, LLAMA3의 출시는 오픈 소스와 클로즈드 소스 접근법에 대한 계속되는 논쟁을 되살려, 오픈 소스 모델이 클로즈드 소스 모델에 뒤쳐질 것이라는 개념에 도전합니다. Meta가 오픈 소스 AI 개발의 경계를 더욱 넓혀나가는 가운데, LLAMA3는 신뢰할 수 있고 책임감 있는 AI 시스템을 추구하기 위한 더 나은 발전과 협력의 길을 열어놓습니다.

세부 비교: LLAMA 3 vs GPT-4 Turbo vs Claude Opus vs Mistral Large 홈 컴퓨터에서 Llama.cpp를 손쉽게 실행하는 방법