Want to Become a Sponsor? Contact Us Now!🎉

LLM
수고 없이 쉽게 로컬에서 Llama 3 실행하는 방법

로컬에서 Llama 3 실행하는 방법

Published on

Ollama 도구를 사용하여 로컬 머신에서 강력한 Llama 3 언어 모델(8B 및 70B 버전)을 설치하고 실행하는 포괄적인 안내서.

메타의 Llama 3은 오픈 소스 대형 언어 모델의 최신 버전으로, 인상적인 성능과 접근성을 자랑합니다. 8B부터 거대한 70B 파라미터까지 다양한 모델 크기를 제공하는 Llama 3은 자연어 처리 작업에 강력한 도구입니다. 그러나 이러한 거대한 모델을 로컬에서 실행하는 것은 컴퓨팅 리소스와 기술적 전문성이 필요하기 때문에 도전적일 수 있습니다. 다행히도 Microsoft에서 개발한 간소화된 도구인 Ollama를 사용하면 오픈 소스 LLM(Llama 3와 같은)을 로컬 머신에서 간편하게 실행할 수 있습니다.

Anakin AI - The Ultimate No-Code AI App Builder

Ollama란?

Ollama는 모델 가중치, 구성 및 데이터셋을 한 개의 패키지로 묶어 정의된 Modelfile로 제공하여 설정 및 구성 세부 정보를 최적화하는 사용자 친화적인 솔루션입니다. GPU 사용량을 포함한 설정 및 구성 세부 정보를 최적화하여 개발자와 연구원이 대형 언어 모델을 로컬에서 실행하기 쉽도록 지원합니다. Ollama는 Llama 3을 비롯한 다양한 모델을 지원하여 복잡한 설정 절차 없이 첨단 언어 모델을 탐색하고 실험할 수 있습니다.

로컬에서 Llama 3 실행에 필요한 시스템 요구 사항

설치 과정에 앞서 로컬에서 Llama 3 모델을 실행하는 데 필요한 최소 요구 사항을 충족시켜야 합니다. 모델 크기에 따라 리소스 요구 사항이 다양하며, 더 큰 모델일수록 더 강력한 하드웨어가 필요합니다.

8B 모델의 경우 다음이 필요합니다:

  • 8GB의 VRAM
  • 16GB의 RAM
  • NVIDIA RTX 3070과 같은 GPU가 권장됩니다.

70B 모델의 경우 다음이 필요합니다:

  • 최소 24GB의 VRAM이 있는 고급 GPU (예: NVIDIA RTX 3090 또는 A100)
  • 최소 64GB의 RAM
  • 이러한 모델은 몇 기가바이트의 디스크 공간을 차지할 수 있으므로 충분한 저장 공간이 필요합니다.

Ollama 설치하기

Ollama의 설치 과정은 간단하며 한 명령으로 완료할 수 있습니다. 시스템의 터미널을 열고 다음을 실행합니다:

curl -fsSL https://ollama.com/install.sh | sh

이 명령은 최신 버전의 Ollama를 시스템에 다운로드하고 설치합니다. 설치가 완료되면 ollama --version을 실행하여 설치를 확인할 수 있습니다.

Llama 3 모델 다운로드하기

Ollama를 사용하여 Llama 3 모델을 편리하게 다운로드하고 관리할 수 있습니다. 8B 모델을 다운로드하려면 다음 명령을 실행합니다:

ollama pull llama3-8b

70B 모델의 경우 다음을 사용합니다:

ollama pull llama3-70b

이러한 명령은 해당 모델과 관련 파일을 로컬 머신에 다운로드합니다. 인터넷 연결 속도와 시스템 사양에 따라 다운로드 과정이 시간이 걸릴 수 있으며, 특히 큰 70B 모델의 경우 더욱 긴 시간이 소요될 수 있습니다.

Llama 3 모델 실행하기

모델을 다운로드한 후에는 Ollama의 run 명령을 사용하여 실행할 수 있습니다. 8B 모델을 실행하려면 다음을 실행합니다:

ollama run llama3-8b

70B 모델을 실행하려면 다음을 사용합니다:

ollama run llama3-70b

이러한 명령은 각각의 Llama 3 모델과 대화형 세션을 시작하여 프롬프트를 입력하고 생성된 응답을 받을 수 있게 합니다. Ollama가 필요한 설정 및 구성을 처리하므로 기술적인 지식이 없어도 모델과 쉽게 상호작용할 수 있습니다.

고급 사용법

Ollama는 Llama 3 모델과 함께 사용할 수 있는 여러 고급 기능과 옵션을 제공합니다. 예를 들어, 사용할 GPU 수를 지정하거나 빠른 추론을 위해 양자화를 활성화하거나 최적의 성능을 위해 배치 크기와 시퀀스 길이를 조정할 수 있습니다.

이러한 고급 옵션을 탐색하려면 Ollama 문서를 참조하거나 ollama run --help를 실행하여 사용 가능한 옵션과 설명을 확인할 수 있습니다.

Llama 3를 애플리케이션과 통합하기

Llama 3 모델을 인터랙티브하게 실행하는 것은 테스트 및 탐색에 유용하지만, 애플리케이션이나 워크플로에 통합해야 할 수도 있습니다. Ollama는 Python API를 제공하여 모델과 프로그래밍적으로 상호작용할 수 있게 하여 프로젝트에 원활하게 통합할 수 있습니다.

다음은 Ollama Python API를 사용하여 Llama 3 8B 모델에서 텍스트를 생성하는 예시입니다:

import ollama
 
# 모델 로드
model = ollama.load("llama3-8b")
 
# 텍스트 생성
prompt = "옛날 옛적에"
output = model.generate(prompt, max_new_tokens=100)
 
print(output)

이 코드 스니펫은 Llama 3 8B 모델을 로드하고 프롬프트를 제공하며, 프롬프트를 이어지는 텍스트로 100개의 새로운 토큰을 생성합니다. 프롬프트, 출력 길이 및 기타 매개변수를 필요에 따라 사용자 정의할 수 있습니다.

Llama 3 8B 및 Llama 3 70B의 벤치마크 및 성능

Llama 3의 벤치마크 및 성능

Llama 3 모델은 다양한 벤치마크에서 인상적인 성능을 보여주며, 종종 기존 모델보다 큰 모델을 능가합니다. 다음은 몇 가지 벤치마크 결과입니다:

일반적인 벤치마크

벤치마크Llama 3 8BLlama 3 70B
MMLU (5-shot)66.679.5
AGIEval English (3-5 shot)45.963.0
CommonSenseQA (7-shot)72.683.8
Winogrande (5-shot)76.183.1
BIG-Bench 하드 (3샷, CoT)61.181.3
ARC-Challenge (25샷)78.693.0

지식 추론

평가 대상Llama 3 8BLlama 3 70B
TriviaQA-Wiki (5샷)78.589.7

읽기 이해

평가 대상Llama 3 8BLlama 3 70B
SQuAD (1샷)76.485.6
QuAC (1샷, F1)44.451.1
BoolQ (0샷)75.779.0
DROP (3샷, F1)58.479.7

이러한 평가 대상들은 Llama 3의 놀라운 성능을 보여줍니다. 예상되듯이 70B 모델이 8B 버전을 자주 앞서고 있습니다. 그러나 8B 모델은 여전히 높은 성능을 발휘하여, 컴퓨터 자원이 제한적인 경우에도 유용한 선택지가 될 수 있습니다.

결론

Ollama의 덕분에 Llama 3와 같은 대형 언어 모델을 로컬에서 실행하는 것은 이전보다 쉬워졌습니다. 사용자 친화적인 인터페이스와 간소화된 설치 과정으로, Ollama는 개발자, 연구원, 열정가들이 로컬 머신에서 이러한 최첨단 모델의 능력을 제대로 활용할 수 있도록 도와줍니다. 자연어 처리 작업에 참여하거나 Llama 3의 기능을 탐색하거나 애플리케이션에 통합하는 경우, Ollama는 편리하고 효율적인 솔루션을 제공합니다. 그러니 어서 기다리지 말고, 지금 바로 Ollama를 다운로드하여 로컬 시스템에서 Llama 3의 잠재력을 발휘해 보세요!

Anakin AI - The Ultimate No-Code AI App Builder