맥, 윈도우 및 모바일 기기에서 Llama 2를 로컬에서 실행하는 방법: 궁극적인 안내서
Published on
자연어 처리(NLP)의 세계에 관심을 가지고 있다면 Llama 2라는 혁신적인 언어 모델을 들어보았을 것입니다. 이 언어 모델을 직접 기기에서 실행할 수 있다는 것을 알고 계셨나요? 그렇습니다! Llama 2의 힘을 누리기 위해 슈퍼컴퓨터나 인터넷 연결조차 필요하지 않습니다.
맥 사용자, 윈도우 애호가 또는 모바일 기기 애호가든, 이 안내서는 여러분을 완벽하게 지원합니다. 각 플랫폼에서 Llama 2를 실행하는 방법에 대해 자세히 알아보고 다른 도구를 사용하며 경험을 최대한 활용하는 팁도 제공해 드릴 것입니다. 그럼 시작해 봅시다!
최신 LLM 뉴스를 확인하고 싶나요? 최신 LLM 리더보드를 확인해 보세요!
Llama 2란?
Llama 2는 Llama 언어 모델 시리즈의 최신 버전으로, 훈련 데이터를 기반으로 인간과 유사한 텍스트를 이해하고 생성하는 기능을 제공합니다. 이는 광범위한 NLP 작업을 수행할 수 있는, 철저한 연구 및 개발의 결과물로서 7B, 13B 및 70B와 같은 매개변수 수에 따라 크기가 다양한 모델로 제공됩니다.
로컬에서 Llama 2를 실행하는 이유: 다음과 같은 이점이 있습니다:
- 개인정보 보호: Llama 2를 로컬에서 실행하면 데이터가 기기에 머무르므로 추가적인 보안 레벨이 제공됩니다.
- 속도: 로컬 실행은 데이터가 인터넷을 통해 전송되지 않아 응답 시간이 더 빨라집니다.
- 오프라인 액세스: 설치 후 인터넷 연결 없이 Llama 2를 사용할 수 있어 매우 다용도적입니다.
- 자원 관리: 모델을 로컬로 실행하여 인터넷에 연결되지 않은 상태에서도 기기의 자원을 효과적으로 관리할 수 있습니다.
맥에서 Llama.cpp를 사용하여 LLaMA2 로컬로 설치하는 방법
맥 사용자라면 Llama 2를 로컬에서 실행하는 가장 효율적인 방법 중 하나인 Llama.cpp를 사용할 수 있습니다. 이는 Llama 모델의 C/C++ 포트로, 특히 성능 최적화에 유용한 4비트 정수 양자화로 실행할 수 있도록 해줍니다.
-
RAM 요구 사항: 3B 모델은 최소 8GB, 7B 모델은 최소 16GB, 13B 모델은 최소 32GB의 RAM이 필요합니다.
-
터미널 열기: Llama.cpp를 설치할 원하는 디렉토리로 이동하세요.
-
원라이너 실행: 다음 명령어를 실행하여 Llama.cpp를 설치하세요:
curl -L "https://replicate.fyi/install-llama-cpp" | bash
-
스크립트 이해하기: 이 원라이너는 다음 작업을 수행합니다:
- Llama.cpp 저장소를 GitHub에서 복제합니다.
- GPU 지원(
LLAMA_METAL=1
플래그)으로 프로젝트를 빌드합니다. - Llama 2 모델을 다운로드합니다.
- Llama 2를 사용하기 위한 대화형 프롬프트를 설정합니다.
-
설치 테스트: 설치가 완료되면 몇 가지 예시 프롬프트를 실행하여 테스트해 볼 수 있습니다. 예를 들어:
./main -m ./models/llama-2-13b-chat.ggmlv3.q4_0.bin --color --ctx_size 2048 -n -1 -ins -b 256 --top_k 10000 --temp 0.2 --repeat_penalty 1.1 -t 8
이 명령은 다양한 사용자 정의 플래그를 사용하여 대화형 모드에서 모델을 실행합니다.
이러한 단계를 따라하면 맥에서 빠르게 Llama 2를 실행할 수 있습니다. Llama.cpp 방법은 터미널 명령에 익숙하고 성능 최적화된 경험을 찾고자 하는 사람들에게 특히 유용합니다.
윈도우에서 WSL을 사용하여 Llama 2 설치하기
윈도우 사용자도 걱정하지 마세요! Llama 2를 윈도우 기기에서 로컬로 실행할 수 있는 Windows Subsystem for Linux(WSL)을 이용할 수 있습니다. WSL은 윈도우 기기에서 리눅스 배포판을 실행할 수 있도록 해주므로, Llama 2와 같은 리눅스 기반 응용 프로그램을 설치하고 실행하기가 더 쉬워집니다.
-
RAM 요구 사항: 3B 모델은 최소 8GB, 7B 모델은 최소 16GB, 13B 모델은 최소 32GB의 RAM이 필요합니다.
-
WSL 설치: WSL을 아직 설치하지 않았다면, Microsoft의 공식 가이드에 따라 WSL을 설치해야 합니다.
-
WSL 터미널 열기: WSL이 설치되면 WSL 터미널을 열고 원하는 디렉토리로 이동하세요.
-
원라이너 실행: 다음 명령어를 실행하여 Llama 2를 설치하세요:
curl -L "https://replicate.fyi/windows-install-llama-cpp" | bash
-
스크립트 이해하기: 이 원라이너는 다음 작업을 수행합니다:
- Llama.cpp 저장소를 GitHub에서 복제합니다.
- 프로젝트를 빌드합니다.
- Llama 2 모델을 다운로드합니다.
- Llama 2를 사용하기 위한 대화형 프롬프트를 설정합니다.
-
설치 테스트: 설치가 완료되면 몇 가지 예시 프롬프트를 실행하여 테스트해 볼 수 있습니다. 예를 들어:
./main -m ./models/llama-2-13b-chat.ggmlv3.q4_0.bin --color --ctx_size 2048 -n -1 -ins -b 256 --top_k 10000 --temp 0.2 --repeat_penalty 1.1 -t 8
이 명령은 다양한 사용자 정의 플래그를 사용하여 대화형 모드에서 모델을 실행합니다.
WSL 방법은 리눅스 명령어에 익숙하다면 윈도우에서 Llama 2를 실행하기 위한 견고한 방법입니다. 이 방법을 사용하면 운영 체제를 변경할 필요 없이 원활한 경험을 제공합니다.
모바일 기기에서 Llama 2 실행하기: iOS 및 안드로이드용 MLC LLM
title: 모바일 기기에서 Llama 2 실행하기 language: ko
If you're always on the go, you'll be thrilled to know that you can run Llama 2 on your mobile device. Thanks to MLC LLM, an open-source project, you can now run Llama 2 on both iOS and Android platforms.
-
앱 다운로드:
- iOS 사용자는 App Store에서 MLC 채팅 앱을 다운로드하세요.
- Android 사용자는 Google Play에서 MLC LLM 앱을 다운로드하세요.
-
TestFlight 설치 (iOS 전용): Llama 2를 지원하는 최신 버전은 iOS의 베타 버전입니다. 사용하려면 TestFlight를 설치해야 합니다.
-
모델 다운로드:
- 앱을 열고 모델 다운로드 섹션으로 이동하세요.
- 다운로드할 모델 크기를 선택하세요 (7B, 13B, 또는 70B).
-
모델 실행:
- 모델이 다운로드되면 앱 내의 채팅 인터페이스로 이동하여 실행할 수 있습니다.
- 프롬프트를 입력하고 모델이 응답을 생성할 때까지 기다리세요.
MLC LLM을 통해 모바일 기기에서 Llama 2를 실행하는 것은 전례 없는 편의성을 제공합니다. 출퇴근, 여행, 주 컴퓨터에서 벗어난 경우에도 주머니에서 바로 Llama 2의 강력한 기능에 액세스할 수 있습니다.
llama2-webui를 사용한 Llama 2 실행 방법
Llama 2를 더 사용하기 쉬운 방법을 찾고 있다면 llama2-webui
를 확인하세요. 이 강력한 도구를 사용하면 Llama 2를 웹 인터페이스로 실행할 수 있으며 Linux, Windows 및 Mac을 비롯한 모든 운영 체제에서 어디에서나 액세스할 수 있습니다. GitHub 사용자인 liltom-eth가 개발한 llama2-webui
는 모든 Llama 2 모델을 지원하며 초보자와 전문가를 위한 다양한 기능을 제공하여 다재다능한 선택지가 됩니다.
llama2-webui의 기능
- 모델 지원: llama2-webui는 7B, 13B, 70B, GPTQ, GGML, GGUF 및 CodeLlama를 포함한 모든 Llama 2 모델을 지원합니다.
- 백엔드 지원: llama2-webui는 transformers, 8비트 추론을 위한 bitsandbytes, 4비트 추론을 위한 AutoGPTQ, llama.cpp와 같은 다양한 백엔드를 지원합니다.
- OpenAI API 호환성: llama2-webui를 사용하면 Llama 2 모델에서 OpenAI 호환 API를 실행할 수 있어 기존 시스템과 통합하기 쉽게 만들어줍니다.
llama2-webui 설치 방법
- PyPI에서 설치: 다음 명령을 사용하여 llama2-wrapper 패키지를 PyPI에서 설치할 수 있습니다.
pip install llama2-wrapper
- 소스에서 설치: 또는 GitHub 저장소를 복제하고 요구 사항을 설치할 수 있습니다.
git clone https://github.com/liltom-eth/llama2-webui.git cd llama2-webui pip install -r requirements.txt
llama2-webui 사용 방법
- Chat UI 시작: 웹 UI로 챗봇을 실행하려면 다음 명령을 실행하세요.
python app.py
- Code Llama UI 시작: 코드 완성에 관심이 있는 경우 다음 명령으로 Code Llama UI를 실행할 수 있습니다.
python code_completion.py --model_path ./models/codellama-7b.Q4_0.gguf
- 사용자 정의:
.env
파일에서 모델 경로, 백엔드 유형 및 기타 구성을 사용자 정의할 수 있습니다.
개발자를 위한 llama2-wrapper
생성형 에이전트나 앱을 개발하는 경우 백엔드 래퍼로 llama2-wrapper
를 사용할 수 있습니다. 다음은 Python 예시입니다.
from llama2_wrapper import LLAMA2_WRAPPER, get_prompt
llama2_wrapper = LLAMA2_WRAPPER()
prompt = "Do you know PyTorch"
answer = llama2_wrapper(get_prompt(prompt), temperature=0.9)
OpenAI 호환 API 실행하기
OpenAI API와 동일하게 작동하는 Fast API 서버를 실행할 수도 있습니다. 이를 위해 다음 명령을 사용합니다.
python -m llama2_wrapper.server
벤치마크 및 성능
이 도구에는 설정의 성능을 측정하는 벤치마크 스크립트가 함께 제공됩니다. 다음 명령을 사용하여 실행할 수 있습니다.
python benchmark.py
Llama 2 로컬 실행 대체 방법
기기에서 Llama 2를 실행하는 방법을 익혔지만, 더 알아보고 싶을 때가 있습니다. 시스템 리소스를 모두 사용하지 않고 실행하는 방법을 찾거나 공식적으로 지원되지 않는 기기에서 실행해 보고 싶을 수도 있습니다. 어떤 경우든 이 섹션은 여러분을 위한 것입니다. 여기서는 Llama 2를 로컬로 실행하기 위한 대체 방법을 살펴보며 각각의 장점과 도전 과제를 제시합니다.
Raspberry Pi에서 Llama 2 실행하기
네, 맞게 읽었습니다. Raspberry Pi에서 Llama 2를 실행하는 것은 완전히 가능하며 성능도 놀랍게 좋습니다. 이 방법은 예산을 초과하지 않고 Llama 2를 실행할 전용 장치가 필요한 경우 훌륭한 선택입니다.
- 의존성 설치: 터미널을 열고 다음 명령을 실행하여 필요한 패키지를 설치하세요.
sudo apt-get update sudo apt-get install git cmake build-essential
- Llama.cpp 저장소 복제: git을 사용하여 Llama.cpp 저장소를 복제하세요.
git clone https://github.com/ggerganov/llama.cpp.git
- 컴파일 및 빌드: 복제한 디렉터리로 이동하여 프로젝트를 컴파일하세요.
cd llama.cpp make
- Llama 2 실행: 마지막으로 다음 명령을 실행하여 Llama 2를 실행하세요.
./main -m ./models/llama-2-13b-chat.ggmlv3.q4_0.bin
Docker 컨테이너에서 Llama 2 실행하기
컨테이너를 선호하는 경우 Docker 컨테이너에서 Llama 2를 실행할 수 있습니다. 이 방법은 Llama 2 환경이 로컬 시스템과 격리되어 추가 보안 기능을 제공합니다.
- Docker 설치: 이전에 설치하지 않은 경우 컴퓨터에 Docker를 설치하세요.
- Llama 2 Docker 이미지 가져오기: 터미널을 열고 Llama 2 Docker 이미지를 가져옵니다.
docker pull llama2/local
- 컨테이너 실행: 다음 명령을 실행하여 Docker 컨테이너에서 Llama 2를 실행합니다.
docker run -it --rm llama2/local
Termux를 통해 Android에서 Llama 2 실행하기
- Termux 설치: Google Play 스토어에서 Termux 앱을 다운로드하여 설치하세요.
- 패키지 업데이트: Termux를 열고 패키지 목록을 업데이트하세요.
pkg update
- 필요한 패키지 설치: 필요한 패키지를 설치합니다.
pkg install git clang make
- Llama.cpp 복제 및 빌드: Raspberry Pi 섹션과 동일한 단계를 따라 Llama.cpp를 복제하고 빌드합니다.
- Llama 2 실행: 다음 명령을 사용하여 Llama 2를 실행합니다.
./main -m ./models/llama-2-13b-chat.ggmlv3.q4_0.bin
이러한 대체 방법을 통해 Llama 2를 실행하는 것뿐만 아니라, 나만의 방식으로 Llama 2를 실행할 수 있습니다. 예산 친화적인 Raspberry Pi, 안전한 Docker 컨테이너, 심지어 Android 폰과 같은 장치에서 실행할 수 있는 가능성은 상상하는 대로 무한합니다.
여러 장치에서 Llama 2 실행하는 방법
여러 장치를 사용하고 모두에서 Llama 2를 실행하고자하는 경우 이 섹션이 유용할 것입니다. 이 방법은 장치 동기화를 사용하여 모든 장치에서 일관된 Llama 2 세션이 유지되도록 보장합니다.
- 중앙 서버 설정: 중앙 서버로 사용할 장치를 선택합니다. 주요 PC 또는 클라우드 서버가 될 수 있습니다.
- 모든 장치에 Llama 2 설치: 사용하려는 모든 장치에 Llama 2가 설치되어 있는지 확인합니다.
- 장치 동기화:
rsync
또는 클라우드 스토리지와 같은 도구를 사용하여 Llama 2 디렉토리를 모든 장치 간에 동기화합니다.rsync -avz ~/llama2/ user@remote:/path/to/llama2/
- Llama 2 실행: 각 장치에서 Llama 2를 시작합니다. 모든 장치가 동일한 데이터에 액세스하여 원활한 경험을 제공합니다.
결론
이 포괄적인 가이드에서는 로컬에서 Llama 2를 실행하는 다양한 방법을 탐구하고 Docker 사용의 기술적 세부 사항을 파고들고 클라우드 기반 솔루션의 이점에 대해 알아보았습니다. 또한 다양한 Llama 2 모델을 지원하고 OpenAI API 호환성을 제공하는 다재다능한 도구 llama2-webui의 강력함을 강조했습니다. 이 도구는 초보자와 전문가 모두를 위한 완벽한 솔루션이 됩니다.
Llama 2를 응용 프로그램에 통합하려는 개발자이거나 고급 분석을 수행하려는 데이터 과학자이더라도, 여기에서 논의된 기술과 도구는 모두에게 무언가를 제공합니다. 이러한 고급 방법을 활용함으로써 Llama 2 경험을 최적화하고, 효율적인 모델 훈련, 원활한 배포, 리소스의 효과적인 활용을 보장할 수 있습니다.
따라서 기본을 그대로 고수하지 마세요. 이러한 고급 기술을 실험해보고 Llama 2의 모든 잠재력을 발휘하여 프로젝트를 다음 수준으로 이끌어보세요.
최신 LLM 뉴스를 알고 싶으신가요? 최신 LLM 리더보드를 확인해보세요!