Faiss Python API: 페이스북의 AI 유사도 검색 도구 소개

Name: Jennie Rose

Published on 2024. 4. 30.

페이스북 AI의 FAISS를 사용하여 검색 능력을 강화하는 방법을 알아보세요. 설정부터 모범 사례까지, 이 가이드는 효율적인 유사도 검색을 위해 알아야 할 모든 내용을 다룹니다.

막대한 데이터 세트에서 관련 정보를 찾는 도전을 직면하고 계신가요? 혼자만 그런 것은 아닙니다. 데이터 중심적인 세상에서 효율적인 검색 메커니즘은 중요합니다. 이 때문에 페이스북 AI 유사도 검색(FAISS)이 등장합니다. 이 강력한 라이브러리는 검색 능력을 혁신하여 검색 속도를 높이고 정확성을 높일 수 있습니다.

이 포괄적인 안내서에서는 FAISS의 모든 상세사항을 안내합니다. 데이터 과학자이든 개발자이든 첨단 기술에 관심이 있는 사람이든 상관없이, 이 글은 FAISS에 대한 완벽한 참고 자료입니다. 그러면 시작해봅시다!

최신 LLM 뉴스를 알고 싶으세요? 최신 LLM 리더보드를 확인해보세요!

페이스북 AI 유사도 검색 (FAISS)이란?

페이스북 AI 유사도 검색(Facebook AI Similarity Search)인 FAISS는 신속하고 효율적인 유사도 검색을 위해 설계된 라이브러리입니다. 페이스북의 AI 팀에 의해 개발된 FAISS는 대규모 데이터베이스를 효과적으로 처리할 수 있도록 공학적으로 설계되었습니다. FAISS는 "벡터 유사도" 개념에 기반하여 수백만, 심지어 수십억 벡터를 빠르게 비교하여 쿼리와 가장 유사한 벡터를 찾을 수 있습니다.

FAISS의 작동 방식은 어떻게 되나요?

FAISS는 주로 "벡터 유사도" 개념에 기반하여 작동합니다. 간단히 말해, 벡터는 노래나 이미지와 같은 객체의 다양한 특징을 나타낼 수 있는 숫자 목록입니다. FAISS는 이러한 벡터를 빠르고 정확하게 비교할 수 있는 방법을 제공합니다. 특히 대규모 데이터셋을 다룰 때에도 그렇습니다.

예를 들어, 현재 가장 좋아하는 노래와 비슷한 분위기의 노래를 찾으려고 한다고 가정해 봅시다. 두 노래는 각각 다른 요소(빠르기, 조표, 가사 등)를 나타내는 요소를 포함하는 벡터로 나타낼 수 있습니다. FAISS를 사용하면 이러한 벡터를 비교하고 가장 좋아하는 노래와 가장 유사한 노래를 찾아냄으로써 이를 수행할 수 있습니다.

파이썬에서 기본 FAISS 설치를 위한 샘플 코드

import faiss
import numpy as np
 
# FAISS 인덱스 초기화
dimension = 64  # 각 벡터의 차원
index = faiss.IndexFlatL2(dimension)
 
# 인덱스에 벡터 추가
vectors = np.random.random((1000, dimension)).astype('float32')
index.add(vectors)
 
# 검색 수행
query_vector = np.random.random((1, dimension)).astype('float32')
k = 10  # 10개의 가까운 이웃을 보고자 함
distances, indices = index.search(query_vector, k)
 
print(indices)
print(distances)

FAISS 설치하기

FAISS를 설치하는 것은 매우 간단합니다. Conda라는 인기있는 패키지 관리 시스템을 사용하여 설치할 수 있습니다. CPU 버전과 GPU 버전을 모두 다음 명령으로 설치할 수 있습니다.

CPU용: conda install -c pytorch faiss-cpu
GPU용: conda install -c pytorch faiss-gpu

FAISS는 유료인가요?

아니요, FAISS는 오픈 소스이며 무료로 사용할 수 있습니다. 라이선스 수수료에 대해 걱정하지 않고 프로젝트에 자유롭게 통합할 수 있습니다.

Annoy와 FAISS의 차이점은 무엇인가요?

Annoy와 FAISS는 모두 효율적인 유사도 검색이라는 같은 목적을 가지고 있습니다. 하지만 FAISS는 일반적으로 더 빠르고 효율적이며, 특히 대규모 데이터셋을 다룰 때 더 강력합니다. Annoy는 사용하기 쉽지만 매우 대규모 문제에는 확장성이 조금 부족할 수 있습니다.

FAISS 대 전통적인 검색 방법

대규모 데이터셋을 다룰 때와 같이 큰 데이터셋을 처리할 때, k-NN(k-Nearest Neighbors)과 같은 전통적인 유사도 검색 방법은 극도로 느릴 수 있습니다. 반면 FAISS는 속도와 효율성을 위해 설계되었습니다. FAISS가 더 나은 이유는 다음과 같습니다.

속도: FAISS는 수백만 개의 벡터를 신속하게 스캔하는 최적화된 알고리즘을 사용합니다.
확장성: 속도를 저해할 것 없이 대규모 데이터베이스를 처리하기 위해 설계되었습니다.
유연성: 코사인 유사도나 내적과 같은 다양한 유사도 척도를 지원합니다.
배치 처리: FAISS는 배치 쿼리에 최적화되어 있으므로 여러 개의 쿼리를 처리하는 데 좀 더 효율적입니다.

FAISS에서 배치 쿼리를 위한 샘플 코드

# 여러 쿼리 벡터 생성
query_vectors = np.random.random((5, dimension)).astype('float32')
 
# 배치 검색 수행
k = 10  # 각 쿼리에 대해 10개의 이웃을 보고자 함
distances, indices = index.search(query_vectors, k)
 
print(indices)
print(distances)

프로젝트에 FAISS 설정하기

FAISS를 설정하는 것은 직관적입니다. 특히 파이썬과 Conda와 같은 패키지 관리 시스템에 익숙하다면 더욱 쉬울 것입니다. 다음은 작동을 시작하기 위한 단계별 안내서입니다.

Conda 설치하기

FAISS를 설치하기 전에 시스템에 Conda가 설치되어 있어야 합니다. Conda는 다양한 라이브러리와 도구의 설치 과정을 단순화하는 패키지 관리자입니다.

다운로드: 공식 웹 사이트에서 운영 체제에 맞는 Miniconda 설치 파일을 다운로드합니다.
설치: 터미널을 열고 bash Miniconda3-latest-Linux-x86_64.sh 명령을 사용하여 설치 파일을 실행합니다.
확인: Conda가 올바르게 설치되었는지 확인하려면 터미널에 conda list를 입력합니다. 모든 것이 정상적으로 설정된 경우 설치된 패키지 목록이 표시됩니다.

Conda를 통한 FAISS 설치하기

Conda가 설치되면 FAISS를 설치하는 것은 아주 쉽습니다. CPU 전용 버전과 GPU 버전 중에서 선택할 수 있습니다.

CPU 버전: conda install -c pytorch faiss-cpu 명령 실행
GPU 버전: conda install -c pytorch faiss-gpu 명령 실행

FAISS 설치 확인을 위한 샘플 코드

import faiss
 
# FAISS가 올바르게 임포트되었는지 확인
print(faiss.__version__)

FAISS 사용에 대한 모범 사례

FAISS 설치가 완료되었으면 이 강력한 라이브러리에서 최대한의 효과를 얻기 위해 몇 가지 최적의 관행을 따르는 것이 중요합니다.

데이터 이해하기

FAISS에 들어가기 전에 데이터를 이해하는 데 시간을 투자하세요. 데이터가 밀집된 것인지 희박한 것인지, 차원은 어떻게 되는지 알아봅니다. 데이터를 이해하는 것은 적절한 FAISS 인덱스와 전처리 단계를 선택하는 데 도움이 됩니다.

전처리의 핵심

데이터를 준비하는 방법은 FAISS의 효과에 큰 영향을 미칠 수 있습니다. 텍스트 데이터의 경우 기본적인 one-hot 인코딩 대신에 TF-IDF나 Word2Vec과 같은 고급 기법을 사용하는 것을 고려해보세요.

TF-IDF를 사용하여 텍스트를 벡터로 변환하는 샘플 코드

from sklearn.feature_extraction.text import TfidfVectorizer
 
# 샘플 텍스트 데이터
documents = ["apple orange fruit", "dog cat animal", "apple fruit tasty"]
 
# 변환 생성
vectorizer = TfidfVectorizer()
 
# 토큰화하고 단어장 구축
vectorizer.fit(documents)
 
# 문서 인코딩
vector = vectorizer.transform(["apple orange"])
 
print(vector.toarray())

적절한 인덱스 선택하기

FAISS는 각각의 강점과 약점을 가진 다양한 인덱스 유형을 제공합니다. 일부는 고차원 데이터에 적합하고, 다른 일부는 이진 벡터에 더 적합합니다. 필요에 가장 잘 맞는 인덱스를 선택하세요.

다른 인덱스 유형 선택하는 샘플 코드

# 더 효율적인 IndexIVFFlat 사용
quantizer = faiss.IndexFlatL2(차원)
index = faiss.IndexIVFFlat(quantizer, 차원, 10)
index.train(벡터)
index.add(벡터)

FAISS가 기존 방법을 능가하는 방법

효율적인 유사도 검색에 있어서 FAISS는 게임 체인저입니다. 그러나 기존 방법들과 비교했을 때 어떻게 성능이 나오는지 알아봅시다.

속도와 확장성

기존의 유사도 검색 방법은 대용량 데이터를 다룰 때 특히 느릴 수 있습니다. 반면에 FAISS는 속도에 최적화되어 있으며 어려움 없이 수십 억 개의 벡터를 처리할 수 있습니다.

속도 비교를 위한 샘플 코드

import time
 
# 기존 방법
start_time = time.time()
# 기존 유사도 검색 코드를 입력하세요
end_time = time.time()
traditional_time = end_time - start_time
 
# FAISS 방법
start_time = time.time()
# FAISS 유사도 검색 코드를 입력하세요
end_time = time.time()
faiss_time = end_time - start_time
 
print(f"기존 방법 시간: {traditional_time}")
print(f"FAISS 방법 시간: {faiss_time}")

정확성

속도는 중요하지만 정확도를 희생해서는 안 됩니다. FAISS는 Product Quantization과 Locality Sensitive Hashing과 같은 고급 알고리즘을 사용하여 결과가 빠르기만 한 것이 아니라 정확합니다.

유연성

FAISS는 매우 유연합니다. 텍스트, 이미지 또는 다른 유형의 데이터를 작업하더라도 FAISS를 사용할 수 있습니다. 다양한 인덱스 유형과 조정 가능한 매개변수를 제공하여 다양한 응용 프로그램에 적응할 수 있습니다.

매개변수 조정하는 샘플 코드

# FAISS 인덱스에 사용자 정의 매개변수 설정
index = faiss.IndexIVFFlat(quantizer, 차원, 10)
index.nprobe = 5  # 고려할 버킷 수

FAISS 대 Annoy

Annoy와 같은 다른 유사도 검색 도구와 비교하여 FAISS가 어떻게 성능을 발휘하는지 궁금할 수 있습니다. 이러한 도구들은 각자의 장점을 가지고 있지만, 속도, 정확도 및 유연성 측면에서 FAISS가 종종 우위를 보입니다.

Annoy (스포티파이에서 개발)는 효율적인 유사도 검색을 제공하는 또 다른 라이브러리입니다. 그러나 FAISS가 제공하는 규모와 속도를 갖추지 못합니다. Annoy는 작은 프로젝트에는 적합하지만 대규모 데이터를 처리하기에는 이상적이지 않을 수 있습니다.

Annoy Python은 어떻게 작동하는지에 대해 더 자세히 읽을 수 있습니다.

Annoy와 FAISS 모두 유사도 검색을 위해 설계되었지만, 여러 가지 핵심적인 면에서 차이가 있습니다:

속도: FAISS가 일반적으로 더 빠릅니다, 특히 대규모 데이터의 경우.
유연성: FAISS가 더 많은 인덱스 유형과 조정 가능한 매개변수를 제공합니다.
정확도: FAISS는 더 정확한 결과를 얻기 위해 고급 알고리즘을 사용합니다.

속도 차이를 보여주는 간단한 코드 예시입니다:

import time
import annoy
import faiss
 
# Annoy
t = annoy.AnnoyIndex(40, 'angular')
start_time = time.time()
# Annoy 코드를 입력하세요
end_time = time.time()
annoy_time = end_time - start_time
 
# FAISS
index = faiss.IndexFlatL2(40)
start_time = time.time()
# FAISS 코드를 입력하세요
end_time = time.time()
faiss_time = end_time - start_time
 
print(f"Annoy 시간: {annoy_time}")
print(f"FAISS 시간: {faiss_time}")

결론

FAISS는 효율적인 유사도 검색을 위한 강력한 도구로, 기존 방법이나 유사한 도구들보다 속도, 정확도, 유연성 면에서 우위를 가지고 있습니다. 텍스트, 이미지 또는 기타 유형의 데이터를 다룰 때에도 FAISS는 효율적으로 처리할 수 있도록 설계되었습니다. 오픈 소스 성격과 능동적인 커뮤니티로 인해 고급 검색 기능을 프로젝트에 구현하려는 모든 사람들에게 go-to 솔루션이 되고 있습니다.

최신 LLM 뉴스를 알고 싶으신가요? 최신 LLM 리더보드를 확인해보세요!

흥이든 실패인이든? 2023년 최고의 벡터 데이터베이스를 검토해봅시다 Pgvector: 가벼운 노력으로 PostgreSQL을 벡터 데이터베이스로 변환하는 방법