Como usar a biblioteca Annoy do Spotify em Python para busca de similaridade de vetores

Name: Jennie Rose

Published on 30/04/2024

Descubra como o Annoy, o algoritmo de vizinho mais próximo aproximado, revoluciona as buscas de vizinho mais próximo em Python. Aprenda seus conceitos essenciais, como implementá-lo e por que ele é a escolha preferida dos profissionais de aprendizado de máquina.

Você está cansado de buscas de vizinho mais próximo lentas e ineficientes em seus projetos de aprendizado de máquina? Você deseja que haja uma maneira de acelerar essa etapa crucial sem sacrificar muita precisão? Bem, seu desejo está prestes a se tornar realidade. Bem-vindo ao mundo do Approximate Nearest Neighbor Oh Yeah (Annoy), uma biblioteca Python que está conquistando a comunidade de aprendizado de máquina.

Neste guia abrangente, mergulharemos fundo no Annoy, explorando seu funcionamento interno, sua implementação em Python e por que ele está se tornando rapidamente a escolha preferida dos profissionais da área. Prepare-se, porque estamos prestes a fazer uma emocionante viagem pela paisagem das buscas rápidas e eficientes de vizinho mais próximo.

O que é o Approximate Nearest Neighbor Oh Yeah (Annoy)?

Antes de entrarmos em detalhes, vamos entender nossas definições. Approximate Nearest Neighbor Oh Yeah (Annoy) é um algoritmo projetado para lidar com buscas de vizinhos mais próximos de maneira mais eficiente. Ao contrário dos métodos tradicionais que realizam buscas exaustivas, o Annoy usa uma estrutura de dados inteligente - árvores de busca binária - para particionar o espaço de busca e tornar o processo mais rápido.

Métodos Tradicionais: Buscas lentas e exaustivas.
Annoy: Buscas rápidas e aproximadas usando árvores de busca binária.

Quais são as vantagens do Annoy?

Você pode estar se perguntando por que deve optar pelo Annoy quando existem outros algoritmos e bibliotecas disponíveis para busca de vizinho mais próximo. Aqui estão algumas razões convincentes:

Velocidade: O Annoy é incrivelmente rápido, graças ao seu uso eficiente de árvores de busca binária.
Eficiência de Memória: O Annoy usa um arquivo mapeado em memória, permitindo que vários processos compartilhem os mesmos dados.
Flexibilidade: O Annoy suporta diferentes métricas de distância, como Euclidiana, Manhattan e Angular.
Facilidade de Uso: Com sua biblioteca Python, implementar o Annoy é fácil como um pedaço de bolo.

Como o Annoy funciona?

Agora que sabemos o que é o Annoy, vamos entender como ele realmente funciona. Em sua essência, o Annoy usa uma estrutura de dados conhecida como árvore de busca binária para particionar o espaço vetorial. Isso é fundamentalmente diferente dos métodos tradicionais que usam grafos conectados ou buscas exaustivas.

A Estrutura de Dados Principal: Árvores de Busca Binária

No Annoy, cada nó na árvore de busca binária representa um vetor no conjunto de dados. A árvore é construída particionando recursivamente o espaço vetorial em duas metades. Essa particionamento é feito usando hiperplanos, que estão equidistantes de dois vetores selecionados aleatoriamente no conjunto de dados.

Hiperplanos: Usados para particionar o espaço vetorial.
Vetores Aleatórios: Dois vetores são selecionados aleatoriamente para definir cada hiperplano.

Por exemplo, vamos supor que temos os vetores (A) e (B). Um hiperplano equidistante de (A) e (B) dividirá o espaço em duas metades. Todos os vetores mais próximos a (A) irão para a subárvore esquerda e aqueles mais próximos a (B) irão para a subárvore direita.

Particionamento Recursivo: O Gênio Por Trás do Annoy

A mágica acontece durante o particionamento recursivo do espaço vetorial. Cada nó na árvore está associado a um hiperplano que divide o espaço em dois. Esse processo é repetido para cada um dos nós filhos, particionando ainda mais o espaço até que cada nó folha contenha menos elementos que um número predefinido, digamos (K).

Nós Folha: Contêm menos de (K) elementos.
(K): Um parâmetro definido pelo usuário que controla a granularidade da particionamento.

Usando essa estrutura de árvore, o Annoy pode rapidamente identificar em qual partição um vetor de consulta se encontra, reduzindo assim o número de vetores que precisa ser comparado. Isso é o que torna o Annoy tão rápido e eficiente.

Indexação no Annoy: Um Guia Passo a Passo

Depois de entender os conceitos essenciais por trás do Annoy, é hora de colocar a mão na massa com uma implementação real. A indexação é a primeira etapa crucial do uso do Annoy, e é onde a mágica das árvores de busca binária entra em ação.

Passo 1: Instale a Biblioteca Annoy

Primeiro, você precisa instalar a biblioteca Annoy. Você pode fazer isso facilmente usando o pip:

pip install annoy

Passo 2: Importe a Biblioteca e Inicialize o Índice

Após a instalação, importe a biblioteca e inicialize o índice do Annoy. Veja como fazer isso:

from annoy import AnnoyIndex
 
# Inicialize o índice com 40 dimensões
t = AnnoyIndex(40, 'angular')

40: O número de dimensões para cada vetor.
'angular': A métrica de distância usada (Euclidiana, Manhattan e Angular estão disponíveis).

Passo 3: Adicione Itens ao Índice

Agora, adicione seus itens (vetores) ao índice. Cada item é identificado por um ID inteiro.

# Adicionando três vetores ao índice
t.add_item(0, [1.0, 2.1, 3.2, ...])
t.add_item(1, [4.5, 5.1, 6.3, ...])
t.add_item(2, [7.2, 8.1, 9.4, ...])

Passo 4: Construa o Índice

Depois de adicionar todos os seus itens, construa o índice. É aqui que o Annoy constrói as árvores de busca binária.

# Construa o índice com 10 árvores
t.build(10)

10: O número de árvores no índice. Mais árvores significam maior precisão, mas tempo de consulta mais lento.

Passo 5: Salve e Carregue o Índice

Você pode salvar o índice em um disco e carregá-lo posteriormente para consultas.

# Salve o índice
t.save('meu_indice.ann')
 
# Carregue o índice
u = AnnoyIndex(40, 'angular')
u.load('meu_indice.ann')

Ao seguir essas etapas, você criou com sucesso um índice do Annoy pronto para consultas de vizinhos mais próximos rápidas e eficientes.

Como Consultar Annoy para Vizinhos Mais Próximos?

Uma vez que seu índice esteja construído, consultá-lo para vizinhos mais próximos é fácil. Os métodos get_nns_by_item e get_nns_by_vector são suas funções principais para isso.

Usando `get_nns_by_item`

Esse método recupera os vizinhos mais próximos para um item específico no índice.

# Encontre os 5 vizinhos mais próximos do item 0
print(t.get_nns_by_item(0, 5))

Usando `get_nns_by_vector`

Alternativamente, você pode encontrar os vizinhos mais próximos de um vetor específico.

# Encontre os 5 vizinhos mais próximos de um vetor específico
print(t.get_nns_by_vector([1.0, 2.1, 3.2, ...], 5))

Ambos os métodos retornam uma lista de IDs de item ordenados pela distância deles ao item de consulta ou vetor.

3 Exemplos Python do Annpy

Exemplo 1: Inicialização Básica e Construção de Índice

Neste exemplo, inicializamos um índice do Annoy com um conjunto de dados e construímos o índice com um número especificado de árvores. Esse é um caso de uso comum para buscas de vizinhos mais próximos em larga escala.

from annoy import AnnoyIndex
import os
import logging
 
def main(args):
data = Dataset(args.dataset)
f = data.base.shape[1]
t = AnnoyIndex(f)
idxpath = os.path.join(args.exp_dir, 'sift_annoy_ntrees%d.idx' % ntrees)
 
if not os.path.exists(idxpath):
logging.info("Adicionando itens ...")
for i in range(data.nbae):
t.add_item(i, data.base[i])
logging.info("Construindo índices ...")
t.build(ntrees)
logging.info("Salvando o índice ...")
t.save(idxpath)

Neste exemplo, usamos o registro (logging) para acompanhar o processo. O índice é salvo no disco, permitindo uma recarga rápida em execuções futuras.

Exemplo 2: Trabalhando com Dados Esparsos

Aqui, demonstramos como construir um índice do Annoy com dados esparsos. Isso é particularmente útil quando seu conjunto de dados é de alta dimensão, mas esparsos.

from annoy import AnnoyIndex
import numpy as np
from scipy.sparse import csr_matrix
import os
 
def test_build_sparse_annoy_index(annoy_index_file):
data = np.random.choice([0, 1], size=(10, 5))
sparse_data = csr_matrix(data)
index = AnnoyIndex(5, metric='angular')
index.load(annoy_index_file)
assert os.path.exists(annoy_index_file)

Neste exemplo, usamos a classe csr_matrix da biblioteca SciPy para criar dados esparsos. Em seguida, carregamos um índice do Annoy existente de um arquivo.

Exemplo 3: Usando Annoy em Sistemas de Recomendação

Neste exemplo, integramos o Annoy em um sistema de recomendação para encontrar itens semelhantes rapidamente.

import annoy
import logging
 
def fit(self, Ciu, show_progress=True):
super(AnnoyAlternatingLeastSquares, self).fit(Ciu, show_progress)
logging.debug("Construindo o índice de itens semelhantes do annoy")
 
self.similar_items_index = annoy.AnnoyIndex(self.item_factors.shape[1], 'angular')
for i, row in enumerate(self.item_factors):
self.similar_items_index.add_item(i, row)
self.similar_items_index.build(self.n_trees)

Aqui, estendemos uma classe AnnoyAlternatingLeastSquares e adicionamos um método para construir um índice do Annoy para itens semelhantes. Isso permite que o sistema de recomendação obtenha itens semelhantes muito mais rapidamente.

Conclusão: Annoy - A Biblioteca Indispensável para Buscas de Vizinhos Mais Próximos Rápidas e Eficientes

Em resumo, o Annoy é uma ferramenta indispensável para qualquer pessoa lidando com conjuntos de dados grandes e de alta dimensão, precisando de buscas de vizinhos mais próximos rápidas e aproximadas. Sua velocidade, eficiência e facilidade de uso o tornam uma escolha preferida para uma ampla variedade de aplicações, desde sistemas de recomendação até processamento de linguagem natural e reconhecimento de imagens. Embora possa não oferecer a exatidão exata de alguns outros algoritmos, seu desempenho geralmente é mais do que suficiente para aplicações do mundo real. Se você está procurando implementar a busca de vizinhos mais próximos em seu projeto, o Annoy definitivamente deve estar no seu radar.

Quais são os principais casos de uso do Annoy?

O Annoy é comumente usado em sistemas de recomendação, processamento de linguagem natural e tarefas de reconhecimento de imagens. Sua capacidade de encontrar rapidamente vizinhos mais próximos aproximados o torna ideal para essas aplicações.

Como o Annoy alcança sua velocidade?

O Annoy usa uma floresta de árvores, especificamente árvores de projeção aleatória, para particionar o espaço em regiões menores. Isso permite que ele elimine rapidamente grandes partes do conjunto de dados que provavelmente não contêm os vizinhos mais próximos, resultando em tempos de busca mais rápidos.

O Annoy é adequado para todos os tipos de dados?

O Annoy é especialmente adequado para dados de alta dimensão. No entanto, também pode ser usado para dados de menor dimensão. A chave é escolher os parâmetros corretos, como o número de árvores e o parâmetro de pesquisa search_k, para otimizar seu desempenho para seu conjunto de dados específico.

Como o Annoy se compara a outros algoritmos de vizinhos mais próximos?

O Annoy é geralmente mais rápido e usa menos memória do que outros algoritmos como árvores KD e árvores Ball. Embora seja um algoritmo de vizinho mais próximo aproximado, sua precisão muitas vezes é boa o suficiente para a maioria das aplicações do mundo real.

Posso usar o Annoy com outras linguagens além do Python?

Sim, o Annoy possui bindings para várias outras linguagens como C++, Java e Lua. Isso o torna versátil e adequado para integração em vários tipos de projetos.

Quais são algumas técnicas avançadas para otimizar o Annoy?

Algumas técnicas avançadas incluem o uso de uma métrica de distância diferente, otimizando o número de árvores para seu caso de uso específico e usando arquivos com mapeamento em memória para conjuntos de dados grandes. Isso pode ajudá-lo a obter um desempenho ainda melhor do seu índice do Annoy.

Quer aprender as últimas notícias do LLM? Confira o LLM leaderboard mais recente!

Hype ou Fracasso? Vamos Revisar os 10 Melhores Bancos de Dados de Vetores de 2023