LlamaIndex vs LangChain：比较强大的LLM应用框架

Name: Lynn Mikami

Published on 2024/4/30

介绍

在自然语言处理（NLP）和大型语言模型（LLM）的世界中，开发人员不断寻找强大的工具来构建前沿应用程序。在这个领域中出现了两个杰出的框架，它们是LlamaIndex和LangChain。虽然两者都旨在简化LLM集成到自定义应用程序中，但它们在方法和重点上有所不同。在本文中，我们将深入探讨LlamaIndex和LangChain之间的关键区别，帮助您在选择框架时做出明智的决策。

第一部分。LlamaIndex是什么？

LlamaIndex是一个强大的数据框架，使您可以轻松连接自己的数据到LLM。它提供灵活的数据连接器，从各种来源（如API、数据库、PDF等）摄取数据。然后，将此私有数据索引到优化表示中，LLM可以大规模访问和解释这些表示形式，而无需重新训练底层模型。

LlamaIndex为LLM赋予了对您的私有数据的“记忆”，它们可以利用这个“记忆”提供知情的、上下文相关的回答。无论您想构建一个可以处理公司文档的聊天机器人、一个个性化的简历分析工具还是一个可以回答特定领域知识问题的AI助手，只需几行代码即可用LlamaIndex实现。

什么是LlamaIndex

LlamaIndex的工作原理

在核心上，LlamaIndex使用了一种称为检索增强生成（RAG）的技术。一个典型的RAG系统有两个关键阶段：

索引阶段：在索引过程中，您的私有数据被高效地转换为可搜索的向量索引。LlamaIndex可以处理非结构化文本文档、结构化数据库记录、知识图谱等数据。将数据转化为语义意义的数值嵌入，从而允许后面进行快速的相似性搜索。
查询阶段：当用户查询系统时，根据查询的语义相似性，从向量索引中检索出最相关的信息块。这些片段连同原始查询一起传递给LLM，生成最终的回答。通过动态引入相关的上下文，LLM可以输出比仅仅依靠基础知识更高质量、更准确的答案。

LlamaIndex大大简化了构建RAG系统的复杂性。它提供了高级API，让您只需几行代码即可入门，还提供了低级构建块，以对数据流水线进行细粒度的自定义。

使用LlamaIndex构建简历聊天机器人

为了说明LlamaIndex的功能，让我们以构建一个可以回答关于您的简历的问题的聊天机器人为例。

首先，安装必要的软件包：

pip install llama-index openai pypdf

然后，加载您的简历PDF并构建索引：

从llama_index导入TreeIndex， SimpleDirectoryReader
 
简历 = SimpleDirectoryReader("路径/到/简历").load_data()
索引 = TreeIndex.from_documents(简历)

现在，您可以使用自然语言查询索引：

查询引擎 = 索引.as_query_engine()
响应 = 查询引擎.query("职位是什么？")
print(响应)

查询引擎将在简历索引中搜索并返回最相关的片段作为回答，例如“职位是软件工程师”。

您还可以进行来回对话：

聊天引擎 = 索引.as_chat_engine()
响应 = 聊天引擎.chat("这个人在上一份工作中做了什么？")
print(响应)
后续问题 = 聊天引擎.chat("他们使用了哪些编程语言？")
print(后续问题)

聊天引擎保持对话的上下文，允许您在不明确重述主题的情况下提问后续问题。

为了避免每次都重新构建索引，您可以将其持久化到磁盘：

索引.storage_context.persist()

然后在稍后加载：

从llama_index.导入StorageContext，从存储加载索引
 
存储上下文 = StorageContext.from_defaults(persist_dir="./storage")
索引 = load_index_from_storage(存储上下文)

超越聊天机器人：LlamaIndex的应用案例

聊天机器人只是您可以用LlamaIndex构建的众多应用之一。其他示例包括：

长文档的问答：摄取手册、法律合同或研究论文等文档，就其内容提问
个性化推荐：构建产品目录或内容库的索引，根据用户查询提供推荐
数据驱动的代理：创建可以访问数据库、API和其他工具并完成复杂任务的AI助手
知识库构建：从非结构化文本中自动提取实体和关系等结构化数据，构建知识图谱

LlamaIndex提供了一个灵活的工具包，可用于构建各种LLM驱动的应用程序。您可以混合和匹配数据加载器、索引、查询引擎、代理等，为您的用例创建自定义的流水线。

使用LlamaIndex入门

要开始使用LlamaIndex进行构建，请先安装软件包：

pip install llama-index

还需要一个OpenAI API密钥来访问默认的底层模型。将其设置为环境变量：

import os

os.environ["OPENAI_API_KEY"] = "your_api_key_here"


从那里，您可以开始摄取数据和构建索引！LlamaIndex 文档提供了详细的指南和示例，适用于常见的用例。

当您深入研究时，您可以探索 Llama Hub - 一个由社区贡献的数据加载器、索引、查询引擎等组成的集合。您可以直接使用这些插件，或者将它们作为自定义组件的起点。

### 什么是 LangChain？

LangChain 是一个强大的用于开发由语言模型驱动的应用程序的框架。它使您能够轻松将自己的数据连接到 LLMs 并构建数据感知的语言模型应用程序。LangChain 为链提供了一个标准接口，有很多与其他工具的集成，并为常见应用程序提供端到端链。

使用 LangChain，您可以从各种来源（如文档、数据库、API 和知识库）加载数据。在推理时，这些私有数据可以让 LLMs 访问，使其能够利用上下文提供明智、相关的响应。无论您想要构建一个基于公司文档的聊天机器人，一个数据分析工具，还是一个与数据库和 API 进行交互的 AI 助手，LangChain 都能够实现。

![什么是 LangChain？](https://d2908q01vomqb2.cloudfront.net/887309d048beef83ad3eabf2a79a64a389ab1c9f/2023/07/13/DBBLOG-3334-image001.png)

### LangChain 的工作原理

LangChain 的核心是围绕几个关键概念设计的：

1. 提示：提示是您给语言模型的指令，用于引导其输出。LangChain 提供了用于构建和处理提示的标准接口。

2. 模型：LangChain 提供了一种与不同 LLMs 交互和轻松切换的标准接口。它支持 OpenAI 的 GPT-3、Anthropic 的 Claude、Cohere 的模型等。

3. 索引：索引是指文本数据的存储方式，并且可以让语言模型访问。LangChain 提供了几种针对 LLMs 优化的索引技术，例如内存中的向量存储和嵌入。

4. 链：链是对 LLMs 和其他工具调用的一系列步骤，其中一个步骤的输出是下一个步骤的输入。LangChain 为链提供了一个标准接口和大量可重用的组件。

5. 代理：代理使用 LLM 来确定采取哪些操作及其顺序。LangChain 提供了一些可以利用工具完成任务的代理。

通过这些构建块，您可以创建各种强大的语言模型应用程序。LangChain 抽象了很多复杂性，让您可以专注于应用程序的高级逻辑。

### 使用 LangChain 构建问答系统

为了说明 LangChain 的功能，让我们来构建一个简单的问答系统，用于一组文档。

首先，安装必要的软件包：

pip install langchain openai faiss-cpu


接下来，加载数据并创建索引：

```python
from langchain.document_loaders import TextLoader
from langchain.indexes import VectorstoreIndexCreator

loader = TextLoader('path/to/document.txt')  
index = VectorstoreIndexCreator().from_loaders([loader])

现在，您可以使用自然语言查询索引：

query = "这份文档的主题是什么？"
result = index.query(query)
print(result)

查询将搜索文档并返回最相关的片段作为响应。

您还可以使用 ConversationalRetrievalChain 与数据进行对话：

from langchain.chains import ConversationalRetrievalChain
from langchain.chat_models import ChatOpenAI
 
model = ChatOpenAI(temperature=0)
qa = ConversationalRetrievalChain.from_llm(model,retriever=index.vectorstore.as_retriever())
 
chat_history = []
while True:
    query = input("Human: ")
    result = qa({"question": query, "chat_history": chat_history})
    chat_history.append((query, result['answer']))
    print(f"Assistant: {result['answer']}")

这允许进行来回对话，模型可以从文档中获取相关上下文。

非问答应用：LangChain 的用例

问答只是您可以使用 LangChain 构建的众多应用之一。其他一些示例包括：

聊天机器人：创建可以进行自由对话的对话代理，同时利用私有数据
数据分析：将 LLMs 连接到 SQL 数据库、pandas 数据帧和数据可视化库，进行交互式数据探索
代理：开发可以使用网络浏览器、API 和计算器等工具完成开放式任务的 AI 代理
应用程序生成：根据自然语言规范自动生成整个应用程序

LangChain 提供了灵活的组件集合，可以以无数种方式结合在一起，创建强大的语言模型应用程序。您可以使用内置的链和代理，也可以创建自己的自定义流水线。

使用 LangChain 入门

要开始使用 LangChain，首先安装软件包：

pip install langchain

您还需要为您想要使用的模型和工具设置必要的 API 密钥。例如，要使用 OpenAI 的模型：

import os
os.environ["OPENAI_API_KEY"] = "your_api_key_here"

从那里，您可以开始加载数据、创建链并构建应用程序！LangChain 文档为各种用例提供了详细的指南和示例。

当您深入研究时，您可以探索不断增长的 LangChain 集成和扩展生态系统。社区已经构建了与无数数据源、工具和框架的连接器，使将 LLMs 纳入任何工作流程变得容易。

LlamaIndex vs LangChain 的最佳应用案例

LlamaIndex:

构建搜索引擎和信息检索系统
创建知识库和 FAQ 机器人
分析和总结大型文档集合
实现对话搜索和问答

LangChain:

开发聊天机器人和对话代理
构建自定义的自然语言处理 (NLP) 流程和工作流
将面向语言模型 (LLM) 与外部数据源和 API 进行集成
尝试不同的提示、记忆和代理配置

LlamaIndex 与 LangChain 的选择

在选择 LlamaIndex 和 LangChain 之间，请考虑以下因素：

项目需求：如果您的应用主要关注搜索和检索，那么 LlamaIndex 可能更适合。对于更多样化的 NLP 任务和自定义工作流程，LangChain 提供更大的灵活性。
使用简易性：LlamaIndex 提供更简化和适合初学者的界面，而 LangChain 需要更深入地理解 NLP 概念和组件。
自定义：LangChain 的模块化架构允许进行广泛的自定义和微调，而 LlamaIndex 则提供了更偏向于搜索和检索优化的有见地的方法。
生态系统和社区：两个框架都有活跃的社区和不断发展的生态系统。考虑探索它们的文档、示例和社区资源，以评估可用的支持和资源水平。

结论

LlamaIndex 和 LangChain 是构建基于 LLM 的应用的强大框架，各自具有自己的优势和重点领域。LlamaIndex 在搜索和检索任务中表现出色，提供了简化的数据索引和查询能力。另一方面，LangChain 采用了模块化方法，提供了一套灵活的工具和组件，用于构建多样化的 NLP 应用程序。

在选择两者之间时，请考虑您的项目需求、使用简易程度、自定义需求以及各自社区提供的支持。无论您的选择是什么，无论是 LlamaIndex 还是 LangChain，都可以使开发人员发挥大语言模型的潜力，创建创新的 NLP 应用程序。

在您踏上 LLM 应用程序开发的旅程时，请毫不犹豫地探索两个框架，尝试它们的功能，并利用它们的优势来构建功能强大和引人入胜的自然语言体验。

如何高效使用 Llama Cpp 与 LangChain：逐步指南通过LLM智能体提升任务执行效果：规划、记忆和工具