Skip to content

环境搭建

搭建一个完整的RAG开发环境,需要准备必要的工具和库。本章节将详细介绍如何设置开发环境,包括Python环境、依赖库安装和基础配置。

1. Python环境准备

安装Python

RAG系统主要基于Python开发,建议使用Python 3.8或更高版本。

Windows系统

  1. 访问 Python官网
  2. 下载并安装Python 3.8+
  3. 确保勾选"Add Python to PATH"

macOS系统

  1. 使用Homebrew安装:brew install python
  2. 或从官网下载安装包

Linux系统

  1. 使用包管理器安装:sudo apt install python3 python3-pip
  2. 验证安装:python3 --version

创建虚拟环境

为了避免依赖冲突,建议使用虚拟环境:

bash
# 创建虚拟环境
python -m venv rag-env

# 激活虚拟环境
# Windows
rag-env\Scripts\activate
# macOS/Linux
source rag-env/bin/activate

2. 核心依赖安装

安装LangChain

我们使用LangChain 1.2版本作为RAG框架:

bash
pip install langchain==1.2.0

安装嵌入模型依赖

bash
# 安装Hugging Face嵌入模型
pip install sentence-transformers

# 安装OpenAI嵌入(可选)
pip install openai

安装向量数据库

bash
# Chroma(轻量级,适合入门)
pip install chromadb

# FAISS(Facebook的向量检索库)
pip install faiss-cpu  # CPU版本
# pip install faiss-gpu  # GPU版本

# 其他向量数据库(可选)
pip install pinecone-client  # Pinecone
pip install weaviate-client  # Weaviate

安装文档处理依赖

bash
# PDF处理
pip install pypdf

# Word文档处理
pip install python-docx

# 网页抓取
pip install beautifulsoup4 requests

3. 配置API密钥

OpenAI API(可选)

如果使用OpenAI的模型,需要配置API密钥:

bash
# 设置环境变量
# Windows
set OPENAI_API_KEY=your_api_key

# macOS/Linux
export OPENAI_API_KEY=your_api_key

或使用.env文件:

bash
# 安装python-dotenv
pip install python-dotenv

# 创建.env文件
echo "OPENAI_API_KEY=your_api_key" > .env

Hugging Face(可选)

如果使用Hugging Face模型,可以配置访问令牌:

bash
export HUGGINGFACE_TOKEN=your_token

4. 验证安装

创建一个测试脚本来验证环境:

python
# test_env.py
import langchain
from langchain.embeddings import HuggingFaceEmbeddings
import chromadb

print(f"LangChain版本: {langchain.__version__}")
print(f"ChromaDB版本: {chromadb.__version__}")

# 测试嵌入模型
embeddings = HuggingFaceEmbeddings(model_name="all-MiniLM-L6-v2")
test_text = "这是一个测试文本"
vector = embeddings.embed_query(test_text)
print(f"嵌入向量维度: {len(vector)}")
print("环境验证成功!")

运行测试:

bash
python test_env.py

5. 开发工具推荐

IDE

  • PyCharm:功能强大的Python IDE
  • VS Code:轻量级,插件丰富
  • Jupyter Notebook:适合实验和原型开发

版本控制

bash
# 安装Git
# 初始化Git仓库
git init

代码质量工具

bash
# 代码格式化
pip install black

# 代码检查
pip install flake8

# 类型检查
pip install mypy

6. 完整依赖列表

创建一个requirements.txt文件:

langchain==1.2.0
sentence-transformers
openai
chromadb
faiss-cpu
pypdf
python-docx
beautifulsoup4
requests
python-dotenv

安装所有依赖:

bash
pip install -r requirements.txt

7. 下一步

环境搭建完成后,你可以开始构建第一个RAG应用。建议按照以下顺序学习:

  1. 稀疏检索 - 了解传统检索方法
  2. 密集检索 - 学习向量检索
  3. LangChain基础 - 使用框架构建RAG