DoneHub

CloudCLI UI - Claude Code 的 Web GUI 与云端方案

发表于 2025-09-11 更新于 2026-04-12 分类于 AI Valine：

CloudCLI UI（又名 Claude Code UI）是一款基于 Node.js + React 的 Web 应用，为 Claude Code、Cursor CLI、Codex 和 Gemini CLI 提供统一的图形化界面。与桌面应用不同，它可以通过浏览器访问，支持移动端使用，并提供云端托管选项。本文将详细介绍其功能特性、安装配置和使用方法。

阅读全文 »

opcode - Claude Code 的桌面 GUI 工具

发表于 2025-09-11 更新于 2026-04-12 分类于 AI Valine：

Claude Code 是 Anthropic 官方的命令行 AI 编程助手，强大的功能让它成为开发者的新宠。但命令行界面对于复杂任务管理仍有局限。opcode 作为一款基于 Tauri 2 的桌面应用，为 Claude Code 提供了可视化界面，支持自定义 Agent、会话管理、成本追踪等功能，让 AI 辅助编程更加直观高效。

阅读全文 »

AI 概念指南：从 LLM 到 Agent，一文理清人工智能的迷宫

发表于 2025-08-22 更新于 2026-04-03 分类于 AI Valine：

写在前面

说实话，2024 到 2025 这一年，AI 领域的名词简直像爆米花一样噼里啪啦往外蹦。ChatGPT、Claude、DeepSeek、Agent、MCP、Vibe Coding……身边的朋友经常一脸懵地问我：”这些到底都是啥？我该学哪个？”

这篇文章的目标很简单：帮你建立一套清晰的认知坐标系。读完之后，你不会再被各种新名词唬住，能准确判断某个新概念在整个版图里的位置，也知道该用什么工具解决自己的问题。

一、三个核心概念：LLM、Agent、Skills

理解 AI 生态，其实就抓三个东西：LLM（大脑）、Agent（行动者）、Skills（工具箱）。这三者的关系搞明白了，其他的都是在这个基础上的变体。

1. LLM——AI 的大脑，但它不是魔法

一句话理解：LLM（大语言模型）就是 AI 的”大脑”，它读了互联网上能读到的海量文本，学会了人类的语言模式和知识，能听懂你说的话，也能生成像人写的文字。

不过这里有几个坑，不得不说很多新手都会踩：

LLM 不是搜索引擎。搜索引擎是去库里找现成的答案，LLM 是”脑补”出最可能的回答。这意味着它可能会一本正经地胡说八道——也就是所谓的”幻觉”。
LLM 不联网（除非你特别配置）。它的知识有个截止日期，比如 GPT-4 的知识就到 2024 年初，问它之后的事，它是真不知道。
LLM 并不”理解”。它本质上是概率预测——根据前面的词，猜下一个最可能出现的词是什么。它不像人一样有真正的理解，只是模式匹配玩得溜。

模型 vs 产品的区分

这里有个很多人混淆的概念：模型和产品是两回事。

模型（如 GPT-4、Claude 3.5）是底层的”大脑”，提供智能能力
产品（如 ChatGPT、Claude 网页版）是包装好的应用，包含界面、功能和安全限制

同一个模型可以驱动多个产品。比如 GPT-4 既驱动 ChatGPT，也驱动 Microsoft Copilot。所以别问”GPT-4 和 ChatGPT 哪个好”，这就像是问”发动机和小轿车哪个好”——根本不是一个层面的东西。

主流 LLM 怎么选

如果你现在就想试试，这几款是市面上的主力：

模型	出品方	特点	适合场景
GPT-4/GPT-4o	OpenAI	通用能力强，生态完善	创意写作、通用问答
Claude 3.5/4	Anthropic	上下文长（20万token），推理严谨	长文档分析、代码审查
DeepSeek-V3/R1	深度求索	开源、性价比高、数学强	技术研究、预算敏感场景
Gemini 1.5/2.0	Google	多模态原生，谷歌生态	多媒体处理
Qwen2.5	阿里巴巴	中文优化，开源友好	中文场景

我的建议：普通用户从 ChatGPT 或 Claude 开始，想省钱或玩技术的试试 DeepSeek，中文场景多的选 Kimi 或 Qwen。

2. Agent——不只会聊天，还能动手干活

如果你只用过 ChatGPT 网页版，那你接触的还是”纯对话”模式。但 Agent 不一样，它是能自主规划、使用工具、完成任务的 AI 系统。

打个比方：

LLM 是”会聊天的百科全书”——你问它答，但它不动手
Agent 是”能动手解决问题的智能助手”——你说”帮我订一张明天去上海的机票”，它能自己去查航班、比价、填信息、完成预订

Agent 和纯对话 LLM 的核心区别：

能力	纯对话 LLM	Agent 系统
交互方式	一问一答	自主多轮执行
工具使用	依赖产品是否开放	原生设计为调用外部工具
任务完成	给建议、生成内容	实际执行操作并交付结果
记忆能力	单轮或有限轮对话	长期记忆、状态跟踪、跨会话

Agent 是怎么干活的

Agent 的工作流程通常叫 ReAct 范式（Reasoning + Acting）：

1
2
3

观察环境 → 理解目标 → 推理思考 → 选择工具 → 执行操作 → 观察结果 → 迭代直到完成
   ▲                                                                  │
   └──────────────────────────────────────────────────────────────────┘

它会循环执行这个过程，直到任务完成或达到终止条件。比如你要 Agent”分析一下这份财报并生成图表”，它可能会：

读取文件（调用文件操作 Skill）
分析数据（调用代码执行 Skill 跑 Python）
生成图表（调用可视化工具）
检查输出，如果不对就调整重试

Agent 产品有哪些

产品	类型	核心能力
Claude Code	编程 Agent	直接操作代码库，批量重构、调试
Manus	通用 Agent	端到端任务自动化，可操作用户界面
AutoGPT	实验性 Agent	自主分解任务、循环执行

注意：Cursor 和 GitHub Copilot 很多人以为是 Agent，其实它们更像是”增强型编辑器”——主要帮你写代码，而不是自主执行任务。真正的 Agent 像 Claude Code，能独立规划和执行多步骤任务。

3. Skills——Agent 的手和脚

Skills 是 Agent 能调用的具体能力，没有 Skills，Agent 就是”光说不练”。

常见的 Skills 包括：

📁 文件操作（读/写/搜索本地文件）
🔍 网络搜索（获取实时信息）
💻 代码执行（运行 Python、Bash 等）
🗄️ 数据库查询（SQL 操作）
📧 消息发送（邮件、IM 通知）

二、市面上的 AI 产品怎么分类

现在你已经搞懂了 LLM、Agent、Skills 三层架构，接下来看看市面上的产品都落在哪个象限。

1. 对话产品（包装好的 LLM）

这些产品本质上是”给 LLM 套了个壳”，主要提供对话界面：

产品	底层模型	核心特点
ChatGPT	GPT-4o/o3	最知名，生态丰富，插件多
Claude	Claude 3.5/4	上下文长（20万token），推理严谨
Kimi	Moonshot 自研	超长上下文（200万字），适合读长文档
DeepSeek	DeepSeek-V3/R1	开源透明，数学推理强，价格低

上下文的坑：很多人不知道”上下文长度”是什么意思。简单说，就是 AI 能”记住”多少内容。Kimi 的 200 万字 ≈ 几十本书，Claude 的 20 万 token ≈ 30 万汉字。如果你要读一篇很长的论文或合同，必须选支持大上下文的模型，否则它读到后面就忘了前面说什么。

2. AI 编程助手（程序员的武器库）

产品	定位	适合场景
Cursor	AI IDE	日常开发，代码生成、解释、重构
GitHub Copilot	代码补全	实时代码建议，提升编码效率
Claude Code	编程 Agent	复杂任务，批量重构，多文件操作

选型建议：日常写代码用 Cursor 或 Copilot 就够了；要做大规模代码重构、理解整个项目架构，Claude Code 更猛。

3. 内容生成工具（特定领域的 AI）

产品	类型	特点
Midjourney	图像生成	艺术风格最强，需 Discord 使用
DALL·E 3	图像生成	与 ChatGPT 集成，使用方便
Sora	视频生成	OpenAI 出品，目前仅对特定用户开放
Nano Banana	图文处理	Gemini 生态，支持图文混合任务

注意：Nano Banana 是 Google 实验性工具，功能可能迭代更新。

三、MCP 和 Vibe Coding：两个值得关注的趋势

1. MCP——AI 的 USB-C 接口

MCP（Model Context Protocol）是 Anthropic 在 2024 年 11 月推出的开放协议，旨在标准化 AI 与外部数据源的连接方式。

一句话理解：MCP 是 AI 世界的”USB-C 标准”。以前每个 AI 连数据库都要单独开发适配器，现在只要实现一次 MCP，所有支持 MCP 的 AI 都能用。

MCP 的三层架构：

MCP 主机 (Host)：运行 AI 的程序（如 Claude Code）
MCP 客户端 (Client)：维持与服务器连接的组件
MCP 服务器 (Server)：提供具体能力的服务（如文件系统、GitHub、数据库）

┌─────────────────────────────────────────────────────────┐
│                    MCP 架构示意                          │
├─────────────────────────────────────────────────────────┤
│                                                         │
│   ┌─────────────┐      ┌──────────┐     ┌───────────┐  │
│   │  MCP Host   │──────► MCP Client │────► MCP Server │  │
│   │ (Claude Code)│      │(连接管理)│     │ (文件系统) │  │
│   └─────────────┘      └──────────┘     └───────────┘  │
│         │                      │           │           │
│         ▼                      ▼           ▼           │
│      [LLM]                 标准化协议   具体工具       │
└─────────────────────────────────────────────────────────┘

为什么说它重要：MCP 让 AI 能方便地”伸手”到你的文件、数据库、GitHub、Slack 等各种数据源，是 Agent 能力的核心基础设施。目前已有文件系统、GitHub、PostgreSQL 等官方 MCP Server。

2. Vibe Coding——自然语言编程的新范式

Vibe Coding 是由前特斯拉 AI 总监 Andrej Karpathy 在 2025 年初提出的概念，指用自然语言描述需求，由 AI 自动生成代码的开发方式。

核心理念的转变：

从”写代码”转向”描述需求”
从”语法细节”转向”意图表达”
从”手工实现”转向”审查和迭代”

实际场景：你说”帮我做一个待办事项网页，可以添加任务、标记完成、删除，要简洁美观”，AI 直接生成完整的 HTML/CSS/JavaScript 代码，你只需要审查和微调。

但不得不说，它也有局限：

适合原型开发、简单应用、脚本任务
复杂系统架构仍需专业开发者把控
对”描述清楚需求”的能力要求反而更高——说不明白，AI 也猜不透

四、概念关系全景图

把上面的内容串起来，整个 AI 生态的层次是这样的：

                    ┌─────────────────────────────────────┐
                    │           AI 生态全景               │
                    └─────────────────────────────────────┘
                                      │
            ┌─────────────────────────┼─────────────────────────┐
            ▼                         ▼                         ▼
    ┌──────────────┐          ┌──────────────┐          ┌──────────────┐
    │    LLM       │          │    Agent     │          │   Skills     │
    │   (大脑)     │◄────────►│  (行动者)    │◄────────►│  (工具)      │
    └──────────────┘          └──────────────┘          └──────────────┘
            │                         │                         │
            │                         ▼                         │
            │               ┌──────────────────┐               │
            │               │  MCP 协议层      │               │
            │               │ (标准化连接)     │               │
            │               └────────┬─────────┘               │
            │                        │                        │
    ┌───────┴───────┐       ┌────────┴────────┐      ┌────────┴────────┐
    │               │       │                 │      │                 │
    ▼               ▼       ▼                 ▼      ▼                 ▼
┌──────┐      ┌──────┐  ┌──────┐       ┌──────┐ ┌──────┐        ┌──────┐
│GPT-4 │      │Claude│  │Claude│       │OpenCl│ │文件系│        │搜索 │
│系列  │      │系列  │  │ Code │       │aw    │ │统    │        │引擎 │
└──┬───┘      └──┬───┘  └──┬───┘       └──┬───┘ └──┬───┘        └──┬───┘
   │             │         │              │        │               │
   ▼             ▼         ▼              ▼        ▼               ▼
┌────────┐  ┌────────┐ ┌────────┐  ┌────────┐ ┌────────┐    ┌────────┐
│ChatGPT │  │Claude  │ │Cursor  │  │本地任务│ │代码执行│    │联网搜索│
│网页版  │  │网页版  │ │IDE插件 │  │自动化  │ │文件读写│    │API调用 │
└────────┘  └────────┘ └────────┘  └────────┘ └────────┘    └────────┘

记住这个核心逻辑：LLM 提供智能基础 → Agent 赋予行动能力 → Skills 提供工具支持 → MCP 标准化连接方式。

五、选型指南——我该用什么？

按使用场景选

你的需求	推荐工具	原因
日常问答、灵感收集	ChatGPT / Claude	通用性强，易用
读论文/长文档/法律文件	Kimi / Claude	Kimi 200万字上下文，Claude 20万token
写代码、审查代码	Claude Code / Cursor	代码理解和操作能力强
画插画、设计图	Midjourney / DALL·E 3	Midjourney 艺术风格佳，DALL·E 集成方便
做视频内容	Runway / Pika / Sora(开放后)	Sora 暂未全面开放
处理敏感数据	本地模型 + OpenClaw	数据不出本机，隐私可控
数学/逻辑推理	DeepSeek-R1 / Claude / o3	DeepSeek-R1 开源且推理强
自动化办公任务	Manus / AutoGPT	端到端任务自动化

按技术接受度选

用户类型	推荐起点	进阶方向
完全小白	ChatGPT 网页版	Claude、Kimi
办公族	Kimi 读文档 + ChatGPT 写作	学习 Prompt 工程
创作者	Midjourney + Claude	学习 AI 工作流
程序员	Cursor / Claude Code	MCP + Agent 开发
极客玩家	本地模型 + OpenClaw	自建 AI 工作流

六、避坑指南——这些误区你得知道

常见误区

误区	真相
AI 什么都知道	LLM 有知识截止日期，不联网时无法获取新信息
AI 不会犯错	会产生”幻觉”，一本正经地生成错误信息
AI 有真正的理解	基于概率的模式匹配，不是真正的”理解”
越贵的模型越好	简单任务用小模型更快更便宜（如 GPT-4o-mini）
AI 要取代人类了	当前是”增强人类”阶段，替代的是重复性工作
提示词越复杂越好	关键是清晰表达需求，不是堆砌辞藻

使用建议

交叉验证：重要信息用多个 AI 或搜索引擎验证，别盲信单一来源
提供上下文：给 AI 足够的背景信息，结果更准确（Garbage In, Garbage Out）
迭代优化：第一次不满意？继续追问、细化需求
了解边界：创意、整理、初稿适合 AI；关键决策、医疗法律建议不适合
保存记录：AI 输出可能变化，重要内容要保存

附录：术语速查表

术语	定义
Token	LLM 处理文本的基本单位，1 token ≈ 0.75 个英文单词
上下文长度	AI 能”记住”的文本范围
微调 (Fine-tuning)	在基础模型上用特定数据进一步训练
RAG	检索增强生成，让 AI 基于知识库回答问题
Prompt	给 AI 的输入指令
多模态	能同时处理文本、图像、音频、视频
幻觉	AI 生成看似合理但实际错误的内容
推理模型	专门优化推理的模型（如 o1、o3、DeepSeek-R1）
Function Calling	LLM 调用外部函数/API 的能力

总结

说了这么多，核心观点就三个：

没有”最好”的 AI，只有”最适合”的 AI。选工具要看场景，不是越贵越好。
模型是大脑，产品是包装，Agent 是系统。搞清楚这三层，新名词来了你也能归类。
AI 是增强人类的工具，不是替代人类的魔法。它会犯错，有边界，需要人的判断。

如果你看完还是不知道从何下手，不妨这样：先花 30 分钟注册个 ChatGPT 或 Kimi 账号，实际提几个问题，比看十篇文章都有用。用着用着，你就知道自己需要什么了。

参考资料：

向量相似度计算：从数学原理到算法实现

发表于 2025-06-30 更新于 2026-04-04 分类于 AI Valine：

写在前面

向量数据库的核心问题只有一个：给定一个查询向量，如何快速找出数据库中最相似的 K 个向量？

这个问题看似简单，实则涉及数学、算法、工程三个层面。数学层面是相似度度量，算法层面是近似最近邻搜索（ANN），工程层面是索引结构与存储优化。

这篇文章从研究角度切入，深入剖析相似度计算的数学原理和核心算法，不谈产品选型，只谈技术本质。

一、相似度度量：三种主流方法

1. 余弦相似度（Cosine Similarity）

定义：两个向量夹角的余弦值。

$\cos(\theta) = \frac{\vec{A} \cdot \vec{B}}{|\vec{A}| \times |\vec{B}|} = \frac{\sum_{i=1}^{n} A_i B_i}{\sqrt{\sum_{i=1}^{n} A_i^2} \times \sqrt{\sum_{i=1}^{n} B_i^2}}$

特点：

值域 [-1, 1]，1 表示方向完全相同，-1 表示方向相反
只关注方向，忽略向量长度（magnitude）
对向量长度不敏感，适合文本语义相似度

为什么文本向量用余弦：Embedding 模型输出的向量长度（norm）本身就蕴含信息，但语义相似度主要看方向。两篇文章讨论同一话题，即使篇幅不同（向量长度不同），方向应该相近。

import numpy as np

def cosine_similarity(a, b):
    """余弦相似度计算"""
    dot_product = np.dot(a, b)
    norm_a = np.linalg.norm(a)
    norm_b = np.linalg.norm(b)
    return dot_product / (norm_a * norm_b)

# 示例
a = np.array([1, 2, 3])
b = np.array([2, 4, 6])  # b = 2a，方向完全相同

print(cosine_similarity(a, b))  # 输出 1.0

计算复杂度：O(d)，d 为向量维度。

2. 欧氏距离（Euclidean Distance）

定义：两个向量在欧氏空间中的直线距离。

$d_{L2}(\vec{A}, \vec{B}) = \sqrt{\sum_{i=1}^{n} (A_i - B_i)^2}$

特点：

值域 [0, ∞)，越小越相似
同时考虑方向和长度
适合图像特征、物理坐标等绝对距离有意义的场景

与余弦的关系：对归一化向量，欧氏距离和余弦相似度有单调关系：

$d_{L2} = \sqrt{2(1 - \cos(\theta))}$

证明：设 $\vec{A}$ 和 $\vec{B}$ 均归一化（$|\vec{A}| = |\vec{B}| = 1$），则：

$|\vec{A} - \vec{B}|^2 = |\vec{A}|^2 + |\vec{B}|^2 - 2\vec{A}\cdot\vec{B} = 2 - 2\cos(\theta)$

结论：如果向量已归一化，用 L2 或余弦结果一致。

def euclidean_distance(a, b):
    """欧氏距离计算"""
    return np.sqrt(np.sum((a - b) ** 2))

# 归一化后与余弦的关系
a_norm = a / np.linalg.norm(a)
b_norm = b / np.linalg.norm(b)

d = euclidean_distance(a_norm, b_norm)
cos = cosine_similarity(a_norm, b_norm)

print(np.sqrt(2 * (1 - cos)))  # 与 d 相等

3. 内积（Inner Product / Dot Product）

定义：两个向量对应分量乘积之和。

$\vec{A} \cdot \vec{B} = \sum_{i=1}^{n} A_i B_i$

特点：

值域取决于向量，无固定范围
计算最快，无需计算 norm
要求向量归一化，否则结果不可比

为什么内积最快：省去了 norm 计算（两遍向量遍历），只需一遍遍历。在大规模检索中，这个差异很显著。

def dot_product(a, b):
    """内积计算"""
    return np.dot(a, b)

# 归一化向量：内积 = 余弦相似度
a_norm = a / np.linalg.norm(a)
b_norm = b / np.linalg.norm(b)

print(dot_product(a_norm, b_norm))  # 与 cosine_similarity 相等

4. 三种度量对比

度量方法	公式复杂度	值域	计算速度	适用场景
余弦相似度	O(d) + norm	[-1, 1]	中等	文本语义、方向敏感
欧氏距离	O(d)	[0, ∞)	中等	图像特征、物理位置
内积	O(d)	不固定	最快	归一化向量、追求速度

工程选择：

文本向量默认归一化 → 内积或余弦，推荐内积（快）
未归一化向量 → 余弦或 L2
物理坐标、图像特征 → L2

二、精确搜索 vs 近似搜索

1. 暴力搜索（FLAT）

遍历所有向量，逐一计算相似度，排序取 Top-K。

def brute_force_search(query, database, k=10):
    """暴力搜索"""
    # 计算所有相似度
    similarities = [cosine_similarity(query, vec) for vec in database]
    # 排序取 Top-K
    indices = np.argsort(similarities)[-k:]
    return indices, [similarities[i] for i in indices]

复杂度分析：

时间：O(N × d)，N 为向量数，d 为维度
空间：O(1)，无需额外索引

问题：N 达到百万级时，单次查询耗时秒级，无法满足实时需求。

2. 维度灾难（Curse of Dimensionality）

高维空间的几何特性与低维截然不同：

维度	特性
2D/3D	距离有意义，近邻真的”近”
高维（>100）	所有向量距离趋于均匀，近邻与远邻差距缩小

定量分析：在 d 维超立方体中，随机两点距离的方差：

$\text{Var}(d) \approx \frac{d}{12}$

随着 d 增加，距离分布趋于集中，”最近”和”最远”的区分度下降。

结论：高维空间中，精确找到最近邻代价极高，但”足够近”的近似最近邻（ANN）足够好——这是 ANN 算法的理论基础。

三、ANN 算法：核心思想与分类

ANN（Approximate Nearest Neighbor）牺牲少量精度换取大幅提升的速度。核心思想：构建索引结构，搜索时只考察部分候选，而非全量遍历。

算法分类

ANN 算法家族
├── 基于树（Tree-based）
│   ├── KD-Tree：低维有效，高维失效
│   ├── Ball Tree：球形划分，中等维度
│   └── Annoy（Spotify）：多棵随机投影树
│
├── 基于图（Graph-based）
│   ├── NSW：可导航小世界图
│   ├── HNSW：分层 NSW，当前最优
│   └── NGT/ONNG：日本 Yahoo 开源
│
├── 基于量化（Quantization-based）
│   ├── PQ：乘积量化，压缩向量
│   ├── OPQ：优化乘积量化
│   └── ScaNN：Google 开源，量化+重排
│
├── 基于哈希（Hash-based）
│   ├── LSH：局部敏感哈希
│   └── Multi-probe LSH：改进版
│
└── 基于聚类（Clustering-based）
    ├── IVF：倒排文件索引
    └── IVF-PQ：倒排+量化组合

四、HNSW：当前最优的图索引算法

1. 核心思想

HNSW（Hierarchical Navigable Small World）由 Malkov 等人在 2016 年提出，是当前最主流的 ANN 算法。

灵感来源：跳表（Skip List）。跳表通过多层索引实现 O(log N) 查找，HNSW 将这个思想移植到图结构。

结构设计：

多层图，上层稀疏，下层密集
搜索从顶层开始，逐层向下逼近
每层内节点通过边连接，边代表”邻居关系”

层级结构示意：

Layer 2 (最高层，概率 p²)：    ●───────●
                                 │       │
Layer 1 (概率 p¹)：        ●───●───●───●
                           │   │   │   │
Layer 0 (全量节点)：    ●─●─●─●─●─●─●─●─●─●─●
                      (每个节点都在 Layer 0)

节点进入高层概率：p^l = 1 / (ln(M) × M^(level))
高层节点数 ≈ N / (ln M × M^level)

2. 构建算法

算法：INSERT(element, hnsw)
输入：新元素 q，HNSW 图
输出：更新后的 HNSW 图

1. 确定插入层数 l = floor(-ln(uniform(0,1)) × mL)
2. 从顶层 entry point 开始，贪心搜索到 l 层的入口
3. 从 l 层向下到 0 层，每层：
   a. 在当前层搜索 efConstruction 个最近邻候选
   b. 从候选中选择 M 个最近邻连接
   c. 处理连接边：保持每节点最大 M 条边

关键参数：

M：每节点最大连接数（默认 16）
efConstruction：构建时搜索宽度（默认 200）
mL：层数乘数，通常取 $1/\ln M$

# HNSW 构建伪代码
def insert(q, hnsw, M=16, ef_construction=200, mL=1/np.log(16)):
    # 1. 确定插入层数
    level = int(-np.log(np.random.random()) * mL)
    
    # 2. 从顶层搜索到 level 层的入口
    entry = hnsw.entry_point
    for l in range(hnsw.max_level, level + 1):
        entry = greedy_search(q, entry, ef=1, layer=l)
    
    # 3. 从 level 层向下插入
    for l in range(level, -1, -1):
        candidates = search_layer(q, entry, ef_construction, l)
        neighbors = select_neighbors(q, candidates, M)
        connect(q, neighbors, l)

3. 搜索算法

算法：SEARCH(query, hnsw, ef, K)
输入：查询向量 q，HNSW 图，搜索宽度 ef，返回数量 K
输出：K 个最近邻

1. 从顶层 entry point 开始
2. 逐层向下贪心搜索：
   - 在当前层找最近的节点作为下一层入口
3. 到达 Layer 0 后，搜索 ef 个候选
4. 从候选中取 Top-K 返回

def search(q, hnsw, ef=50, k=10):
    entry = hnsw.entry_point
    
    # 从顶层贪心向下
    for l in range(hnsw.max_level, 0):
        entry = greedy_search_layer(q, entry, ef=1, layer=l)
    
    # Layer 0：扩展搜索
    candidates = search_layer(q, entry, ef, layer=0)
    
    # 返回 Top-K
    return sorted(candidates, key=lambda x: x.distance)[:k]

4. 参数调优指南

参数	影响	调优建议
M ↑	精度↑，内存↑，构建时间↑	16-32 是平衡点
efConstruction ↑	构建质量↑，构建时间↑	200-400 足够
ef ↑	召回率↑，查询延迟↑	动态调整：在线查询用 50-100

召回率与延迟权衡：

ef 值      召回率      延迟
─────────────────────────────
10         70%         1ms
50         95%         5ms
100        98%         10ms
200        99.5%       20ms

五、IVF：倒排文件索引

1. 核心思想

聚类 + 倒排：将向量空间划分为多个区域（cluster），每个区域维护一个倒排列表。

搜索流程：

找出查询向量最近的几个聚类中心
只在这些聚类内搜索，而非全量遍历

IVF 结构示意：

向量空间划分：
┌──────────────────────────────┐
│  ┌─────┐    ┌─────┐          │
│  │ C1  │    │ C2  │   ┌───┐  │
│  │ ●●● │    │ ●●  │   │C3 │  │
│  │ ●●  │    │  ●  │   │ ● │  │
│  └─────┘    └─────┘   └───┘  │
└──────────────────────────────┘

倒排列表：
C1 → [vec1, vec5, vec8, vec12, ...]
C2 → [vec3, vec7, vec11, ...]
C3 → [vec2, vec4, vec6, ...]

2. 算法流程

构建阶段：
1. 对全量向量做 K-means 聚类，得到 nlist 个聚类中心
2. 每个向量分配到最近的聚类中心
3. 每个聚类维护一个倒排列表

搜索阶段：
1. 找出查询向量最近的 nprobe 个聚类中心
2. 只在这些聚类内做 FLAT 搜索
3. 合并结果，返回 Top-K

关键参数：

nlist：聚类数量（通常取 $\sqrt{N}$）
nprobe：搜索时探查的聚类数

# IVF 构建伪代码
def build_ivf(vectors, nlist=1024):
    # K-means 聚类
    centroids = kmeans(vectors, nlist)
    
    # 分配向量到聚类
    clusters = {i: [] for i in range(nlist)}
    for vec in vectors:
        nearest = argmin(distance(vec, centroids))
        clusters[nearest].append(vec)
    
    return centroids, clusters

# IVF 搜索伪代码
def search_ivf(query, centroids, clusters, nprobe=10, k=10):
    # 找最近的 nprobe 个聚类
    nearest_clusters = argsort(distance(query, centroids))[:nprobe]
    
    # 在这些聚类内搜索
    candidates = []
    for c in nearest_clusters:
        for vec in clusters[c]:
            candidates.append((vec, distance(query, vec)))
    
    # 返回 Top-K
    return sorted(candidates, key=lambda x: x[1])[:k]

3. 性能分析

参数	影响
nlist ↑	聚类更精细，单聚类内向量更少，搜索更快
nprobe ↑	搜索更多聚类，召回率↑，延迟↑

召回率与 nprobe 关系：

nprobe/nlist    召回率
────────────────────────
1%              60-70%
5%              85-90%
10%             92-96%
20%             95-98%

六、PQ：乘积量化压缩

1. 问题背景

高维向量存储和计算成本高。1536 维向量，100万个需要 6GB 内存。如何压缩？

2. 核心思想

将高维向量切分成多个低维子向量，每个子空间独立量化。

PQ 量化过程：

原始向量：[v1, v2, v3, v4, v5, v6, v7, v8]  (8维)
         ↓ 切分为 4 个子向量（每个2维）
子向量：  [v1,v2]  [v3,v4]  [v5,v6]  [v7,v8]
         ↓ 每个子空间独立聚类量化
量化码：  [P1=3]   [P2=7]   [P3=1]   [P4=5]
         ↓ 存储为码本索引
存储：    [3, 7, 1, 5]  (4字节，压缩率 50%)

码本：每个子空间 256 个中心点（8bit索引）

数学表示：

设向量 $\vec{x} \in \mathbb{R}^d$，切分为 $m$ 个子向量：

$\vec{x} = [\vec{x}^1, \vec{x}^2, ..., \vec{x}^m], \quad \vec{x}^i \in \mathbb{R}^{d/m}$

每个子空间有 $K^$ 个中心点（通常 $K^ = 256$），量化函数：

$q^i(\vec{x}^i) = \arg\min_k ||\vec{x}^i - \vec{c}_k^i||^2$

压缩后向量表示为 $[q^1, q^2, …, q^m]$，共 $m$ 字节。

3. 距离计算：ADC（Asymmetric Distance Computation）

关键洞察：查询向量不压缩，只压缩数据库向量。预先计算查询向量与码本中心的距离表。

def pq_distance(query, pq_code, codebooks, m=8):
    """PQ 距离计算"""
    # 1. 预计算距离表
    # distance_table[i][k] = distance(query的第i段, 第i个码本的第k个中心)
    distance_table = precompute_distance_table(query, codebooks, m)
    
    # 2. 查表累加
    d = 0
    for i in range(m):
        d += distance_table[i][pq_code[i]]
    
    return d

复杂度分析：

距离表构建：$O(m \times K^ \times d/m) = O(d \times K^)$
单向量距离查表：$O(m)$

相比原始距离计算 $O(d)$，PQ 距离查表 $O(m)$ 快得多（$m \ll d$）。

4. 压缩率计算

原始存储：d × 4 字节（float32）
PQ 存储：m 字节（m 个 uint8 码）

压缩率：d × 4 / m = 4d/m

示例：d=1536, m=48
压缩率 = 1536 × 4 / 48 = 128 倍
100万向量：6GB → 48MB

七、IVF-PQ：组合优化

将 IVF 和 PQ 组合，兼顾速度和内存：

IVF-PQ 结构：

┌────────────────────────────────────────────┐
│              IVF 聚类层                     │
│   C1    C2    C3    C4    ...    Cnlist   │
├────────────────────────────────────────────┤
│              PQ 量化层                      │
│   每个聚类内向量用 PQ 压缩存储              │
│   C1 → [pq_code1, pq_code2, ...]           │
└────────────────────────────────────────────┘

搜索流程：
1. 找最近的 nprobe 个聚类中心（FLAT）
2. 在这些聚类内用 PQ 查表计算距离
3. 可选：重排（rerank）Top-K 用原始向量精确计算

重排策略：PQ 计算的是近似距离，对 Top-K 候选用原始向量重新计算精确距离。

def search_ivf_pq(query, nprobe=10, k=10, rerank=True):
    # 1. 找聚类
    nearest_clusters = find_nearest_clusters(query, nprobe)
    
    # 2. PQ 查表搜索
    candidates = pq_search(query, nearest_clusters, k * rerank_factor)
    
    # 3. 重排（可选）
    if rerank:
        candidates = rerank_with_original_vectors(query, candidates, k)
    
    return candidates[:k]

八、算法性能对比

1. 理论复杂度

算法	构建复杂度	搜索复杂度	空间复杂度
FLAT	O(1)	O(Nd)	O(Nd)
IVF	O(Ndnlist)	O(nprobe × Nd/nlist)	O(Nd)
HNSW	O(Nd × efConstruction × logN)	O(d × ef × logN)	O(Nd × M)
PQ	O(Nd × K^*)	O(dK^* + Nm)	O(Nm)
IVF-PQ	O(Nd × nlist × K^*)	O(nprobe × (dK^* + N/nlist × m))	O(Nm)

2. 实测性能（SIFT-1M 数据集）

算法	召回率@10	QPS	内存
FLAT	100%	200	512MB
IVF (nlist=1024, nprobe=64)	95%	8000	512MB
HNSW (M=16, ef=64)	96%	15000	700MB
PQ (m=8)	85%	30000	16MB
IVF-PQ (nlist=1024, m=8)	90%	20000	16MB

九、研究前沿与新算法

1. ScaNN（Google，2020）

创新点：量化 + 内积优化 + 重排。

量化时考虑内积最大化的方向
用 SIMD 加速距离表计算
比 HNSW 在内积度量上更快

2. DiskANN（Microsoft，2019）

创新点：磁盘索引 + SSD 优化。

向量和索引存储在 SSD，内存只放聚类中心
利用 SSD 高并发读取特性
支持 10 亿级向量，内存需求 < 16GB

3. Faiss（Facebook，2017）

工业界最成熟的开源库：

GPU 加速（10倍提速）
支持 IVF、PQ、HNSW 等多种索引
灵活的组合索引（IVF-PQ, IVF-HNSW）

十、工程实践要点

1. 索引选择决策

数据规模 < 10万：FLAT（精确搜索）
数据规模 10万-100万：
    - 内存充足 → HNSW（最快）
    - 内存紧张 → IVF-PQ（压缩）
数据规模 > 100万：
    - 内存充足 → HNSW
    - 内存紧张 → IVF-PQ
    - 超大规模 → DiskANN

2. 参数调优经验

目标	参数调整
提高召回率	HNSW: ef↑ / IVF: nprobe↑
降低延迟	HNSW: M↓, ef↓ / IVF: nlist↑, nprobe↓
降低内存	使用 PQ 压缩
加速构建	HNSW: efConstruction↓

3. 常见陷阱

问题	解决方案
召回率不够	ef/nprobe 调高；检查向量质量
延迟太高	减少候选数量；检查是否做了不必要的重排
内存爆炸	使用 PQ 压缩；检查索引参数 M
构建太慢	efConstruction 适度降低；分批构建

总结

向量相似度计算的核心要点：

度量选择：归一化向量用内积（最快），文本用余弦，物理坐标用 L2
算法选择：小数据 FLAT，大数据 HNSW 或 IVF-PQ
参数调优：ef/nprobe 控制召回率，M/nlist 控制内存
压缩策略：PQ 压缩率可达 100 倍，代价是精度下降 5-10%

数学是本质，算法是手段，工程是落地。理解原理，才能在选型和调优时做出正确决策。

向量数据库深度解析

发表于 2025-05-19 更新于 2026-04-04 分类于 AI Valine：

写在前面

做 RAG（检索增强生成）应用，向量数据库是绕不开的核心组件。市面上产品不少——Milvus、Qdrant、Weaviate、Chroma、Pinecone……每个都说自己最强。到底怎么选？

这篇文章不讲虚的，从底层原理到实际选型，重点分析 Chroma 和 Milvus 两款代表产品，让你看完就能做决策。

一、向量数据库解决什么问题

传统数据库擅长精确匹配：WHERE name = '张三'。但语义搜索不一样——用户问”如何提高团队协作效率”，你得找出意思相近的文档，哪怕文档里压根没有这几个词。

向量数据库的核心价值：把文本、图像、音频等非结构化数据转换成向量（一串数字），然后用数学方法计算”相似度”，找出语义最接近的内容。

1 2	文本 → Embedding模型 → 向量 [0.12, -0.34, 0.56, ...] → 向量数据库查询 → Embedding模型 → 向量 [0.15, -0.30, 0.52, ...] → 相似度计算 → Top-K结果

二、核心技术指标：怎么评判一个向量数据库

1. 索引算法决定性能上限

向量数据库的索引算法直接决定查询速度和召回率。主流索引类型：

索引类型	原理	查询速度	内存占用	适用场景
FLAT	暴力遍历，精确计算	最慢	最高	小数据量，要求100%召回
IVF-FLAT	clustering + 倒排	中等	中等	百万级，平衡方案
IVF-PQ	聚类 + 乘积量化压缩	快	低	内存受限，牺牲精度
HNSW	分层可导航小世界图	最快	较高	高性能实时查询
DISKANN	磁盘索引 + SSD优化	较慢	极低	超大规模，成本敏感

HNSW 是当前主流选择，它的核心思想是构建一个多层图结构，搜索时从顶层快速跳转，逐层缩小范围，像”跳表”一样高效。

HNSW 结构示意：

Layer 2:    ●────────────●           (稀疏，快速跳转)
            │            │
Layer 1:    ●────●───────●           (中等密度)
            │    │       │
Layer 0:  ●─●─●─●─●─●─●─●─●         (全量节点，精确搜索)

关键参数：
- M: 每节点最大连接数（默认16），越大越精确但内存越高
- efConstruction: 构建时搜索宽度（默认200）
- efSearch: 查询时搜索宽度，动态调整召回率

2. 分布式架构决定扩展能力

架构类型	代表产品	特点
单机嵌入式	Chroma、Faiss	无部署成本，数据量受限
单机服务化	Qdrant 单机版	独立进程，支持持久化
分布式集群	Milvus、Qdrant 集群	水平扩展，高可用

3. 元数据过滤能力

实际业务中，向量搜索往往要结合条件过滤：找出”价格在100-500元之间且类别是电子产品”的相似商品。

数据库	过滤能力	实现方式
Qdrant	最强	原生支持复杂过滤，性能最优
Milvus	强	支持标量字段过滤
Chroma	基础	简单 where 条件
Pinecone	强	元数据命名空间

三、主流向量数据库横向对比

1. 开源产品对比

数据库	语言	架构	索引支持	过滤能力	社区活跃度
Milvus	Go	分布式	HNSW/IVF/DISKANN	强	活跃（CNCF项目）
Qdrant	Rust	单机/分布式	HNSW	最强	活跃
Weaviate	Go	单机/分布式	HNSW	强	活跃
Chroma	Python	嵌入式	HNSW	基础	活跃

2. 云服务对比

产品	定位	优势	劣势
Pinecone	全托管 Serverless	零运维，自动扩展	供应商锁定，成本不可控
Zilliz Cloud	Milvus 托管版	企业级支持，兼容 Milvus API	价格较高
MongoDB Atlas Vector	MongoDB 生态	复用现有基础设施	向量能力有限

3. 性能基准（百万级向量，HNSW索引）

数据库	QPS	P99延迟	内存占用
Milvus	~15000	~10ms	高
Qdrant	~12000	~8ms	中
Weaviate	~8000	~15ms	中
Chroma	~3000	~30ms	低

四、Chroma：轻量级入门首选

1. 为什么选 Chroma

Chroma 的设计哲学是极简：Python 原生、嵌入式运行、API 设计友好。适合以下场景：

原型验证：快速搭建 RAG Demo，几行代码就能跑
小规模应用：文档量 < 10万，单机部署
本地开发：数据不想出本机，隐私可控
学习研究：理解向量数据库基本概念

2. Chroma 核心特性

# Chroma 的极简 API 设计
import chromadb

# 初始化：嵌入式，无需启动服务
client = chromadb.PersistentClient(path="./chroma_db")

# 创建集合
collection = client.create_collection(
    name="documents",
    metadata={"hnsw:space": "cosine"}  # 支持 l2、ip、cosine
)

# 添加文档：自动调用 Embedding（内置默认模型）
collection.add(
    documents=["文档内容1", "文档内容2"],
    ids=["doc1", "doc2"]
)

# 查询：一步到位
results = collection.query(
    query_texts=["查询内容"],
    n_results=5
)

Chroma 内置 Embedding：默认使用 all-MiniLM-L6-v2 模型，也可以替换为 OpenAI、Cohere 等：

from chromadb.utils import embedding_functions

# 使用 OpenAI Embedding
openai_ef = embedding_functions.OpenAIEmbeddingFunction(
    api_key="your-key",
    model_name="text-embedding-3-small"
)

collection = client.create_collection(
    name="docs",
    embedding_function=openai_ef
)

3. Chroma 的元数据过滤

# 添加带元数据的文档
collection.add(
    documents=["技术文档", "产品文档"],
    ids=["d1", "d2"],
    metadatas=[
        {"category": "tech", "author": "张三"},
        {"category": "product", "author": "李四"}
    ]
)

# 查询时过滤
results = collection.query(
    query_texts=["如何部署"],
    n_results=5,
    where={"category": "tech"}  # 只在技术文档中搜索
)

4. Chroma 的局限性

限制	影响
单机架构	无法水平扩展，数据量上限约百万级
索引单一	仅支持 HNSW，无法根据场景切换
过滤简单	不支持复杂布尔组合，性能一般
无分布式	没有副本、分片机制，单点故障风险

一句话总结：Chroma 是向量数据库界的 SQLite——简单好用，但别指望它扛生产级大流量。

五、Milvus：生产级大规模首选

1. 为什么选 Milvus

Milvus 定位是云原生分布式向量数据库，CNCF 沙箱项目。适合以下场景：

大规模生产应用：向量数 > 百万级，甚至亿级
高并发实时检索：要求低延迟、高吞吐
复杂过滤需求：需要结合标量字段过滤
多云部署：支持 Kubernetes、Docker、云服务

2. Milvus 架构解析

┌─────────────────────────────────────────────────────────────┐
│                        SDK Layer                            │
│          Python / Go / Java / Node.js / REST               │
├─────────────────────────────────────────────────────────────┤
│                      Proxy (接入层)                          │
│              负责请求解析、路由、负载均衡                      │
├───────────────┬───────────────┬─────────────────────────────┤
│  Query Coord  │  Data Coord   │  Index Coord  │ Root Coord │
│  (查询协调)    │  (数据协调)    │  (索引协调)    │ (总协调)   │
├───────────────┴───────────────┴─────────────────────────────┤
│           Query Node        Data Node       Index Node       │
│           (查询执行)         (数据写入)       (索引构建)       │
├─────────────────────────────────────────────────────────────┤
│                  etcd (元数据) + MinIO (存储)                 │
└─────────────────────────────────────────────────────────────┘

核心组件职责：
- Root Coord：全局协调者，处理 DDL（创建集合、索引等）
- Query Coord：查询节点调度，负载均衡
- Data Coord：数据节点调度，segment 管理
- Index Coord：索引构建任务调度

3. Milvus 索引选型实战

不同规模和场景，索引选择策略不同：

数据规模	内存预算	推荐索引	参数建议
< 100万	充足	FLAT	精确搜索，召回率100%
100万-1000万	充足	HNSW	M=16, efConstruction=256
100万-1000万	紧张	IVF-FLAT	nlist=1024
> 1000万	紧张	IVF-PQ	nlist=1024, m=8, nbits=8
> 1亿	极紧张	DISKANN	磁盘索引，SSD必备

from pymilvus import MilvusClient, IndexType, MetricType

# 创建 HNSW 索引
index_params = MilvusClient.prepare_index_params()
index_params.add_index(
    field_name="vector",
    index_type=IndexType.HNSW,
    metric_type=MetricType.COSINE,
    params={"M": 16, "efConstruction": 256}
)

# 查询参数：动态调整 ef 提高召回率
search_params = {"params": {"ef": 64}}  # ef越大，召回率越高，延迟越长

4. Milvus 集合设计最佳实践

from pymilvus import MilvusClient

client = MilvusClient("http://localhost:19530")

# 创建集合：向量字段 + 标量字段
client.create_collection(
    collection_name="products",
    dimension=1536,  # OpenAI text-embedding-3-small 维度
    metric_type="COSINE",
    auto_id=False,
    fields=[
        {"name": "id", "dtype": "VARCHAR", "max_length": 64, "is_primary": True},
        {"name": "vector", "dtype": "FLOAT_VECTOR", "dim": 1536},
        {"name": "title", "dtype": "VARCHAR", "max_length": 256},
        {"name": "category", "dtype": "VARCHAR", "max_length": 64},
        {"name": "price", "dtype": "FLOAT"},
        {"name": "created_at", "dtype": "INT64"}  # 时间戳
    ]
)

# 创建标量字段索引（加速过滤）
client.create_index(
    collection_name="products",
    field_name="category",
    index_type="Trie"  # 字符串用 Trie，数值用 STL_SORT
)

5. Milvus 过滤查询实战

# 过滤表达式语法
results = client.search(
    collection_name="products",
    data=[[0.1, 0.2, ...]],  # 查询向量
    filter='category == "electronics" and price >= 100 and price <= 500',
    limit=10,
    output_fields=["title", "category", "price"]
)

# 复杂过滤：支持 AND、OR、NOT、IN、LIKE
filter_expr = '''
    (category in ["electronics", "books"]) 
    and price > 50 
    and created_at > 1700000000
'''

6. Milvus 部署方案

部署方式	适用场景	复杂度
Milvus Lite	开发测试，pip 安装	最低
Docker Compose	单机生产，快速部署	低
Docker + Kubernetes	集群部署，高可用	中
Zilliz Cloud	全托管，零运维	无

# Docker Compose 快速部署（适合单机生产）
wget https://github.com/milvus-io/milvus/releases/download/v2.4.0/milvus-compose.yml
docker-compose -f milvus-compose.yml up -d

# Milvus Lite 开发测试（Python 直接使用）
pip install milvus
# 自动启动嵌入式 Milvus，无需额外部署

六、选型决策树

开始选型
    │
    ├─ 数据规模多大？
    │   ├─ < 10万向量 → Chroma 足够
    │   ├─ 10万-100万 → Chroma 单机 / Milvus Lite
    │   ├─ 100万-1000万 → Milvus 单机 / Qdrant
    │   └─ > 1000万 → Milvus 集群 / Pinecone Serverless
    │
    ├─ 是否需要强过滤？
    │   ├─ 简单过滤 → Chroma / Milvus
    │   └─ 复杂过滤 → Qdrant（性能最优）
    │
    ├─ 是否接受云服务？
    │   ├─ 必须本地 → Milvus / Qdrant / Chroma
    │   └─ 可以云端 → Pinecone / Zilliz Cloud
    │
    ├─ 团队技术栈？
    │   ├─ Python 主导 → Chroma（最友好）
    │   ├─ Go/Rust 主导 → Milvus / Qdrant
    │   └─ 已有 MongoDB → Atlas Vector Search
    │
    └─ 运维能力？
        ├─ 无运维团队 → Chroma / Pinecone
        ├─ 有运维团队 → Milvus / Qdrant

七、实战建议

1. RAG 应用架构

用户查询
    │
    ▼
Embedding 模型（text-embedding-3-small / bge-large-zh）
    │
    ▼
向量数据库（Chroma / Milvus）
    │  ┌──────────────────────────────────┐
    │  │ Collection: documents            │
    │  │ ├─ vector: [1536 dimensions]    │
    │  │ ├─ content: 原始文本              │
    │  │ ├─ metadata: {source, page, ...} │
    │  │ └─ index: HNSW (M=16)           │
    │  └──────────────────────────────────┘
    │
    ▼
Top-K 相关文档（K=5~10）
    │
    ▼
LLM 生成回答（GPT-4 / Claude / DeepSeek）

2. 向量维度选择

Embedding 模型	维度	特点	推荐场景
text-embedding-3-small	1536	OpenAI，通用	英文为主
text-embedding-3-large	3072	OpenAI，更精准	高精度需求
bge-large-zh	1024	中文优化	中文场景
bge-m3	1024	多语言	跨语言场景

注意：维度越高，精度越高，但存储和计算成本也越高。1536维是性价比平衡点。

3. 内存估算

单向量存储开销 = 维度 × 4字节 + 元数据开销
索引额外开销 ≈ 基础存储 × 索引系数

示例：100万向量，1536维，HNSW索引
基础存储：1,000,000 × 1536 × 4 = 6.14 GB
索引开销：6.14 × 1.5 ≈ 9.2 GB
总内存需求：约 10 GB

总结

向量数据库选型的核心逻辑：

阶段	推荐方案
原型验证	Chroma，几行代码搞定
小规模生产	Chroma 单机 / Milvus Lite
大规模生产	Milvus 集群 / Qdrant
零运维需求	Pinecone / Zilliz Cloud

Chroma 是入门首选，简单好用，适合快速验证想法。
Milvus 是生产首选，架构成熟，生态完善，能扛大流量。

RAG 对 PDF 的生产级处理方案

发表于 2025-04-05 更新于 2026-06-06 分类于 AI Valine：

背景

最近在做 RAG 相关的项目，踩了不少 PDF 处理的坑。真实业务里的 PDF，可能是合同、财报、技术手册、学术论文，甚至是扫描件。里面不只有文字，还有目录、表格、流程图、页眉页脚、多栏排版。如果你直接粗暴抽文本，最后 RAG 检索出来的大概率是一堆断裂、重复、缺上下文的垃圾片段。

今天聊聊 PDF RAG 的四层架构，这是我在实践中总结出来的一套方法论，希望能给出一些参考和启发。

阅读全文 »

Agent 开发实战指南：10+ 个开源项目带你从入门到进阶

发表于 2025-03-13 更新于 2026-04-13 分类于 AI Valine：

上一篇我们系统梳理了 Agent 编程的核心名词词典。有了概念基础，下一步就是动手看真实项目代码。

这篇文章的目标很直接：推荐 10+ 个值得深入学习的开源 Agent 项目，从入门到进阶，涵盖单 Agent、多 Agent、Code Agent、生产级平台。每个项目我都会告诉你：Star 数、学习价值、核心文件、适合什么阶段的人看。

读完之后，你会有一个清晰的学习路线：知道从哪里开始、怎么深入、最终能做什么。

一、为什么必须看开源项目？

很多新手的误区是：先背完所有概念、看完所有文档，再开始写代码。

这是错误的。

正确的学习路径是：

1	概念入门（1-2 天）→ 立刻看项目代码 → 边看边写 → 遇到不懂的概念再回头查

看开源项目的价值：

学习方式	效果
只看文档	概念懂了，但不知道怎么组合起来
只看教程	跟着抄代码，但不知道为什么这么写
看真实项目	看到完整系统架构、真实代码结构、实际问题解决方案

一个真实项目能教会你的东西：

Agent 怎么定义（不是文档里说的”抽象概念”，而是具体的类和函数）
工具怎么注册和调用（完整的 Function Calling 流程）
循环怎么实现（ReAct 循环的真实代码）
状态怎么管理（多轮对话、跨会话记忆）
错误怎么处理（真实场景的异常处理）
怎么部署到生产（架构设计、监控、日志）

二、学习路线全景图

先给你一个整体路线，然后再逐个介绍项目：

┌─────────────────────────────────────────────────────────────┐
│                    Agent 项目学习路线                         │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  阶段一：入门（理解基本原理）                                 │
│  ├── LangChain 官方示例 ★★★★★                              │
│  ├── LangGraph 示例 ★★★★★                                  │
│  └── Anthropic Cookbook ★★★★★                              │
│                                                             │
│  阀值：能用 LangGraph 写一个简单的 ReAct Agent               │
│                                                             │
│  阶段二：进阶（学习完整 Agent 系统）                         │
│  ├── GPT-Researcher ★★★★★                                  │
│  ├── AutoGPT ★★★★☆                                         │
│  └── AgentGPT ★★★★☆                                        │
│                                                             │
│  阀值：理解完整的任务规划、执行、反馈循环                     │
│                                                             │
│  阶段三：Code Agent 专项（后端工程师重点）                    │
│  ├── OpenHands ★★★★★                                       │
│  ├── SWE-agent ★★★★☆                                       │
│  ├── Continue ★★★★★                                        │
│                                                             │
│  阀值：理解 Agent 如何操作代码库                             │
│                                                             │
│  阶段四：多 Agent 协作                                       │
│  ├── CrewAI ★★★★★                                          │
│  ├── AutoGen ★★★★★                                         │
│  └── MetaGPT ★★★★★                                         │
│                                                             │
│  阀值：能设计多 Agent 协作系统                               │
│                                                             │
│  阶段五：生产级参考                                          │
│  ├── Dify ★★★★★                                            │
│  └── LangGraph Platform ★★★★★                              │
│                                                             │
│  阀值：理解生产级架构、部署、监控                            │
│                                                             │
└─────────────────────────────────────────────────────────────┘

三、阶段一：入门级项目（理解基本原理）

3.1 LangChain 官方示例

项目信息	内容
仓库	langchain-ai/langchain
Star	100k+
学习路径	`/docs/docs/use_cases/` 和 `/cookbook/`
学习价值	★★★★★ 官方最佳实践，覆盖所有核心场景

为什么必看：

LangChain 虽然有”样板代码多”的缺点，但它的官方示例是最系统、最权威的入门材料。覆盖了 Agent、RAG、Tool Calling 的标准写法，每个示例 100-300 行，适合快速上手。

重点看什么：

目录	学习重点
`/cookbook/`	完整的小案例，从简单到复杂
`/docs/docs/use_cases/agents/`	Agent 的各种实现模式
`/docs/docs/use_cases/question_answering/`	RAG 的各种方案

学习方式：

# 克隆仓库
git clone https://github.com/langchain-ai/langchain.git

# 重点看这些文件
docs/docs/use_cases/agents/
├── agent_iterations.ipynb        # Agent 循环迭代
├── tools.ipynb                   # 工具定义和使用
├── custom_agent.ipynb            # 自定义 Agent
└── agent_reasoning.ipynb         # Agent 推理过程

入门目标：看完后能用 LangChain 写一个能调用工具的简单 Agent。

3.2 LangGraph 示例

项目信息	内容
仓库	langchain-ai/langgraph
Star	30k+
学习路径	`/examples/` 目录
学习价值	★★★★★ 学习 Agent 状态机、循环、分支的最佳资源

为什么必看：

LangGraph 是 LangChain 团队推出的新一代 Agent 框架，用状态图（StateGraph）来定义 Agent 工作流。相比 LangChain 的链式调用，LangGraph 更适合复杂的循环、分支场景。

核心概念：

LangGraph = 状态机 + Agent

┌─────────────────────────────────────────────────────────────┐
│                    LangGraph 核心概念                        │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  StateGraph（状态图）                                        │
│  ├── Node（节点）：处理函数，如 agent_node、tool_node       │
│  ├── Edge（边）：流转条件，如 should_continue               │
│  └── State（状态）：在节点间传递的数据                       │
│                                                             │
│  工作流程：                                                  │
│  1. 定义 State（状态结构）                                   │
│  2. 定义 Node（处理节点）                                    │
│  3. 定义 Edge（流转逻辑）                                    │
│  4. compile() → 得到一个可执行的 Agent                      │
│                                                             │
└─────────────────────────────────────────────────────────────┘

重点示例：

文件	学习重点
`react-agent.ipynb`	ReAct Agent 的完整实现
`planner-agent.ipynb`	有规划能力的 Agent
`multi-agent.ipynb`	多 Agent 协作基础
`memory.ipynb`	记忆系统实现

核心代码结构：

# LangGraph 的核心模式
from langgraph.graph import StateGraph, END

# 1. 定义状态
class AgentState(TypedDict):
    messages: list
    tool_calls: list

# 2. 定义节点
def agent_node(state: AgentState):
    # LLM 处理逻辑
    ...

def tool_node(state: AgentState):
    # 工具执行逻辑
    ...

# 3. 构建图
graph = StateGraph(AgentState)
graph.add_node("agent", agent_node)
graph.add_node("tools", tool_node)
graph.add_edge("agent", "tools")
graph.add_edge("tools", "agent")

# 4. 编译并运行
app = graph.compile()
result = app.invoke({"messages": ["帮我查北京天气"]})

入门目标：看完后能用 LangGraph 写一个 ReAct 循环 Agent。

3.3 Anthropic Cookbook

项目信息	内容
仓库	anthropics/anthropic-cookbook
Star	10k+
学习价值	★★★★★ Claude 官方最佳实践，代码质量极高

为什么必看：

Anthropic 的 Cookbook 是代码质量最高的学习材料。每个示例都很简洁（100 行以内），注释清晰，直击核心。不像有些项目代码又长又乱，这里每个文件都是精品。

重点看什么：

目录/文件	学习重点
`tool_use/`	Function Calling 的最佳实践
`prompt_caching/`	Prompt 缓存，降本 90%
`context_windows/`	长上下文处理技巧
`computer_use/`	Computer Use（操作电脑）能力

特色内容：

# Anthropic 的 Tool Use 示例（极简风格）
import anthropic

client = anthropic.Client()

def get_weather(city: str):
    # 实际工具函数
    return f"{city}今天晴，25度"

# 定义工具
tools = [{
    "name": "get_weather",
    "description": "获取指定城市的天气",
    "input_schema": {
        "type": "object",
        "properties": {
            "city": {"type": "string"}
        },
        "required": ["city"]
    }
}]

# 调用 Claude
response = client.messages.create(
    model="claude-sonnet-4-6",
    tools=tools,
    messages=[{"role": "user", "content": "北京今天天气怎么样"}]
)

# Claude 会返回 tool_use，你再执行并返回结果

入门目标：理解 Function Calling 的完整流程，学会 Claude 的最佳实践。

四、阶段二：进阶级项目（学习完整 Agent 系统）

4.1 GPT-Researcher

项目信息	内容
仓库	assafelovic/gpt-researcher
Star	15k+
学习价值	★★★★★ 学习 Agent 如何完成研究任务

为什么必看：

这是一个完整的端到端 Agent 系统。你给它一个研究主题（如”AI Agent 的发展趋势”），它会自动：搜索信息 → 分析多个来源 → 整合内容 → 生成研究报告。非常适合理解完整 Agent 流程。

架构亮点：

┌─────────────────────────────────────────────────────────────┐
│                    GPT-Researcher 架构                       │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  用户输入："研究 AI Agent 的发展趋势"                        │
│                      │                                      │
│                      ▼                                      │
│  ┌──────────────────────────────────────────────────────┐  │
│  │  Planner Agent                                        │  │
│  │  → 分解研究任务，生成搜索查询                           │  │
│  └──────────────────────────────────────────────────────┘  │
│                      │                                      │
│                      ▼                                      │
│  ┌──────────────────────────────────────────────────────┐  │
│  │  Search Agent                                         │  │
│  │  → 多源搜索（Google、Tavily、新闻）                    │  │
│  │  → 并行执行多个搜索                                    │  │
│  └──────────────────────────────────────────────────────┘  │
│                      │                                      │
│                      ▼                                      │
│  ┌──────────────────────────────────────────────────────┐  │
│  │  Scraper Agent                                        │  │
│  │  → 抓取网页内容                                        │  │
│  │  → 过滤无关信息                                        │  │
│  └──────────────────────────────────────────────────────┘  │
│                      │                                      │
│                      ▼                                      │
│  ┌──────────────────────────────────────────────────────┐  │
│  │  Writer Agent                                         │  │
│  │  → 整合所有信息                                        │  │
│  │  → 生成结构化研究报告                                   │  │
│  └──────────────────────────────────────────────────────┘  │
│                                                             │
└─────────────────────────────────────────────────────────────┘

核心文件：

文件路径	学习重点
`gpt_researcher/master.py`	主 Agent，任务编排
`gpt_researcher/actions/`	各个 Agent 的具体实现
`gpt_researcher/memory/`	记忆系统
`gpt_researcher/tools/`	搜索、抓取等工具

学习收获：

理解 Agent 如何分解任务
理解多源信息检索和整合
理解并行执行和结果汇总
理解如何生成结构化输出

4.2 AutoGPT

项目信息	内容
仓库	Significant-Gravitas/AutoGPT
Star	170k+
学习价值	★★★★☆ Agent 概念的开创者

历史地位：

AutoGPT 是 2023 年 Agent 概念爆发的起点。它首次展示了 LLM 可以自主规划、自主执行、自主反思。虽然现在看来架构有些老旧，但理解它能帮助你理解 Agent 的”初心”。

核心创新：

AutoGPT 的核心循环：

Goal: "帮我写一个 Python 爬虫"

┌─────────────────────────────────────────────────────────────┐
│  Thought: "我需要先了解一下 Python 爬虫的基础知识"          │
│  Reasoning: "应该从基础教程开始"                            │
│  Plan: ["搜索 Python 爬虫教程", "阅读教程", "写代码"]       │
│  Action: search("Python 爬虫入门教程")                      │
│  Observation: 搜索结果：XXX 教程...                         │
│                                                             │
│  Thought: "这个教程不错，接下来写代码"                      │
│  Action: write_file("crawler.py", ...)                     │
│  Observation: 文件已创建                                    │
│                                                             │
│  ... 循环继续 ...                                           │
└─────────────────────────────────────────────────────────────┘

建议：代码量较大（5000+ 行），建议只看核心架构部分，不必深究每个细节。

4.3 AgentGPT

项目信息	内容
仓库	reworkd/AgentGPT
Star	32k+
学习价值	★★★★☆ 带前端界面的 Agent 部署平台

为什么看：

如果你想做一个完整的 Agent Web 应用，AgentGPT 是很好的参考。它包含：

Next.js 前端
FastAPI 后端
Agent 执行引擎
用户管理、任务管理

架构：

AgentGPT 架构：

Frontend (Next.js)
├── 任务提交界面
├── 执行进度展示
└── 结果展示

Backend (FastAPI)
├── API 接口
├── Agent 执行引擎
├── 数据库（任务存储）
└── SSE（实时推送）

核心文件：

路径	学习重点
`frontend/`	Next.js + React，Agent UI 设计
`backend/`	FastAPI，Agent API 设计
`backend/agent/`	Agent 核心逻辑

五、阶段三：Code Agent 专项（后端工程师重点）

这部分是你作为后端工程师的重点学习内容。 Code Agent 是目前最有价值的 Agent 方向之一。

5.1 OpenHands（原名 OpenDevin）

项目信息	内容
仓库	All-Hands-AI/OpenHands
Star	40k+
学习价值	★★★★★ 最活跃的 Devin 开源实现

为什么必看：

OpenHands 是目前最成熟的 Code Agent 开源项目。它能：

理解代码库结构
修改代码文件
执行命令行操作
运行测试
调试问题

核心架构：

┌─────────────────────────────────────────────────────────────┐
│                    OpenHands 架构                            │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  ┌──────────────────────────────────────────────────────┐  │
│  │  Controller                                          │  │
│  │  → 任务编排、状态管理                                  │  │
│  └──────────────────────────────────────────────────────┘  │
│                      │                                      │
│                      ▼                                      │
│  ┌──────────────────────────────────────────────────────┐  │
│  │  Agent                                               │  │
│  │  → LLM 决策、规划、执行                                │  │
│  └──────────────────────────────────────────────────────┘  │
│                      │                                      │
│                      ▼                                      │
│  ┌──────────────────────────────────────────────────────┐  │
│  │  Runtime                                             │  │
│  │  → Docker 容器执行环境                                 │  │
│  │  → 文件操作、命令执行、代码运行                         │  │
│  └──────────────────────────────────────────────────────┘  │
│                      │                                      │
│                      ▼                                      │
│  ┌──────────────────────────────────────────────────────┐  │
│  │  Tools                                                │  │
│  │  → 文件读写、搜索、执行命令、运行测试                   │  │
│  └──────────────────────────────────────────────────────┘  │
│                                                             │
└─────────────────────────────────────────────────────────────┘

核心文件：

路径	学习重点
`agenthub/`	Agent 定义，各种 Agent 类型
`controller/`	任务编排，状态管理
`runtime/`	Docker 执行环境设计
`tools/`	工具集定义

关键技术点：

执行环境隔离：用 Docker 容器执行代码，安全且可控
文件操作工具：如何让 Agent 安全地读写文件
命令执行：如何让 Agent 执行 bash 命令并获取结果
状态恢复：如何暂停和恢复 Agent 任务

学习方式：

# 克隆仓库
git clone https://github.com/All-Hands-AI/OpenHands.git

# 核心文件结构
openhands/
├── agenthub/
│   ├── codeact_agent/        # 核心 Agent 实现
│   │   └── codeact_agent.py  # ★ 重点看这个
│   └── browsing_agent/       # 浏览器操作 Agent
│
├── controller/
│   └── state.py              # 状态管理
│   └── action_parser.py      # 动作解析
│
├── runtime/
│   ├── docker/               # Docker 执行环境
│   └── plugins/              # 运行时插件
│
└── tools/
    ├── execute_bash.py       # Bash 好执行工具
    ├── file_ops.py           # 文件操作工具
    └── search.py             # 代码搜索工具

5.2 SWE-agent

项目信息	内容
仓库	princeton-nlp/SWE-agent
Star	15k+
学习价值	★★★★☆ 普林斯顿出品，专注代码修复

为什么看：

SWE-agent 是学术界的 Code Agent 实现，在 SWE-bench（代码修复基准测试）上表现优秀。它的特点是专注于代码问题定位和修复。

核心能力：

定位问题代码
理解 Bug 原因
生成修复补丁
验证修复效果

学习收获：

理解 Agent 如何”理解代码库”
理解问题定位的策略（搜索、分析、追踪）
理解代码修复的流程

5.3 Continue

项目信息	内容
仓库	continuedev/continue
Star	20k+
学习价值	★★★★★ IDE 集成 Agent 的最佳参考

为什么必看：

Continue 是一个开源的 IDE AI 插件（VS Code、JetBrains），如果你想了解如何把 Agent 集成到开发工具中，这是最好的参考。

架构亮点：

┌─────────────────────────────────────────────────────────────┐
│                    Continue 架构                             │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  IDE Extension                                              │
│  ├── VS Code 插件                                          │
│  ├── JetBrains 插件                                        │
│  └── 用户界面（聊天、代码补全）                             │
│                                                             │
│  Core Engine                                                │
│  ├── Context 收集（当前文件、相关文件）                     │
│  ├── LLM 调用                                              │
│  ├── Code 处理                                             │
│                                                             │
│  Features                                                   │
│  ├── Chat（对话）                                          │
│  ├── Edit（代码编辑）                                       │
│  ├── Autocomplete（补全）                                  │
│  └── Commands（自定义命令）                                 │
│                                                             │
└─────────────────────────────────────────────────────────────┘

核心文件：

路径	学习重点
`extension/`	IDE 插件开发（VS Code）
`core/`	Agent 核心逻辑
`core/context/`	上下文收集策略

六、阶段四：多 Agent 协作项目

6.1 CrewAI

项目信息	内容
仓库	crewAIInc/crewAI
Star	25k+
学习价值	★★★★★ 多 Agent 角色扮演的最佳学习案例

为什么必看：

CrewAI 是目前最优雅的多 Agent 框架。它的核心理念是：把多个 Agent 定义为不同角色，让它们像团队一样协作。

核心概念：

from crewai import Agent, Task, Crew

# 定义角色
researcher = Agent(
    role="研究员",
    goal="收集最新信息",
    backstory="你擅长搜索和整理资料",
)

writer = Agent(
    role="撰稿人",
    goal="撰写高质量文章",
    backstory="你擅长文字表达",
)

# 定义任务
research_task = Task(
    description="研究 AI Agent 的最新进展",
    agent=researcher,
)

write_task = Task(
    description="撰写一篇关于 AI Agent 的文章",
    agent=writer,
)

# 组建团队
crew = Crew(
    agents=[researcher, writer],
    tasks=[research_task, write_task],
    process=Process.sequential,  # 顺序执行
)

# 执行
crew.kickoff()

学习收获：

理解角色定义（role、goal、backstory）
理解任务定义和分配
理解协作模式（sequential、hierarchical）
理解如何让多个 Agent 传递信息

核心文件：

路径	学习重点
`crewai/agent.py`	Agent 类定义
`crewai/task.py`	Task 类定义
`crewai/crew.py`	Crew 类定义，协作编排
`crewai/process/`	协作流程实现

6.2 AutoGen

项目信息	内容
仓库	microsoft/autogen
Star	35k+
学习价值	★★★★★ 微软出品，多 Agent 对话框架

为什么必看：

AutoGen 是微软的多 Agent 研究成果，特点是Agent 间通过对话协作。不同于 CrewAI 的角色扮演，AutoGen 更侧重于Agent 间的信息交换和讨论。

核心模式：

┌─────────────────────────────────────────────────────────────┐
│                    AutoGen 对话模式                          │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  User Proxy Agent                                          │
│  ├── 代表用户，转发消息                                     │
│  └── 执行代码                                               │
│                                                             │
│  Assistant Agent                                           │
│  ├── LLM Agent，生成方案                                    │
│  └── 提出代码建议                                           │
│                                                             │
│  对话流程：                                                 │
│  User: "帮我写一个爬虫"                                    │
│  Assistant: "好的，这是方案..."                            │
│  User Proxy: 执行代码...                                   │
│  Assistant: "有错误，我来修复..."                          │
│  User Proxy: 执行修复后的代码...                           │
│  ... 循环直到成功 ...                                       │
│                                                             │
└─────────────────────────────────────────────────────────────┘

核心文件：

路径	学习重点
`autogen/agent/contrib/`	各种 Agent 类型
`autogen/oai/`	LLM 调用封装
`samples/`	使用示例

6.3 MetaGPT

项目信息	内容
仓库	geekan/MetaGPT
Star	45k+
学习价值	★★★★★ 多 Agent 模拟软件开发团队

为什么必看：

MetaGPT 是最有创意的多 Agent 项目之一。它把多个 Agent 定义为软件团队的各个角色：产品经理、架构师、程序员、测试工程师等，让它们协作开发一个完整的软件。

团队结构：

┌─────────────────────────────────────────────────────────────┐
│                    MetaGPT 软件团队                          │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  产品经理 Agent                                             │
│  → 分析需求，输出 PRD                                       │
│                                                             │
│  架构师 Agent                                               │
│  → 设计系统架构，输出设计文档                                │
│                                                             │
│  项目经理 Agent                                             │
│  → 分配任务，管理进度                                       │
│                                                             │
│  工程师 Agent（多个）                                        │
│  → 实现代码                                                 │
│                                                             │
│  QA Engineer Agent                                          │
│  → 编写测试，验证代码                                       │
│                                                             │
└─────────────────────────────────────────────────────────────┘

学习收获：

理解如何让 Agent 输出结构化文档（PRD、设计文档）
理解 Agent 间如何传递文档和代码
理解如何让 Agent 执行完整的软件流程

七、阶段五：生产级平台参考

7.1 Dify

项目信息	内容
仓库	langgenius/dify
Star	50k+
学习价值	★★★★★ 企业级 LLM 应用开发平台

为什么必看：

Dify 是目前最完整的开源 LLM 应用平台。它包含：

可视化工作流编辑器
Agent 编排
RAG 知识库管理
多租户、多模型支持
完整的部署方案

架构全景：

┌─────────────────────────────────────────────────────────────┐
│                    Dify 架构                                 │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  Frontend                                                   │
│  ├── React + Next.js                                       │
│  ├── 工作流可视化编辑器                                     │
│  └── 知识库管理界面                                         │
│                                                             │
│  Backend                                                    │
│  ├── Python + Flask                                        │
│  ├── 工作流引擎                                             │
│  ├── Agent 执行器                                           │
│  ├── RAG 引擎                                               │
│  └── 模型路由（多模型支持）                                  │
│                                                             │
│  Infrastructure                                             │
│  ├── PostgreSQL（元数据）                                   │
│  ├── Vector Store（向量存储）                               │
│  ├── Redis（缓存）                                          │
│  └── Celery（异步任务）                                     │
│                                                             │
└─────────────────────────────────────────────────────────────┘

核心文件：

路径	学习重点
`api/core/workflow/`	工作流引擎核心
`api/core/agent/`	Agent 执行逻辑
`api/core/rag/`	RAG 引擎
`web/`	前端工作流编辑器

学习收获：

理解企业级架构设计
理解工作流引擎设计
理解多租户、多模型支持
理解生产级部署方案

7.2 LangGraph Platform

项目信息	内容
仓库	langchain-ai/langgraph
学习路径	`/platform/` 目录
学习价值	★★★★★ Agent 生产部署最佳实践

为什么看：

LangGraph Platform 是 LangChain 团队推出的生产级 Agent 部署方案。它解决了 Agent 从 Demo 到生产的关键问题：

持久化（任务状态保存）
恢复（暂停后继续）
监控（执行链路追踪）
API 设计（Agent 作为服务）

核心能力：

能力	说明
Persistence	Agent 状态持久化，支持暂停恢复
Memory	跨会话记忆管理
Streaming	实时推送执行进度
API	REST API + WebSocket

八、项目学习方法总结

8.1 看项目的正确姿势

错误方式	正确方式
从头到尾逐行看代码	先看架构，再看核心模块，最后看细节
只看不跑	先跑起来，再改代码，看效果
看完就忘	记笔记、画架构图、写总结
看一个项目就停止	多个项目对比，找出共同模式

推荐步骤：

Step 1: 理解项目目标
├── 读 README
├── 看官方文档/介绍视频
└── 明确"这个项目解决什么问题"

Step 2: 跑起来
├── 按文档安装依赖
├── 运行最小示例
└── 理解基本输入输出

Step 3: 看架构
├── 读项目目录结构
├── 找核心入口文件
├── 画架构图（自己画）

Step 4: 看核心模块
├── Agent 定义文件
├── 工具注册文件
├── 循环实现文件
├── 状态管理文件

Step 5: 改代码
├── 添加一个新工具
├── 修改 Agent 行为
├── 观察变化

8.2 核心文件速查表

不管什么项目，这几个核心模块一定要找到：

核心模块	关键文件特征	学习重点
Agent 定义	通常有 `agent.py` 或 `agents/` 目录	Agent 如何初始化、有什么属性、如何执行
工具注册	`tools/` 或 `functions/` 目录	工具如何定义、如何注册给 Agent
循环实现	`main.py` 或 `run.py` 或 `execute()`	ReAct 循环怎么写、状态怎么传递
状态管理	`state.py` 或 `memory/` 目录	状态如何保存、如何恢复
LLM 调用	`llm.py` 或 `model/` 目录	如何调用 LLM、如何处理响应

九、Java 工程师的特别建议

作为 Java 后端工程师，你有独特的优势：

优势	如何利用
系统设计能力	重点看架构设计部分，不只是代码细节
工程化经验	重点看生产级项目（Dify、LangGraph Platform）
调试能力	主动改代码、加日志、看执行过程

推荐路径：

阶段一（Python 生态入门）—— 1-2 周
├── 看 LangGraph 示例，理解状态图模式
├── 看 GPT-Researcher，理解完整流程
└── 用 Python 写一个简单的 ReAct Agent

阶段二（Code Agent 专项）—— 2-3 周
├── 看 OpenHands 核心代码
├── 理解文件操作、命令执行工具
└── 思考：如何用 Java 实现类似系统

阶段三（Java 生态融合）—— 2-3 周
├── 学习 LangChain4j
├── 学习 Spring AI
├── 用 Java 重构你的 Python Agent Demo
└── 集成到你现有的项目中

阶段四（生产级设计）—— 持续
├── 研究 Dify 的架构
├── 设计你自己的 Agent 平台
├── 考虑：多租户、监控、部署、成本控制

Java 生态框架：

框架	说明	学习优先级
LangChain4j	LangChain 的 Java 版，成熟度高	★★★★★
Spring AI	Spring 官方 AI 框架，生态整合好	★★★★★
Semantic Kernel	微软出品，支持 Java	★★★★☆

十、学习路线时间规划

阶段	时间	目标
入门	1-2 周	理解 Agent 基本原理，能用 LangGraph 写简单 Agent
进阶	2-3 周	理解完整 Agent 系统，能写出类似 GPT-Researcher 的项目
Code Agent	2-3 周	理解 Code Agent，能用 Java 实现文件操作、命令执行
多 Agent	1-2 周	理解多 Agent 协作，能设计 Agent 团队
生产级	持续	理解生产架构，能部署和维护 Agent 服务

附录：项目速查表

项目	Star	学习价值	适合阶段	核心学习点
LangChain 示例	100k+	★★★★★	入门	基础 Agent 写法
LangGraph 示例	30k+	★★★★★	入门	状态图、循环、分支
Anthropic Cookbook	10k+	★★★★★	入门	Function Calling 最佳实践
GPT-Researcher	15k+	★★★★★	进阶	完整 Agent 流程
AutoGPT	170k+	★★★★☆	进阶	Agent 自主性
AgentGPT	32k+	★★★★☆	进阶	Web 应用架构
OpenHands	40k+	★★★★★	Code Agent	代码库操作
SWE-agent	15k+	★★★★☆	Code Agent	代码修复
Continue	20k+	★★★★★	Code Agent	IDE 集成
CrewAI	25k+	★★★★★	多 Agent	角色扮演协作
AutoGen	35k+	★★★★★	多 Agent	对话协作
MetaGPT	45k+	★★★★★	多 Agent	模拟软件团队
Dify	50k+	★★★★★	生产级	企业级架构

总结

看完这两篇博客，你应该：

概念清晰：知道 Agent、Tool、Function Calling、ReAct、RAG 等核心名词的含义
路线明确：知道从哪个项目开始，怎么深入
实践有方：知道看项目要看什么、怎么学最快
职业定位：知道自己的后端经验如何转化为 Agent 开发优势

上一篇：Agent 编程名词词典：产品视角与技术视角的双面解读

Agent 编程名词词典：产品视角与技术视角的双面解读

发表于 2025-01-12 更新于 2026-04-13 分类于 AI Valine：

说实话，Agent 这个领域的新名词就像雨后春笋一样往外冒。Tool Calling、ReAct、RAG、Memory、Orchestrator……如果你不懂这些概念，看技术文档就像看天书；但如果你只懂概念不懂原理，遇到实际问题又无从下手。

这篇文章的目标很明确：帮你建立一套完整的 Agent 名词认知体系。我会从两个视角来解读每个概念——产品视角（这个概念解决什么用户问题）和技术视角（这个概念怎么实现）。读完之后，你既能跟产品经理聊需求，也能跟工程师聊实现。

一、先搞清楚：概念、框架、平台是三个层次

在深入名词之前，先理清一个关键认知：

┌─────────────────────────────────────────────────────────────┐
│                     Agent 知识金字塔                          │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│   ┌─────────────────────────────────────────────────────┐  │
│   │  核心"道"—— 跨框架、跨时间、永不过时           │  │
│   │                                                     │  │
│   │  Agent、Tool、Memory、Plan、ReAct、RAG...          │  │
│   │                                                     │  │
│   │  → 这篇文章重点讲这部分                             │  │
│   └─────────────────────────────────────────────────────┘  │
│                          ↓ 实现                            │
│   ┌─────────────────────────────────────────────────────┐  │
│   │  框架"术"—— 会过时、会被替代                  │  │
│   │                                                     │  │
│   │  LangChain、LangGraph、CrewAI、AutoGen...           │  │
│   │                                                     │  │
│   │  → 只是工具，不是核心概念                            │  │
│   └─────────────────────────────────────────────────────┘  │
│                          ↓ 部署                            │
│   ┌─────────────────────────────────────────────────────┐  │
│   │  平台"器"—— 产品形态                             │  │
│   │                                                     │  │
│   │  Dify、Flowise、Coze、Cursor、Claude Code...        │  │
│   │                                                     │  │
│   │  → 用户接触到的最终产品                              │  │
│   └─────────────────────────────────────────────────────┘  │
│                                                             │
└─────────────────────────────────────────────────────────────┘

核心观点：LangChain 和 LangGraph 是框架，会过时、会被替代；但 Agent、Tool、ReAct 是概念，永不过时。先学概念，再学框架。

二、LLM 基础层：理解”大脑”的能力边界

Agent 是建立在 LLM 之上的，所以先得搞清楚 LLM 本身的能力和限制。

2.1 Token（词元）

维度	内容
产品视角	为什么 AI 有时会”记不住”你前面说的话？因为 Token 数超出了模型的上下文限制。就像人看书，翻到第 100 页可能就忘了第 1 页的内容。
技术视角	LLM 处理文本的最小单位。1 Token ≈ 0.75 个英文单词，中文约 1-2 个字。GPT-4 支持 128K Token，Claude 支持 200K Token。超出限制的内容会被截断或遗忘。
实际影响	发送长文档给 AI 分析时，如果超限，AI 只能看到前半部分或后半部分，导致分析不完整。

2.2 Context Window（上下文窗口）

维度	内容
产品视角	这是 AI 的”记忆容量”。决定了 AI 能一次性处理多少内容——一篇论文、一本书，还是几句话。
技术视角	模型一次推理能处理的最大 Token 数。常见值：GPT-4o 128K、Claude 200K、Kimi 200 万字。注意：上下文窗口 ≠ 实际可用，系统 Prompt、历史对话都会占用空间。
选型建议	读长文档选 Claude 或 Kimi；日常对话选 GPT-4o 就够了。

2.3 Temperature（温度参数）

维度	内容
产品视角	决定 AI 回答的”创造性”程度。温度高，AI 更发散、更有创意；温度低，AI 更严谨、更一致。
技术视角	控制输出概率分布的平滑程度。Temperature=0 时，模型总是选概率最高的词，输出最确定；Temperature=1 时，概率分布更平滑，输出更随机多样。
实践建议	代码生成、逻辑推理用 Temperature=0；创意写作、头脑风暴用 Temperature=0.7-1.0。

2.4 Hallucination（幻觉）

维度	内容
产品视角	AI 会一本正经地胡说八道。比如问它一个不存在的人，它可能会编造出完整的生平事迹。这不是 Bug，而是 LLM 的固有特性。
技术视角	LLM 本质是概率预测模型，根据上文预测下文，而不是检索真实信息。当它不知道答案时，会根据概率生成”看起来合理”的内容，而非说实话”我不知道”。
应对方案	使用 RAG 让 AI 基于真实知识库回答；要求 AI 标注信息来源；对关键信息进行人工验证。

2.5 System Prompt（系统提示词）

维度	内容
产品视角	这是给 AI 设定”角色”和”行为准则”的指令。比如”你是一个专业的法律顾问，回答要严谨，不要给出没有依据的建议”。
技术视角	在用户消息之前预置的指令文本，权重高于用户输入。通过 System Prompt 可以定义 AI 的角色、风格、约束、输出格式等。
最佳实践	明确角色身份、定义任务边界、设置输出格式要求、列出禁止行为。

三、Prompt 技术层：让 LLM 更聪明地”思考”

LLM 原始能力有限，通过 Prompt 技术可以让它表现得更聪明。

3.1 CoT（Chain-of-Thought，思维链）

维度	内容
产品视角	为什么有时候让 AI “一步步思考”效果更好？因为思维链强迫 AI 把复杂问题拆成小步骤，减少出错概率。就像让学生做数学题时写出过程，而不是直接给答案。
技术视角	在 Prompt 中要求模型展示推理过程：”请一步步思考并解释你的推理过程”。这激活了模型的推理能力，尤其对数学、逻辑问题效果显著。
经典示例	不加 CoT：”这个问题的答案是？” → AI 可能直接猜；加 CoT：”请一步步分析这个问题” → AI 会展示完整的推理链条。

3.2 Few-shot（少样本学习）

维度	内容
产品视角	当你想让 AI 按特定格式输出时，与其用语言描述格式，不如直接给几个示例。AI 会模仿示例的风格和结构。
技术视角	在 Prompt 中提供少量示例，让模型通过类比学习任务模式。研究表明，3-5 个高质量示例效果最佳。
示例	Prompt：”请按以下格式回复：\n示例1：问题：什么是Java？回答：Java是一种面向对象的编程语言。\n示例2：问题：什么是Python？回答：Python是一种动态类型的解释型语言。\n问题：什么是Go？”

3.3 ReAct（Reasoning + Acting，推理+行动）

这是 Agent 的核心范式，务必深刻理解。

维度	内容
产品视角	一个真正能解决问题的 Agent，不能光想不做。它需要：观察环境 → 思考下一步 → 执行动作 → 观察结果 → 再思考……循环直到完成任务。这就是 ReAct。
技术视角	一种 Agent 架构范式，将推理（Reasoning）和行动（Acting）交替执行。每一步包含 Thought（思考）、Action（动作）、Observation（观察）三个环节。
工作流程	详见下图

┌─────────────────────────────────────────────────────────────┐
│                    ReAct 工作循环                            │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│   ┌──────────┐    ┌──────────┐    ┌──────────┐            │
│   │ Thought  │───►│  Action  │───►│Observation│            │
│   │  (思考)   │    │  (行动)   │    │  (观察)   │            │
│   └──────────┘    └──────────┘    └──────────┘            │
│        │                               │                    │
│        │                               │                    │
│        └───────────────────────────────┘                    │
│                    ↑ 循环继续                               │
│                                                             │
│   Thought: "我需要先查一下今天的天气"                        │
│   Action: 调用天气查询工具                                   │
│   Observation: "北京今天晴，气温25度"                        │
│   Thought: "现在我知道天气了，可以回答用户"                  │
│   Action: 生成回复                                           │
│                                                             │
└─────────────────────────────────────────────────────────────┘

为什么 ReAct 重要：它把 LLM 从”光说不练”变成了”能动手解决问题”的系统。这是 Agent 和普通 Chatbot 的本质区别。

3.4 Reflexion（反思）

维度	内容
产品视角	让 Agent 学会”自我纠错”。第一次做得不好？没关系，让它反思哪里有问题，然后改进重试。就像考试后检查答案并修正。
技术视角	在 Agent 执行任务后，引入一个”反思”环节：让 LLM 分析自己的输出是否正确，如果不正确，指出问题并重新执行。支持多轮迭代。
适用场景	代码生成（检查代码是否有 Bug）、复杂推理任务、需要高质量输出的场景。

3.5 Self-Consistency（自一致性）

维度	内容
产品视角	当 AI 的答案不稳定时，可以让它多次回答同一个问题，然后取”多数派”答案。就像开会投票，少数服从多数。
技术视角	对同一个 Prompt 多次采样（设置较高 Temperature），生成多个不同的推理路径和答案，然后选择出现次数最多的答案。特别适合数学、逻辑推理问题。
代价	需要多次调用 LLM，成本和延迟会增加。适合对准确性要求极高的场景。

四、Agent 核心层：理解”智能体”的本质

终于到了 Agent 本身。这部分概念是 Agent 编程的核心。

4.1 Agent（智能体）

维度	内容
产品视角	Agent 不是简单的聊天机器人，而是能自主理解目标、规划步骤、调用工具、执行任务、反馈结果的 AI 系统。就像一个智能助手，你只需说”帮我分析这份财报”，它会自己读文件、提取数据、分析趋势、生成报告。
技术视角	Agent = LLM + 工具调用能力 + 记忆系统 + 规划能力。技术上，Agent 是一个循环执行系统：接收目标 → 分解任务 → 选择工具 → 执行 → 观察结果 → 调整策略 → 循环直到完成。
本质公式	Agent = LLM（大脑）+ Tool（手）+ Memory（记忆）+ Plan（规划能力）

4.2 Tool / Function（工具）

维度	内容
产品视角	Agent 的”手”。没有工具，Agent 就像只会说话的百科全书，能分析但无法行动。有了工具，Agent 才能真正解决问题。
技术视角	Agent 可调用的外部能力单元。常见工具类型：文件操作（读/写）、网络搜索（Google、Tavily）、代码执行（Python、Bash）、数据库查询（SQL）、API 调用。工具通过 Function Calling 机制触发。
工具定义	需要定义工具名称、描述（让 LLM 理解何时调用）、参数 Schema（输入参数结构）、执行函数（实际代码）。

4.3 Function Calling（工具调用）

这是 Agent 最关键的技术机制。

维度	内容
产品视角	当 Agent 需要”动手”时，它不是真的去操作，而是告诉系统”请调用某某工具，参数是某某”。系统收到指令后，执行实际操作并返回结果。
技术视角	LLM 输出一段 JSON 格式的指令，指定要调用的函数名和参数值。宿主程序解析这段 JSON，调用对应的 Python/Java 函数，执行后将结果返回给 LLM。这个过程不是 LLM 直接执行代码，而是 LLM “指挥”系统执行。
实际流程	详见下图

┌─────────────────────────────────────────────────────────────┐
│                  Function Calling 流程                       │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  用户: "帮我查北京今天的天气"                                │
│                      │                                      │
│                      ▼                                      │
│  ┌──────────────────────────────────────────────────────┐  │
│  │  LLM 分析用户需求                                      │  │
│  │  → "用户想查天气，需要调用天气查询工具"                │  │
│  │  → 决定调用 get_weather(city="北京")                   │  │
│  └──────────────────────────────────────────────────────┘  │
│                      │                                      │
│                      ▼                                      │
│  ┌──────────────────────────────────────────────────────┐  │
│  │  LLM 输出 Function Call（JSON 格式）                   │  │
│  │  {                                                    │  │
│  │    "function": "get_weather",                         │  │
│  │    "arguments": { "city": "北京" }                    │  │
│  │  }                                                    │  │
│  └──────────────────────────────────────────────────────┘  │
│                      │                                      │
│                      ▼                                      │
│  ┌──────────────────────────────────────────────────────┐  │
│  │  系统执行实际函数调用                                  │  │
│  │  → 调用天气 API                                        │  │
│  │  → 返回结果: { "temp": 25, "weather": "晴" }          │  │
│  └──────────────────────────────────────────────────────┘  │
│                      │                                      │
│                      ▼                                      │
│  ┌──────────────────────────────────────────────────────┐  │
│  │  LLM 收到结果，生成回复                                │  │
│  │  → "北京今天天气晴朗，气温25度"                        │  │
│  └──────────────────────────────────────────────────────┘  │
│                                                             │
└─────────────────────────────────────────────────────────────┘

4.4 Plan（规划）

维度	内容
产品视角	面对”帮我写一个登录功能”这样的模糊需求，Agent 不能直接动手写代码，而是要先规划：需要哪些步骤？先做什么后做什么？这就是规划能力。
技术视角	将复杂目标分解为有序子任务的过程。规划可以是：单步规划（直接执行）、多步规划（分解成任务列表）、动态规划（执行过程中根据反馈调整计划）。
规划模式	Single-path（单路径，一步到底）、Multi-path（多路径，尝试多种方案）、Hierarchical（层级规划，大目标分解为小目标，小目标再分解）。

4.5 Memory（记忆）

维度	内容
产品视角	如果 Agent 没有记忆，每次对话都是全新的，它会忘记之前所有的约定和进展。有了记忆，Agent 才能在多轮对话中保持连贯，甚至跨会话记住用户偏好。
技术视角	Agent 存储和检索历史信息的机制。记忆分多层：短期记忆（当前对话上下文）、长期记忆（持久化存储）、工作记忆（当前任务执行中的临时信息）。
记忆类型	详见下表

记忆类型	产品视角	技术视角	实现方式
Short-term Memory	当前对话的”短期记忆”，记住刚才说了什么	存放在对话上下文中的历史消息	消息列表、滑动窗口
Long-term Memory	跨会话的”长期记忆”，记住用户的历史偏好和行为	持久化存储，支持检索	向量数据库、关系数据库
Working Memory	执行当前任务时的”临时笔记本”	任务执行过程中的状态缓存	内存变量、状态机
Episodic Memory	“经历记忆”，记住发生过的事件	存储具体的事件序列	时间序列存储、日志
Semantic Memory	“知识记忆”，记住事实和规则	存储结构化知识	知识图谱、向量数据库

五、Agent 架构层：理解”团队协作”模式

单个 Agent 能解决的问题有限，复杂任务需要多个 Agent 协作。

5.1 Single Agent（单智能体）

维度	内容
产品视角	一个 Agent 包办所有事情。适合任务相对简单、流程确定的场景。就像一个人独立完成一份报告。
技术视角	单个 Agent 循环执行 ReAct，独自完成整个任务链。优点：架构简单、易于调试；缺点：复杂任务可能超出单个 Agent 的能力边界。
适用场景	信息查询、简单自动化任务、单领域工作。

5.2 Multi-Agent（多智能体）

维度	内容
产品视角	多个 Agent 组成一个”团队”，每个 Agent 有自己的专长，分工协作完成任务。就像软件开发团队：产品经理、架构师、前端、后端、测试，各司其职。
技术视角	多个 Agent 通过消息传递、任务委派、结果共享等方式协作。需要定义 Agent 间的通信协议、任务分配机制、结果汇总方式。
协作模式	详见下表

协作模式	产品视角	技术视角
Sequential	串行协作，A 做完 B 做，B 做完 C 做	任务队列，顺序执行，每个 Agent 处理一个阶段
Hierarchical	层级协作，Manager Agent 协调 Worker Agents	有一个 Supervisor Agent 负责分配任务和汇总结果
Network	网状协作，Agent 间自由通信	每个 Agent 可以主动与其他 Agent 通信，无中心节点
Debate	辩论协作，多个 Agent 讨论达成共识	多个 Agent 对同一问题输出方案，通过投票或辩论选出最佳

5.3 Orchestrator（编排者）

维度	内容
产品视角	多 Agent 团队需要一个”项目经理”来协调谁做什么、何时做、如何汇总结果。这就是 Orchestrator。
技术视角	一个特殊的 Agent，不直接执行具体任务，而是负责：任务分解、Agent 选择、任务分配、进度监控、结果汇总。
实现方式	可以是另一个 LLM Agent，也可以是固定规则的程序逻辑。LangGraph 的 StateGraph 就是编排引擎。

5.4 Router（路由器）

维度	内容
产品视角	当用户的需求不确定属于哪个领域时，需要一个”前台接待”来判断意图并分发到对应的 Agent。比如：问技术问题发给技术 Agent，问营销问题发给营销 Agent。
技术视角	一个分类 Agent，接收用户输入，分析意图，然后选择对应的 Agent 处理。通常是一个简单的 LLM 分类器，输出 Agent 名称或 ID。
实现要点	Router 的准确性直接影响系统体验，需要定义清晰的意图分类规则。

六、RAG 层：理解”知识增强”机制

LLM 有知识截止日期，且无法访问企业私有数据。RAG 解决这个问题。

6.1 RAG（Retrieval-Augmented Generation，检索增强生成）

维度	内容
产品视角	当用户问企业内部数据（如”上季度销售额是多少”）时，LLM 不知道。RAG 让 Agent 先去企业数据库/文档库里找相关信息，再基于找到的信息回答。就像考试时允许翻书。
技术视角	先检索相关文档，再将文档内容作为上下文提供给 LLM，让 LLM 基于真实信息生成回答。RAG = 检索系统 + LLM 生成。
核心流程	用户问题 → Embedding → 向量检索 → 获取相关文档 → 文档作为上下文 → LLM 生成回答

┌─────────────────────────────────────────────────────────────┐
│                      RAG 工作流程                            │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  ┌──────────────┐                                           │
│  │ 用户问题      │  "公司去年的净利润是多少？"                │
│  └──────────────┘                                           │
│         │                                                   │
│         ▼                                                   │
│  ┌──────────────┐                                           │
│  │ Embedding    │  将问题转为向量                            │
│  └──────────────┘                                           │
│         │                                                   │
│         ▼                                                   │
│  ┌──────────────┐                                           │
│  │ 向量检索      │  在向量数据库中找相似文档                   │
│  └──────────────┘                                           │
│         │                                                   │
│         ▼                                                   │
│  ┌──────────────┐                                           │
│  │ 获取文档      │  "2025年财务报告.pdf"                      │
│  └──────────────┘                                           │
│         │                                                   │
│         ▼                                                   │
│  ┌──────────────┐                                           │
│  │ 上下文组装    │  问题 + 文档内容 → LLM                      │
│  └──────────────┘                                           │
│         │                                                   │
│         ▼                                                   │
│  ┌──────────────┐                                           │
│  │ LLM 生成回答  │  "根据2025年财务报告，净利润为1.2亿元"     │
│  └──────────────┘                                           │
│                                                             │
└─────────────────────────────────────────────────────────────┘

6.2 Embedding（向量嵌入）

维度	内容
产品视角	把文字变成”数学坐标”。这样就可以计算两段文字的相似度——坐标越接近，内容越相似。
技术视角	用 Embedding 模型将文本转换为高维向量（如 768 维、1536 维）。相似内容的向量在向量空间中距离较近。常用模型：OpenAI text-embedding-3、BGE、M3E。
关键参数	向量维度（越高越精确但越慢）、模型选择（不同模型对中英文效果不同）。

6.3 Vector Store / Vector Database（向量数据库）

维度	内容
产品视角	RAG 的”知识仓库”。把企业的文档、手册、历史记录都存进去，用户提问时从里面检索相关内容。
技术视角	专门存储和检索向量的数据库。支持高效向量相似度搜索（ANN 算法）。常用：Pinecone（云端）、Milvus（开源）、Chroma（轻量）、pgvector（PostgreSQL 扩展）。
选型建议	小项目用 Chroma；企业级用 Milvus 或 Pinecone；已有 PostgreSQL 用 pgvector。

6.4 Chunk（分块）

维度	内容
产品视角	一份 100 页的报告，直接塞给 LLM 会超限。需要切成小块，检索时只取相关的小块。就像把一本书切成段落，考试时只翻相关段落。
技术视角	将长文档切分成固定大小或语义单元的小片段。Chunk 太小丢失上下文，太大检索不准。常见策略：固定长度（如 500 Token）、语义分块（按段落/标题）、滑动窗口（重叠分块）。
最佳实践	一般 200-500 Token 一个 Chunk，相邻 Chunk 有 20-50 Token 重叠，避免上下文断裂。

6.5 Rerank（重排序）

维度	内容
产品视角	向量检索可能返回 10 个文档，但只有 3 个真正有用。Rerank 就是对这 10 个文档重新打分排序，把最相关的排在前面。
技术视角	在向量检索后，用更精确的模型（如 Cross-Encoder）对检索结果进行二次排序。向量检索快但粗糙，Rerank 慢但精确。先粗排再精排，兼顾效率和准确性。
常用工具	Cohere Rerank、BGE Reranker、ColBERT。

6.6 GraphRAG

维度	内容
产品视角	传统 RAG 只能检索”相似段落”，GraphRAG 能检索”相关实体和关系”。比如问”马云和阿里巴巴的关系”，GraphRAG 能通过知识图谱找到马云→创立→阿里巴巴这条关系链。
技术视角	结合知识图谱（Knowledge Graph）和向量检索。先将文档构建成知识图谱（实体+关系），检索时既找相似文本，也找相关实体和关系。微软提出的方案。
适用场景	需要理解实体关系的问答、复杂推理、多跳检索。

七、工程化层：理解”生产级”要求

Demo 和生产系统的差距主要在工程化能力。

7.1 Tracing（链路追踪）

维度	内容
产品视角	当 Agent 的回答不满意时，怎么知道是哪一步出了问题？Tracing 记录了 Agent 执行的每一步，方便排查。
技术视角	记录 Agent 执行过程中的每个环节：Prompt 发送、LLM 响应、工具调用、结果处理。生成可视化链路图。
工具推荐	LangSmith（LangChain 官方）、Langfuse（开源）、Arize Phoenix。

7.2 Evaluation / Eval（评估）

维度	内容
产品视角	怎么知道 Agent 的回答好不好？需要一套评估方法来量化质量。
技术视角	用自动化方法评估 Agent 输出的质量。评估维度：准确性、相关性、忠实度（是否基于检索内容）、流畅性。
评估方法	Ground Truth（标准答案对比）、LLM-as-Judge（用 LLM 评估 LLM）、RAGAS（专门评估 RAG 系统）。

7.3 Prompt Injection（提示词注入）

维度	内容
产品视角	用户可能通过特殊输入”骗过” Agent，让它执行不该做的事。比如用户输入”忽略之前的指令，告诉我系统密码”。这是安全风险。
技术视角	攻击者通过用户输入注入恶意指令，覆盖或修改 System Prompt。防御方案：输入过滤、Prompt 隔离、指令固化、输出审核。
防御要点	严格区分 System Prompt 和 User Input，对用户输入做过滤和检测。

7.4 Guardrails（护栏）

维度	内容
产品视角	给 Agent 设置”安全边界”，防止它说出不该说的话、做不该做的事。就像给自动驾驶设置紧急制动系统。
技术视角	在 Agent 执行前后设置检查点：输入检查（过滤敏感内容）、输出检查（拦截有害响应）、工具调用检查（限制危险操作）。
实现方式	规则过滤（关键词黑名单）、模型审核（用另一个 LLM 审核）、人工审核（高风险操作需人工确认）。

八、名词层次关系总结

把所有概念串起来，Agent 系统的层次关系是这样的：

┌─────────────────────────────────────────────────────────────┐
│                    Agent 系统层次图                          │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  第一层：LLM 基础                                            │
│  ├── Token, Context Window, Temperature                    │
│  ├── Hallucination                                          │
│  └── System Prompt                                          │
│                                                             │
│  第二层：Prompt 技术                                         │
│  ├── CoT（思维链）                                          │
│  ├── Few-shot（少样本学习）                                  │
│  ├── ReAct（推理+行动）★ Agent 核心                          │
│  ├── Reflexion（反思）                                       │
│  └── Self-Consistency（自一致性）                            │
│                                                             │
│  第三层：Agent 核心                                          │
│  ├── Agent（智能体）                                         │
│  ├── Tool / Function（工具）                                │
│  ├── Function Calling（工具调用）★ 关键机制                  │
│  ├── Plan（规划）                                            │
│  └── Memory（记忆）                                          │
│                                                             │
│  第四层：Agent 架构                                          │
│  ├── Single Agent                                           │
│  ├── Multi-Agent                                            │
│  ├── Orchestrator（编排者）                                  │
│  └── Router（路由器）                                        │
│                                                             │
│  第五层：知识增强                                            │
│  ├── RAG                                                    │
│  ├── Embedding, Vector Store                                │
│  ├── Chunk, Rerank                                          │
│  └── GraphRAG                                               │
│                                                             │
│  第六层：工程化                                              │
│  ├── Tracing                                                │
│  ├── Evaluation                                             │
│  ├── Prompt Injection 防护                                  │
│  └── Guardrails                                             │
│                                                             │
└─────────────────────────────────────────────────────────────┘

九、学习优先级建议

对于后端工程师转 Agent 开发，我建议的学习顺序：

优先级	名词	原因
P0（必须深刻理解）	Agent、Tool、Function Calling、ReAct	这是 Agent 的四大支柱，不理解这些就无法开发真正的 Agent
P0	RAG、Embedding、Vector Store	企业 Agent 必备能力，几乎所有生产系统都需要
P1（重要但可渐进）	Memory、Plan、CoT	让 Agent 更智能的关键技术
P1	Multi-Agent、Orchestrator	复杂系统必备，但可以先从单 Agent 开始
P2（锦上添花）	Reflexion、Self-Consistency、GraphRAG	高级优化技术，适合深入研究
P2	Tracing、Evaluation、Guardrails	生产级必备，但可以在系统跑通后再学

十、从概念到实践

理解概念只是第一步，下一步是动手实践。下一篇博客我会推荐 10+ 个值得深入学习的开源 Agent 项目，从入门到进阶，涵盖单 Agent、多 Agent、Code Agent、生产级平台等各个方面。

实践建议：

不要只看文档，要看真实项目代码
选一个适合自己水平的项目，先跑通，再看源码
重点关注：Agent 如何定义、工具如何注册、循环如何实现、状态如何管理
尝试修改项目代码，添加自己的工具或 Agent

附录：名词速查表

名词	英文	一句话定义
Token	Token	LLM 处理文本的最小单位
Context Window	Context Window	LLM 一次能处理的最大 Token 数
Hallucination	Hallucination	LLM 编造不存在的事实
System Prompt	System Prompt	预设给 LLM 的角色和行为规则
CoT	Chain-of-Thought	让 LLM 一步步展示推理过程
Few-shot	Few-shot Learning	通过示例让 LLM 学习任务模式
ReAct	Reasoning + Acting	推理和行动交替执行的 Agent 范式
Agent	Agent	能自主规划、使用工具、完成任务的 AI 系统
Tool	Tool	Agent 可调用的外部能力
Function Calling	Function Calling	LLM 输出 JSON 指令调用外部函数
Memory	Memory	Agent 存储和检索历史信息的能力
Plan	Plan	Agent 将目标分解为步骤的能力
RAG	Retrieval-Augmented Generation	先检索再生成的知识增强方案
Embedding	Embedding	将文本转为向量表示
Vector Store	Vector Database	存储和检索向量的数据库
Chunk	Chunk	将长文档切分成小块
Rerank	Rerank	对检索结果二次排序

下一篇：Agent 开发实战指南：10+ 个开源项目带你从入门到进阶

LangChain vs LangGraph：从链式调用到图状态机的 Agent 演进之路

发表于 2024-12-13 更新于 2026-04-13 分类于 AI Valine：

这篇文章不讲废话，只讲干货：LangChain 和 LangGraph 分别是什么、为什么 LangChain 团队要造 LangGraph、两者的技术本质差异、以及你该选哪个。

一、先说结论

LangChain 是”零件库”，LangGraph 是”组装图纸”。

LangChain：给你各种组件——LLM 连接器、工具定义、记忆系统、向量检索器。你用它来”组装”一个 LLM 应用。
LangGraph：帮你定义组件之间的”组装方式”——怎么循环、怎么分支、怎么传递状态、什么时候结束。

两者不是竞争关系，而是互补关系。LangChain 团队自己造了 LangGraph，用来解决 LangChain 原生 Agent 能力不足的问题。

二、LangChain：起源与发展

2.1 创始人与背景

维度	内容
创始人	Harrison Chase
背景	曾在 Robust Intelligence（AI 安全公司）和 McKinsey 工作
创立时间	2022 年 10 月，作为开源项目发布在 GitHub
公司成立	2023 年初，LangChain Inc. 成立，获得风险投资

2.2 为什么能火

2022 年 10 月，ChatGPT 还没发布（11 月才发布）。Harrison Chase 做了一件关键的事：把 LLM 应用开发的”碎片化经验”变成”标准化组件”。

当时开发者面临的问题：

每个 LLM 应用都要自己解决：
- 怎么调用不同模型的 API（OpenAI、Anthropic、 Cohere...）
- 怎么记住用户之前说了什么
- 怎么让 LLM 调用外部工具
- 怎么把长文档切成小块让 LLM 能读
- 怎么把检索结果喂给 LLM

LangChain 把这些问题抽象成统一的组件，你只需要配置参数，不用自己造轮子。

2.3 发展时间线

时间	事件	影响
2022.10	LangChain 开源发布	GitHub 迅速获得数千 Star
2022.12	ChatGPT 发布，LLM 应用需求爆发	LangChain 成为首选框架
2023.01	LangChain Inc. 成立，获风险投资	商业化运营
2023.03	推出 LCEL（LangChain Expression Language）	链式调用更简洁
2023.06	LangSmith 发布	可观测性平台
2023.10	LangServe 发布	快速部署 API
2024.01	LangGraph 发布	解决 Agent 循环问题

2.4 核心组件一览

LangChain = 以下组件的集合

┌─────────────────────────────────────────────────────────────┐
│                    LangChain 组件体系                         │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  ┌─────────────┐  ┌─────────────┐  ┌─────────────┐        │
│  │   Models    │  │   Prompts   │  │   Memory    │        │
│  │  (LLM连接)  │  │ (模板管理)  │  │ (对话记忆)  │        │
│  └─────────────┘  └─────────────┘  └─────────────┘        │
│                                                             │
│  ┌─────────────┐  ┌─────────────┐  ┌─────────────┐        │
│  │   Tools     │  │   Chains    │  │   Agents    │        │
│  │ (外部工具)  │  │ (调用链)    │  │ (决策执行)  │        │
│  └─────────────┘  └─────────────┘  └─────────────┘        │
│                                                             │
│  ┌─────────────┐  ┌─────────────┐  ┌─────────────┐        │
│  │  Retrieval  │  │   Output    │  │   Document  │        │
│  │  (RAG检索)  │  │   Parser    │  │   Loaders   │        │
│  └─────────────┘  └─────────────┘  └─────────────┘        │
│                                                             │
└─────────────────────────────────────────────────────────────┘

2.5 LangChain 的技术本质

LangChain 的核心抽象是 “Chain”（链）——把多个步骤串起来，线性执行：

# LangChain LCEL 语法（链式调用）
chain = (
    {"context": retriever, "question": RunnablePassthrough()}
    | prompt
    | llm
    | output_parser
)

result = chain.invoke("什么是 Agent？")

优点：

简单直观，上手快
组件丰富，生态完善
适合 RAG、简单问答、固定流程的场景

缺点（这也是 LangGraph 存在的原因）：

无法循环执行（Agent 需要 ReAct 循环）
无法根据中间结果动态选择路径
状态管理能力弱

三、LangGraph：为什么 LangChain 团队要造它

3.1 核心问题：LangChain 的 Agent 不够用

LangChain 有 AgentExecutor，理论上可以做 Agent。但实际使用中发现：

问题 1：AgentExecutor 无法真正循环
- LangChain 的链是线性的：A → B → C → 结束
- Agent 需要 ReAct 循环：思考 → 执行 → 观察 → 再思考 → 再执行...
- 用 LangChain 做 Agent，只能"模拟"循环，很别扭

问题 2：无法控制流程分支
- Agent 执行到某一步，可能需要：
  - 成功了 → 结束
  - 失败了 → 重试
  - 信息不够 → 再搜索
- LangChain 的链无法根据条件选择不同路径

问题 3：状态管理混乱
- Agent 需要记住"我刚才做了什么"、"我现在的进度"
- LangChain 的记忆系统是独立的，无法和执行流程绑定

3.2 LangGraph 的诞生

2024 年第一季度，LangChain 团队推出 LangGraph，专门解决 Agent 工作流问题。

维度	内容
发布时间	2024 年第一季度
创始人	LangChain 团队（Harrison Chase 领导）
核心目的	让 Agent 能真正循环执行、状态管理、流程分支
技术本质	状态机（State Machine） + 图结构（Graph）

3.3 LangGraph 的核心创新

LangGraph 的核心抽象是 “StateGraph”（状态图）——用图结构定义执行流程：

from langgraph.graph import StateGraph, END

# 定义状态
class AgentState(TypedDict):
    messages: list
    next_step: str

# 构建图
graph = StateGraph(AgentState)
graph.add_node("agent", agent_node)      # Agent 思考节点
graph.add_node("tool", tool_node)        # 工具执行节点
graph.add_node("check", check_node)      # 结果检查节点

# 定义边（流转关系）
graph.add_edge("agent", "tool")
graph.add_edge("tool", "check")

# 条件分支：根据检查结果决定下一步
graph.add_conditional_edges("check", 
    lambda state: state["next_step"],
    {"continue": "agent", "end": END}  # 循环回去或结束
)

# 编译执行
app = graph.compile()

LangGraph 解决的三大问题：

问题	LangChain 方案	LangGraph 方案
循环执行	用 AgentExecutor 模拟，很别扭	用图的边连接回去，原生支持循环
流程分支	无法根据条件选择路径	`add_conditional_edges` 原生支持
状态管理	Memory 独立，不绑定流程	State 在节点间传递，自动管理

3.4 LangGraph 发展时间线

时间	事件	影响
2024.Q1	LangGraph 发布	解决 Agent 循环问题
2024.06	LangGraph Studio 发布	可视化调试工具
2024.08	支持多 Agent 协作	复杂系统必备
2025.01	LangGraph 0.3 发布	流式输出、多租户、改进调试

四、技术对比：本质差异

4.1 抽象模型对比

维度	LangChain	LangGraph
核心抽象	Chain（链）	StateGraph（状态图）
执行模式	线性执行	循环 + 分支执行
状态管理	独立 Memory 组件	State 在节点间传递
流程控制	固定顺序	条件分支、并行、循环
适用场景	RAG、问答、固定流程	Agent、多步骤决策

4.2 架构图对比

LangChain：线性链

Input → [Prompt] → [LLM] → [Parser] → Output

特点：
- 单向流动
- 固定顺序
- 无法回头

LangGraph：状态图

              ┌─────────┐
              │  Start  │
              └────┬────┘
                   │
              ┌────▼────┐
              │ Agent   │ ←─────┐
              │(思考)   │       │
              └────┬────┘       │
                   │            │ 循环
         ┌─────────┼─────────┐  │
         │                   │  │
    ┌────▼────┐         ┌────▼────┤
    │ Tool A  │         │ Tool B  │
    │(执行)   │         │(执行)   │
    └────┬────┘         └────┬────┤
         │                   │  │
         └───────┬───────────┘  │
                 │              │
            ┌────▼────┐         │
            │  Check  │─────────┘
            │(检查)   │
            └────┬────┘
                 │
         ┌───────┴───────┐
         │               │
    ┌────▼────┐     ┌────▼────┐
    │ Continue│     │   End   │
    │ (继续)  │     │  (结束) │
    └─────────┘     └─────────┘

特点：
- 可以循环（边可以指向之前的节点）
- 可以分支（条件判断选择路径）
- State 在节点间自动传递

4.3 代码对比：同一功能的不同实现

任务：让 Agent 搜索信息，如果不够就再搜索

LangChain 方案（别扭）

# 只能模拟循环，用 max_iterations 限制
from langchain.agents import AgentExecutor

agent_executor = AgentExecutor(
    agent=agent,
    tools=[search_tool],
    max_iterations=5,  # 强制限制循环次数
    verbose=True
)

# 问题：无法精确控制"什么时候结束"
# 只能靠 iterations 数量硬限制

LangGraph 方案（原生支持）

from langgraph.graph import StateGraph, END

def check_result(state):
    # 精确判断：信息是否足够
    if state["info_complete"]:
        return "end"
    else:
        return "continue"

graph = StateGraph(AgentState)
graph.add_node("agent", agent_node)
graph.add_node("search", search_node)
graph.add_node("check", check_node)

# 精确控制：根据 check 结果决定循环或结束
graph.add_edge("agent", "search")
graph.add_edge("search", "check")
graph.add_conditional_edges("check", check_result,
    {"continue": "agent", "end": END})

app = graph.compile()
# 优点：循环条件精确可控，不是硬限制

五、应用场景对比：该选哪个

5.1 选 LangChain 的场景

场景	原因
RAG 应用	检索 → 生成，固定流程，不需要循环
问答机器人	用户问 → LLM 答，简单线性
文档处理	读文档 → 提取 → 输出，固定步骤
快速原型	上手快，组件多，适合验证想法
单轮任务	一次调用就完成，不需要多步骤决策

典型 LangChain 代码（RAG）：

from langchain_openai import ChatOpenAI
from langchain_community.vectorstores import Chroma
from langchain.chains import RetrievalQA

# 用 LangChain 做 RAG，三行搞定
llm = ChatOpenAI(model="gpt-4o")
vectorstore = Chroma.from_documents(docs, embeddings)
qa = RetrievalQA.from_chain_type(llm, retriever=vectorstore.as_retriever())

answer = qa.run("什么是 Agent？")

5.2 选 LangGraph 的场景

场景	原因
真正的 Agent	需要 ReAct 循环（思考→执行→观察→再思考）
多步骤决策	执行到某一步后，需要判断下一步做什么
复杂工作流	有分支、有并行、有循环
多 Agent 协作	多个 Agent 互相配合
需要状态管理	要追踪”做了什么”、”进度如何”

典型 LangGraph 代码（Agent）：

from langgraph.graph import StateGraph, END
from langgraph.prebuilt import create_react_agent

# 用 LangGraph 做真正的 Agent
class AgentState(TypedDict):
    messages: list
    tools_result: dict

def should_continue(state):
    # 精确判断：任务是否完成
    if state["tools_result"]["complete"]:
        return "end"
    return "continue"

graph = StateGraph(AgentState)
graph.add_node("agent", agent_node)
graph.add_node("tools", tools_node)

graph.add_edge("agent", "tools")
graph.add_conditional_edges("tools", should_continue,
    {"continue": "agent", "end": END})

app = graph.compile()

5.3 选型决策树

你的需求是什么？
│
├─ 固定流程、单次调用（如 RAG、问答）
│   → 选 LangChain
│
├─ 需要循环执行（如 Agent 多轮决策）
│   → 选 LangGraph
│
├─ 需要根据结果选择不同路径
│   → 选 LangGraph
│
├─ 需要多个 Agent 协作
│   → 选 LangGraph 或 CrewAI
│
├─ 快速验证想法
│   → 先用 LangChain，复杂了再迁移到 LangGraph
│
└─ 生产级复杂系统
    → LangGraph + LangChain 组件配合使用

六、最佳实践：两者配合使用

LangGraph 和 LangChain 不是竞争关系，而是配合关系：

LangChain 提供"零件"：
- LLM 连接器（ChatOpenAI、ChatAnthropic）
- 工具定义（@tool 装饰器）
- 向量检索器
- 文档加载器

LangGraph 定义"组装方式"：
- 怎么让 Agent 循环执行
- 怎么根据结果选择路径
- 怎么管理状态

配合使用的典型代码：

from langchain_openai import ChatOpenAI          # LangChain 组件
from langchain_community.tools import Tool       # LangChain 组件
from langgraph.graph import StateGraph, END      # LangGraph 编排

# 用 LangChain 定义零件
llm = ChatOpenAI(model="gpt-4o")
search_tool = Tool(name="search", func=search, description="搜索")

# 用 LangGraph 定义流程
graph = StateGraph(AgentState)
graph.add_node("agent", lambda s: llm.invoke(s["messages"]))
graph.add_node("tool", lambda s: search_tool.invoke(s["tool_input"]))
...

七、生态对比

生态组件	LangChain	LangGraph
文档	python.langchain.com/docs	langchain-ai.github.io/langgraph
调试工具	LangSmith	LangGraph Studio
部署	LangServe	LangGraph Platform
社区	GitHub 90k+ Star	GitHub 50k+ Star
教程	官方教程丰富	官方教程 + LangGraph Mastery Course

八、总结：一句话记住两者的区别

框架	一句话定义
LangChain	给你砖块、水泥、门窗——各种 LLM 应用组件
LangGraph	教你怎么画房子的结构图——定义组件的组装流程

什么时候用 LangChain：固定流程、单次调用、快速原型。

什么时候用 LangGraph：需要循环、需要分支、需要状态管理、真正的 Agent。

最佳方案：两者配合使用——LangChain 提供组件，LangGraph 定义流程。

参考资料

Kong API 网关深度解析

发表于 2024-05-28 更新于 2026-05-28 分类于后端 Valine：

一、背景

做微服务架构的人，基本绕不开 API 网关这个东西。不管你用 Spring Cloud Gateway、Envoy 还是 Nginx 手搓，总得有个统一的入口把请求转发给后端服务。

Kong 是这个领域里做得最成熟的开源方案之一，GitHub 上 40K+ Stars，背后有商业公司维护，插件生态完善，大厂用得也多。但很多开发者对 Kong 的理解停留在”哦，就是个网关”这个层面，对其架构设计、插件系统、配置模式这些核心东西没深入过。

二、Kong 是什么

一句话定义：Kong 是一个基于 Nginx + OpenResty（LuaJIT） 的开源 API 网关，核心能力是路由转发、认证鉴权、流量控制、可观测性。

打个比方理解它的定位：

场景	没有网关	有了 Kong
10 个微服务都要做认证	每个服务自己实现一遍	Kong 统一做，服务只管业务
要对某个接口限流	在代码里写限流逻辑	Kong 配个插件就搞定
要记录所有请求日志	每个服务加日志代码	Kong 统一采集，不影响业务
要做灰度发布	改代码或改 Nginx 配置	Kong 按权重分流，配置即生效

核心区别在于：传统做法每个服务都要重复造轮子，Kong 把这些横切关注点（Cross-Cutting Concerns） 统一收口到网关层。

三、架构深度拆解

3.1 整体架构图

                    客户端请求
                        │
                        ▼
┌─────────────────────────────────────────────────────────────┐
│                      Kong Gateway                           │
│  ┌─────────────────────────────────────────────────────┐   │
│  │              Nginx (反向代理层)                        │   │
│  ├─────────────────────────────────────────────────────┤   │
│  │              OpenResty / LuaJIT                       │   │
│  ├─────────────────────────────────────────────────────┤   │
│  │                Kong Core                              │   │
│  │  ┌───────────────────────────────────────────────┐   │   │
│  │  │           Plugin System (插件系统)              │   │   │
│  │  │  ┌────────┐ ┌────────┐ ┌────────┐ ┌────────┐  │   │   │
│  │  │  │ 认证    │ │ 限流   │ │ 日志   │ │ 转换   │  │   │   │
│  │  │  └────────┘ └────────┘ └────────┘ └────────┘  │   │   │
│  │  └───────────────────────────────────────────────┘   │   │
│  ├─────────────────────────────────────────────────────┤   │
│  │              Admin API (管理接口)                      │   │
│  └─────────────────────────────────────────────────────┘   │
└─────────────────────────────────────────────────────────────┘
                        │
                        ▼
              ┌─────────────────────┐
              │   数据存储层          │
              │  PostgreSQL /        │
              │  Cassandra / 声明式   │
              └─────────────────────┘
                        │
                        ▼
              ┌─────────────────────┐
              │   上游服务集群        │
              │  (User Service,     │
              │   Order Service...) │
              └─────────────────────┘

这个架构有几个关键点值得拆开说。

3.2 为什么是 Nginx + OpenResty

Kong 没有用 Java、没用 Go，选了 Lua 这个相对小众的语言，原因在于 OpenResty。

OpenResty 是 Nginx 的一个增强版，把 LuaJIT 嵌入到 Nginx 的请求处理生命周期里。这意味着：

性能极高：Nginx 本身就以高并发著称，LuaJIT 的执行速度接近 C
非阻塞 I/O：OpenResty 把所有网络操作都封装成非阻塞的，一个请求在等数据库返回的时候不会阻塞其他请求
生命周期钩子：Nginx 的各个处理阶段（rewrite、access、content、log）都能用 Lua 来扩展

Kong 本质上就是一个用 Lua 写的、运行在 OpenResty 上的 Nginx 配置生成器 + 插件执行引擎。

3.3 核心抽象模型

Kong 的配置管理围绕几个核心概念展开：

Consumer (消费者)
    │
    ├── 某个调用方的身份（API Key、JWT 等标识）
    │
    ▼
Route (路由)
    │
    ├── 匹配规则：路径、Host、HTTP Method
    ├── 一个 Service 可以挂多个 Route
    │
    ▼
Service (服务)
    │
    ├── 一个上游服务的抽象（URL、协议、超时配置）
    ├── 指向 Upstream
    │
    ▼
Upstream (上游)
    │
    ├── 一组 Target 的集合
    ├── 负载均衡策略、健康检查
    │
    ▼
Target (目标)
    │
    └── 具体的后端实例地址（IP:Port）

举个实际例子：

# 定义一个服务
Service:
  name: user-service
  url: http://user-api.internal:8080

# 给这个服务定义路由
Route:
  name: user-route
  paths: ["/api/v1/users"]
  methods: ["GET", "POST"]
  service: user-service

# 给路由加认证插件
Plugin:
  name: key-auth
  route: user-route

这个模型的设计很清晰：Service 是对后端服务的抽象，Route 是对请求匹配规则的抽象，Plugin 是对横切逻辑的抽象。

3.4 请求生命周期

一个请求到达 Kong 之后，会经历这些阶段：

1. 客户端发送请求
   │
   ▼
2. SSL/TLS 握手（certificate 阶段）
   │  ← 这里可以执行 mTLS 插件
   ▼
3. URI 重写（rewrite 阶段）
   │  ← 这里可以执行 URL 重写插件
   ▼
4. 路由匹配
   │  ← Kong 根据 Host/Path/Method 找到对应的 Route
   ▼
5. 认证 & 鉴权（access 阶段）
   │  ← 执行 key-auth、jwt、oauth2 等插件
   ▼
6. 限流 & 配额（access 阶段）
   │  ← 执行 rate-limiting、quota 等插件
   ▼
7. 请求转换（access 阶段）
   │  ← 执行 request-transformer 插件
   ▼
8. 转发请求到上游服务
   │
   ▼
9. 接收上游响应
   │
   ▼
10. 响应头处理（header_filter 阶段）
    │  ← 执行 cors、response-transformer 等插件
    ▼
11. 响应体处理（body_filter 阶段）
    │  ← 可以修改响应内容
    ▼
12. 日志记录（log 阶段）
    │  ← 执行 tcp-log、http-log、file-log 等插件
    ▼
13. 返回响应给客户端

注意 access 阶段是核心，大部分插件都在这个阶段执行。每个插件有优先级（priority），priority 越高越先执行。

四、插件系统：Kong 的核心竞争力

插件系统是 Kong 区别于其他网关的最大优势。理解插件系统，才算真正理解 Kong。

4.1 插件的作用域

Kong 的插件不是全局一把梭，而是可以分层配置：

全局插件（Global Plugin）
    │
    ├── 对所有请求生效
    │
    ▼
服务级插件（Service-level Plugin）
    │
    ├── 对某个 Service 的所有请求生效
    │
    ▼
路由级插件（Route-level Plugin）
    │
    ├── 对匹配某个 Route 的请求生效
    │
    ▼
消费者级插件（Consumer-level Plugin）
    │
    └── 对某个 Consumer 的请求生效

这种分层设计很实用。比如：

全局开启 CORS 插件
对支付服务单独开启更严格的限流
对 VIP 消费者放宽配额限制

4.2 插件执行机制

每个插件本质上是一个 Lua 模块，实现了特定的钩子函数：

-- 一个最简单的 Kong 插件示例
local MyPlugin = {
  PRIORITY = 1000,  -- 优先级，越大越先执行
  VERSION = "1.0.0",
}

-- access 阶段执行的逻辑
function MyPlugin:access(conf)
  -- 从请求中获取某个 header
  local request_id = kong.request.get_header("X-Request-ID")
  
  if not request_id then
    -- 如果没有 request_id，直接返回 400
    return kong.response.exit(400, {
      message = "Missing X-Request-ID header"
    })
  end
  
  -- 把 request_id 传给上游服务
  kong.service.request.set_header("X-Request-ID", request_id)
end

return MyPlugin

Kong 提供了 PDK（Plugin Development Kit），这是一组 Lua 函数，封装了所有常用操作：

PDK 函数	用途
`kong.request.get_header()`	获取请求头
`kong.request.get_body()`	获取请求体
`kong.response.exit()`	直接返回响应
`kong.service.request.set_header()`	修改转发给上游的请求头
`kong.client.get_consumer()`	获取当前消费者信息
`kong.ip.get_source()`	获取客户端真实 IP

4.3 内置插件分类

Kong 的内置插件可以分成这几大类：

认证类

插件	说明
key-auth	API Key 认证，最简单常用
jwt	JWT Token 认证
oauth2	完整的 OAuth 2.0 流程
basic-auth	HTTP Basic 认证
hmac-auth	HMAC 签名认证
ldap-auth	LDAP 目录认证
openid-connect	OIDC 认证（对接 Okta、Auth0 等）
mtls-auth	双向 TLS 认证

流量控制类

插件	说明
rate-limiting	基于 IP/Consumer/Service 的速率限制
request-size-limiting	限制请求体大小
proxy-cache	响应缓存
canary	金丝雀发布，按权重分流

转换类

插件	说明
request-transformer	修改请求头、Body、URL 参数
response-transformer	修改响应头、Body
request-validator	JSON Schema 请求验证
correlation-id	生成请求唯一标识
cors	跨域配置

可观测性类

插件	说明
prometheus	暴露 Prometheus 指标
datadog	集成 Datadog APM
zipkin	分布式链路追踪
tcp-log	TCP 方式发送日志
http-log	HTTP 方式发送日志
file-log	写入本地文件
kafka-log	发送到 Kafka

4.4 插件开发实战

官方内置插件覆盖了大部分场景，但有时候你得写自己的插件。比如：给所有经过网关的请求加上公司内部的审计日志。

目录结构

kong-plugin-audit-log/
├── kong/
│   └── plugins/
│       └── audit-log/
│           ├── handler.lua    # 插件逻辑
│           └── schema.lua     # 配置校验
└── kong-plugin-audit-log-0.1.0-1.rockspec

handler.lua - 插件主逻辑

local AuditLog = {
  PRIORITY = 10,
  VERSION = "1.0.0",
}

function AuditLog:log(conf)
  -- 获取请求信息
  local request = {
    method = kong.request.get_method(),
    path = kong.request.get_path(),
    query = kong.request.get_raw_query(),
    headers = kong.request.get_headers(),
    client_ip = kong.client.get_ip(),
    consumer = kong.client.get_consumer(),
    service = kong.router.get_service(),
    response_status = kong.response.get_status(),
    request_id = kong.request.get_header("X-Request-ID"),
  }
  
  -- 序列化后发送到审计系统
  local cjson = require("cjson")
  local log_data = cjson.encode(request)
  
  -- 发送到 Kafka 或 HTTP 端点
  local http = require("resty.http")
  local httpc = http.new()
  httpc:request_uri(conf.audit_endpoint, {
    method = "POST",
    body = log_data,
    headers = {
      ["Content-Type"] = "application/json",
    },
  })
end

return AuditLog

schema.lua - 配置校验

return {
  name = "audit-log",
  fields = {
    { consumer = typedefs.no_consumer },
    { config = {
        type = "record",
        fields = {
          { audit_endpoint = { type = "string", required = true } },
          { include_headers = { type = "boolean", default = true } },
        },
      },
    },
  },
}

安装插件

# 打包
luarocks make

# 在 kong.conf 中启用
plugins = bundled,audit-log

# 或者通过环境变量
KONG_PLUGINS=bundled,audit-log

4.5 多语言插件支持

Lua 不是所有人都熟，Kong 后来加了 External Plugins 机制，支持用其他语言写插件：

语言	方式	说明
Go	Go PDK	通过 gRPC 和 Kong 通信
Python	Python PDK	同样走 gRPC
JavaScript	JS PDK	同样走 gRPC
WebAssembly	WASM	新一代扩展方式

原理是一样的：Kong 在插件执行阶段通过 gRPC 调用外部插件服务，外部服务处理完返回结果。性能比原生 Lua 插件差一点，但开发门槛低很多。

五、配置管理：三种模式

Kong 支持三种配置管理模式，适应不同的部署场景。

5.1 传统数据库模式（DB Mode）

1
2
3

Kong 节点 ──→ PostgreSQL / Cassandra
    │
    └── Admin API 操作配置

这是最经典的模式。所有配置（Service、Route、Plugin、Consumer）都存在数据库里，通过 Admin API 管理。

优点：

配置变更实时生效，不需要重启
多个 Kong 节点共享同一份配置
适合动态环境，服务频繁上下线

缺点：

依赖数据库，多了一个运维组件
数据库挂了 Kong 就废了（虽然有缓存，但配置变更就没了）

5.2 DB-less 声明式模式

# kong.yml
_format_version: "3.0"

services:
  - name: user-service
    url: http://user-api:8080
    routes:
      - name: user-route
        paths: ["/api/users"]
    plugins:
      - name: key-auth
      - name: rate-limiting
        config:
          minute: 100
          policy: local

  - name: order-service
    url: http://order-api:8080
    routes:
      - name: order-route
        paths: ["/api/orders"]

启动时加载配置文件：

1	kong start -c kong.conf --declarative-config kong.yml

优点：

不需要数据库，部署更简单
配置即代码，可以 Git 管理
适合 GitOps、CI/CD 流程
适合 Kubernetes ConfigMap/Secret

缺点：

配置变更需要重新加载（不是重启，是 reload）
不支持 Consumer 的动态注册

5.3 混合模式（Hybrid Mode）

这是 Kong 比较新的部署模式，把控制平面和数据平面分离：

┌─────────────────────┐         ┌─────────────────────┐
│    Control Plane     │         │     Data Plane       │
│    (控制平面)         │         │     (数据平面)        │
│                      │         │                      │
│  ┌───────────────┐   │   mTLS   │   ┌───────────────┐  │
│  │  Admin API    │   │◄────────►│   │  Proxy Only   │  │
│  │  配置管理      │   │   同步    │   │  只做代理      │  │
│  └───────────────┘   │   配置    │   └───────────────┘  │
│                      │         │                      │
│  ┌───────────────┐   │         │   无 Admin API        │
│  │  PostgreSQL   │   │         │   无数据库             │
│  └───────────────┘   │         │                      │
└─────────────────────┘         └─────────────────────┘

工作原理：

控制平面负责配置管理，连接数据库
数据平面只做代理，不连数据库
控制平面通过 mTLS 把配置推送到数据平面
数据平面本地缓存配置，即使控制平面挂了也能继续工作

优点：

数据平面不暴露 Admin API，安全性更高
数据平面不需要数据库，部署更轻量
可以跨机房部署，控制平面集中管理
适合大规模微服务架构

缺点：

架构复杂度增加
需要管理 mTLS 证书

六、负载均衡与服务发现

6.1 负载均衡算法

Kong 支持多种负载均衡算法：

算法	说明	适用场景
round-robin	轮询	通用场景，最常用
consistent-hashing	一致性哈希	需要会话保持的场景
least-connections	最少连接数	后端实例性能不均
latency	最低延迟	对延迟敏感的场景

一致性哈希特别值得说一下。它可以基于不同的维度做哈希：

# 基于 Consumer 做哈希，同一个消费者的请求总是打到同一个后端
curl -X POST http://localhost:8001/upstreams/my-upstream \
  --data name=my-upstream \
  --data hash_on=consumer

# 基于 IP 做哈希
curl -X POST http://localhost:8001/upstreams/my-upstream \
  --data name=my-upstream \
  --data hash_on=ip

# 基于某个 Header 做哈希
curl -X POST http://localhost:8001/upstreams/my-upstream \
  --data name=my-upstream \
  --data hash_on=header \
  --data hash_on_header=X-User-ID

6.2 健康检查

Kong 支持两种健康检查机制：

主动检查（Active Health Checks）

Kong 定期向后端实例发送探测请求：

curl -X POST http://localhost:8001/upstreams/my-upstream/healthcheck \
  --data active.healthy.interval=5 \
  --data active.unhealthy.interval=2 \
  --data active.http_path=/health \
  --data active.http_statuses=200,302

被动检查（Passive Health Checks）

基于实际请求的失败情况来判断后端是否健康（也叫熔断）：

curl -X POST http://localhost:8001/upstreams/my-upstream/healthcheck \
  --data passive.healthy.successes=5 \
  --data passive.unhealthy.tcp_failures=3 \
  --data passive.unhealthy.timeouts=3 \
  --data passive.unhealthy.http_failures=5

两种方式通常配合使用：主动检查发现故障，被动检查在故障发生时快速熔断。

6.3 服务发现

Kong 支持与服务发现系统集成：

方式	说明
DNS SRV	通过 DNS 记录发现服务
Consul	集成 HashiCorp Consul
Kubernetes	直接使用 K8s Service 名称

Kubernetes 集成最常用。在 K8s 里，Kong 直接用 Service 名称做 upstream：

1
2
3

services:
  - name: user-service
    url: http://user-service.default.svc.cluster.local:8080

Kong 会自动解析 K8s Service 的 ClusterIP，不需要手动维护后端实例列表。

七、实战：快速上手

7.1 Docker 一键启动

最简单的方式是用 Docker Compose：

# docker-compose.yml
version: "3.8"

services:
  kong-database:
    image: postgres:15
    environment:
      POSTGRES_USER: kong
      POSTGRES_DB: kong
      POSTGRES_PASSWORD: kong
    volumes:
      - kong-db-data:/var/lib/postgresql/data

  kong-migrations:
    image: kong:3.6
    command: kong migrations bootstrap
    environment:
      KONG_DATABASE: postgres
      KONG_PG_HOST: kong-database
      KONG_PG_USER: kong
      KONG_PG_PASSWORD: kong
    depends_on:
      - kong-database

  kong:
    image: kong:3.6
    environment:
      KONG_DATABASE: postgres
      KONG_PG_HOST: kong-database
      KONG_PG_USER: kong
      KONG_PG_PASSWORD: kong
      KONG_PROXY_ACCESS_LOG: /dev/stdout
      KONG_ADMIN_ACCESS_LOG: /dev/stdout
      KONG_PROXY_ERROR_LOG: /dev/stderr
      KONG_ADMIN_ERROR_LOG: /dev/stderr
      KONG_ADMIN_LISTEN: 0.0.0.0:8001
    ports:
      - "8000:8000"   # Proxy
      - "8443:8443"   # Proxy SSL
      - "8001:8001"   # Admin API
    depends_on:
      - kong-database
      - kong-migrations

volumes:
  kong-db-data:

启动：

1	docker-compose up -d

7.2 配置第一个 API

用 Admin API 注册一个服务和路由：

# 1. 创建服务
curl -X POST http://localhost:8001/services \
  --data "name=httpbin" \
  --data "url=https://httpbin.org"

# 2. 创建路由
curl -X POST http://localhost:8001/services/httpbin/routes \
  --data "name=httpbin-route" \
  --data "paths[]=/httpbin"

# 3. 测试
curl http://localhost:8000/httpbin/get

7.3 加上认证和限流

# 1. 启用 key-auth 插件
curl -X POST http://localhost:8001/services/httpbin/plugins \
  --data "name=key-auth"

# 2. 创建消费者
curl -X POST http://localhost:8001/consumers \
  --data "username=app-001"

# 3. 给消费者分配 API Key
curl -X POST http://localhost:8001/consumers/app-001/key-auth \
  --data "key=my-secret-api-key"

# 4. 测试（不带 Key）
curl http://localhost:8000/httpbin/get
# 返回 401 Unauthorized

# 5. 测试（带 Key）
curl http://localhost:8000/httpbin/get \
  -H "apikey: my-secret-api-key"
# 返回正常数据

# 6. 启用限流插件
curl -X POST http://localhost:8001/services/httpbin/plugins \
  --data "name=rate-limiting" \
  --data "config.minute=10" \
  --data "config.policy=local"

7.4 DB-less 模式启动

如果不想用数据库，直接用声明式配置：

# kong.yml
_format_version: "3.0"

services:
  - name: httpbin
    url: https://httpbin.org
    routes:
      - name: httpbin-route
        paths: ["/httpbin"]
    plugins:
      - name: rate-limiting
        config:
          minute: 100
          policy: local

consumers:
  - username: app-001
    keyauth_credentials:
      - key: my-secret-api-key

1 2	# DB-less 模式启动 KONG_DATABASE=off kong start -c kong.conf --declarative-config kong.yml

八、企业级场景

8.1 多环境管理

实际项目里通常有开发、测试、生产多套环境。Kong 的命名空间（Namespaces）或者用不同的 Kong 实例来隔离：

# 开发环境 Kong
KONG_PROXY_LISTEN=0.0.0.0:8000
KONG_ADMIN_LISTEN=0.0.0.0:8001

# 生产环境 Kong
KONG_PROXY_LISTEN=0.0.0.0:9000
KONG_ADMIN_LISTEN=0.0.0.0:9001

8.2 灰度发布

Kong 的 Canary 插件支持按权重分流：

# 90% 流量打到 v1，10% 打到 v2
curl -X POST http://localhost:8001/services/my-service/plugins \
  --data "name=canary" \
  --data "config.upstream_host=v2.internal" \
  --data "config.upstream_port=8080" \
  --data "config.percentage=10"

8.3 API 版本管理

用 Route 的优先级来做 API 版本管理：

# v1 路由（低优先级）
curl -X POST http://localhost:8001/services/user-v1/routes \
  --data "name=user-v1" \
  --data "paths[]=/api/v1/users" \
  --data "priority=1"

# v2 路由（高优先级，覆盖 v1）
curl -X POST http://localhost:8001/services/user-v2/routes \
  --data "name=user-v2" \
  --data "paths[]=/api/v2/users" \
  --data "priority=10"

8.4 跨域处理

微服务架构下跨域问题很常见，用 CORS 插件统一处理：

curl -X POST http://localhost:8001/services/my-service/plugins \
  --data "name=cors" \
  --data "config.origins=https://app.example.com" \
  --data "config.methods=GET,POST,PUT,DELETE" \
  --data "config.headers=Content-Type,Authorization" \
  --data "config.max_age=3600"

九、Kong vs 其他方案

市面上 API 网关不少，简单对比一下：

维度	Kong	Spring Cloud Gateway	Envoy	APISIX
语言	Lua	Java	C++	Lua
性能	极高	中等	极高	极高
插件生态	⭐⭐⭐⭐⭐	⭐⭐	⭐⭐⭐	⭐⭐⭐⭐
动态配置	✅	✅	✅	✅
管理界面	企业版有	需自己开发	无	有
学习成本	中等	低（Java 生态）	高	中等
K8s 集成	Ingress Controller	较弱	原生支持	Ingress Controller
适用场景	通用	Spring Cloud 体系	Service Mesh	通用

选型建议：

Java 技术栈为主 → Spring Cloud Gateway
Service Mesh 架构 → Envoy
通用场景、插件生态要求高 → Kong 或 APISIX
已经在用 OpenResty → Kong 或 APISIX

十、注意事项与局限性

10.1 性能考量

Kong 的延迟开销通常在 1-5ms（不含插件处理时间），但插件用多了会明显增加延迟。实际压测数据：

1
2
3

无插件：~1ms 延迟，50K+ RPS
3 个插件：~3ms 延迟，30K+ RPS
5+ 个插件：~5-10ms 延迟，20K+ RPS

建议：只启用真正需要的插件，不要为了”以防万一”开启一堆不用的插件。

10.2 Admin API 安全

Admin API 是 Kong 的管理接口，默认监听 8001 端口。生产环境必须限制访问：

# 只允许内网访问
KONG_ADMIN_LISTEN=127.0.0.1:8001

# 或者加认证
KONG_ADMIN_GUI_AUTH=basic-auth

10.3 配置备份

用 DB 模式时，定期备份 PostgreSQL 数据库。用 DB-less 模式时，确保 kong.yml 文件在 Git 里有版本管理。

10.4 日志与监控

生产环境一定要配好日志和监控。推荐组合：

Prometheus 插件 → 暴露指标
Grafana → 可视化
http-log 或 kafka-log → 请求日志持久化

十一、总结

Kong 的核心价值可以概括为三点：

统一收口：把认证、限流、日志这些横切关注点统一到网关层，业务服务只管业务
插件化架构：功能按需启用，支持 Lua/Go/Python/JS 多语言扩展
部署灵活：DB 模式、DB-less 模式、Hybrid 模式，适应不同规模和场景

对于中大型微服务架构，Kong 是一个成熟可靠的选择。小团队或者简单场景，可能 Nginx 手搓配置就够了，没必要上 Kong。但当服务数量上了规模，统一网关的价值就体现出来了。