Skip to content

AI Agent 完全指南

2026年1月更新Agent 元年

2025年被称为"AI Agent 元年"。AI Agent 正从概念走向生产级应用,从"对话助手"进化为能够自主思考、规划、执行任务的"数字员工"。本指南综合了 Google Introduction to Agents 白皮书与 Anthropic Engineering 系列技术文章。

"Agents are the natural evolution of Language Models, made useful in software." — Google


一、📝 什么是 AI Agent?

1.1 核心定义

AI Agent(人工智能智能体) 是基于大型语言模型(LLM)驱动的智能助手,能够:

能力说明
感知 (Perception)读取文本、识别语音、解析图像、捕捉用户行为
决策 (Decision)理解目标后,自主制定执行路径,灵活应对突发情况
行动 (Action)发送邮件、更新系统、生成报告、联动硬件设备
记忆 (Memory)记忆过往互动,检索跨系统数据
学习 (Learning)通过反馈持续优化自身表现

1.2 Agent 的四大核心组成

根据 Google 白皮书,AI Agent 由 模型 + 工具 + 编排层 + 运行时服务 组成:

组成部分类比职责
Model(模型)🧠 大脑核心推理引擎,处理信息、评估选项、做出决策
Tools(工具)🖐️ 双手连接 Agent 推理与外部世界,执行超出文本生成的操作
Orchestration Layer(编排层)🔌 神经系统管理操作循环、处理规划、记忆和推理策略执行
Deployment(部署)🦵 身体与腿使 Agent 成为可靠、可访问的服务,支持监控、日志、管理

本质洞察

Agent 本质上是一个上下文窗口管理系统(Context Window Curation System)。它是一个不断「组装上下文 → 提示模型 → 观察结果 → 重新组装」的循环。通过精心管理模型的"注意力",使其推理能力能够解决新情况并完成目标。

1.3 Agentic 系统的架构区分

根据 Anthropic 的定义,"Agent" 涵盖多种变体,关键的架构区分是:

类型定义特点
Workflow(工作流)LLM 和工具通过预定义的代码路径编排可预测、一致性高、适合明确定义的任务
Agent(智能体)LLM 动态控制自己的处理流程和工具使用灵活性高、适合需要模型主导决策的场景

何时使用 Agent

构建 LLM 应用时,建议从最简单的方案开始,仅在需要时增加复杂度。Agent 通常以延迟和成本换取更好的任务表现,需权衡这种取舍是否值得。

1.4 Agent vs 传统 AI 工具

维度ChatGPT 等对话 AIAI Agent
交互模式一问一答持续工作,异步汇报
自主性被动响应主动规划和执行
工具使用有限灵活调用多种工具
任务复杂度单轮或简单多轮复杂多步骤任务
记忆能力会话内跨会话持久记忆

二、⚙️ Agent 核心架构与模块

2.1 核心模块说明

模块功能
增强型 LLM具备检索、工具调用和记忆能力的 LLM,是 Agent 的基础构建模块
工具调用调用 API、数据库、外部服务,可通过 MCP 标准化接入
记忆管理短期记忆(会话内)+ 长期记忆(跨会话持久化)
规划能力分解任务、制定步骤、动态调整
反思机制评估结果、从错误中学习

2.2 Agent 核心运作循环(Think-Act-Observe)

Agent 通过一个持续的 "思考 → 行动 → 观察" 循环来完成目标。这个循环可以分解为五个基本步骤:

步骤名称说明示例
1️⃣Get the Mission获取高层目标,由用户或自动触发器提供"为团队安排会议差旅"
2️⃣Scan the Scene感知环境,收集上下文检查日历、查询数据库、读取用户历史
3️⃣Think It Through核心"思考"循环,分析任务并制定计划"首先获取团队名单,然后检查日程..."
4️⃣Take Action执行计划的第一步调用 API、运行代码、查询数据库
5️⃣Observe and Iterate观察结果,将新信息加入上下文,返回步骤 3获取结果后更新计划,继续下一步

示例:客户支持 Agent 处理 "我的订单 #12345 在哪里?"

1. Think: "我需要一个多步骤计划:
   ① 在内部数据库中查找订单
   ② 从订单中提取物流追踪号
   ③ 查询快递 API 获取实时状态
   ④ 将信息整合成回复"

2. Act: 调用 find_order("12345")
3. Observe: 获得订单记录和追踪号 "ZYX987"

4. Act: 调用 get_shipping_status("ZYX987")
5. Observe: "派送中"

6. Act: 生成回复 "您的订单 #12345 正在派送中!"

2.3 Agentic 系统分类(Level 0-4)

Google 将 Agentic 系统分为五个层级,每一层都建立在前一层的能力之上:

Level名称核心能力典型应用
Level 0核心推理系统纯 LLM,无工具和环境交互知识问答、概念解释
Level 1连接型问题解决者连接外部工具,访问实时信息搜索代理、RAG 系统
Level 2战略型问题解决者多步骤规划,动态上下文工程复杂搜索、主动助手
Level 3协作式多 Agent 系统专业分工的 Agent 团队项目管理、产品发布
Level 4自我进化系统自主创建新工具和新 Agent研究自动化、自优化系统

Level 0:核心推理系统

LLM 独立运行,仅依靠预训练知识响应。优势是知识深度,劣势是无法获取实时信息。

Level 1:连接型问题解决者

Agent 通过连接外部工具获得实际能力。例如,使用搜索 API 获取昨晚的球赛比分。

Level 2:战略型问题解决者

Agent 能够进行上下文工程(Context Engineering)——主动选择、打包和管理每一步最相关的信息。

示例:"找一家位于我办公室和客户办公室中间的好咖啡店"

  1. 调用地图工具计算中点 → 得到"Millbrae, CA"
  2. 创建新的聚焦搜索 → search("4星以上咖啡店 in Millbrae, CA")
  3. 综合结果呈现给用户

Level 3:协作式多 Agent 系统

不再追求全能的"超级 Agent",而是组建"专家团队"。

示例:项目经理 Agent 收到"发布 Solaris 耳机"任务:

  • 委派给 MarketResearchAgent:"分析竞品定价"
  • 委派给 MarketingAgent:"撰写三版新闻稿"
  • 委派给 WebDevAgent:"生成产品页面 HTML"

Level 4:自我进化系统

Agent 能够识别自身能力的缺口,并动态创建新工具或新 Agent来填补。

示例:项目经理 Agent 发现需要监控社交媒体情绪但没有相应工具:

  1. 元推理:"我需要追踪社交媒体舆情,但我没有这个能力"
  2. 自主创建:调用 AgentCreator 工具创建 SentimentAnalysisAgent
  3. 新 Agent 自动加入团队,开始工作

三、🔄 工作流模式详解

Anthropic 总结了生产环境中常见的 Agentic 模式,从简单到复杂:

3.1 Prompt Chaining(提示链)

将任务分解为顺序执行的步骤,每个 LLM 调用处理上一个的输出。

输入 → [LLM 1: 生成] → 检查点 → [LLM 2: 翻译] → 输出
适用场景示例
任务可清晰分解为固定子任务生成营销文案 → 翻译成其他语言
需要中间检查点确保质量写文档大纲 → 检查大纲 → 基于大纲撰写

3.2 Routing(路由)

对输入进行分类,导向专门的后续处理流程。

输入 → [分类器] → 类型A → [专门处理A]
              → 类型B → [专门处理B]
              → 类型C → [专门处理C]
适用场景示例
复杂任务有不同类别需分别处理客服查询分流:常规问题 / 退款请求 / 技术支持
需根据难度选择不同模型简单问题 → 小模型(省成本),复杂问题 → 大模型(高质量)

3.3 Parallelization(并行化)

多个 LLM 同时工作,结果通过程序聚合。

变体说明示例
Sectioning(分段)将任务拆分为独立子任务并行执行一个模型处理用户请求,另一个筛查不当内容
Voting(投票)对同一任务运行多次获取多样输出多个 Prompt 审查代码漏洞,综合判断

3.4 Orchestrator-Workers(编排-工作者)

中央 LLM 动态分解任务,委派给工作者 LLM,然后综合结果。

          ┌→ [Worker LLM 1] → 结果1 ─┐
[编排器] ─┼→ [Worker LLM 2] → 结果2 ─┼→ [编排器综合]
          └→ [Worker LLM N] → 结果N ─┘
适用场景示例
无法预知需要多少子任务编码产品需修改多个文件
子任务依赖于具体输入搜索任务需从多个来源收集信息

3.5 Evaluator-Optimizer(评估-优化器)

一个 LLM 生成响应,另一个提供评估和反馈,形成迭代循环。

[生成器] → 响应 → [评估器] → 反馈 → [生成器] → 改进响应 → ...
适用场景示例
有明确的评估标准文学翻译,需要多轮润色
迭代优化可带来可衡量的价值复杂搜索任务,需多轮搜索和分析

四、🧠 上下文工程

4.1 什么是上下文工程?

上下文工程(Context Engineering) 是 Prompt Engineering 的自然进化:

概念说明
Prompt Engineering如何编写和组织 LLM 指令以获得最佳结果
Context Engineering在 LLM 推理期间管理和组织最优 Token 集合的策略

上下文污染

研究表明,随着上下文窗口中 Token 数量增加,模型准确回忆信息的能力会下降——这被称为 Context Rot(上下文腐烂)。因此,上下文必须被视为有限资源

4.2 有效上下文的组成

组件最佳实践
系统提示使用简单、直接的语言;在"过于具体"和"过于模糊"之间找到平衡点;用 XML 标签或 Markdown 标题组织不同部分
工具定义功能不重叠、职责明确、返回 Token 高效的信息
示例精选多样、典型的示例,避免堆砌边缘情况
消息历史保持精炼,定期压缩

4.3 上下文检索策略

策略说明
预计算检索传统 RAG,推理前预处理相关数据
即时检索(JIT)Agent 维护轻量级标识符(文件路径、链接),运行时动态加载数据
混合策略部分数据预加载,部分按需探索(如 Claude Code 的 CLAUDE.md 文件 + glob/grep 工具)

4.4 长时间任务的上下文管理

技术说明
Compaction(压缩)对接近上下文窗口限制的对话进行总结,用摘要重新初始化新上下文
Structured Note-taking(结构化笔记)Agent 定期将笔记写入上下文窗口外的持久存储,后续拉回上下文
Sub-agent Architecture(子代理架构)专门的子代理处理聚焦任务,返回精炼摘要给主代理

五、🛠️ 工具设计最佳实践

5.1 ACI:代理-计算机接口

Anthropic 提出 ACI(Agent-Computer Interface) 的概念:设计工具时应投入与 HCI(人机接口)同等的精力

5.2 工具设计原则

原则说明
工具数量最小化更多工具不等于更好效果;过多或重叠的工具会分散 Agent 注意力
针对高影响力工作流构建少量精心设计的工具,而非简单包装现有 API
整合功能一个工具可处理多个离散操作(如 schedule_event 而非分开的 list_users + list_events + create_event
返回高信号信息优先返回自然语言名称,而非技术标识符(如 name 而非 uuid
Token 效率实现分页、过滤、截断,设置合理的默认值

5.3 工具命名与描述

json
{
  "name": "search_contacts",
  "description": "搜索联系人。输入姓名或关键词,返回匹配的联系人列表。不要使用此工具列出所有联系人。",
  "input_schema": {
    "type": "object",
    "properties": {
      "query": {
        "type": "string",
        "description": "搜索关键词,如姓名、邮箱等"
      }
    },
    "required": ["query"]
  }
}

命名空间

当工具数量增多时,使用命名空间帮助区分:asana_projects_searchjira_issues_create

5.4 工具输出格式

格式适用场景
简洁模式中间步骤,节省 Token
详细模式需要完整信息时

可通过 response_format 参数让 Agent 控制输出详细程度。


六、💭 Think 工具:让 Agent 停下来思考

6.1 什么是 Think 工具?

Think 工具 是一种特殊工具,让 Agent 在执行过程中"停下来思考",不执行任何操作,仅记录思考过程。

对比Extended ThinkingThink Tool
时机开始生成响应之前生成响应过程中
用途深度考虑和迭代计划处理新信息、分析工具输出、检查是否有足够信息继续
适用场景不需要调用工具的推理任务复杂工具调用链、政策密集型环境、每步依赖前一步的顺序决策

6.2 Think 工具定义示例

json
{
  "name": "think",
  "description": "用于思考某件事。不会获取新信息或修改任何内容,仅将思考记录到日志。当需要复杂推理或头脑风暴时使用。例如:发现 Bug 后,调用此工具头脑风暴多种修复方案,评估哪种最简单有效。",
  "input_schema": {
    "type": "object",
    "properties": {
      "thought": {
        "type": "string",
        "description": "你的思考内容"
      }
    },
    "required": ["thought"]
  }
}

6.3 何时使用 Think 工具

场景说明
工具输出分析需要仔细处理之前工具调用的输出,可能需要回溯方法
政策密集型环境需要遵循详细指南并验证合规性
顺序决策每个动作都基于前一个,错误代价高昂

七、⏳ 长时间运行的 Agent

7.1 核心挑战

即使有上下文压缩,长时间运行的 Agent 仍面临两个主要问题:

问题表现
一次性完成倾向试图一次性完成所有工作,导致上下文耗尽时功能半完成
过早宣布完成看到已有进展就认为任务完成

7.2 解决方案:环境管理

策略说明
初始化 Agent首次会话使用专门提示:设置 init.sh 脚本、progress.txt 进度日志、初始 Git 提交
增量工作 Agent后续会话:每次只处理一个功能,完成后留下结构化更新
功能列表维护详细的功能需求列表,用 JSON 格式跟踪完成状态
版本控制使用 Git 提交进度,便于回滚和理解变更历史

7.3 典型会话流程

1. 运行 `pwd` 确认工作目录
2. 读取 Git 日志和进度文件,了解最近的工作
3. 读取功能列表,选择优先级最高的未完成功能
4. 运行 `init.sh` 启动开发服务器
5. 端到端测试基本功能,确认应用未损坏
6. 开始实现新功能
7. 完成后更新进度文件,提交 Git

八、🔧 主流 Agent 框架

8.1 框架对比

框架开发者特点适用场景
Google ADKGoogle开源、Gemini 优化、完整安全体系Gemini 生态、生产级 Agent
Claude Agent SDKAnthropic官方支持、上下文管理、长任务优化Claude 生态、生产级 Agent
LangChainLangChain模块化、灵活、生态丰富通用 Agent 开发
LangGraphLangChain图结构工作流复杂任务编排
AutoGenMicrosoft多 Agent 协作团队协作场景
CrewAICrewAI角色扮演 Agent快速原型开发
Semantic KernelMicrosoft企业级集成现有系统整合
Strands Agents SDKAWSAWS 生态集成AWS 环境
LlamaIndexLlamaIndex数据密集型RAG + Agent

8.2 框架使用建议

谨慎使用框架

框架可以简化标准低级任务,但往往创造额外的抽象层,使底层提示和响应更难调试。

建议

  1. 从直接使用 LLM API 开始,很多模式只需几行代码
  2. 如果使用框架,确保理解底层代码
  3. 随着走向生产,考虑减少抽象层

8.3 选择建议

需求推荐框架
快速入门CrewAI / Phidata
Claude 生态Claude Agent SDK
复杂工作流LangGraph
多 Agent 协作AutoGen
企业集成Semantic Kernel
数据密集型LlamaIndex

九、🚀 开发入门指南

9.1 基本开发流程

1. 选择 LLM → Claude / GPT-4 / Gemini / 本地模型

2. 评估复杂度 → 单次 LLM 调用够用?还是需要 Agentic 系统?

3. 选择模式 → Workflow(可预测)vs Agent(灵活)

4. 设计工具 → 精简、高效、职责清晰

5. 上下文工程 → 系统提示 + 工具 + 示例 + 记忆

6. 测试迭代 → 评估 + 优化

9.2 关键概念速查

概念说明
ReActReasoning + Acting,推理与行动交替
Tool CallingAgent 调用外部工具的能力
Chain of Thought思维链,逐步推理
RAG检索增强生成,结合外部知识
Function CallingLLM 生成结构化函数调用
Context Engineering管理 Agent 上下文窗口的策略
MCPModel Context Protocol,工具和数据源的标准化接入协议

十、💡 应用场景

10.1 已验证的高价值场景

领域应用示例为什么 Agent 有效
客服智能客服、工单处理对话式交互 + 工具集成(查询订单、执行退款)
编程代码生成、Bug 修复、代码审查结果可验证(测试通过)、反馈循环明确

10.2 更多场景

领域应用示例
销售线索挖掘、客户跟进
研究文献调研、数据分析
运营内容创作、社交媒体管理
金融投资分析、风险评估
医疗诊断辅助、患者跟踪
HR简历筛选、面试安排

十一、✅ 最佳实践

构建有效 Agent 的三条核心原则

原则说明
1. 保持简单从最简单的方案开始,仅在必要时增加复杂度
2. 优先透明明确展示 Agent 的规划步骤
3. 精心设计 ACI通过充分的工具文档和测试,打造优秀的代理-计算机接口

✅ 推荐做法

实践说明
明确任务边界定义清晰的 Agent 职责范围
工具最小化只提供必要的工具,避免功能重叠
添加防护措施敏感操作需人工确认
记录日志详细记录 Agent 的决策过程
渐进式自主从低自主性开始,逐步提升
沙箱测试在受控环境中充分测试

⚠️ 注意事项

事项说明
幻觉风险Agent 可能基于错误信息行动
安全边界限制 Agent 对敏感系统的访问
成本控制复杂任务可能消耗大量 Token
评估机制建立 Agent 表现评估体系
上下文腐烂长上下文会降低模型性能,需积极管理

十二、📊 Agent Ops:结构化运维

从传统软件到 Agent 系统的转变需要全新的运维理念。Agent Ops 是 DevOps 和 MLOps 的自然演进,专门针对 AI Agent 的独特挑战。

12.1 核心理念

传统软件Agent 系统
输出确定,可用 assert output == expected输出概率性,需要质量评估
单元测试明确 Pass/Fail需要 LLM 评估"质量"——语气、完整性、正确性
断点调试Trace 轨迹分析

12.2 Agent Ops 核心实践

实践说明
度量关键指标将可观测性策略当作 A/B 测试:定义 KPI(目标完成率、用户满意度、延迟、成本、业务影响)
质量评估而非 Pass/Fail使用 LLM as Judge:用强模型评估 Agent 输出,基于预定义 Rubric
指标驱动开发新版本必须在评估数据集上超过旧版本,才能部署
OpenTelemetry Traces 调试完整记录执行轨迹:发送的 Prompt、模型推理、工具选择、参数生成、结果观察
珍视人类反馈用户点"踩"是最宝贵的礼物 → 复现问题 → 转化为永久测试用例

12.3 评估数据集建设

要素说明
Golden Dataset包含理想问题和正确答案的样本集
来源从生产/开发交互中采样
覆盖范围必须覆盖全部预期用例 + 一些意外场景
维护责任产品经理 + 领域专家

十三、🔗 Agent 互操作性

13.1 Agent 与人类交互

交互方式说明
聊天界面最常见形式,用户输入、Agent 返回文本/结构化数据
Computer UseLLM 控制用户界面,在人类监督下操作
MCP UI通过 MCP 工具控制 UI
AG UI通过事件传递和共享状态控制 UI
A2UI通过结构化输出生成定制界面
Live Mode双向流式通信(Gemini Live API),支持语音打断,接近自然对话

13.2 Agent 与 Agent 交互(A2A 协议)

Agent2Agent (A2A) 是 Agent 互联互通的开放标准:

组件说明
Agent Card数字"名片",JSON 格式,描述 Agent 能力、端点、安全凭证
Task-Oriented Architecture交互以异步"任务"为框架,支持长连接流式更新
与 MCP 区别MCP 解决事务性请求,A2A 用于额外问题解决

A2A 的意义

A2A 将孤立的 Agent 转变为真正可互操作的生态系统,是实现 Level 3+ 多 Agent 协作系统的关键基础设施。

13.3 Agent 与金钱

当 Agent 代表用户进行交易时,产生信任危机——如果出错,谁负责?

协议说明
Agent Payments Protocol (AP2)扩展 A2A,引入加密签名的"授权书",作为用户意图的不可否认证明
x402使用 HTTP 402 状态码实现无摩擦的机器对机器微支付

十四、🧬 Agent 进化与学习

14.1 为什么 Agent 需要持续学习?

在动态环境中运行的 Agent 会随时间"老化"——政策变更、技术更新、数据格式变化都会导致性能下降。

14.2 学习来源

来源内容
运行时经验会话日志、Traces、记忆——记录成功、失败、工具交互、决策轨迹
HITL 反馈人类纠正和指导,最权威的学习信号
外部信号新政策文件、法规更新、其他 Agent 的评价

14.3 优化技术

技术说明
增强上下文工程持续优化 Prompt、Few-shot 示例、记忆检索
工具优化与创建识别能力缺口 → 获取/创建/修改工具

14.4 Agent Gym:下一前沿

Agent Gym 是一种离线优化平台,用于训练和进化 Agent:

特性说明
不在执行路径独立的离线平台,可使用任何 LM 和工具
模拟环境Agent 在合成数据上"练习",进行试错优化
合成数据生成生成真实场景的压力测试(红队、动态评估)
工具库扩展动态采用新工具(MCP/A2A)或学习新概念创建工具
连接人类专家遇到边缘情况时咨询领域专家获取"部落知识"

十五、🚀 高级 Agent 示例

15.1 Google Co-Scientist

Co-Scientist 是一个虚拟研究合作者,通过系统性探索复杂问题空间来加速科学发现。

组件职责
Supervisor Agent项目经理,委派任务、分配资源
Querying Agent检索原始数据
Reporting Agent综合数据生成报告草稿
Critiquing Agent根据合规准则审核报告,必要时提交人类专家
Learning Agent观察全流程,将人类纠正泛化为可复用准则

工作模式:多个 Agent 协作数小时甚至数天,持续改进生成的假设,不仅改进生成的想法,还改进评判和创建想法的方法。

15.2 AlphaEvolve

AlphaEvolve 是一个发现和优化算法的 AI Agent,用于数学和计算机科学的复杂问题。

特点说明
核心方法进化过程 + 自动化评估系统
工作流程AI 生成方案 → 评估器打分 → 最佳方案作为下一代灵感
已有突破改进 Google 数据中心效率、发现更快的矩阵乘法算法、解决开放数学问题

人机协作特点

  • 透明方案:生成人类可读代码,用户可以理解、信任并修改
  • 专家引导:人类专家优化评估指标、引导探索方向,防止系统利用漏洞

十六、📈 2025-2026 趋势

趋势说明
上下文工程成为核心技能从 Prompt Engineering 进化到 Context Engineering
Agent Ops 学科成熟专门针对 Agent 的评估、调试、安全和扩展方法论
长时间运行 Agent跨多个上下文窗口持续工作的 Agent
多 Agent 协作专业分工的 Agent 团队,子代理架构
A2A 协议普及Agent2Agent 成为 Agent 互联互通标准
Agent 平台化企业级 Agent 治理与管理平台
MCP 标准化Model Context Protocol 成为工具接入标准
自进化 AgentAgent 能够创建新工具和新 Agent 填补能力缺口
Agent Gym离线模拟环境训练和优化 Agent
垂直行业 Agent行业专属解决方案(医疗、金融、法律)
Agent 支付与经济为 Agent 交易建立信任和责任框架

📚 推荐阅读

Google 白皮书系列

资源链接
Introduction to Agentskaggle.com/whitepaper-agents
Agents Companionkaggle.com/whitepaper-agent-companion
Google ADK 文档google.github.io/adk-docs

Anthropic Engineering 文章

如果你刚开始学习 AI Agent 开发,建议按以下顺序阅读:

  1. Building effective agents — 理解 Agent 的基本概念和架构
  2. The "think" tool — 了解如何提升 Agent 的推理能力
  3. Effective context engineering — 掌握上下文管理技巧
  4. Writing effective tools for agents — 学习工具设计最佳实践
  5. Effective harnesses for long-running agents — 解决复杂场景下的 Agent 运行问题

更多文章参见 Anthropic Engineering 文章合集

学术论文

论文说明
ReActSynergizing Reasoning and Acting in Language Models
Chain-of-ThoughtChain-of-Thought Prompting Elicits Reasoning
τ-benchA Benchmark for Tool-Agent-User Interaction
MLGymA Framework for Advancing AI Research Agents

← 返回 AI 知识库