AI 应用架构模式完全指南

"从 Demo 到生产的距离，比想象中更远——好的架构是成功的一半。"

AI 应用架构 是指设计和部署 AI 系统的技术模式与最佳实践。本指南涵盖生产级 LLM 应用的架构设计、部署策略、成本监控和可观测性。

2025 现状

将 AI 从实验推向生产需要在基础设施、算力、数据和人才方面进行大量投资。成熟的架构模式正在成为企业竞争优势。

一、AI 应用架构概述

1.1 架构演进阶段

阶段	特点	典型形态
Prototype	快速验证、单体应用	Jupyter Notebook + API
MVP	基本功能、简单部署	单服务+简单监控
Production	高可用、可扩展	微服务+完整运维
Enterprise	多团队、治理合规	平台化+MLOps/LLMOps

1.2 核心架构需求

需求	说明	关键考量
可扩展性	应对负载变化	水平扩展、弹性伸缩
可靠性	持续稳定服务	容错、降级、重试
可观测性	理解系统状态	日志、指标、追踪
安全性	保护数据和系统	认证、加密、审计
成本效率	控制运营成本	资源优化、缓存
可维护性	易于更新迭代	模块化、版本控制

二、主流架构模式

2.1 架构模式对比

模式	适用场景	优势	复杂度
API-Centric	简单问答应用	快速部署	低
RAG 模式	知识密集型应用	准确可靠	中
Agent 模式	复杂任务自动化	灵活强大	高
Workflow 编排	多步骤业务流程	可控可审计	中
微服务	大规模企业应用	独立扩展	高
事件驱动	实时处理场景	解耦高效	中

2.2 API-Centric 架构

最简单的 LLM 应用架构：

用户请求 → API Gateway → LLM Service → LLM API → 响应

组件	职责
API Gateway	认证、限流、路由
LLM Service	Prompt 管理、上下文处理
LLM API	OpenAI/Claude/Gemini 等
缓存层	减少重复调用

2.3 RAG 架构

适合知识密集型应用：

组件	职责	技术选型
文档处理	解析、分块	Unstructured, Docling
向量数据库	存储嵌入向量	Pinecone, Qdrant, Weaviate
检索服务	相似度搜索	混合搜索、重排序
生成服务	LLM 响应生成	GPT-4o, Claude, Gemini
编排层	流程控制	LangChain, LlamaIndex

2.4 Agentic 架构

适合自主任务执行：

组件	职责	类比
Agent Core（Model）	推理、决策、规划	🧠 大脑
Tool Registry	工具注册和管理	🖐️ 双手
Orchestration Layer	管理操作循环、记忆、策略执行	🔌 神经系统
Memory Store	短期/长期记忆	💾 记忆
Executor	工具调用执行	⚡ 肌肉
Deployment Services	托管、监控、日志、管理	🦵 身体与腿

Agent 部署与服务

在本地构建 Agent 适合原型开发，但生产部署需要完整的服务支持：

服务类别	说明	技术选型
会话管理	维护对话历史和状态	Redis, PostgreSQL
记忆持久化	跨会话持久存储	向量数据库 + KV 存储
日志与追踪	记录 Agent 决策轨迹	OpenTelemetry, Langfuse
安全与合规	数据隐私、数据驻留	VPC, 加密
API 网关	认证、限流、路由	Kong, API Gateway

部署选项：

选项	适用场景	工具
托管平台	快速部署、一站式	Vertex AI Agent Engine
容器化	控制度高、DevOps 集成	Cloud Run, GKE, Docker
Serverless	弹性扩展、按需计费	Cloud Functions

Google 建议

对于初次部署，使用托管平台的 deploy 命令快速上线。生产就绪需要更大投入，包括 CI/CD 和自动化测试。

2.5 微服务架构

企业级 AI 应用：

服务	职责	扩展策略
Gateway Service	入口、认证	水平扩展
Prompt Service	提示词管理	按需扩展
Embedding Service	向量化	GPU 弹性
Retrieval Service	检索	读副本扩展
Generation Service	LLM 调用	按模型分组
Orchestration Service	流程编排	事件驱动

三、生产部署策略

3.1 部署模式

模式	说明	适用场景
Serverless	按需计算、自动扩缩	流量波动大
Container	Docker/K8s 部署	标准企业环境
VM 部署	虚拟机直接部署	简单场景
边缘部署	本地/边缘设备	低延迟、隐私
混合部署	云+边缘组合	综合需求

3.2 部署策略

策略	说明	风险级别
蓝绿部署	两套环境切换	低
金丝雀发布	小流量验证	低
滚动更新	逐步替换实例	中
A/B 测试	对比不同版本效果	低
影子模式	生产流量复制测试	低

3.3 部署检查清单

阶段	检查项
部署前	安全扫描、性能测试、回滚计划
部署中	健康检查、指标监控、告警就绪
部署后	功能验证、性能基线、错误率监控

3.4 Kubernetes 部署示例

yaml

apiVersion: apps/v1
kind: Deployment
metadata:
  name: llm-service
spec:
  replicas: 3
  selector:
    matchLabels:
      app: llm-service
  template:
    metadata:
      labels:
        app: llm-service
    spec:
      containers:
      - name: llm-service
        image: llm-service:v1.0
        resources:
          requests:
            memory: "1Gi"
            cpu: "500m"
          limits:
            memory: "2Gi"
            cpu: "1000m"
        env:
        - name: OPENAI_API_KEY
          valueFrom:
            secretKeyRef:
              name: llm-secrets
              key: openai-key
        livenessProbe:
          httpGet:
            path: /health
            port: 8080
        readinessProbe:
          httpGet:
            path: /ready
            port: 8080

四、LLMOps 实践

4.1 LLMOps vs MLOps

方面	MLOps	LLMOps
模型来源	自建训练	调用 API + 微调
核心资产	模型权重	Prompt + Context
版本控制	模型版本	Prompt + 配置版本
评估方式	精确指标	人类评估 + 自动评估
关键挑战	特征工程	Prompt 工程、RAG 优化

4.2 LLMOps 核心组件

组件	职责	推荐工具
Prompt 管理	版本控制、A/B 测试	Langfuse, PromptLayer
模型路由	多模型调度	LiteLLM, OpenRouter
评估系统	自动化评估	RAGAS, Braintrust
监控追踪	可观测性	LangSmith, Arize
成本管理	用量分析	自建 + 平台工具

4.3 Prompt 版本管理

python

# Prompt 模板管理示例
class PromptManager:
    def __init__(self):
        self.prompts = {}
        self.versions = {}
    
    def register(self, name: str, template: str, version: str):
        """注册 Prompt 模板"""
        key = f"{name}:{version}"
        self.prompts[key] = template
        if name not in self.versions:
            self.versions[name] = []
        self.versions[name].append(version)
    
    def get(self, name: str, version: str = "latest") -> str:
        """获取 Prompt 模板"""
        if version == "latest":
            version = self.versions[name][-1]
        return self.prompts[f"{name}:{version}"]
    
    def rollback(self, name: str, version: str):
        """回滚到指定版本"""
        # 实现版本回滚逻辑
        pass

4.4 模型路由策略

策略	说明	适用场景
成本优先	优先使用便宜模型	预算敏感
质量优先	优先使用最强模型	质量关键
智能路由	根据任务复杂度选择	平衡场景
负载均衡	分散到多个提供商	高可用
故障转移	主模型失败时切换	容错

五、可观测性

5.1 LLM 可观测性三支柱

支柱	内容	关键指标
日志	Prompt、响应、元数据	完整交互记录
指标	延迟、吞吐量、成本	性能和业务指标
追踪	请求完整链路	端到端调用链

5.2 关键监控指标

类别	指标	告警阈值
延迟	P50/P95/P99 响应时间	P99 > 5s
可用性	成功率	< 99.5%
吞吐量	QPS	接近容量限制
Token 用量	输入/输出 Token	超预算
成本	每请求成本	环比增长 >20%
质量	幻觉率、相关性	低于基线

5.3 LLM 交互日志结构

python

@dataclass
class LLMInteractionLog:
    # 请求信息
    request_id: str
    timestamp: datetime
    user_id: str
    session_id: str
    
    # 模型信息
    model: str
    model_version: str
    provider: str
    
    # 输入输出
    prompt: str
    prompt_template_id: str
    completion: str
    
    # 性能指标
    latency_ms: int
    input_tokens: int
    output_tokens: int
    total_tokens: int
    
    # 成本
    cost_usd: float
    
    # 质量指标（可选）
    user_feedback: Optional[int]
    auto_eval_score: Optional[float]

5.4 可观测性工具详细对比

工具	类型	开源	核心能力	最佳场景
LangSmith	专用 LLM	❌	深度 LangChain 集成、Agent 调试、Prompt Playground	LangChain 项目
Langfuse	专用 LLM	✅	全链路追踪、成本追踪、自托管、OpenTelemetry	需自托管、预算敏感
Arize Phoenix	专用 LLM	✅	RAG 分析、漂移检测、Notebook 集成	RAG 应用、ML 团队
Arize AX	企业级	❌	Phoenix 企业版、SSO/RBAC、托管服务	企业大规模部署
Braintrust	专用 LLM	❌	评估、Prompt Playground、实验追踪	评估驱动开发
Helicone	专用 LLM	✅	代理模式、低侵入、成本分析	快速集成
Datadog	通用 APM	❌	企业级、全栈监控、LLM Observability 插件	已有 Datadog 用户
Grafana	通用监控	✅	灵活仪表盘、开源、可扩展	自建监控体系

选择建议：

LangChain 项目 → LangSmith（最佳集成）
需要自托管 → Langfuse（开源、可控）
RAG 重度应用 → Arize Phoenix（RAG 分析强）
快速集成 → Helicone（代理模式无需改代码）

5.5 追踪集成示例

python

from langfuse import Langfuse
from openai import OpenAI

langfuse = Langfuse()
client = OpenAI()

def generate_with_tracing(prompt: str, user_id: str):
    # 创建追踪
    trace = langfuse.trace(
        name="chat-generation",
        user_id=user_id,
        metadata={"source": "api"}
    )
    
    # 创建生成 span
    generation = trace.generation(
        name="openai-chat",
        model="gpt-4o",
        input=prompt
    )
    
    try:
        response = client.chat.completions.create(
            model="gpt-4o",
            messages=[{"role": "user", "content": prompt}]
        )
        
        output = response.choices[0].message.content
        
        # 记录输出
        generation.end(
            output=output,
            usage={
                "input": response.usage.prompt_tokens,
                "output": response.usage.completion_tokens
            }
        )
        
        return output
        
    except Exception as e:
        generation.end(status_message=str(e), level="ERROR")
        raise

六、成本监控与优化

6.1 成本构成分析

成本项	占比（典型）	优化空间
LLM API 调用	40-60%	高
Embedding API	10-20%	中
向量数据库	10-15%	中
计算资源	15-25%	中
存储	5-10%	低

6.2 成本优化策略详解

策略类别	策略	节省幅度	实施难度	说明
Token 优化	Prompt 精简	20-40%	低	删除冗余词、用列表代替段落
Token 优化	RAG 上下文裁剪	50-70%	中	只传必要上下文
Token 优化	输出长度限制	10-30%	低	max_tokens 控制
模型选择	智能路由	50-80%	中	简单任务用小模型
模型选择	模型量化	30-50%（自托管）	高	8-bit/4-bit 量化
缓存	语义缓存	30-70%	中	相似查询复用
缓存	Embedding 缓存	40-60%	低	避免重复嵌入
批处理	请求聚合	15-25%	低	批量 API 调用
部署	自托管	50-80%	高	免 API 费用

6.3 缓存策略详解

缓存类型	原理	适用场景	节省幅度	工具
精确匹配	查询完全相同	高重复查询	100%（命中时）	Redis
语义缓存	Embedding 相似度匹配	意图相似查询	30-70%	GPTCache, Redis+向量
KV 缓存	存储 Transformer 中间状态	长对话、连续生成	20-40%	vLLM 内置
Embedding 缓存	缓存文档向量	RAG 应用	40-60%	向量数据库
部分响应缓存	缓存中间结果	多步骤工作流	10-30%	自建

语义缓存实现示例：

python

import numpy as np
from openai import OpenAI
import redis

client = OpenAI()
cache = redis.Redis()

def semantic_cache_query(query: str, threshold: float = 0.92):
    """语义缓存查询"""
    # 1. 生成查询 embedding
    query_embedding = client.embeddings.create(
        model="text-embedding-3-small",
        input=query
    ).data[0].embedding
    
    # 2. 搜索相似缓存
    cached_items = cache.hgetall("semantic_cache")
    for key, value in cached_items.items():
        cached = json.loads(value)
        similarity = np.dot(query_embedding, cached["embedding"])
        if similarity >= threshold:
            return cached["response"], True  # 命中缓存
    
    # 3. 未命中，调用 LLM
    response = call_llm(query)
    
    # 4. 存入缓存
    cache.hset("semantic_cache", query, json.dumps({
        "embedding": query_embedding,
        "response": response
    }))
    
    return response, False

6.4 成本监控仪表盘

指标	维度	告警条件
日成本	总计/按模型/按用户	超预算 20%
单请求成本	按模型/按功能	异常偏高
Token 效率	输入/输出比	比例异常
缓存命中率	按缓存类型	低于 30%
成本趋势	周/月对比	增长过快

七、高可用与容错

7.1 高可用设计原则

原则	说明
冗余	多实例、多区域部署
隔离	故障域隔离
降级	核心功能优先保障
限流	保护后端服务
熔断	快速失败、避免级联

7.2 容错策略

策略	说明	实现方式
超时控制	避免无限等待	设置合理超时
重试机制	处理瞬时故障	指数退避
降级响应	主服务不可用时	缓存响应/简化模型
多提供商	避免单点依赖	OpenAI+Claude+Gemini
限流保护	防止过载	令牌桶/滑动窗口

7.3 降级方案示例

python

class LLMService:
    def __init__(self):
        self.primary = OpenAI()
        self.fallback_models = ["gpt-4o-mini", "gpt-3.5-turbo"]
        self.cache = RedisCache()
    
    async def generate(self, prompt: str) -> str:
        # 1. 检查缓存
        cached = await self.cache.get(prompt)
        if cached:
            return cached
        
        # 2. 尝试主模型
        try:
            return await self._call_model("gpt-4o", prompt)
        except Exception as e:
            logger.warning(f"Primary model failed: {e}")
        
        # 3. 尝试降级模型
        for model in self.fallback_models:
            try:
                return await self._call_model(model, prompt)
            except Exception as e:
                logger.warning(f"Fallback {model} failed: {e}")
        
        # 4. 最终降级
        return "抱歉，服务暂时不可用，请稍后重试。"

八、安全与合规

8.1 生产安全检查清单

类别	检查项
认证授权	API Key 加密存储、最小权限原则
数据安全	传输加密、敏感数据脱敏
输入验证	Prompt 注入防护、输入长度限制
输出过滤	内容安全审核、PII 过滤
审计日志	完整的操作记录
访问控制	基于角色的权限管理

8.2 合规要求

法规	关键要求	应对措施
GDPR	数据保护、删除权	数据最小化、审计
EU AI Act	高风险 AI 合规	风险评估、文档化
SOC 2	安全控制	控制实施、审计
HIPAA	健康数据保护	加密、访问控制

九、工具与平台

9.1 LLMOps 平台详细对比

平台	开源	核心功能	特点	适用场景
LangSmith	❌	追踪、Prompt、评估	LangChain 深度集成、Agent 调试	LangChain 项目
Langfuse	✅	追踪、成本、评估	自托管、OpenTelemetry、50+ 集成	开源优先团队
Arize Phoenix	✅	追踪、RAG 分析、漂移检测	ML 监控背景、Notebook 友好	RAG/ML 团队
Braintrust	❌	评估、实验、Prompt	评估为核心、A/B 测试	评估驱动开发
Weights & Biases	❌	实验追踪、评估	ML 实验管理背景	ML 团队
TrueFoundry	❌	端到端 LLMOps	完整平台、多模型服务	企业级
Dify	✅	低代码开发、RAG	可视化构建、快速原型	非技术团队
Helicone	✅	代理监控、成本	无侵入集成	快速接入

9.2 基础设施选型

组件	推荐选型	备选方案
容器编排	Kubernetes	Docker Compose
API 网关	Kong, Nginx	AWS API Gateway
消息队列	Redis, RabbitMQ	Kafka
监控	Prometheus + Grafana	Datadog
日志	ELK Stack	Loki
追踪	Jaeger, Zipkin	Datadog APM

十、2025-2026 趋势

趋势	说明
平台化 LLMOps	一站式 LLM 运维平台
AI 基础设施即代码	声明式 AI 资源管理
智能成本优化	AI 驱动的成本优化
边云协同	云端+边缘混合部署
自动化评估	LLM as Judge 评估
Agent 运维体系	专门的 Agent 监控治理

核心建议

渐进式演进：从简单架构开始，按需复杂化
可观测性优先：第一天就部署完整监控
成本意识：持续监控和优化成本
安全内建：安全考量融入设计阶段
自动化运维：减少人工干预，提高效率

← 返回 AI 知识库

AI 应用架构模式完全指南 ​

一、AI 应用架构概述 ​

1.1 架构演进阶段 ​

1.2 核心架构需求 ​

二、主流架构模式 ​

2.1 架构模式对比 ​

2.2 API-Centric 架构 ​

2.3 RAG 架构 ​

2.4 Agentic 架构 ​

Agent 部署与服务 ​

2.5 微服务架构 ​

三、生产部署策略 ​

3.1 部署模式 ​

3.2 部署策略 ​

3.3 部署检查清单 ​

3.4 Kubernetes 部署示例 ​

四、LLMOps 实践 ​

4.1 LLMOps vs MLOps ​

4.2 LLMOps 核心组件 ​

4.3 Prompt 版本管理 ​

4.4 模型路由策略 ​

五、可观测性 ​

5.1 LLM 可观测性三支柱 ​

5.2 关键监控指标 ​

5.3 LLM 交互日志结构 ​

5.4 可观测性工具详细对比 ​

5.5 追踪集成示例 ​

六、成本监控与优化 ​

6.1 成本构成分析 ​

6.2 成本优化策略详解 ​

6.3 缓存策略详解 ​

6.4 成本监控仪表盘 ​

七、高可用与容错 ​

7.1 高可用设计原则 ​

7.2 容错策略 ​

7.3 降级方案示例 ​

八、安全与合规 ​

8.1 生产安全检查清单 ​

8.2 合规要求 ​

九、工具与平台 ​

9.1 LLMOps 平台详细对比 ​

9.2 基础设施选型 ​

十、2025-2026 趋势 ​

AI 应用架构模式完全指南

一、AI 应用架构概述

1.1 架构演进阶段

1.2 核心架构需求

二、主流架构模式

2.1 架构模式对比

2.2 API-Centric 架构

2.3 RAG 架构

2.4 Agentic 架构

Agent 部署与服务

2.5 微服务架构

三、生产部署策略

3.1 部署模式

3.2 部署策略

3.3 部署检查清单

3.4 Kubernetes 部署示例

四、LLMOps 实践

4.1 LLMOps vs MLOps

4.2 LLMOps 核心组件

4.3 Prompt 版本管理

4.4 模型路由策略

五、可观测性

5.1 LLM 可观测性三支柱

5.2 关键监控指标

5.3 LLM 交互日志结构

5.4 可观测性工具详细对比

5.5 追踪集成示例

六、成本监控与优化

6.1 成本构成分析

6.2 成本优化策略详解

6.3 缓存策略详解

6.4 成本监控仪表盘

七、高可用与容错

7.1 高可用设计原则

7.2 容错策略

7.3 降级方案示例

八、安全与合规

8.1 生产安全检查清单

8.2 合规要求

九、工具与平台

9.1 LLMOps 平台详细对比

9.2 基础设施选型

十、2025-2026 趋势