「JS全栈AI学习」十一、Multi-Agent 系统设计：可观测性与生产实践

📌 系列简介：「JS全栈AI学习」记录 AI 应用开发的完整学习过程，篇数随进度持续更新。 前端转 JS 全栈，正在学 AI，理解难免有偏差，欢迎批评指正 ~

写在前面#

前两篇把 Multi-Agent 系统从”能跑”做到了”跑得稳”——架构选型、动态编排、成本优化、容错降级。

九、十、十一 3篇对应学习的第15章：Multi-Agent 系统架构、第16章：工作流编排与规划、第17章：成本优化与执行策略很多孤立起来说没意义，加上 multi-agent 比较重要就放一起了这里的例子可理解为 AI 给我的作业，实际只有思路，并没有真的跑起来实际业务 ~ 仅供参考

但有一天，用户投诉：

“为什么给我推荐的酒店这么贵？我明明说了预算有限！”

我想回答这个问题，却发现：

NLU Agent 是怎么理解”预算有限”的？不知道
Profile Agent 推断的用户类型是什么？不知道
Planner Agent 为什么选了这个酒店档次？不知道
整个流程耗时多久？哪个环节最慢？不知道

系统变成了一个黑盒。

这让我意识到：能跑、跑得稳，还不够——还要看得见。

可观测性（Observability）不是锦上添花，是生产级系统的必备能力。

这篇是 Multi-Agent 系列的最后一篇，聚焦三件事：日志、链路追踪、决策解释，以及一些生产环境的实践经验。

1. 可观测性的三大支柱#

可观测性不是单一的技术，而是三个维度的结合：

1
Logs（日志）    → 回答"某个时刻，系统的状态是什么？"
2
Traces（链路）  → 回答"一个请求经过了哪些 Agent？每个环节耗时多久？"
3
Metrics（指标） → 回答"系统整体表现如何？有没有异常？"

三者缺一不可：

只有日志，能看到事件，但看不到全局路径
只有链路，能看到路径，但看不到细节
只有指标，能看到趋势，但定位不了具体问题

2. 日志设计#

结构化日志#

先看两种日志的对比：

1
// ❌ 非结构化：格式不统一，无法关联请求，难以分析
2
console.log("Flight Agent started querying flights for Beijing");
3

4
// ✅ 结构化：可按字段查询，可聚合分析，可追踪到具体请求
5
logger.info({
6
  timestamp: "2026-04-06T22:45:30.123Z",
7
  level: "INFO",
8
  traceId: "req_abc123",   // 关键：把这条日志和请求绑定
9
  agentId: "flight_agent",
10
  action: "query_flights_start",
11
  context: { destination: "北京", budget: 5000 },
12
});

结构化日志最关键的字段是 traceId——它把一个请求的所有日志串联起来，是后续链路追踪的基础。

记录哪些节点？#

不是所有代码都需要日志，关键是抓住四个节点：

1
class ObservableAgent {
2
  async execute(context: Context): Promise<Result> {
3
    const startTime = Date.now();
4

5
    // 1. Agent 开始
6
    logger.info({ traceId, agentId, action: 'agent_start' });
7

8
    try {
9
      // 2. 外部 API 调用前后（记录耗时）
10
      logger.debug({ traceId, agentId, action: 'api_call_start', api: 'flight_api' });
11
      const result = await this.callExternalAPI();
12
      logger.debug({ traceId, agentId, action: 'api_call_done', count: result.length });
13

14
      // 3. 决策点（最重要！记录为什么选这个）
15
      const selected = this.selectBestOption(result);
16
      logger.info({
17
        traceId, agentId, action: 'decision_made',
18
        selected: selected.id,
19
        reason: '价格最优，在预算范围内',
20
      });
21

22
      // 4. Agent 完成
23
      logger.info({ traceId, agentId, action: 'agent_complete', duration: Date.now() - startTime });
24
      return selected;
25

26
    } catch (error) {
27
      // 5. 错误（单独捕获，带完整上下文）
28
      logger.error({ traceId, agentId, action: 'agent_error', error, duration: Date.now() - startTime });
29
      throw error;
30
    }
31
  }
32
}

决策点的日志是最容易被忽略的，也是最有价值的——它回答了”为什么得到这个结果”，是后面决策解释的数据来源。

日志级别#

1
DEBUG → 详细调试信息（只在开发环境开启）
2
INFO  → 关键节点和决策点（生产环境的基准）
3
WARN  → 使用了降级策略、潜在问题
4
ERROR → 异常和错误

生产环境用 INFO 级别，不要用 DEBUG——否则日志量会爆炸，反而找不到有用的信息。

3. 链路追踪#

日志告诉我们”发生了什么”，但看不到”完整的路径”。这就需要链路追踪。

核心概念：Trace 和 Span#

1
Trace：一个完整的请求链路（从用户发起到返回结果）
2
Span：链路中的一个环节（每个 Agent 的执行是一个 Span）
3

4
Trace
5
  └─ Span（Coordinator）
6
       ├─ Span（NLU Agent）
7
       ├─ Span（Planner Agent）
8
       └─ Span（并行查询）
9
            ├─ Span（Flight Agent）
10
            ├─ Span（Hotel Agent）
11
            └─ Span（Attraction Agent）

Span 之间有父子关系，通过 parentSpanId 连接。

TraceId 的传递#

TraceId 要在所有 Agent 间传递，这是链路追踪的核心：

1
class Coordinator {
2
  async execute(userInput: string): Promise<Result> {
3
    const traceId = generateTraceId(); // 在入口生成，全程传递
4
    const rootSpan = tracer.startSpan({ traceId, agentId: 'coordinator' });
5

6
    // 调用其他 Agent 时，传递 traceId 和 parentSpanId
7
    const intent = await this.nluAgent.execute({
8
      userInput,
9
      traceId,
10
      parentSpanId: rootSpan.spanId, // NLU 的 Span 挂在 Coordinator 下面
11
    });
12

13
    tracer.endSpan(rootSpan);
14
    return result;
15
  }
16
}

可视化链路#

有了 Trace 数据，就能可视化整个请求路径：

1
Coordinator          ████████████████████████████████ 5000ms
2
  NLU Agent          ████ 400ms
3
  Planner Agent      ████ 400ms
4
  Flight Agent       ████████████████████████ 2300ms  ← 性能瓶颈
5
  Hotel Agent        █████████████████ 1700ms
6
  Attraction Agent   █████████ 900ms

一眼就能看出：Flight Agent 是瓶颈，占了总耗时的 46%。

这是我在做前端性能优化时就熟悉的思路——先找到最慢的那个，再想怎么优化。在 Multi-Agent 里，工具换了，逻辑是一样的。

4. 决策解释#

这是这篇里我觉得最有价值的部分。

AI 系统最大的”黑盒”问题，不是技术上看不到，而是用户不知道为什么得到这个结果。

记录决策依据#

每次做决策，都记录下来：选了什么、有哪些选项、为什么选这个：

1
class ExplainableHotelAgent {
2
  async selectHotel(hotels: Hotel[], context: Context): Promise<Hotel> {
3
    // 对每个酒店打分，记录各维度的权重和影响
4
    const scored = hotels.map(hotel => ({
5
      hotel,
6
      score: this.calculateScore(hotel, context),
7
      factors: [
8
        { name: '价格',  weight: 0.4, impact: this.priceFit(hotel.price, context.budget) },
9
        { name: '位置',  weight: 0.3, impact: this.locationScore(hotel.distanceToCenter) },
10
        { name: '评分',  weight: 0.2, impact: hotel.rating / 5 },
11
        { name: '设施',  weight: 0.1, impact: this.facilityScore(hotel.facilities) },
12
      ],
13
    }));
14

15
    const best = scored.sort((a, b) => b.score - a.score)[0];
16

17
    // 记录决策（这条记录是后续解释的数据来源）
18
    decisionLog.record({
19
      agentId: 'hotel_agent',
20
      action: 'select_hotel',
21
      options: hotels.length,
22
      selected: best.hotel.id,
23
      factors: best.factors,
24
      reason: this.buildExplanation(best),
25
    });
26

27
    return best.hotel;
28
  }
29
}

展示给用户#

当用户问”为什么推荐这个酒店”时，直接从决策记录里取：

1
📊 推荐理由 · 三亚某酒店
2

3
1. 价格：500元/晚（权重 40%）
4
   预算 5000元 / 4晚 = 1250元/晚上限，500元在范围内，性价比高
5

6
2. 位置：距海滩 200m（权重 30%）
7
   符合您的偏好：海边度假
8

9
3. 评分：4.8 / 5.0（权重 20%）
10
   基于 1234 条用户评价
11

12
综合得分：8.7 / 10

这就把黑盒变成了白盒——用户看得见推荐的依据，信任感自然建立起来。

5. 性能监控与告警#

关键指标#

监控系统健康，最重要的三个维度：

1
延迟（Latency）  → P50 / P95 / P99，而不是平均值
2
成功率           → 成功请求 / 总请求
3
错误率           → 失败请求 / 总请求

为什么关注 P95/P99，而不是平均值？

平均值会被极端值拉偏。P95 表示”95% 的请求在这个时间内完成”——更能反映真实的用户体验。如果 P95 是 5 秒，说明有 5% 的用户每次都在等 5 秒以上，这是真实的问题。

告警规则#

指标异常时自动触发告警：

1
const alertRules = [
2
  {
3
    name: '错误率过高',
4
    condition: (m: Metrics) => m.errorRate > 0.1,       // 错误率 > 10%
5
    severity: 'critical',
6
  },
7
  {
8
    name: '响应过慢',
9
    condition: (m: Metrics) => m.latency.p95 > 5000,    // P95 > 5s
10
    severity: 'warning',
11
  },
12
];

告警不是越多越好——告警太多会让人麻木，反而忽略真正重要的问题。只对真正需要人工介入的情况告警，其他的记录日志就够了。

6. 生产环境实践#

几个踩过坑之后总结的原则：

日志级别按环境区分#

1
开发环境 → DEBUG（记录所有细节，方便调试）
2
测试环境 → INFO（记录关键节点）
3
生产环境 → WARN（只记录警告和错误）

敏感信息脱敏#

日志里不能出现密码、Token、信用卡号——写入之前统一过滤：

1
private sanitize(entry: LogEntry): LogEntry {
2
  const sensitiveFields = ['password', 'token', 'creditCard'];
3
  sensitiveFields.forEach(field => {
4
    if (entry.context?.[field]) entry.context[field] = '***';
5
  });
6
  return entry;
7
}

这一条看起来简单，但在实际项目里很容易漏——建议在日志框架层统一处理，不要依赖各处手动过滤。

采样策略#

高流量系统不需要记录所有请求的 Trace，否则存储成本会很高：

1
shouldTrace(context: Context): boolean {
2
  if (Math.random() < 0.1)      return true;  // 随机采样 10%
3
  if (context.hasError)          return true;  // 错误请求 100% 采样
4
  if (context.duration > 5000)   return true;  // 慢请求 100% 采样
5
  return false;
6
}

正常请求采样 10%，错误和慢请求 100% 采样——既能监控系统，又不产生海量数据。

7. 完整框架串联#

把日志、链路、指标整合成一个可观测性框架，用装饰器模式包装 Agent——业务代码不需要改动：

1
class ObservabilityFramework {
2
  // 包装任意 Agent，自动注入可观测性能力
3
  wrapAgent(agent: Agent): Agent {
4
    return {
5
      execute: async (context: Context): Promise<Result> => {
6
        const startTime = Date.now();
7
        const span = tracer.startSpan({ traceId: context.traceId, agentId: agent.id });
8

9
        logger.info({ traceId: context.traceId, agentId: agent.id, action: 'agent_start' });
10

11
        try {
12
          const result = await agent.execute(context);
13
          const duration = Date.now() - startTime;
14

15
          logger.info({ traceId: context.traceId, agentId: agent.id, action: 'agent_complete', duration });
16
          metrics.record(agent.id, duration, true);
17
          tracer.endSpan(span);
18

19
          return result;
20
        } catch (error) {
21
          const duration = Date.now() - startTime;
22

23
          logger.error({ traceId: context.traceId, agentId: agent.id, action: 'agent_error', error, duration });
24
          metrics.record(agent.id, duration, false);
25

26
          // 检查是否需要告警
27
          const m = metrics.get(agent.id);
28
          if (m.errorRate > 0.1) alertManager.send({ severity: 'critical', agentId: agent.id });
29

30
          tracer.endSpan(span);
31
          throw error;
32
        }
33
      },
34
    };
35
  }
36
}
37

38
// 使用：一行代码，Agent 自动具备完整的可观测性
39
const flightAgent  = observability.wrapAgent(rawFlightAgent);
40
const hotelAgent   = observability.wrapAgent(rawHotelAgent);

装饰器模式在这里很合适——可观测性是横切关注点，不应该和业务逻辑耦合在一起。

8. 系列总结#

三篇写完了，回头看一下这条路：

1
第一篇：架构与编排
2
  → 中心化 vs 去中心化，动态主导权转移，版本控制
3

4
第二篇：成本优化与容错
5
  → 两阶段执行，用户画像，断路器 + 降级 + Saga 补偿
6

7
第三篇：可观测性与生产实践
8
  → 日志 + 链路 + 指标，决策解释，生产环境实践

这三篇其实是同一件事的三个层次：

第一篇解决的是”怎么让多个 Agent 有序协作”
第二篇解决的是”出了问题怎么办，怎么省钱”
第三篇解决的是”怎么知道系统在做什么，出了问题怎么找”

顺序不是随意的——先能跑，再跑得稳，再看得见。

写在最后#

学这一章的时候，有一个问题一直在脑子里转：

为什么可观测性这么重要？

技术上的答案是：系统复杂了，靠直觉和经验已经不够，需要数据。

但我觉得还有一个更深的原因——

AI 系统做决策，用户看不见过程，只看到结果。如果结果不符合预期，用户没有办法理解为什么，也没有办法信任这个系统。

可观测性，本质上是在建立信任。

不只是让工程师能调试，更是让用户能理解——“系统是怎么想的，为什么给我这个结果”。

易经里有一卦叫明夷卦，卦象是”明入地中”——光明藏入地下，看不见了。但明夷卦的卦辞说：“利艰贞。“——在晦暗中，更要坚守正道，内心清明。

系统复杂到像一个黑盒，这是”明入地中”。可观测性要做的，就是把那道光重新引出来——让内部的运行逻辑，能够被看见、被理解、被信任。

内文明，而外可观。

昇哥 · 2026年4月 Multi-Agent 系统设计系列完结，下一个话题待定

音乐

音乐