什么是Mezmo?
Mezmo 是一个面向 Agentic 运维(Agentic Ops) 的 AI 驱动遥测数据平台,专为现代工程团队打造。它将海量原始日志、指标和追踪数据(logs, metrics, traces)通过 Active Telemetry(主动遥测) 技术大幅精简,提炼出高价值、上下文丰富的信号,让 AI 代理能快速理解系统状态并采取行动。
其核心开源组件 AURA 作为“智能代理控制平面”,运行在你的基础设施上,协调多个 AI 代理完成从告警识别、根因分析到自动修复的完整闭环。Mezmo + AURA 的组合显著降低数据噪声(最高减少 99.98%),节省大模型推理成本(单次调查成本低于 1 美元),并将平均故障修复时间(MTTR)压缩至 1 分钟以内。
Mezmo的核心功能有哪些?
- Active Telemetry 主动遥测:实时对原始遥测数据进行去重、聚类和因果关联,将数百万事件压缩为数千个代理就绪信号。
- AURA 开源代理控制平面:基于 Apache 2.0 许可的 Rust 编写,支持多智能体协同、人类审批门控和安全执行策略。
- MCP 原生集成:通过 Model Context Protocol 动态连接 PagerDuty、Datadog、Prometheus 等工具,无需硬编码适配器。
- AI 就绪上下文工程:为 LangChain、CrewAI、Temporal 等主流框架提供精炼、任务范围精准的数据输入。
- LLM 无厂商锁定:兼容 OpenAI、Anthropic、Bedrock、Gemini、Ollama 等多种大模型。
- OpenTelemetry 迁移支持:灵活路由遥测数据,助你逐步或一次性完成观测栈迁移,降低高达 70% 成本。
Mezmo的使用案例有哪些?
- AI SRE 自动根因分析:当服务 SLO 违反时,自动关联日志与配置变更,18 秒内定位到连接池设置错误。
- 智能值班助手:集成 PagerDuty,自动提取告警详情、受影响会话数,并分类为 P1/P2 事件。
- Kubernetes 集群运维代理:检查工作负载状态、查询指标异常,辅助排查 Pod 崩溃或资源瓶颈。
- 自动化事后复盘:调查结束后自动生成结构化事件报告,耗时从 4 小时缩短至几分钟。
- DevOps 代码审查助手:结合 GitHub,自动审查 PR 并探索代码库上下文。
- OTel 观测栈迁移:统一接收 OpenTelemetry 数据,同时分发至 Mezmo、Datadog 或 S3,实现平滑过渡。
如何使用Mezmo?
- 从 AURA 单代理模式 入手:选择一个用例(如告警初筛),用 TOML 配置文件在 1 小时内部署首个生产级代理。
- 配置 MCP 工具连接:在配置中声明 PagerDuty、Prometheus 或 Mezmo 自身的 MCP 服务端点,启用动态工具发现。
- 启用多代理协同:使用 orchestrator 模式,让 incident-responder、metrics-analyst 和 log-analyst 专业代理并行工作。
- 集成现有 AI 框架:通过 Mezmo 提供的远程 MCP 服务器,将精炼数据注入 LangGraph、CrewAI 或 Temporal 工作流。
- 设置人类审批门控:在 remediation 步骤前强制要求人工确认,确保操作安全。
- 监控代理行为:利用 OpenInference 追踪,审计所有代理的计划、提示词调用和工具执行链。









