什么是Doctor Droid?
DrDroid 是一款专为生产环境设计的 AI SRE 智能代理,帮助工程师快速检测、调查并解决线上故障,无需依赖资深专家或“部落知识”。它通过自动理解你的整个技术栈——包括服务依赖、部署历史、日志和监控数据——让每位工程师都能像团队中最优秀的 SRE 一样高效排障。
无论是深夜被 PagerDuty 叫醒,还是处理复杂的微服务级联故障,DrDroid 都能在几分钟内完成原本需要几十分钟甚至几小时的手动排查。它不仅能自动识别根本原因(如内存泄漏、配置错误或新版本引入的问题),还能给出安全可行的修复建议,大幅缩短平均修复时间(MTTR)。
Doctor Droid的核心功能有哪些?
- 智能根因分析:自动关联日志、指标、追踪和部署记录,精准定位问题源头(如 OOMKilled、配置变更等)
- 自然语言告警检查:用简单中文描述复杂健康检查逻辑(如“检查 etcd 节点磁盘延迟和 kubelet 重启次数”),系统自动执行
- 告警智能聚合:基于服务拓扑和业务上下文,将海量噪声告警按真实根因分组,避免信息过载
- 知识沉淀与传承:自动构建基础设施和代码的知识图谱,新员工也能快速上手,告别“人走知识丢”
- 成本与安全洞察:扫描多云资源,自动发现可优化项(如闲置 EBS 卷、过度配置的 EC2 实例),每月节省数千元
- 可观测性健康度管理:自动识别缺失监控的新服务、过期告警和重复规则,保持监控体系始终有效
- 80+ 工具原生集成:无缝对接 Kubernetes、Datadog、ArgoCD、GitHub、AWS 等主流 DevOps 工具链
Doctor Droid的使用案例有哪些?
- 值班工程师在 Slack 中收到告警后,直接询问 DrDroid:“订单服务为啥 CrashLoopBackOff?”,2 分钟内获得根因和回滚建议
- 团队设置一条自然语言检查:“检测所有节点是否存在静默退化”,系统每 30 分钟自动运行,提前发现潜在故障
- 新入职工程师接手陌生微服务时,通过 DrDroid 快速了解服务依赖、关键路径和常见故障模式
- SRE 团队每周自动生成成本优化报告,识别可节省的云资源,实现无感降本
- 平台工程团队利用 DrDroid 的 PlayBooks 开源引擎,将最佳实践固化为自动化诊断流程,实现“零接触修复”
如何使用Doctor Droid?
- 在 15 分钟内连接你的 Kubernetes、云平台和监控工具(如 Datadog、Prometheus)
- 通过 Slack 或 Web 界面直接向 DrDroid 提问,例如“最近 auth-service 的错误率为什么上升?”
- 使用自然语言创建“主动检查”(Proactive Checks),替代传统阈值告警
- 查看自动生成的根因分析报告,一键采纳推荐操作(如安全回滚或参数调优)
- 定期查看成本优化和可观测性健康度报告,持续改进基础设施效率
- 利用开源 PlayBooks 引擎扩展自定义诊断逻辑,适配内部工具链









