什么是Langfuse?
Langfuse 是一个开源的 LLM 工程平台,专为构建、监控和持续优化 AI 应用与智能体(Agents)而设计。无论你使用 OpenAI、Anthropic、Google Gemini 还是本地模型,Langfuse 都能帮你快速追踪每一次 LLM 调用、工具执行和检索步骤,让你在用户发现问题前就定位并修复问题。
它将 追踪(Tracing)、提示词管理(Prompt Management)、自动评估(Evals)、实验(Experiments)和人工标注 整合到一个统一工作流中,支持从原型开发一路扩展到大规模生产环境。基于 OpenTelemetry 标准,Langfuse 无框架锁定,兼容 LangChain、LlamaIndex、Vercel AI SDK 等 80 多种主流工具,真正实现“任何模型、任何框架”。
Langfuse的核心功能有哪些?
- 全链路追踪(Tracing):自动捕获 LLM 调用、工具调用和检索过程,形成层级化 trace,支持按用户、会话、成本或自定义标签筛选。
- 提示词管理(Prompt Management):将提示词从代码中解耦,支持一键部署、版本回滚和团队协作优化。
- 自动化评估(Evaluations):结合 LLM-as-a-judge、启发式规则或人工审核,对模型输出进行自动打分。
- 结构化实验(Experiments):定义测试用例,对比不同提示词或模型的效果,数据驱动决策。
- 人工标注协作(Human Annotation):团队可共同评审 trace,构建高质量黄金数据集。
- 成本与延迟监控:实时仪表盘追踪每次调用的成本、延迟和质量,支持自动告警。
- Playground 测试环境:在真实生产输入上测试提示词,支持多模型横向对比。
Langfuse的使用案例有哪些?
- AI 产品团队调试生成式设计功能(如 Canva 所用),快速定位输出异常原因。
- 开发者将 LangChain 或 CrewAI 构建的智能体接入 Langfuse,实现端到端可观测性。
- 提示工程师通过 A/B 实验比较不同 prompt 版本的效果,持续提升回答质量。
- 数据科学家利用生产数据自动运行 evals,验证模型更新是否带来性能提升。
- 企业合规团队借助 SOC 2 和 GDPR 合规架构,在安全前提下分析 LLM 行为。
- 自托管用户在 Kubernetes 或 AWS 上部署 Langfuse,处理十亿级月度观测数据。
如何使用Langfuse?
- 安装 Langfuse SDK(Python/TypeScript 等)或通过 OpenTelemetry 自动集成。
- 在代码中初始化 Langfuse 客户端,自动捕获 LLM 调用生成 trace。
- 将提示词迁移到 Langfuse 控制台,实现版本管理和团队共享。
- 配置 evaluator(如 ragas、自定义函数或人工审核)对关键输出自动评分。
- 使用 Playground 测试新提示词,并通过 Experiments 功能进行正式对比实验。
- 查看仪表盘监控成本、延迟趋势,设置告警规则预防异常。








