Langfuseとは何ですか?
Langfuse は、LLM(大規模言語モデル)アプリケーションや AI エージェントを開発・改善するためのオープンソースプラットフォームです。プロトタイプから本番環境まで、トレース(追跡)・プロンプト管理・評価(Evals)・実験を一元的にサポートし、開発者がコスト・遅延・品質を継続的に最適化できるようにします。特に、OpenTelemetry にネイティブ対応しており、既存のインフラと簡単に連携可能。
Langfuse を使えば、ユーザーが問題に気づく前にバグやパフォーマンスの課題を発見でき、チームで協力して AI アプリケーションを素早く改善できます。Fortune 50 企業のうち 19 社以上が採用し、月間 100 億以上の観測データを処理するなど、エンタープライズ級の信頼性も実証済みです。
Langfuseの特徴は何ですか?
- LLM オブザーバビリティ: 階層的なトレースで LLM 呼び出し、ツール実行、検索ステップをすべて可視化。ユーザー、セッション、コスト、遅延などでフィルタリング可能。
- プロンプト管理: プロンプトをコードから分離し、ワンクリックでデプロイ・ロールバック。チームで共同編集・改善が可能。
- 自動評価(Evals): LLM-as-a-judge、ヒューリスティック関数、人間レビューを組み合わせて、出力を自動評価。
- 実験機能: 実験をファーストクラスの概念として扱い、異なるプロンプトやモデルの結果を横断比較。
- ヒューマン・イン・ザ・ループ: 協働型の人間レビューでゴールデンデータセットを作成し、評価精度を向上。
- コスト & 遅延モニタリング: ダッシュボードとアラートでリアルタイムにコストとパフォーマンスを監視。
- Playground: 本番データでプロンプトをテストし、複数モデルを並べて比較。
- エージェント対応: Claude Code や Cursor などのコーディングエージェントと連携し、自然言語で Langfuse を操作可能。
Langfuseの使用例は何ですか?
- 生成 AI 機能(例:Canva のデザイン提案)の本番環境でのデバッグと最適化
- RAG(検索拡張生成)パイプラインの各ステップをトレースして精度向上
- チームでプロンプトの A/B テストを行い、最も効果的なバージョンを特定
- 人間レビューを通じて高品質な評価データセットを構築し、自動評価の信頼性を高める
- CI/CD パイプラインに評価を組み込み、モデル更新時の品質低下を防止
- コスト削減のために、高額な LLM 呼び出しを特定・置換
Langfuseの使い方は?
- Langfuse Cloud(無料プランあり)にサインアップするか、Docker Compose などでセルフホスト
- Python、TypeScript などの SDK または LangChain、LiteLLM などの統合を利用してトレースを送信
- プロンプトを Langfuse のプロンプト管理に移行し、バージョン管理を開始
- 自動評価ルール(例:正確性、有害性チェック)を設定して本番トラフィックに適用
- Langfuse CLI または MCP サーバーを IDE に接続し、エージェント経由で操作可能に
- ダッシュボードでコスト・遅延・品質のトレンドを確認し、アラートを設定








