ConvoProbeConvoProbe

あなたのチャットボット、「ちゃんと」動いてますか?

マルチターン会話のPlaywright。コードは書かない。

ConvoProbeダッシュボード:会話シナリオテスト結果と品質スコアを表示

「動いている」と「ちゃんと動いている」は、別の話だ

チャットボットは返答を返している。でも、その返答が本当に良いかを、根拠を持って言えるだろうか。

「はず」と「実際」は、別物だ

あなたのチャットボットが「何をするはずか」は、だいたい分かっている。でも「実際に何をしているか」は、正確には分かっていない。この二つを同じものだと扱うから、ユーザーを静かにがっかりさせる返答を、誰も気付かないまま何週間も本番で流し続けることになる。

QAは、感覚で終わっている

多くのチームのチャットボットQAは、誰かがボットを開いて三つか四つ質問して「大丈夫そう」と言うだけだ。それはテストではなく、願望だ。そして願望はスケールしない。手で数本の会話を確認したところで、実ユーザーが歩く何千通りの会話パスのうち、ほぼ何もカバーできていない。

「ユーザーが教えてくれる」では、遅い

本当に問うべきは「動くか」ではなく、「動かなくなった時、どうやって気付くのか」だ。もし答えが「ユーザーが教えてくれる」なら、あなたのチャットボットはもう、あなたが思っているより悪い。ただ、まだ測っていないだけで。

すべてのリリースに、品質チェックを

製品をテストなしで出荷しないのに、なぜ会話はテストなしでリリースしているのか?

デプロイ前に潰す

チャットボットが正しく処理すべき会話を定義。ConvoProbeが自動実行し、どの会話が失敗するかを正確に報告。ユーザーが1人も影響を受ける前に。

「大丈夫そう」をデータに変える

正確性、一貫性、ゴール達成度をスコアリングし追跡。PMが3回会話して「OKです」と言うのを、QAと呼ぶのはもうやめる。

プロンプト変更のたびに、全テスト

システムプロンプトを変更したら、ワンクリックで全シナリオを実行。何が改善し、何が壊れたかのdiffを確認。本番でのサプライズはゼロ。

評価結果詳細:ターンごとの会話分析

テストしないコスト

10件に1件

の会話にエラーが含まれている

ほとんどのチームは、計測して初めて自社botの実際の失敗率を知る

数時間 → 数分

リリースごとのQA工数

チーム半日分の作業が、自動で完了

10分

最初のテスト結果が出るまで

接続、シナリオ生成、実行。事前の打ち合わせは不要。

3ステップ、10分。

SDK不要。リポジトリにコードを足す必要もない。統合プロジェクトもない。

1

Difyアプリに向けるだけ

エンドポイントURLとキーを貼る。統合はこれで終わり。

2

シナリオをビジュアルで組む

ターンを並べ、条件で分岐させ、「良い返答」の基準を定義する。DifyのDSLを取り込めば、最初のシナリオはConvoProbeが下書きしてくれる。

3

実行して、レポートを読む

各ターンがスコアリングされる。失敗した箇所では、ボットが何と返したか、何と返すべきだったかが、並べて表示される。

ConvoProbeシナリオエディタ:マルチターン会話テストの設計画面

1つの誤回答が損失になる場面

カスタマーサポート

Botが間違った返品ポリシーを案内。顧客が店舗に来る。クレームと壊れた約束の対応が始まる。

EC・通販

Botが在庫切れ商品をレコメンド、存在しないクーポンコードを生成。顧客が購入しようとする。動かない。離脱する。

社内オペレーション

人事Botが休暇規定を間違えて案内。社員がその情報を元に判断。法務が動き出す。

今のQAはこうなっていないか?

今やっていること

Botと3回会話して「大丈夫そう」で終了

先週のプロンプト変更が改善か劣化か分からない

障害は顧客のクレームで発覚する

リリースのたびに半日のQA工数

ConvoProbe導入後

100件以上の会話シナリオを自動実行

プロンプト変更ごとにスコア付きdiffを確認

ユーザーに届く前に障害を検出

変更した日にそのままリリース

料金

まずは無料版から。現在は全機能が含まれています。

Free

¥0

まずはここから。

使える機能

  • ビジュアルなマルチターンシナリオエディタ
  • LLM判定による条件分岐
  • LLM-as-Judgeによるカスタム評価
  • Difyネイティブ連携
  • Dify DSLからのシナリオ自動生成
  • バッチ評価による回帰テスト
  • 評価履歴とトレンド表示
  • 各ターンのスコア根拠表示
  • 複数のLLM評価プロバイダに対応(OpenAI、Claude、Gemini)
準備中

Pro

詳細は後日お知らせします。

チャットボットが「良いかどうか」を、勘で判断するのをやめる。

Difyアプリをつないで、最初のシナリオを一本回す。10分後には答えが出ている。

    ConvoProbe — あなたのチャットボット、「ちゃんと」動いてますか?