
LLMチャットボットのマルチターンチャット品質を改善する5つのテクニック(2026年版)
Difyで構築した GPT-5.2 ベースのチャットボットが、同じ会話の中でスコア97から22まで崩壊した実例。そしてマルチターンチャットの崩壊を検出・予防する5つの実践的テクニック。

チャットボットは返答を返している。でも、その返答が本当に良いかを、根拠を持って言えるだろうか。
「はず」と「実際」は、別物だ
あなたのチャットボットが「何をするはずか」は、だいたい分かっている。でも「実際に何をしているか」は、正確には分かっていない。この二つを同じものだと扱うから、ユーザーを静かにがっかりさせる返答を、誰も気付かないまま何週間も本番で流し続けることになる。
QAは、感覚で終わっている
多くのチームのチャットボットQAは、誰かがボットを開いて三つか四つ質問して「大丈夫そう」と言うだけだ。それはテストではなく、願望だ。そして願望はスケールしない。手で数本の会話を確認したところで、実ユーザーが歩く何千通りの会話パスのうち、ほぼ何もカバーできていない。
「ユーザーが教えてくれる」では、遅い
本当に問うべきは「動くか」ではなく、「動かなくなった時、どうやって気付くのか」だ。もし答えが「ユーザーが教えてくれる」なら、あなたのチャットボットはもう、あなたが思っているより悪い。ただ、まだ測っていないだけで。
製品をテストなしで出荷しないのに、なぜ会話はテストなしでリリースしているのか?
チャットボットが正しく処理すべき会話を定義。ConvoProbeが自動実行し、どの会話が失敗するかを正確に報告。ユーザーが1人も影響を受ける前に。
正確性、一貫性、ゴール達成度をスコアリングし追跡。PMが3回会話して「OKです」と言うのを、QAと呼ぶのはもうやめる。
システムプロンプトを変更したら、ワンクリックで全シナリオを実行。何が改善し、何が壊れたかのdiffを確認。本番でのサプライズはゼロ。

10件に1件
の会話にエラーが含まれている
ほとんどのチームは、計測して初めて自社botの実際の失敗率を知る
数時間 → 数分
リリースごとのQA工数
チーム半日分の作業が、自動で完了
10分
最初のテスト結果が出るまで
接続、シナリオ生成、実行。事前の打ち合わせは不要。
SDK不要。リポジトリにコードを足す必要もない。統合プロジェクトもない。
エンドポイントURLとキーを貼る。統合はこれで終わり。
ターンを並べ、条件で分岐させ、「良い返答」の基準を定義する。DifyのDSLを取り込めば、最初のシナリオはConvoProbeが下書きしてくれる。
各ターンがスコアリングされる。失敗した箇所では、ボットが何と返したか、何と返すべきだったかが、並べて表示される。

Botが間違った返品ポリシーを案内。顧客が店舗に来る。クレームと壊れた約束の対応が始まる。
Botが在庫切れ商品をレコメンド、存在しないクーポンコードを生成。顧客が購入しようとする。動かない。離脱する。
人事Botが休暇規定を間違えて案内。社員がその情報を元に判断。法務が動き出す。
今やっていること
Botと3回会話して「大丈夫そう」で終了
先週のプロンプト変更が改善か劣化か分からない
障害は顧客のクレームで発覚する
リリースのたびに半日のQA工数
ConvoProbe導入後
100件以上の会話シナリオを自動実行
プロンプト変更ごとにスコア付きdiffを確認
ユーザーに届く前に障害を検出
変更した日にそのままリリース