ダッシュボードは、エージェントの運用状況をリアルタイムでモニタリングし、
品質の維持や応答パフォーマンスの改善に役立つ主要な指標を一目で確認できる機能です。
運用状態のチェック
ダッシュボード上では、以下のようなポイントを中心に、エージェントの健康状態を確認できます:
•
エージェントが正常に動作しているか
•
呼び出し失敗(エラーや応答不能)が発生していないか
•
生成された応答で過剰なトークン消費が起きていないか
•
応答品質に異常が見られないか(フィードバックとの整合性)
•
「よくできました/残念です」など、ユーザーからのフィードバックが収集されているか
これらの指標により、日常運用のリスクを早期に検知・対応することが可能です。
指標別の統計確認(時系列分析)
•
ダッシュボードでは、以下のデータを日次/週次/月次単位で確認できます:
◦
呼び出し件数
◦
トークン使用量
◦
フィードバック割合
◦
エラー発生率など
•
時間の経過に伴う傾向の把握や、改善施策の効果測定にも活用できます。
テスト環境/本番環境のデータを分離表示
•
STORMテスト環境(開発中)とLive環境(本番)でのデータを分けて確認可能です。
•
開発中のテスト結果と、実ユーザーとのやり取りの分析を明確に切り分けることで、
安全な運用・品質検証が両立できます。
Excel形式でのダウンロード対応
•
より詳細な分析を行いたい場合は、表示中のデータをExcel形式でダウンロードできます。
•
ダウンロードしたファイルは、以下の用途に活用できます:
◦
社内報告用レポートの作成
◦
外部BIツール(例:Excel Power Query, Tableauなど)での深堀分析
◦
部門別の月次レビュー資料 など
ダッシュボード項目別の見方
呼び出し回数
•
集計期間内に、**エージェントが呼び出された回数(応答が発生した回数)**を確認できます。
•
この回数に応じて、利用料金が計算・課金される仕組みです。
•
応答失敗やキャンセルなど、実行されなかったリクエストは含まれません。
トークン数(Input / Output)
•
エージェントが応答を生成する際に使用したLLMトークン数を集計した項目です。
•
モデル別に、以下のように分けて表示されます:
種類 | 内容 |
Inputトークン | ユーザーの質問やシステムプロンプトなど、モデルへの入力内容 |
Outputトークン | モデルが生成した回答の長さ(出力) |
•
トークン数に基づき、コストや応答の複雑さを把握する参考になります。
エージェント品質(信頼スコア・エラー発生)
•
エージェントの応答に関する品質指標を確認できます。
•
次のような情報が表示されます:
項目 | 説明 |
エラーメッセージ発生件数 | 内部処理でエラーが返された呼び出し数 |
信頼スコア0.5未満の応答数 | 応答内容の信頼性が低いと判断された件数(確認・改善対象) |
•
品質の波や不具合の兆候を早期に検知し、対応するための重要な指標です。
作業者の処理履歴(フィードバック対応)
•
作業者(Worker権限)によって処理された履歴を確認できます。
•
特徴的な点:
◦
呼び出しに対する処理は、元の呼び出し日付に基づいて集計されます。
(例:8月15日の応答に、8月16日にフィードバックした場合 → 8月15日として記録)
◦
「よくできました」/「残念です」など、
残されたフィードバック件数の確認・管理も可能です。
•
改善活動の履歴を可視化することで、エージェントの継続的な品質向上を支援します。
補足
各項目の集計結果は、Excel形式での出力にも対応しており、
社内レポートや運用報告資料として活用いただけます。




