デモで良い回答が出ると、それで合格にしてしまいがちです。けれど運用で問われるのは、毎回同じ品質を保てるか、つまずいたときに戻せるか、誰かに説明できるかという点です。一度の出来栄えと、日々回り続ける運用は、別の物差しで見る必要があります。
出力の質に加えて、再現性と例外時の振る舞いも評価項目に入れてみてください。運用に耐える基準は、その三つを並べたところから具体化していきます。
評価と運用ガバナンス › AIエージェント評価の基本
Skunc編集部
デモで良い回答が出ると、それで合格にしてしまいがちです。けれど運用で問われるのは、毎回同じ品質を保てるか、つまずいたときに戻せるか、誰かに説明できるかという点です。一度の出来栄えと、日々回り続ける運用は、別の物差しで見る必要があります。
出力の質に加えて、再現性と例外時の振る舞いも評価項目に入れてみてください。運用に耐える基準は、その三つを並べたところから具体化していきます。