Evalsは導入時に一度走らせて終わり、という使い方では効果が続きません。プロンプトを変えたとき、モデルを差し替えたとき、業務の前提が動いたとき、その都度同じ基準で検証が回る状態が理想です。評価を作業の節目に埋め込むと、品質の変化に早く気づけます。
どの工程の出口に検証を置くか、まず一か所だけ決めて運用に組み込んでみてください。仕組み化はその一点を起点に広げていけます。
評価と運用ガバナンス › Evalsとテスト設計
Skunc編集部
Evalsは導入時に一度走らせて終わり、という使い方では効果が続きません。プロンプトを変えたとき、モデルを差し替えたとき、業務の前提が動いたとき、その都度同じ基準で検証が回る状態が理想です。評価を作業の節目に埋め込むと、品質の変化に早く気づけます。
どの工程の出口に検証を置くか、まず一か所だけ決めて運用に組み込んでみてください。仕組み化はその一点を起点に広げていけます。