Skip to content

モデル監視

TL;DR

モデル監視は、予測サービスが稼働しているかだけでなく、モデルがまだ有用かを検出します。データ品質、特徴量と予測のドリフト、モデル品質、ビジネス影響の4層を監視します。難しい点はラベル遅延です。真の結果は予測から数時間、数日、数か月後に届くことがあります。


サービス監視だけでは足りない

HTTP 200は悪い予測を隠します。モデルは高速に応答しながら、コンバージョンを下げたり、不正を見逃したり、低品質なコンテンツを上位に出したりします。


監視レイヤー

レイヤー問い
データ品質入力は妥当かNULL率、スキーマ変更、範囲チェック
特徴量鮮度入力は新しいか最終更新時刻、参照ミス率
ドリフト本番は学習時と違うか分布距離、カテゴリ比率
予測挙動出力が変化しているかスコア分布、信頼度、クラス比率
品質正しいかPrecision、Recall、キャリブレーション
ビジネス影響システム成果は健全か売上、不正損失、継続率、苦情

メトリクスの時間軸

タイミングシグナル用途
即時レイテンシ、エラー、特徴量ミス、フォールバック率可用性とロールアウト安全性
近リアルタイムスコア分布、クラス比率、ドリフト、鮮度挙動変化の検知
短期代理クリック、レビュー率、セッション行動初期プロダクト信号
遅延真値チャージバック、継続、デフォルト、異議申立真の品質判断
定期監査スライス、公平性、レビュー品質長期リスク管理

速い代理指標を真のラベルの代わりにし続けてはいけません。


ドリフトの種類

データドリフト

入力分布が変わります。例: ある地域で学習したローンモデルに別地域のトラフィックが流れる。

概念ドリフト

入力とラベルの関係が変わります。例: 攻撃者が現在の不正検知モデルに適応する。

予測ドリフト

モデル出力の分布が変わります。例: 推薦モデルが狭い商品カテゴリに極端に高いスコアを出し始める。

ラベルドリフト

ターゲット分布が変わります。例: 攻撃キャンペーンでスパムの基本率が変化する。


ドリフト検知の選択

シグナル有効な対象弱点
NULL/default率パイプライン欠落意味変化は検知しにくい
PSI表形式特徴量の分布変化ビニングに敏感
KS検定数値分布変化大量トラフィックでは微小差も有意
カテゴリ分布差enum/category変化long tailがノイズになる
埋め込み重心変化ベクトル表現説明しにくい
予測分布出力挙動変化入力かモデルか原因が不明
スライス品質実ユーザー影響ラベルと十分な量が必要

ドリフトは煙警報であり根本原因ではありません。


ラベル遅延

クリックのようにすぐラベルが得られるものもあれば、不正チャージバックやローンデフォルトのように時間がかかるものもあります。高速な代理指標と遅い真の指標を分けて扱います。


予測ログ

予測ログには以下を含めます。

  • リクエストIDと時刻。
  • エンティティID。
  • モデル名とバージョン。
  • 特徴量または特徴量参照。
  • 予測と信頼度。
  • ルーティング経路: champion、canary、shadow、fallback。
  • レイテンシとエラー情報。
  • 実験割り当て。
  • 後から結合されるラベルと結果時刻。

機密データを直接ログに残さず、参照、ハッシュID、承認済み特徴量を使います。


トリアージフロー

まず「違うものを配信し始めたか」を確認し、その後にモデル品質を見ます。


アラート方針

アラートページするか対応
サービングエラー率が高いはい可用性を復旧
重要モデルの特徴量鮮度SLO違反はいフェイルオーバーまたは無効化
予測分布が急変通常はいいえ営業時間内に調査
遅延品質指標がガードレール未満場合によるロールバックまたはトラフィック削減
カナリーのビジネスKPI悪化重要フローでははいロールアウト停止

障害モード

代理指標の罠

代理指標は改善しているのに、実際のユーザー成果やビジネス成果が悪化します。

対策: ガードレール、実験、複数指標での昇格判断を使います。

隠れたスライス劣化

全体品質は安定しているが、一部セグメントだけ悪化します。

対策: 地域、端末、言語、テナント、リスク層、新規ユーザーなど重要スライスを監視します。

本番データではなく学習データを監視している

ダッシュボードが本番リクエスト分布ではなく、きれいなオフライン検証データを見ています。

対策: 本番予測ログを監視し、学習ベースラインと比較します。


モデル品質SLO

SLO
可用性99.9%の予測がポリシー内で応答
レイテンシp99が100ms以下
鮮度重要特徴量が120秒以内に更新
フォールバック通常時のルールfallbackが1%未満
品質成熟ラベルで偽陽性率が閾値以下
スライス重要セグメントが最低品質を下回らない
レビュー負荷手動レビューキューp95年齢が目標以下

品質SLOは遅れるため、即時ガードレールと組み合わせます。


重要なポイント

  1. 正常に動くサービスでも悪い予測を返すことがある。
  2. 本番入力と予測分布を監視する。
  3. ラベル遅延は品質測定速度を決める。
  4. スライス監視は集計値に隠れた劣化を見つける。
  5. 監視はロールバック、再学習、調査につながる必要がある。

参考文献

  1. Hidden Technical Debt in Machine Learning Systems
  2. Data Validation for Machine Learning
  3. TFX: A TensorFlow-Based Production-Scale Machine Learning Platform
  4. Evidently Documentation

MITライセンスの下で公開。Babushkaiコミュニティが構築。