A/B testing

前提ここでは web システムで使われている機械学習のモデルやアルゴリズムを改善するための online の A/B テストを考える。具体的に述べると web 広告における CTR 予測や EC サイトのレコメンデーション等が対象である。よくあるやつ。 web システムにおいて online の A/B テストは KPI 改善の根幹でありとても重要だ。それが重くなるとつらい、という話。ここで「重い」と言っているのは計算資源のことではなく、A/B テストを実施する担当者の運用コストについて。 A/B テストの運用が重い場合のデメリットデメリット 1. KPI 改善が遅くなるデメリットと言えばこれが一番大きい。単純に A/B テストを1回まわすのに時間がかかってしまうし、それがゆえに online の A/B テストに入るまでの offline のテストが厚くなりここでも時間がかかってしまう。 KPI 改善に時間がかかるというのはつまり売上や利益を大きくするのに時間がかかってしまうということである。デメリット 2. KPI 改善における offline テストの比重が大きくなる前述のとおりだが online の A/B テストが重いとそこで失敗できなくなり、結果としてその前段の offline のテストを厚くするということになる。 offline のテストが厚いことの何が問題だろうか。ここで前提としている CTR 予測やレコメンデーションのようなタスクの場合、offline のデータは既存のモデルやアルゴリズムの影響を受けることになる。例えばレコメンデーションの場合を考えると、新しいモデルを offline で評価するための実験データの正例 (コンテンツの閲覧等) は既存モデルによって生み出される。既存モデルが「このコンテンツがいいよ」といってユーザに出したリスト、その中からコンテンツの閲覧が行われ正例となるからだ。...