Machine Learning

ポエムです。事業フェーズごとのデータサイエンティストの役割まずはこちらの発表。事業立ち上げにデータサイエンティストは必要なのか？ | CA BASE NEXT とても納得できる内容だった。一部抜き出して要約すると事業の立ち上げフェーズデータがまだなかったり、整備されていない状態データサイエンスによる改善がしにくい事業のグロースフェーズ大規模なデータが使える状態データサイエンスによる改善がやりやすいとのこと。異論はない。では事業が立ち上がり、グロースが落ち着いたその後の成熟フェーズではどうなのだろうかという話。成熟フェーズにおける改善の難しさ端的に言うと成熟フェーズでは ML によるさらなる改善は困難になってくると思う。ここで言う成熟フェーズにおいてはプロダクトの進化とともに機械学習もそれなりに適用されてきたものとする。成熟フェーズということで既存の ML モデル、特にビジネスインパクトが大きい箇所はこれまでいろいろな改善が重ねられてきている。そのモデルの精度をさらに上げるとなると、より高度なアルゴリズム、より複雑なデータ等を扱う必要がある。しかし技術的によっぽど大きなブレークスルーがない限りは精度の改善幅はグロースフェーズよりもかなり小さいものとなるだろう。精度が上がれば上がるほど、次の1%を上げるためのコストは大きくなっていく。改善が進むほどに次の改善業務は困難になっていく。 (蛇足だがある程度大きな組織でなければ高度で state-of-the-art な ML アルゴリズムは運用しない方がいいと考えている) では既存ではない新しい適用箇所に ML を使えばいいのではとなるかもしれない。しかしやはりそれも難しい。ビジネスインパクトが大きく、かつわかりやすい適用箇所にはおそらくすでに ML が適用されているからだ。その状態から更によい適用箇所を見つけるには深いドメイン知識が必要になったりする。という感じでいわゆるキラキラした「ML でビジネスをドライブ！」みたいなことは成熟フェーズでは難しいことが多いのではないか。しかしデータサイエンティストにやることがないわけではない。成熟フェーズで何ができるかぱっと思いつくのは次のような仕事。データドリブンな施策の立案・評価これは事業フェーズ問わずあるべきドメイン知識が必要 ML エンジニアリングパイプラインの改善や属人性をなくすお仕事 ML モデルの受動的なメンテナンス精度が変化したときの調査内部的・外部的要因によるデータの変化への対応やっぱり ML モデルの精度改善成熟フェーズということでビジネスもスケールしていれば 0.1% の精度改善でも売上的なインパクトは大きいかもしれないいわゆる狭義のデータサイエンスではなく、ドメイン知識であったりアナリストやエンジニア的な視点が絡んだ仕事が増えてくる。よくある「ML だけじゃなく◯◯もできると強いよね」みたいな話になってしまった。おわりに …という話が少し前に Twitter で知人との話題に上がった。若者が歴史的にいろんな人が改善に取り組んできた ML モデルの改善にアサインされている、というのが近いところで観測されたのでたいへんそうだなあと思いつつこの件を思い出したので書いてみた。 ...

ちょっと昔話かつて参画したプロジェクトの話。そのプロジェクトでは他社から受注した受託開発として機械学習系のシステムを開発していた。当時としては新しいフレームワークを使い、かなり頑張ってなんとか納期内で完成させた。その中の1つの機能として A/B テストができるようにしていた。パラメータチューニングによりパフォーマンスを改善することを想定していた。しかし結局その機能は使われることがなかった。なぜか。 A/B テストを実施するためのクライアントの追加の予算がつかなかったためである。受託なのでなおさらなのだが、売上にならなければ工数をかけるこはできない。工数を使ってパフォーマンス改善することはできなかった。手はあるのに。機械学習の精度は必ずしも利益に結びつかないこの昔話で何が言いたいかというと、機械学習の精度改善は必ずしも利益に結びつかないということである。そのことを示しているとても素晴らしい資料がこちら。機械学習の精度と売上の関係 from Tokoroten Nakayama 前述の昔話の例はこの資料で言うところの③ロジスティック型 (=外注) となる。いったん売上が立った後、追加予算がつかなかったので精度改善では売上は増えなかったのだ。倫理感による精度改善受託開発を主としている組織であれば工数にはシビアなので、売上の立たない工数をかけることはあまりないだろう。 (よっぽどの炎上鎮火とかでなければ) しかし自社で製品やサービスを作って提供しているような組織の場合、利益にならない精度改善をしているのを時折見かける。なぜそのようなことが起こるかと言うと多くの場合はデータサイエンティスト／機械学習エンジニアとしての倫理感からなのではないだろうか。「◯◯予測という機能なのでできるだけ良い予測精度を示すべきだ」「ユーザには気づかれない部分だが精度が悪いので改善したい」倫理感や興味が先行してしまっているのだ。しかしその精度を上げた先に利益があるとは限らない。機械学習で職を得ている人間は自分の仕事を機械学習の精度を上げるゲームだとみなす傾向があるように思う。例えばインターネット広告の CTR 予測。これは予測精度が高いほど利益は改善するし、広告主に価値も提供できる。精度改善に倫理と利益が伴っている、とても機械学習がハマる例だと思う。本来はこれらを兼ね備えているのが良い適用先であるはずだ。イシューは行き渡っているのか利益に結びつかない、または間接的にしか結びつかないような精度改善をやることが許されるというのは組織に余裕があるということで悪いことではないのかもしれない。しかし単によいイシューの設定ができてないだけという可能性もある。自社で製品やサービスを作って提供しているような組織において、単純なロジスティック回帰でコアなところのビジネスを大きく加速させることができた時期を過ぎると機械学習で解くのに適したよい問題を恒常的に見つけ出すのは実は難しいのではないだろうかと最近考えるようになった。ビジネスの領域拡大よりも既存領域への機械学習の適用の方が速いということは十分ありうる。もちろんチームの規模にもよる。機械学習チームの人的リソースの規模に対して機械学習で解くべきよいイシューを見つけ出せているのか、ということだ。少し前にちょっと話題になったこちらの件もイシューが大事だと言っている。全ての機械学習の論文は新しいアルゴリズムを提案しているのですか？ - Quora キャリアの行く末事業会社においてビジネスの領域拡大よりも既存領域への機械学習の適用の方が速く、よいイシューを提供しにくいということがよく起こるのであれば、機械学習チームのリソースは余剰気味になりやすいということになる。これが続くと今後機械学習しかやらない人材の市場価値は下がっていくのかもしれない。もしくは自社で製品やサービスを持っている組織ではなく、受託開発やコンサルが主戦場になっていくのかもしれない。何にせよ特定のプロダクトに commit したいのであれば機械学習エンジニアは機械学習以外のスキルも磨いていく必要があるように思う。おわりに見える範囲にいる人が利益にならない精度改善をしているのを横目で見てこのようなことを考えていた。難しいけどできるだけ金を生んでいきたい。

Machine Learning

成熟フェーズの事業におけるデータサイエンティスト

機械学習の精度と利益と倫理とイシューと