ゆっくりとデータサイエンティスト回りの概念/手法を整理してみようと思う part1


どうも。Yuuseiと申します。
家の近所でアナリストをしてるんですが、
本格的にデータサイエンティストと名乗るために自分の中で整理をつけようと思い、
重い腰を上げた次第です。

お暇があればPart0から読んでいただければと思います。

さて、前回の記事を書いたあとでだいぶ時間も開き、
忙しい中で知見を広める機会にも巡り会えたので、
いったんこのPart1にて、自分の中で「Data Scientistとはなんぞや?」を定義します。

そして、その理由を書き、
それに沿った形で後続のPartは手法やツール、概念の紹介にする流れにします。

それでは、年の瀬も近づき、
自分の中にあるなんやかやを整理する意味含めてこのエントリーを書きます。

「Data Scientistとはなんぞや?」

Data Scientistとは【ビジネスでROIの出せる応用物理者/数学者全般】である

これが自分の中での落とし所になりました。
もう少し緩い定義として、次の様なものも考えていたのですが、

Data Scientistとは【物理学科卒業レベルの数式が読めるビジネスパーソン】である

これは少々ゆるふわ過ぎて、
自分が今後目指して行くものとしてはハードル低いと思ってやめました。
そもそも、ここまでレベルを下げると理系学部卒で研究経験の無い人達まで入るので
語弊が生まれそうですしね。

それでは理由について詳しく入る前に、まず要素を2つに分けましょう

Data Scientist = ビジネスでROIの出せる + 応用物理学者/数学者

次の準備として、日本データサイエンス協会の定義を改めて紹介します。


(画像引用元:Enter Prisezine: データサイエンティストの「ミッション、スキルセット、定義、スキルレベル」を発表)

こちらでは Data Scientistを3つのスキル集合の共通集合を持つ人間として定義してます。

Data Scientist = ビジネス力 + データサイエンス力 + データエンジニアリング力

となります。

比べてみてわかるのは「お前の定義は2要素だが、協会の定義は3要素じゃないか」ですかね。
そうです。この2つを一対一対応(単射)にするつもりは毛頭ありません。

翻訳すると:
     ビジネスでROIを出せる = ビジネス力 + データエンジニア力
      応用物理学者/数学者 = データサイエンス力 (+ データエンジニア力)

つまり、
ビジネスでROIを出すために、ビジネス力とデータエンジニア力が必要で
そのROIを数学的に裏付けのある方法を用いれる人がData Scientistだと思っています。
応用の方に (+ データエンジニア力)とついているのは応用は実務転用が前提だからです。

例えば、

・待ち行列理論と損失関数で新しい店舗レイアウトのROIを決める
・顧客の購買行動を予測するモデルを作成し、そのモデルを元にROIの出るセグメントを見つけ出す

そう言う事を、統計や確率を使う際のマナーを踏まえて実行の為のブループリントを立てられる。
そんな人がData Scientistとなのではないかと思っています。

今、Deep Learningなどの機械学習がお手軽で便利なので、
Data Scientistといえば機械学習(と、データマイニング)のイメージが先行しています。
ですが、個人としては統計を使って品質を改善したり、
電車の運行ダイヤを最適化する人たちも含めて良いのではないかと思っています。

そう言う意味では、製造業系やサプライチェーン系、ファイナンス系の中に
Data Scientistと呼んでも良い人たちは少なくない数いるのでしょう。

世の中のイメージが彼らをどう呼ぶかは置いておいて、
僕自身は彼らもData Scientistとしてしまって良いと思います。

そしてその様な人達の多くは物理や数学系の学位を持っている筈なので、
どうしても「応用物理/数学者」と言う表現は残しておきたいわけです。

ただ、少し本題とズレますが、
こう言う人たちは自身を研究者と認識している場合が多く、
Data Scientistと呼ばれたくない人も多いんだろうと言うのは想像に難くないわけです。

その辺りは難しいところですね・・・

次のエントリでは、
そんなData Scientistは何故希少種のままなのか、
考えてみたいと思います。

それではまた、年内か、もしかしたら年明けにお会いしましょう。
part2