統計と確率(13)与件科学者(data scientist)入門


与件

「data(データ)」の語源、知っていますか? 第5回「今週のSPACE ENGLISH」
https://sorabatake.jp/1223/

datum(与えられたもの)

英単語 data の意味
http://gogengo.me/words/2103

与えられるもの

科学

仮説・検証(93) 科学四分類と算譜(program)
https://qiita.com/kaizen_nagoya/items/a2f2b9cc3a51b6af7603

科学を確率・分布に基づいて4つに分類する提案。

論理科学:01の世界
物理科学:古典物理学から量子力学まで
生命科学:生物分類から遺伝子科学まで
社会科学:社会統計から運用研究(operation research)

与件科学者(data scientist)

与件(data)の性格を科学的に扱う人。

確率に基づいた科学分類で計算する方法

詳細は順次記載。

順序を値に変換して処理する方法

量ではなく質(順序)に意味がある場合、順序を数に変換する方法を用いる。

共通の要素のない2つの順序

共通の要素が1つある2つの順序

与件の量で対応する方法

1件

論理科学の現象は1件で扱うことがある。
課題は、制約条件をすべて列記しないと0か1か確定しない場合があるかもしれない。
0か1かが確率的にしか測定できない事象は、1件だけでは十分でない場合があるかもしれない。

10件

起きる可能性の高い現象が3種類以下で、母数が数十以下の場合に、10件で分析することがある。

100件

統計または確率として%表記したい事象は100件で分析することがある。
統計値をそのまま確率値と仮定して議論を進めやすい。

現象として2桁の精度があるため、誤差の評価、計算結果の操作可能範囲が見通しやすい。

1000件

社会的事象で、何か強く主張したい場合は、1000件で分析することがある。
100件で扱う課題を10年間の傾向を見る場合には合計1000件を扱う。

10,000件

利害対立のある社会現象の分析の場合は、10,000件で分析することがある。
地域的な10箇所以上の分布を比較したり、10年間以上の傾向を見る場合には、合計10,000件を扱うことがある。

100,000件

世界的な分布、100年以上の時間を扱う場合には、100,000件を扱うことがある。

文書履歴(document history)

ver. 0.01 初稿 20200130
ver. 0.02 順序追加 20200131