データ分析-業務理解編&指標設計編
4967 ワード
「データアナリスト養成宝典」
第0章を前に書くと
0.1ビッグデータ分析ケース
裸データ→業務データ化→指標設計→データモデリング→分析レポート
Eg:全国官僚情報表と官僚社会関係表(裸データ)、さらに彼らの行為を監視(業務データ化)し、例えば官僚とその社会関係の預金、クレジットカード消費、株式基金、信託投資、出入国記録(指標設定)などを監視し、分析システム(構築モデル)を構築することができる.官僚の汚職のクモの跡(分析報告)を発見した.
データ分析とは、データを価値に変換する完全なプロセスです.(定義:データ分析とは、収集した大量のデータを適切な統計分析方法で分析し、有用な情報を抽出し、結論を形成し、データを詳細に研究し、要約してまとめる過程を指す)
データ分析と統計分析:データ分析(統計と機械学習)はデータの価値を獲得し、実行後、データで既定の目標を達成するかどうかを監視しなければならない.達成すれば、肝心な要素は何なのか、達成しなければ、問題はどこにあるのか.統計解析(純統計)はデータの情報を取得し,終了すると終了し,フィードバックはない.
データ分析とデータマイニング:データマイニングとは、大量の不完全で、ノイズのある、ぼやけた、ランダムなデータから、その中に隠されている、有用な情報と知識を抽出するプロセスです.マイニングの結果はデータ分析レポートの素材です.
データ分析は問題を系統的に分析する方法であり、ビジネスインテリジェントは製品/サービスである.
データ分析の内容:記述的分析、ビジネスの最適化、戦略計画.
PV:page viewページ閲覧量
UV:unique visitorアクセスページの異なるIPアドレスの数.
データ・アナリストは、参加するプロジェクトの進捗、品質、コストの管理を負担する必要があります.
データ分析のプロセス:ビジネス理解->指標設計->データモデリング->分析レポート
データ分析の最も重要な一歩は特徴工学であり、データの価値を決定している.
データ分析の第一歩は、データを分析することではなく、ビジネス目標(YとXが明確に定義されているかどうか)を整理することです.
第1章正しい思考観(データを価値に変換する能力)
1.1データ思考
CEO:最高経営責任者
CFO:最高財務責任者
BD:ビジネス展開
データ分析思考の2つの面:問題を分析する思想と問題を処理する時の態度.
1.2統計的思考
1.2.1統計学
思考科学の角度から統計的な思考は記述、概括、分析に分類することができる.
1.2.2説明:物事や対象の直接描写は、物事に対する客観的な印象である.(指標を確定し、データの詳細を得る)
(1)水平のメジャー(データの「位置」)
1)平均値:観測値の重心mean()2)中位数:観測値の中心median()3)衆数:観測値の重点which(table(x)=max(table(x))4)分位数:quantile()5)最大値:max()6)最小値:min()7)記述統計量:summary()
(2)差異のメトリック(データの「尺度」)
1)分散:var()s^2=1/(n-1)…2)標準差:sd()分散開根号3)変異係数:CV=100 sd()/mean()変異係数はデータの相対離散度の測定である.データレベルの高低と計量単位の影響を除去した.異なるグループのデータの離散度の比較に使用します.4)サンプル矯正二乗和:CSS 5)サンプル未矯正二乗和:USS 6)極差:range=max(x)-min(x)7)標準誤差:SE.Mean 8)異常(グループ外)値
(3)周波数
1)離散値データ2)定性的または分類データ3)連続値データパケット
1.2.3要約:記述に基づいて抽象化された概念(データを得る構造).
1)偏度係数:skewness(),SK 2)ピーク係数:kurtosis(),K多次元データの特徴解析:3)サンプル共分散行列:cov()4)データの中心化:scale(x,center=T)5)データの中心化と標準化:scale(x,center=T,scale=T)
1.2.4分析:データに隠れている「パターン」と「ルール」を発見する(所望の結論を得、目標を前提とし、結果を導く)
1.3論理思惟1.3.1上取/下钻思惟(マクロとミクロ)1.3.2求同/求異思惟1.3.3抽離/連合思惟1.3.4離/接近思惟1.3.5階層思惟
第2章では、データ2.1データが何であるかを理解する2.2データに依存する背景2.3データ次元1)構造化度2)データの加工度ヌードデータ、専門家データ(ヌードデータが特徴工程を経て得られる)、情報、価値3)データの抽象度2.4データ敏感度データ感度は、データに対する個人の主観的感覚である.多くのデータの中から自分の欲しいデータを選び、異なるデータポイントを選別するのに役立ちます.統計学ツール:制御図と制御線2.5データ品質データ分析の6段階:1)経験のみに頼り、データを考慮しない2)数字3だけを見る)データを統合し、グラフ解釈データ4)を用いて統計調査のデータを加え、記述的な統計量を用いてデータを描く5)具体的なサンプリングデータ6)を用いて統計的に推定する.信頼区間などの統計手法を用いて品質の良し悪しを量子化する2.6データを理解する上で注意すべき問題2.6.1完璧なデータに盲目的に執着しない2.6.2小サンプルデータもデータ分析観察性研究を行うことができる:「消えた弾孔」(エンジンに装甲を加える)実験性研究:スニーカーの新材料の開発(子供に片足に古い材料を着て、片足に新しい材料を着て、完全にランダムに設計します)、新しい材料が古い材料より摩耗に耐えられるかどうかをテストします.
第3章理解業務3.1全局理解-業務モデル3.2動態理解-プロセスモデル3.3静態理解-データモデル3.4動静結合-肝心業務分析3.5データ業務化参加データモデリング試合:kaggle 1)データ業務定義データは核心業務発展を助けることができる:業務問題->データ分析可能問題2)データ分析とモデリング3)データ業務実施
第4章はユーザー4.1が太いから細いまで、マクロからミクロまで4.2が少ないから多いまで、異なるレベルの需要を収集する4.3データアナリストはユーザーの需要を理解することに対する思考4.3.1どのように需要分析で製品目標を明確にするか4.3.2データアナリストはユーザーの需要が備えるべき基本的な素養を理解する(1)自己駆動力と主観的能動性(2)問題を発見し解決する能力(3)コミュニケーションと理解能力(4)学習能力(5)追求がある.また、4.3.3ユーザーの行動に基づいて製品を駆動する方法を堅持している.
第5章データ準備データ準備の任務は裸データを専門家データに変換することである.マイニングモデリング:分類、クラスタリング、関連ルール、タイミングモード、スマート推奨.データマイニングモデリングプロセス:マイニング目標、データサンプリング、データ探索、データ前処理、マイニングモデリング、モデル評価を定義する.5.1データ探索の主な任務は原始データの中に「汚い」データがあるかどうかを検査することである:1)欠落値2)異常値3)不一致値4)重複データ5)特殊記号を含むデータ5.1.1欠落値分析と処理1)「最も近いデータで置換する」2)数値型データに対して、この列の平均値(できれば衆数または中位数)を用いて置換することができる3)合理的推定(回帰関係等)(1)欠落値はNA(欠落状態)を表し,NULL(未知状態)(2)欠落値NAを識別する
[1] 20 3
[1] 20
[1,] FALSE FALSE FALSE [2,] FALSE FALSE FALSE [3,] FALSE FALSE FALSE [4,] FALSE FALSE FALSE [5,] FALSE FALSE FALSE [6,] FALSE FALSE FALSE*
[1] 0
左の図は各変数の欠落データの割合を示し、右の図は各種の欠落モードと対応するサンプル数を示し、NonとDreamが常に欠落値を同時に現れることを示している.
(3)欠落データ分布解析は欠落データ分布がランダムであるか否かを判断し,R言語ではmiceパケット中のmd.pattern関数を利用する.よく使われるパッケージとよく使われる関数を覚えて、インストールパッケージと関数を呼び出します.
(4)欠落データ処理1)欠落データが少ない場合に対応するサンプルを直接削除2)欠落データを補間(変数衆数、中位数、平均値または多重補間法)3)欠落データに敏感でない解析法を用いる、例えば決定木欠落値処理フローは、まずそのパターンがランダムであるか否かを判断し、欠落原因を特定する最後に欠落した値を処理します.
5.1.2異常値分析と処理異常値(離群点)とは、測定データにおけるランダムな誤りまたは偏差を指し、誤り値または平均値から逸脱した孤立点値を含む.(1)箱線図検査離群点(2)局所異常因子法(LOF法)を用いて異常値を検出しても散点図行列で異常値を表示することができる.(3)クラスタリング法で異常値を検出する密度ベースのクラスタリングDBSCAN:オブジェクトが稠密領域で密接に接続されている場合、クラスタリングされ、いずれにも分類されないオブジェクトが異常値である.K-means:データをkグループに分け、最も近いクラスタリングセンターに割り当て、各オブジェクトからクラスタリングセンターまでの距離(または類似性)を計算し、最大距離を異常値として選択します.
第0章を前に書くと
0.1ビッグデータ分析ケース
裸データ→業務データ化→指標設計→データモデリング→分析レポート
Eg:全国官僚情報表と官僚社会関係表(裸データ)、さらに彼らの行為を監視(業務データ化)し、例えば官僚とその社会関係の預金、クレジットカード消費、株式基金、信託投資、出入国記録(指標設定)などを監視し、分析システム(構築モデル)を構築することができる.官僚の汚職のクモの跡(分析報告)を発見した.
データ分析とは、データを価値に変換する完全なプロセスです.(定義:データ分析とは、収集した大量のデータを適切な統計分析方法で分析し、有用な情報を抽出し、結論を形成し、データを詳細に研究し、要約してまとめる過程を指す)
データ分析と統計分析:データ分析(統計と機械学習)はデータの価値を獲得し、実行後、データで既定の目標を達成するかどうかを監視しなければならない.達成すれば、肝心な要素は何なのか、達成しなければ、問題はどこにあるのか.統計解析(純統計)はデータの情報を取得し,終了すると終了し,フィードバックはない.
データ分析とデータマイニング:データマイニングとは、大量の不完全で、ノイズのある、ぼやけた、ランダムなデータから、その中に隠されている、有用な情報と知識を抽出するプロセスです.マイニングの結果はデータ分析レポートの素材です.
データ分析は問題を系統的に分析する方法であり、ビジネスインテリジェントは製品/サービスである.
データ分析の内容:記述的分析、ビジネスの最適化、戦略計画.
PV:page viewページ閲覧量
UV:unique visitorアクセスページの異なるIPアドレスの数.
データ・アナリストは、参加するプロジェクトの進捗、品質、コストの管理を負担する必要があります.
データ分析のプロセス:ビジネス理解->指標設計->データモデリング->分析レポート
データ分析の最も重要な一歩は特徴工学であり、データの価値を決定している.
データ分析の第一歩は、データを分析することではなく、ビジネス目標(YとXが明確に定義されているかどうか)を整理することです.
第1章正しい思考観(データを価値に変換する能力)
1.1データ思考
CEO:最高経営責任者
CFO:最高財務責任者
BD:ビジネス展開
データ分析思考の2つの面:問題を分析する思想と問題を処理する時の態度.
1.2統計的思考
1.2.1統計学
思考科学の角度から統計的な思考は記述、概括、分析に分類することができる.
1.2.2説明:物事や対象の直接描写は、物事に対する客観的な印象である.(指標を確定し、データの詳細を得る)
(1)水平のメジャー(データの「位置」)
1)平均値:観測値の重心mean()2)中位数:観測値の中心median()3)衆数:観測値の重点which(table(x)=max(table(x))4)分位数:quantile()5)最大値:max()6)最小値:min()7)記述統計量:summary()
(2)差異のメトリック(データの「尺度」)
1)分散:var()s^2=1/(n-1)…2)標準差:sd()分散開根号3)変異係数:CV=100 sd()/mean()変異係数はデータの相対離散度の測定である.データレベルの高低と計量単位の影響を除去した.異なるグループのデータの離散度の比較に使用します.4)サンプル矯正二乗和:CSS 5)サンプル未矯正二乗和:USS 6)極差:range=max(x)-min(x)7)標準誤差:SE.Mean 8)異常(グループ外)値
(3)周波数
1)離散値データ2)定性的または分類データ3)連続値データパケット
1.2.3要約:記述に基づいて抽象化された概念(データを得る構造).
1)偏度係数:skewness(),SK 2)ピーク係数:kurtosis(),K多次元データの特徴解析:3)サンプル共分散行列:cov()4)データの中心化:scale(x,center=T)5)データの中心化と標準化:scale(x,center=T,scale=T)
1.2.4分析:データに隠れている「パターン」と「ルール」を発見する(所望の結論を得、目標を前提とし、結果を導く)
1.3論理思惟1.3.1上取/下钻思惟(マクロとミクロ)1.3.2求同/求異思惟1.3.3抽離/連合思惟1.3.4離/接近思惟1.3.5階層思惟
第2章では、データ2.1データが何であるかを理解する2.2データに依存する背景2.3データ次元1)構造化度2)データの加工度ヌードデータ、専門家データ(ヌードデータが特徴工程を経て得られる)、情報、価値3)データの抽象度2.4データ敏感度データ感度は、データに対する個人の主観的感覚である.多くのデータの中から自分の欲しいデータを選び、異なるデータポイントを選別するのに役立ちます.統計学ツール:制御図と制御線2.5データ品質データ分析の6段階:1)経験のみに頼り、データを考慮しない2)数字3だけを見る)データを統合し、グラフ解釈データ4)を用いて統計調査のデータを加え、記述的な統計量を用いてデータを描く5)具体的なサンプリングデータ6)を用いて統計的に推定する.信頼区間などの統計手法を用いて品質の良し悪しを量子化する2.6データを理解する上で注意すべき問題2.6.1完璧なデータに盲目的に執着しない2.6.2小サンプルデータもデータ分析観察性研究を行うことができる:「消えた弾孔」(エンジンに装甲を加える)実験性研究:スニーカーの新材料の開発(子供に片足に古い材料を着て、片足に新しい材料を着て、完全にランダムに設計します)、新しい材料が古い材料より摩耗に耐えられるかどうかをテストします.
第3章理解業務3.1全局理解-業務モデル3.2動態理解-プロセスモデル3.3静態理解-データモデル3.4動静結合-肝心業務分析3.5データ業務化参加データモデリング試合:kaggle 1)データ業務定義データは核心業務発展を助けることができる:業務問題->データ分析可能問題2)データ分析とモデリング3)データ業務実施
第4章はユーザー4.1が太いから細いまで、マクロからミクロまで4.2が少ないから多いまで、異なるレベルの需要を収集する4.3データアナリストはユーザーの需要を理解することに対する思考4.3.1どのように需要分析で製品目標を明確にするか4.3.2データアナリストはユーザーの需要が備えるべき基本的な素養を理解する(1)自己駆動力と主観的能動性(2)問題を発見し解決する能力(3)コミュニケーションと理解能力(4)学習能力(5)追求がある.また、4.3.3ユーザーの行動に基づいて製品を駆動する方法を堅持している.
第5章データ準備データ準備の任務は裸データを専門家データに変換することである.マイニングモデリング:分類、クラスタリング、関連ルール、タイミングモード、スマート推奨.データマイニングモデリングプロセス:マイニング目標、データサンプリング、データ探索、データ前処理、マイニングモデリング、モデル評価を定義する.5.1データ探索の主な任務は原始データの中に「汚い」データがあるかどうかを検査することである:1)欠落値2)異常値3)不一致値4)重複データ5)特殊記号を含むデータ5.1.1欠落値分析と処理1)「最も近いデータで置換する」2)数値型データに対して、この列の平均値(できれば衆数または中位数)を用いて置換することができる3)合理的推定(回帰関係等)(1)欠落値はNA(欠落状態)を表し,NULL(未知状態)(2)欠落値NAを識別する
> data(sleep,package="VIM")#R VIM sleep
> dim(sleep) #
[1] 20 3
> sum(complete.cases(sleep)) #
[1] 20
> head(is.na(sleep)) # 6
**extra group ID*
[1,] FALSE FALSE FALSE [2,] FALSE FALSE FALSE [3,] FALSE FALSE FALSE [4,] FALSE FALSE FALSE [5,] FALSE FALSE FALSE [6,] FALSE FALSE FALSE*
> sum(is.na(sleep)[1:15,])# 15
[1] 0
> library(VIM) # VIM,
>aggr(sleep)#
左の図は各変数の欠落データの割合を示し、右の図は各種の欠落モードと対応するサンプル数を示し、NonとDreamが常に欠落値を同時に現れることを示している.
(3)欠落データ分布解析は欠落データ分布がランダムであるか否かを判断し,R言語ではmiceパケット中のmd.pattern関数を利用する.よく使われるパッケージとよく使われる関数を覚えて、インストールパッケージと関数を呼び出します.
> library(mice)
> md.pattern(sleep)
(4)欠落データ処理1)欠落データが少ない場合に対応するサンプルを直接削除2)欠落データを補間(変数衆数、中位数、平均値または多重補間法)3)欠落データに敏感でない解析法を用いる、例えば決定木欠落値処理フローは、まずそのパターンがランダムであるか否かを判断し、欠落原因を特定する最後に欠落した値を処理します.
> library(mice)
> imp=mice(sleep,seed=1234)#mice imp
> fit=with(imp,lm(Dream~Span+Gest))# imp
> pooled=pool(fit)# pool
> summary(pooled)
5.1.2異常値分析と処理異常値(離群点)とは、測定データにおけるランダムな誤りまたは偏差を指し、誤り値または平均値から逸脱した孤立点値を含む.(1)箱線図検査離群点(2)局所異常因子法(LOF法)を用いて異常値を検出しても散点図行列で異常値を表示することができる.(3)クラスタリング法で異常値を検出する密度ベースのクラスタリングDBSCAN:オブジェクトが稠密領域で密接に接続されている場合、クラスタリングされ、いずれにも分類されないオブジェクトが異常値である.K-means:データをkグループに分け、最も近いクラスタリングセンターに割り当て、各オブジェクトからクラスタリングセンターまでの距離(または類似性)を計算し、最大距離を異常値として選択します.