python自動データ分析-pandas_profiling

967 ワード

データ分析に入る

pandas_profiling
私たちはpandasのdfをよく使います.describe()関数はデータの状況を記述しますが、データの分布状況を直感的に示すことはできません.今日紹介するこのツールpandas_profilingはpandasのDataFrameを拡張し、自動的にデータ分析を行い、分析レポートを生成できるライブラリです.
分析の結果は次のとおりです.

要点:タイプ、一意値、欠落値

分位数統計情報、例えば最小値、Q 1、中位数、Q 3、最大値、範囲、四分位数範囲

記述統計データ、例えば平均値、衆数、標準偏差、総和、中位数絶対偏差、変異係数、ピーク度、偏度

で最もよく使用される値

ヒストグラム

高相関変数Spearman,PearsonおよびKendall行列の相関を示す

欠落値行列、カウント、熱図および欠落値ツリー図

くだらないことは言わないで、前の例:

import pandas as pd
import pandas_profiling

data = pd.read_csv('https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv')
data.profile_report(title='Auto Titanic Report')
profile = data.profile_report(title='Titanic Report') 
profile.to_file(output_file='titanic_report.html')

結果は以下の通りです(html形式に出力します.ここではスクリーンショットを示します).
背が高いのではないでしょうか.
公式ドキュメントのアドレス:https://github.com/pandas-profiling/pandas-profiling

SQLアンチパターン-8章メタデータトリブル-まとめ