python自動データ分析-pandas_profiling


pandas_profiling
私たちはpandasのdfをよく使います.describe()関数はデータの状況を記述しますが、データの分布状況を直感的に示すことはできません.今日紹介するこのツールpandas_profilingはpandasのDataFrameを拡張し、自動的にデータ分析を行い、分析レポートを生成できるライブラリです.
分析の結果は次のとおりです.
  • 要点:タイプ、一意値、欠落値
  • 分位数統計情報、例えば最小値、Q 1、中位数、Q 3、最大値、範囲、四分位数範囲
  • .
  • 記述統計データ、例えば平均値、衆数、標準偏差、総和、中位数絶対偏差、変異係数、ピーク度、偏度
  • .
  • で最もよく使用される値
  • ヒストグラム
  • 高相関変数Spearman,PearsonおよびKendall行列の相関を示す
  • 欠落値行列、カウント、熱図および欠落値ツリー図
  • くだらないことは言わないで、前の例:
    import pandas as pd
    import pandas_profiling
    
    data = pd.read_csv('https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv')
    data.profile_report(title='Auto Titanic Report')
    profile = data.profile_report(title='Titanic Report') 
    profile.to_file(output_file='titanic_report.html')

    結果は以下の通りです(html形式に出力します.ここではスクリーンショットを示します).
    背が高いのではないでしょうか.
    公式ドキュメントのアドレス:https://github.com/pandas-profiling/pandas-profiling