python自動データ分析-pandas_profiling
967 ワード
pandas_profiling
私たちはpandasのdfをよく使います.describe()関数はデータの状況を記述しますが、データの分布状況を直感的に示すことはできません.今日紹介するこのツールpandas_profilingはpandasのDataFrameを拡張し、自動的にデータ分析を行い、分析レポートを生成できるライブラリです.
分析の結果は次のとおりです.要点:タイプ、一意値、欠落値 分位数統計情報、例えば最小値、Q 1、中位数、Q 3、最大値、範囲、四分位数範囲 .記述統計データ、例えば平均値、衆数、標準偏差、総和、中位数絶対偏差、変異係数、ピーク度、偏度 .で最もよく使用される値 ヒストグラム 高相関変数Spearman,PearsonおよびKendall行列の相関を示す 欠落値行列、カウント、熱図および欠落値ツリー図 くだらないことは言わないで、前の例:
結果は以下の通りです(html形式に出力します.ここではスクリーンショットを示します).
背が高いのではないでしょうか.
公式ドキュメントのアドレス:https://github.com/pandas-profiling/pandas-profiling
私たちはpandasのdfをよく使います.describe()関数はデータの状況を記述しますが、データの分布状況を直感的に示すことはできません.今日紹介するこのツールpandas_profilingはpandasのDataFrameを拡張し、自動的にデータ分析を行い、分析レポートを生成できるライブラリです.
分析の結果は次のとおりです.
import pandas as pd
import pandas_profiling
data = pd.read_csv('https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv')
data.profile_report(title='Auto Titanic Report')
profile = data.profile_report(title='Titanic Report')
profile.to_file(output_file='titanic_report.html')
結果は以下の通りです(html形式に出力します.ここではスクリーンショットを示します).
背が高いのではないでしょうか.
公式ドキュメントのアドレス:https://github.com/pandas-profiling/pandas-profiling