Data Visualization


今回のリリースは、データの可視化についてです.
データのクリーンアップでは、データがどのように分散されているか、およびそれらの関係を理解することが重要です.
しかし,csv形式のデータを直接読み取ることは有意義な情報を把握することが困難である.したがって、適切な方法でデータを可視化することは、データの理解に役立つ.
Pythonで最もよく使われるビジュアル化ライブラリはMatplotlibです.また、Matplotlibに基づいて追加機能が追加されたSeartinパッケージもあります.今回の位置決めでは,この2つの方法を用いていくつかの可視化方法を理解する.

1.基本的な使い方

import matplotlib.pylot as plt
%matplotlib inline
import seaborn as sns
MatplotlibとSeabonの構文をインポートします.使いやすいようにplt、snsの使用を減らすのが一般的な使い方です.
%matplotlib inline
2行目の対応するコードは、ブラウザにグラフィックの結果を表示するために使用されます.通常、Jupyter NotebookまたはKglobe環境でコードを実行する場合、結果図を直接表示できるので簡単です.
plt.figure(figsize=(10,6))
sns.lineplot(data=example_data)
あとはpltグラフィックのfigsizeオプションは、グラフィック表示のサイズを決定し、sebornパッケージのlineplotなどを使用してグラフィックを表示します.
  • sebornパッケージのAPIリファレンスの詳細は、次のリンクに表示されます.
    https://seaborn.pydata.org/api.html
  • 2.各種グラフ


    上のsebornapiでは、グラフを描く方法を難しく身につけることができます.そこで,様々なグラフィックの適用状況と結果がどのように表示されるかに重点を置いて,結果を決定する.

    2.1. Lineplot

    plt.figure(figsize=(10,6))
    sns.lineplot(data=example_data)

    Lineplotの利点は,y値がx軸に従って変化する傾向を表すのに適している.時間の経過とともに値が変化することを表すか、2つの変数の関係を直感的に理解するのに役立ちます.

    2.2. Barplot

    plt.figure(figsize=(20,6))
    sns.barplot(x=ign_data.index, y=ign_data['Racing'])

    Barblotは,optionでxとyの値をそれぞれ与えることで表すことができる.Barblotの利点は、各カテゴリのy値を直感的に表すのが容易であることである.

    2.3. Heatmap

    plt.figure(figsize=(20,20))
    sns.heatmap(data=ign_data, annot=True)

    Heatmap x軸データの個数*y軸データの個数の矩形を作成し、数値を直接表示し、値に応じて強度を色で表します.その利点は,正確な数値の点と色を知ることでデータを直感的に確認できることである.したがって,学習モデルの特徴間の相関を表すこともよく用いられる.ただし、featureが多すぎると、heatamの大きさが大きすぎるので注意して使いましょう.optionの「annot=True」は、値をマークするかどうかを決定します.

    2.4. Scatterplot


    Scatterplotは、各データを点で表し、視覚的に表す方法である.データを最も歪まずにマークできるのは、回帰曲線などを描くときによく使われる方法です.
    これは
  • 基本モード図を描く方法です.x,yデータを決定します.
  • sns.scatterplot(x=candy_data['sugarpercent'], y=candy_data['winpercent'])

    これは、
  • 回帰曲線を含む描画方法です.
  • sns.regplot(x=candy_data['sugarpercent'], y=candy_data['winpercent'])

    次の例では、hueオプションでチョコレートを含むデータと含まないデータを色に分けます.
    sns.scatterplot(x=candy_data['pricepercent'], y=candy_data['winpercent'], hue=candy_data['chocolate'])
  • の上記の例の分割に基づいて、それぞれの回帰曲線を描画します.
  • sns.lmplot(x="pricepercent", y="winpercent", hue="chocolate", data=candy_data)
  • 以降はswarmblotであり、カテゴリ数が少ない場合に、複数のデータがどこに分布しているかを知ることができるより可視化しやすい方法である.
  • sns.swarmplot(x=candy_data['chocolate'], y=candy_data['winpercent'])

    2.5. Distribution


    これまで1組のデータの中でプロジェクトに基づいてどのような特徴を検索する過程であった場合、今回は様々なデータを使用するときにそれらの分布を表示する方法について説明します.
  • Histogram
  • sns.distplot(a=cancer_b_data['Area (mean)'], kde=False)
    sns.distplot(a=cancer_m_data['Area (mean)'], kde=False)
  • KDE plot:KDE plot簡単に言えばHistogramの非パラメータ結果値をパラメトリックに推定する方法です.Seabornは簡単なKDE plot可視化法を提供した.
  • sns.kdeplot(data=cancer_b_data['Radius (worst)'], shade=True)
    sns.kdeplot(data=cancer_m_data['Radius (worst)'], shade=True)

    2.5 Design Customization


    Seabornが提供する機能により設計をカスタマイズできます.次のコードは背景色を変更するコードです.他の設計方法は、上記のリンクのSeaborn公式APIドキュメントにあります.
    sns.set_style("darkgrid")
    sns.set_style("whitegrid")
    sns.set_style("dark")
    sns.set_style("white")
    sns.set_style("thicks")
    (ソース)Klombe Courses<データ可視化>