第4週searbornデータ分析講座!


最初の週には、環境設定、
2週目は基本コードで、
3週目numpyでは
4週目にようやくデータの可視化を学んだSeaborn.
やっぱり...難易度がますます高くなる
3週目にパンダを学び、データフレームの作成方法を学びました.
データフレームに基づいて,sebornにより複数のplotを用いてデータを可視化した.
まず、アザラシとは何ですか?
Pythonとして利用できるデータ可視化ライブラリ.
最も代表的なライブラリがMatplotlibである場合、sebornはMatplotlibに基づいてデータ加工を行うことができ、使用が容易で、視覚的にきれいである.△matplotlibより描けるグラフィックの種類は少ないですが、初心者の私にとっては全く問題ではなく、シンプルできれいな面では利用率が高くなります.
またpandas dataframeとの互換性も大きな利点です.
講師がご説明しているSeabornの使い方、一番強調している部分は
sebornを利用してデータの描画方法を見つけましょう.
次はsebornが提供するグラフィックタイプを表示するWebサイトの画面です!

このような豊富なデータ図を描くことができます.
私のデータがどのようなグラフで表示されているかを考えるときは、便利に情報を表示できるかどうかを考えて、どのようなデータがあるかを見て、勉強するのに役立ちます!
(でも今はグラフだけ見てもあっという間に・・・
今日は勉強した代表的なグラフをいくつか整理しましょう.

0.sebornライブラリのインストール

import seaborn as sns
sns.set_theme(style='whitegrid')
penguins = sns.load_dataset("penguins")
penguins
リポジトリをインストールします.
代表的なペンギンデータフレームをもたらした.

1. Histplot

  • は最も基本的に使用される図面であり、ヒストグラムも出力される.
  • の完全なデータで特定の区間の情報を表示する場合に使用できます.
  • sns.histplot(data=penguins, x="flipper_length_mm", hue="species", multiple = 'stack')
    括弧中のx,yはx,y軸を表す.
    色相は、色を区別する基準データを表します.
    Multipleはスタック値で、情報を上に重ねることができます.

    スタック値が与えられた場合



    スタック値が指定されていない場合



    2. Barplot

  • の棒グラフに似ています!あるデータ値のサイズをバーで表します.
  • 横方向および縦方向のいずれもイジェクト可能(x、y軸変換)
  • ヒストグラムに似ていますが、違うグラフです!
  • sns.barplot(data=penguins, x="flipper_length_mm", y="species", hue='species')

    平均値を自動的に求めて棒グラフを描画します.
    ここで,x,yの値を変えると,次のような縦線図になる.
    sns.barplot(data=penguins, x="species", y="body_mass_g", hue='species')

    3. Countplot

  • に示すように、数字は
  • です.
  • 種の数countで
  • を用いる.
  • x,yでは1つの軸を指定し、もう1つの軸は自然に個数を出力します.
  • sns.countplot(data=penguins, x='species', hue='sex')

    4. Boxplot

  • 分布情報はきれいで、分布の中で平均的にデータに近いのはきれいです.
  • データの各種類の四分位数(平均基準25~75%)が枠内に表示する図
  • .
  • boxと範囲全体の画像により、クラスタから離れたポイント(強調されたデータ)を簡単に見つけることができます.平均値から大きく逸脱したデータをポイントします.
  • sns.boxplot(data=penguins, x="flipper_length_mm", y="species", hue="species")

    5. Violinplot

  • データ自体の分布図(人口構造を示すシリンダ図は国外でviloinplotと呼ばれる)
  • を示す.
  • boxplotはboxで中間を表し、villolinplotは全体の分布形状を表す.
  • の平均値がどれくらいなのか、平均値付近にどれくらいのデータがあるか確認できます.
  • sns.violinplot(data=penguins, y='flipper_length_mm', x='species', hue='species')

    6. Lineplot

  • 線図
  • は、特定のデータをx、yとして表すことによって関係を決定する.
  • は、数値型指標間の傾向(正比、逆比など)を理解するために使用することができる.
    sns.lineplot(data=penguins, x="body_mass_g", y="flipper_length_mm", hue="species")

    7. Pointplot


    plot
  • errorbar付き特定デジタル出力
  • 点間の相違を示し、どの程度の相違があるかを容易に特定できます.
  • データとerrorbarを一度に表示するので、確認したい特定の指標のみを使うことをお勧めします.
  • sns.pointplot(data=penguins, y="flipper_length_mm", x="sex", hue="species")

    8. Scatterplot

  • lineplotと同様にx,yの分布を示し,点で示す.
  • 線図が傾向的な初尖である場合、散点図は散在した形状そのものに焦点を当てる.
  • 山ぶどう、山ぶどうだと思ったら理解が早い!
  • sns.scatterplot(data=penguins, x="body_mass_g", y="flipper_length_mm", hue="species")

    9. Pairplot


  • は、所与のデータの各特徴間の関係を示す
  • 散点図、Facetgrid、kdeplotを用いて、特徴間の関係を複数のパターンで表示する.
  • はすべての機能の関係を示しているので、機能の多い欠点は容量消費が大きく、見えにくいことです.(ex.200個の特性があれば、グラフは40000個を示す)
  • pairなので、xを指定する必要はなく、yもペアリングできます.(もちろん指定できます!)
  • sns.pairplot(data=penguins, hue="species")

    私が使用しているデータフレームには、4つの特性があるため、16のグラフがあります.

    10. Heatmap

  • の正方形図では、データの相違(ホットグラフカメラと同様)
  • が色で表示される.
  • pairplotと同様に、主に特徴間の関係を決定するために使用される.
  • フィーチャー間の関係を把握するために、まず相関マトリクスを確立し、データに基づいてグラフを描画します.
  • corr = penguins.corr()
    sns.heatmap(data=corr)
    パンダのcorr関数を用いて相関係数図を描いた.

    負から負への関係(反比)、量から大きな関係(正比)が見られます.
    いろいろなグラフを学びましたが、最初のhistblotと最後のheatmapが一番理解しにくいです.次の授業からは実際のデータ分析なので、いろいろなデータで可視化の練習をしてみるべきだと思います:)