第4週searbornデータ分析講座!

5464 ワード

明日の学習カードデータ解析鋼 kデジタルクレジットバイト・ディグリービッグデータの最初のステップを開始クイックキャンパステキストリンク

最初の週には、環境設定、
2週目は基本コードで、
3週目numpyでは
4週目にようやくデータの可視化を学んだSeaborn.
やっぱり...難易度がますます高くなる
3週目にパンダを学び、データフレームの作成方法を学びました.
データフレームに基づいて,sebornにより複数のplotを用いてデータを可視化した.
まず、アザラシとは何ですか?
Pythonとして利用できるデータ可視化ライブラリ.
最も代表的なライブラリがMatplotlibである場合、sebornはMatplotlibに基づいてデータ加工を行うことができ、使用が容易で、視覚的にきれいである.△matplotlibより描けるグラフィックの種類は少ないですが、初心者の私にとっては全く問題ではなく、シンプルできれいな面では利用率が高くなります.
またpandas dataframeとの互換性も大きな利点です.
講師がご説明しているSeabornの使い方、一番強調している部分は
sebornを利用してデータの描画方法を見つけましょう.
次はsebornが提供するグラフィックタイプを表示するWebサイトの画面です!

このような豊富なデータ図を描くことができます.
私のデータがどのようなグラフで表示されているかを考えるときは、便利に情報を表示できるかどうかを考えて、どのようなデータがあるかを見て、勉強するのに役立ちます!
(でも今はグラフだけ見てもあっという間に・・・
今日は勉強した代表的なグラフをいくつか整理しましょう.

0.sebornライブラリのインストール

import seaborn as sns
sns.set_theme(style='whitegrid')
penguins = sns.load_dataset("penguins")
penguins

リポジトリをインストールします.
代表的なペンギンデータフレームをもたらした.

1. Histplot

は最も基本的に使用される図面であり、ヒストグラムも出力される.

の完全なデータで特定の区間の情報を表示する場合に使用できます.

sns.histplot(data=penguins, x="flipper_length_mm", hue="species", multiple = 'stack')

括弧中のx,yはx,y軸を表す.
色相は、色を区別する基準データを表します.
Multipleはスタック値で、情報を上に重ねることができます.

スタック値が与えられた場合

スタック値が指定されていない場合

2. Barplot

の棒グラフに似ています!あるデータ値のサイズをバーで表します.

横方向および縦方向のいずれもイジェクト可能(x、y軸変換)

ヒストグラムに似ていますが、違うグラフです!

sns.barplot(data=penguins, x="flipper_length_mm", y="species", hue='species')

平均値を自動的に求めて棒グラフを描画します.
ここで,x,yの値を変えると,次のような縦線図になる.

sns.barplot(data=penguins, x="species", y="body_mass_g", hue='species')

3. Countplot

に示すように、数字は

です.

種の数countで

を用いる.

x,yでは1つの軸を指定し、もう1つの軸は自然に個数を出力します.

sns.countplot(data=penguins, x='species', hue='sex')

4. Boxplot

分布情報はきれいで、分布の中で平均的にデータに近いのはきれいです.

データの各種類の四分位数(平均基準25~75%)が枠内に表示する図

boxと範囲全体の画像により、クラスタから離れたポイント(強調されたデータ)を簡単に見つけることができます.平均値から大きく逸脱したデータをポイントします.

sns.boxplot(data=penguins, x="flipper_length_mm", y="species", hue="species")

5. Violinplot

データ自体の分布図(人口構造を示すシリンダ図は国外でviloinplotと呼ばれる)

を示す.

boxplotはboxで中間を表し、villolinplotは全体の分布形状を表す.

の平均値がどれくらいなのか、平均値付近にどれくらいのデータがあるか確認できます.

sns.violinplot(data=penguins, y='flipper_length_mm', x='species', hue='species')

6. Lineplot

線図

は、特定のデータをx、yとして表すことによって関係を決定する.

は、数値型指標間の傾向(正比、逆比など)を理解するために使用することができる.

sns.lineplot(data=penguins, x="body_mass_g", y="flipper_length_mm", hue="species")

7. Pointplot

plot

errorbar付き特定デジタル出力

点間の相違を示し、どの程度の相違があるかを容易に特定できます.

データとerrorbarを一度に表示するので、確認したい特定の指標のみを使うことをお勧めします.

sns.pointplot(data=penguins, y="flipper_length_mm", x="sex", hue="species")

8. Scatterplot

lineplotと同様にx,yの分布を示し,点で示す.

線図が傾向的な初尖である場合、散点図は散在した形状そのものに焦点を当てる.

山ぶどう、山ぶどうだと思ったら理解が早い!

sns.scatterplot(data=penguins, x="body_mass_g", y="flipper_length_mm", hue="species")

9. Pairplot

図

は、所与のデータの各特徴間の関係を示す

散点図、Facetgrid、kdeplotを用いて、特徴間の関係を複数のパターンで表示する.

はすべての機能の関係を示しているので、機能の多い欠点は容量消費が大きく、見えにくいことです.(ex.200個の特性があれば、グラフは40000個を示す)

pairなので、xを指定する必要はなく、yもペアリングできます.(もちろん指定できます!)

sns.pairplot(data=penguins, hue="species")

私が使用しているデータフレームには、4つの特性があるため、16のグラフがあります.

10. Heatmap

の正方形図では、データの相違(ホットグラフカメラと同様)

が色で表示される.

pairplotと同様に、主に特徴間の関係を決定するために使用される.

フィーチャー間の関係を把握するために、まず相関マトリクスを確立し、データに基づいてグラフを描画します.

corr = penguins.corr()
sns.heatmap(data=corr)

パンダのcorr関数を用いて相関係数図を描いた.

負から負への関係(反比)、量から大きな関係(正比)が見られます.
いろいろなグラフを学びましたが、最初のhistblotと最後のheatmapが一番理解しにくいです.次の授業からは実際のデータ分析なので、いろいろなデータで可視化の練習をしてみるべきだと思います:)

Reference

この問題について(第4週searbornデータ分析講座!), 我々は、より多くの情報をここで見つけました https://velog.io/@sweetrain/파이썬-데이터분석-4주차-seaborn데이터분석-인강듣기

テキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。

Collection and Share based on the CC Protocol

オブジェクト文字(オブジェクト、Property、メソッド)

Back propagation