第4週searbornデータ分析講座!
最初の週には、環境設定、
2週目は基本コードで、
3週目numpyでは
4週目にようやくデータの可視化を学んだSeaborn.
やっぱり...難易度がますます高くなる
3週目にパンダを学び、データフレームの作成方法を学びました.
データフレームに基づいて,sebornにより複数のplotを用いてデータを可視化した.
まず、アザラシとは何ですか?
Pythonとして利用できるデータ可視化ライブラリ.
最も代表的なライブラリがMatplotlibである場合、sebornはMatplotlibに基づいてデータ加工を行うことができ、使用が容易で、視覚的にきれいである.△matplotlibより描けるグラフィックの種類は少ないですが、初心者の私にとっては全く問題ではなく、シンプルできれいな面では利用率が高くなります.
またpandas dataframeとの互換性も大きな利点です.
講師がご説明しているSeabornの使い方、一番強調している部分は
sebornを利用してデータの描画方法を見つけましょう.
次はsebornが提供するグラフィックタイプを表示するWebサイトの画面です!
このような豊富なデータ図を描くことができます.
私のデータがどのようなグラフで表示されているかを考えるときは、便利に情報を表示できるかどうかを考えて、どのようなデータがあるかを見て、勉強するのに役立ちます!
(でも今はグラフだけ見てもあっという間に・・・
今日は勉強した代表的なグラフをいくつか整理しましょう.
代表的なペンギンデータフレームをもたらした.
は最も基本的に使用される図面であり、ヒストグラムも出力される. の完全なデータで特定の区間の情報を表示する場合に使用できます.
色相は、色を区別する基準データを表します.
Multipleはスタック値で、情報を上に重ねることができます.
の棒グラフに似ています!あるデータ値のサイズをバーで表します. 横方向および縦方向のいずれもイジェクト可能(x、y軸変換) ヒストグラムに似ていますが、違うグラフです!
平均値を自動的に求めて棒グラフを描画します.
ここで,x,yの値を変えると,次のような縦線図になる.
に示すように、数字は です.種の数countで を用いる. x,yでは1つの軸を指定し、もう1つの軸は自然に個数を出力します.
分布情報はきれいで、分布の中で平均的にデータに近いのはきれいです. データの各種類の四分位数(平均基準25~75%)が枠内に表示する図 . boxと範囲全体の画像により、クラスタから離れたポイント(強調されたデータ)を簡単に見つけることができます.平均値から大きく逸脱したデータをポイントします.
データ自体の分布図(人口構造を示すシリンダ図は国外でviloinplotと呼ばれる) を示す. boxplotはboxで中間を表し、villolinplotは全体の分布形状を表す. の平均値がどれくらいなのか、平均値付近にどれくらいのデータがあるか確認できます.
線図 は、特定のデータをx、yとして表すことによって関係を決定する.は、数値型指標間の傾向(正比、逆比など)を理解するために使用することができる.
plot errorbar付き特定デジタル出力 点間の相違を示し、どの程度の相違があるかを容易に特定できます. データとerrorbarを一度に表示するので、確認したい特定の指標のみを使うことをお勧めします.
lineplotと同様にx,yの分布を示し,点で示す. 線図が傾向的な初尖である場合、散点図は散在した形状そのものに焦点を当てる. 山ぶどう、山ぶどうだと思ったら理解が早い!
図は、所与のデータの各特徴間の関係を示す 散点図、Facetgrid、kdeplotを用いて、特徴間の関係を複数のパターンで表示する. はすべての機能の関係を示しているので、機能の多い欠点は容量消費が大きく、見えにくいことです.(ex.200個の特性があれば、グラフは40000個を示す) pairなので、xを指定する必要はなく、yもペアリングできます.(もちろん指定できます!)
私が使用しているデータフレームには、4つの特性があるため、16のグラフがあります.
の正方形図では、データの相違(ホットグラフカメラと同様) が色で表示される. pairplotと同様に、主に特徴間の関係を決定するために使用される. フィーチャー間の関係を把握するために、まず相関マトリクスを確立し、データに基づいてグラフを描画します.
負から負への関係(反比)、量から大きな関係(正比)が見られます.
いろいろなグラフを学びましたが、最初のhistblotと最後のheatmapが一番理解しにくいです.次の授業からは実際のデータ分析なので、いろいろなデータで可視化の練習をしてみるべきだと思います:)
2週目は基本コードで、
3週目numpyでは
4週目にようやくデータの可視化を学んだSeaborn.
やっぱり...難易度がますます高くなる
3週目にパンダを学び、データフレームの作成方法を学びました.
データフレームに基づいて,sebornにより複数のplotを用いてデータを可視化した.
まず、アザラシとは何ですか?
Pythonとして利用できるデータ可視化ライブラリ.
最も代表的なライブラリがMatplotlibである場合、sebornはMatplotlibに基づいてデータ加工を行うことができ、使用が容易で、視覚的にきれいである.△matplotlibより描けるグラフィックの種類は少ないですが、初心者の私にとっては全く問題ではなく、シンプルできれいな面では利用率が高くなります.
またpandas dataframeとの互換性も大きな利点です.
講師がご説明しているSeabornの使い方、一番強調している部分は
sebornを利用してデータの描画方法を見つけましょう.
次はsebornが提供するグラフィックタイプを表示するWebサイトの画面です!
このような豊富なデータ図を描くことができます.
私のデータがどのようなグラフで表示されているかを考えるときは、便利に情報を表示できるかどうかを考えて、どのようなデータがあるかを見て、勉強するのに役立ちます!
(でも今はグラフだけ見てもあっという間に・・・
今日は勉強した代表的なグラフをいくつか整理しましょう.
0.sebornライブラリのインストール
import seaborn as sns
sns.set_theme(style='whitegrid')
penguins = sns.load_dataset("penguins")
penguins
リポジトリをインストールします.代表的なペンギンデータフレームをもたらした.
1. Histplot
sns.histplot(data=penguins, x="flipper_length_mm", hue="species", multiple = 'stack')
括弧中のx,yはx,y軸を表す.色相は、色を区別する基準データを表します.
Multipleはスタック値で、情報を上に重ねることができます.
スタック値が与えられた場合
スタック値が指定されていない場合
2. Barplot
sns.barplot(data=penguins, x="flipper_length_mm", y="species", hue='species')
平均値を自動的に求めて棒グラフを描画します.
ここで,x,yの値を変えると,次のような縦線図になる.
sns.barplot(data=penguins, x="species", y="body_mass_g", hue='species')
3. Countplot
sns.countplot(data=penguins, x='species', hue='sex')
4. Boxplot
sns.boxplot(data=penguins, x="flipper_length_mm", y="species", hue="species")
5. Violinplot
sns.violinplot(data=penguins, y='flipper_length_mm', x='species', hue='species')
6. Lineplot
sns.lineplot(data=penguins, x="body_mass_g", y="flipper_length_mm", hue="species")
7. Pointplot
plot
sns.pointplot(data=penguins, y="flipper_length_mm", x="sex", hue="species")
8. Scatterplot
sns.scatterplot(data=penguins, x="body_mass_g", y="flipper_length_mm", hue="species")
9. Pairplot
図
sns.pairplot(data=penguins, hue="species")
私が使用しているデータフレームには、4つの特性があるため、16のグラフがあります.
10. Heatmap
corr = penguins.corr()
sns.heatmap(data=corr)
パンダのcorr関数を用いて相関係数図を描いた.負から負への関係(反比)、量から大きな関係(正比)が見られます.
いろいろなグラフを学びましたが、最初のhistblotと最後のheatmapが一番理解しにくいです.次の授業からは実際のデータ分析なので、いろいろなデータで可視化の練習をしてみるべきだと思います:)
Reference
この問題について(第4週searbornデータ分析講座!), 我々は、より多くの情報をここで見つけました https://velog.io/@sweetrain/파이썬-데이터분석-4주차-seaborn데이터분석-인강듣기テキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。
Collection and Share based on the CC Protocol