カテゴリデータ


カテゴリ型資料とは?


カテゴリー型資料とは、数値では測れない資料のこと.
例えば性別、地域、血液型などです.
しかし、これは範疇型資料が数字で表現できないという意味ではない.
例えば、男女の性別を0とすると、数字を同じカテゴリのデータとして表すことができる.
数値型資料の年齢を10歳~19歳、20歳~29歳に分けると、数値型資料がカテゴリー型資料に変換されるといえる.

カテゴリ材料のタイプ


カテゴリ型資料にはランキング型資料(Ordinal Data)、名義型資料(Normial Data)がある.
ランキング型データはカテゴリ間の順序に意味がある.
Ex.単位(A+、A、A-、...)
名目データはカテゴリ間の順序に意味がありません.
Ex.血液型(A、B、O、AB)、MBTI

カテゴリデータの表示


カテゴリ資料は、度数分布テーブルまたは棒グラフで表すことができます.
各カテゴリ(周波数)に属する観測値の個数value counts()
相対周波数(Relative Frequency)導関数をデータ総数のパーセントで割る(Normalize=True)

度数分布表


授業満足度調査(100人調査)
カテゴリ度数相対度数累計相対度数非常満足300.30.3満足100.10.4一般300.30.7不満150.150.85非常不満150.151.00

棒グラフ


plt.bar()を使用してグラフィックに出力できます.

前処理カテゴリデータ


順序の意味のない名目データについては、数値マッピングと「スタック」(Dummy)メソッドを使用してデータを変換できます.
順序に意味のある順序型資料については,数値マッピング方式を採用した.

名義資料


数値マッピング


一般にカテゴリを0,1にマッピング

(-1,1)、(0100)など様々な方法がありますが、モデルによって異なる性能をもたらす可能性があります.
マッピングするカテゴリが3つ以上ある場合は、数値間隔を等しくしてマッピングします.

コード#コード#


DataFrame.replace({A:B, C:D,...})
AをBに変換し、CをDに変換することができます.

titanic = titanic.replace({'male':0,'female':1})
0を0に、1を1に変換できます.

スタック技術


これは,各カテゴリを0または1として表すことができるように,カテゴリ型変数を連続型変数にするための変数の山を作製する方法である.

コード#コード#

pd.get_dummies(DataFrame[[칼럼명]])
dataframeコラムのカテゴリ変数を連続に変更するには、を使用します.
dummies = pd.get_dummies(titanic[['Embarked']])

ちくじデータ


数値マッピング


同じ数値に変換するが,数値間の間隔は調整可能であり,この大きさの違いは機械の学習結果に影響を及ぼす.

ソース


2021 NIPA AIオンライントレーニングAI実際応用課程