[AI Bootcamp] N112 - Feature Engineering

2191 ワード

done ハーモニー AI Feature Engineering データ科学 bootcamp テキストリンク

Session Review

Feature Engineering

重要なのは、問屋の知識とアイデアに基づいて、データセットに存在するフィーチャー(列)を再結合し、新しいフィーチャーを作成することです->問屋の知識とデータを処理する人としてのサイト
⑪Feature Engineeringは、単純な任意の組み合わせではなく、データセットの理解とサイトの理解に基づいて、研究目的に合った有意義な特性を作成する
e.g.BMI指数:体重、身長(身長)などの特徴を組み合わせて(四則演算を用いる)->新しい特徴を作成する

Pandas DataFrame

表形式のデータ
通常、1行に1つのデータが格納され、1列に1つのフィーチャーが格納されます:クリーン
❓ what is "tidy"?
コンピュータを分かりやすい状態に変換
❓ series vs. dataframe 参考資料
Series is a one-dimensional object that can hold any data type such as integers, floats and strings
DataFrames is two-dimensional object that can hold series, list, dictionary

Dataset

# 판다스 데이터 불러오기
import pandas as pd

df = pd.read_csv(url, names = header)

# data type 확인
df.dtypes

私を数えて、Null、NaN、0、Undefindの違い?参考資料参考資料2

Rにおいて、Na:無効値、Null:非指定値

Pythonは「NA」と「Null」がともに「未定義値」->「NA」はNAとNullを表す
-NAN値はデータ型float(実数で定義)

処理

NAN値参考資料DataFrame.fillna() # 다른 값으로 대체 DataFrame.dropna() # NaN 데이터 있는 row 삭제

未定義:宣言されたが値が指定されていない変数

データへんかん

数値列

int(integer)
整数型
float
素数型

文字列

str(string)
文字列
通常、マシンラーニングモデリングでは、文字列を使用しない->数値列に値を変換する必要があります.

置換関数string variable.replace('삭제할 글자','대체할 글자')

apply関数DataFrame.apply(함수)

int()関数int() # 정수가 아닌 문자열 입력시 ValueError 발생, 문자열이 아닌 실수는 정수로 반환됨

Assignment

iloc, loc: https://azanewta.tistory.com/34

Reference

この問題について([AI Bootcamp] N112 - Feature Engineering), 我々は、より多くの情報をここで見つけました https://velog.io/@jinyjib/AI-Bootcamp-n112-Feature-Engineering

テキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。

Collection and Share based on the CC Protocol

文字列相互回転文字配列string byte配列array of byte

UIViewAnimating