Rデータ整理によるデータ分析

2951 ワード

永遠に苦しむINFPの手帳
> feat. 公費教育
データ消去は前処理の重要な部分です🕵️‍♀️ 復習を始めます!쉽게 배우는 R 데이터 분석 교재로 복습합니다検出値は、データ収集中に発生したエラーによって生成される欠落値、空の値である可能性があります.これらの値をうまく処理しないと、分析結果にばらつきが生じる可能性があります.そのため、実際のデータ分析を行う際には、欠落した値を検査して取り除く過程を経なければなりません.

🔍 最終測定値の検索と削除

df <- data.frame(sex = c('M','F',NA,'M',F),
                 score = c(5,4,3,4,NA))
table(is.na(df))
# df 데이터에 몇 개의 결측치가 있는지 알 수 있다

df_nomiss <- df %>% filter(!is.na(score) & !is.na(sex))
df_nm <- na.omit(df)
# filter 함수를 사용할 수도 있지만
# na.omit() 함수를 통해 간편하게 제거할  있다
# ->결측치가 포함된 행 전체를 삭제하기 때문에 필요한 값이 누락될 수 있어 주의해야 한다

mean(df$score,na.rm = T)
# 연산할 때 결측치를 제외한다, NA Remove

exam %>% summarise(mean_math = mean(math,na.rm = T))
# 동일한 방법으로 summarise 함수에도 사용할 수 있다

✔朕測定値の置き換え

exam$math <- ifelse(is.na(exam$math),55,exam$math)
# 결측치를 제거하는 대신 대체 값 (일반적으로 평균값으로 대체)

異常値を消す


例外値は、通常のカテゴリの値を超えていることを意味します.異常値は、データ収集中に発生したエラーや、実際に存在する極端な値である可能性がありますが、正確な分析結果を得るために、分析中に異常値を除去します.
boxplot(mpg$hwy)

ブロック図を用いて異常値(=極端値)があることがわかる
boxplot(mpg$hwy)$stats
# 해당 데이터의 아래쪽 극단치 경계, 1사분위수, 중앙값, 3사분위수, 위쪽 극단치 경계
# 따라서 아래쪽 경계보다 작거나 위쪽 경계보다 큰 값을 극단치로 정의할 수 있다

mpg$hwy <- ifelse(mpg$hwy < 12 | mpg$hwy > 37, NA, mpg$hwy)
# 이상치를 결측 처리를 해준다

mpg %>% 
  group_by(drv) %>% 
  summarise(mean_hwy = mean(hwy,na.rm = T))
# 그럼 간단하게 이상치였던 값을 빼고 데이터 분석을 진행할 수 있다