[R]dplyrパッケージの使用-データの追加

3468 ワード


🧩 派生変数の追加


🥕 mutate()


dplyrパケット内のmutate()関数は、データフレームデータ型に新しい派生列を作成する関数です.%>%(チェーン演算子)記号とともにデータの前処理でよく使われる関数.
上のデータフレームは、学生の数学、英語、科学の成績を含むデータフレームです.
合計点、平均点が60点未満の学生に不合格を与えたい場合はmutate()関数を使用します.
library(dplyr) # dplyr 패키지 불러오기
exam <- read.csv("csv_exam.csv") # exam 데이터 프레임 읽어오기

new_exam <- exam %>% mutate(
  total = math+english+science, 			# 총점
  mean = total / 3, 						# 평균
  pass = ifelse(science >= 60, TRUE, FALSE) # 합격 여부
) 
View(new_exam) # 표로 출력

3つの項目が追加されたことが確認できます.

🧩 グループ別サマリー


🥕 group_by(), summarise()


上のデータフレームワークで1、2、三角クラスの科学成績を平均したい場合は、group by()関数で半分に分けてsummarise()で要約することができます.
science_mean <- exam %>% group_by(class) %>% # class를 기준으로 나누고
summarise(mead = mean(science)) # 각 반의 평균을 구한다

View(science_mean) # 표로 출력
これが結果画面です