[R] プログラム開発言語Rのインストール(Windows版) - これからRをデータ解析に使ってみようという方に


 Rは統計解析に強みを持つプログラミング言語です。
これから初めてRを使ってデータ解析してみようという方に、最新バージョン(3.6.1)のRのインストール手順とデータを読み込んで基本統計量を計算するところまでを解説します。
エクセルをデータ処理と解析に使っていられる方も多いでしょうが、エクセルに加えてRを使うと以下のメリットがあります。

  • データ量(行数、列数)が大きくなってもデータの扱いが楽です。
  • 実行したデータ処理がスクリプトとして保存でき、共有化、再現性に優れています。
  • 複数のファイルを一括してデータ処理・解析ができます。
  • 使えるデータ処理・解析用の関数が豊富で、処理速度もエクセルより早いです。
  • プロットを作成する関数も豊富です。
  • 実験データなどの処理や解析でRによるプログラミングを覚えれば、今広くデータサイエンスに人気のプログラミング言語Pythonを覚えるのも楽です。もちろん逆でも良いのですが。

エクセルとうまく使い分けるとよいでしょう。
私は、データファイルとしてCSVファイルを使いエクセルはビューアとして使いますが、データ処理や解析にはエクセルは使わなくなりました。

環境

 Windows10

Rのインストール

下記リンクをクリックしてください。
The Comprehensive R Archive Network
またはこちらから https://cran.r-project.org/

注)2020年の5月になって、RのバージョンがR3.6からR4.0に代わりました。
対応が追い付いていないPackageも多く、私は10月頃から使用するバージョンを変更しています。
旧バージョンのR3.6.3をインストールされる場合は、こちらのサイトからインストールしてください。
R3.6.3

赤矢印の "Download R for Windows"をクリック

"base"をクリック

"Download R 3.6.1 for Windows"をクリック

Google Chromeでは、ダウンロード後ウインドウ左下の"R-3.6.1-win(1).exe" の"^"をクリック

"開く(O)"をクリックして、インストールスタート

Microsoft.Edgeでは、"実行"をクリック

デバイスへの変更を聞いてきますが、"はい"をクリック

言語の選択は"OK"をクリック

"次へ(N)"をクリック

インストール先を聞いてきますが、"次へ(N)"をクリック

PCによって32-bitを選ぶ場合はチェックしてください。"次へ(N)"をクリック

起動時のオプションを聞いてきますが、"次へ(N)"をクリック

追加タスク聞いてきますが、"次へ(N)"をクリック

インストール状況が表示されます。1,2分待ちましょう。

インストールが完了しました。"完了(F)"をクリックして終了です。

Rでデータ処理してみましょう

Rを起動する

 デスクトップに作成されているRのショートカットから起動します。

Rが起動して、R Console ウインドウが開きます。

読み取るファイルや書きだすファイル、プログラムのスクリプトを置くためのフォルダを作業ディレクトリーと言います。作業ディレクトリを変更します。メニューの“ファイル”→“ディレクトリの変更“。

プログラムの手順スクリプトを記述するためのウインドウを開きます。
左上のメニューから"新しいスクリプト"をクリック。

新たにRエディタウインドウが開きます。ウインドウを整列させるために、メニューのウインドウから"縦に並べて表示"をクリックします。

ウインドウが整列されました。Rエディタにスクリプトを記入します。

Rエディタに記入したスクリプトの実行

実行するスクリプトの行にカーソルを置くか、
実行する複数行を選択して、右クリックして、
"カーソル行"または選択中のRコードを実行"をクリックします。

Rエディタに記入したスクリプトの保存

メニューの"ファイル" → "別名で保存" で保存してください。

データセットirisでデータ処理

データセットirisはRやPythonなどで機械学習のトレーニングで扱われる最も有名なデータかもしれません。
3種類の花、各50サンプルずつで計150サンプル、がく片と花びらの幅と長さに関する4つの特徴量からなるデータです。

このirisを使って、下記のスクリプトを作成して、実行します。
1.irisのデータ内容を確認する
2.irisのデータをcsvファイルに保存
3.保存したcsvファイルからデータを読み込んで、各列の平均値の計算結果を保存する。

irisのデータを確認する

データセットirisをオブジェクトdfに代入します。
オブジェクト名は英数字を使って内容が分かり易く作成します。頭に数字を使うのは禁止です。
str(オブジェクト)でデータの概要を表示します。

iris
df <- iris  #データセットirisをオブジェクトdfに代入
str(df)     #dfのデータの概要を表示

出力結果

各行の説明は
'data.frame' : データ構造はデータフレーム(表形式です)
150 obs. of 5 variables 150サンプル、5変数
$ Sepal.Length: num 5.1 : 各変数名、データの型と値

最初の6行を表示するにはhead()を使います。

head
head(df)     #dfのデータの最初の6行を表示

出力結果 最初の6行のデータが表示されます。

次のスクリプトで表示する行、列を指定できます。
df[スタート行:エンド行, スタート列:エンド列]
省略すると、すべての行、またはすべての列の指定になります

df[,]
df[1:6, ]     #dfのデータの最初の6行、すべての列を表示

irisのデータをcsvファイルに保存する

write.csv(オブジェクト, "ファイル名.csv")で保存します。

write.csv
write.csv(df, "iris.csv")    

保存したcsvファイルを読み取る

read.csv("ファイル名.csv", header = TRUE, row.names = 1)を使います。 header = TRUE でcsvファイルの1行目を列名colnames(変数名)の行に、row.names = 1で1列目を行名rownames(サンプル名)の列に指定します。
df2 <- read.csv() で読み込んだデータをdf2に代入します。
表示するにはhead(df2)を使います。

read.csv
df2 <- read.csv("iris.csv", header = TRUE, row.names = 1) 
head(df2)   

関数apply()を使って各列の平均値を計算する

データフレームの集計にとても便利な関数です。
apply(オブジェクト[, 列の指定], Margin, 関数)
1列目から4列目を指定、Marginを2で列方向(1で行方向)の計算を指定、関数はmean(平均値の計算)を指定。
計算結果をmean.df2に代入します。
スクリプト全体を( )で囲むことで計算結果をオートに表示。

apply_mean
(mean.df2 <- apply(df2[ , 1:4], 2, mean))  

出力結果

同様に、sd(標準偏差)なども計算できます。

計算結果をcsvファイルに保存する

write.csv_mean.df2
write.csv(df2.csv, "means of iris.csv")    

Rを使って、データの入出力、平均値の計算を行いました。
次の報告では、Rを使ってirisのデータでクラスター分析は参照のリンク先が分かり易いのでご覧ください。

参照リンク(良く参照します)
R-tips
R言語でクラスタリングしてみた

以上