R言語_read.table()関数の使い方

5106 ワード

前言:微博は話題に参加して、あなたに4年間も手紙を書くことができません.
read.table()関数はRの最も基本的な関数の一つであり、主に矩形表データを読み取るために用いられる.
Usage
read.table(file, header = FALSE, sep = "", quote = "\"'",
           dec = ".", numerals = c("allow.loss", "warn.loss", "no.loss"),
           row.names, col.names, as.is = !stringsAsFactors,
           na.strings = "NA", colClasses = NA, nrows = -1,
           skip = 0, check.names = TRUE, fill = !blank.lines.skip,
           strip.white = FALSE, blank.lines.skip = TRUE,
           comment.char = "#",
           allowEscapes = FALSE, flush = FALSE,
           stringsAsFactors = default.stringsAsFactors(),
           fileEncoding = "", encoding = "unknown", text, skipNul = FALSE)
read.csv(file, header = TRUE, sep = ",", quote = "\"",
         dec = ".", fill = TRUE, comment.char = "", ...)

read.csv2(file, header = TRUE, sep = ";", quote = "\"",
          dec = ",", fill = TRUE, comment.char = "", ...)

read.delim(file, header = TRUE, sep = "\t", quote = "\"",
           dec = ".", fill = TRUE, comment.char = "", ...)

read.delim2(file, header = TRUE, sep = "\t", quote = "\"",
            dec = ",", fill = TRUE, comment.char = "", ...)

各パラメータの説明は以下の通りです.
(1)file file fileは、区切り記号付きASCIIテキストファイルである.(2)ヘッダーは、ファイルが最初の行に変数を含むか否かを示す論理型変数である.ヘッダーがTRUEに設定されている場合、最初の行はデータ列の数より1列少ないことが要求される.(3)sepは、データの区切り記号を分離する.デフォルトsep="区切り文字として改行または戻り文字を使用します.
> mouse  head(mouse)
                      X control_1 control_2 Akap95_1 Akap95_2
1 ENSMUSG00000060002.14       431       341      669      384
2 ENSMUSG00000072576.5         3         2        2        5
3 ENSMUSG00000030546.14         5         5        1        3
4 ENSMUSG00000073116.4         0         0        0        2
5 ENSMUSG00000026228.6         2         0        2        3
6 ENSMUSG00000095102.1         0         0        0        0

(4)quoteは、特殊文字の文字列に対して結線を画定するための文字列であり、デフォルト値はTRUE(")または一重引用符である.(`)(5)dec decimalは、データファイル中の小数点の小数点を示すために用いられる.(6)numerals文字列タイプ.ファイル中の数字を二重精度データに変換する際に精度が失われた場合にどのように変換するかを指定するために用いられる.(7)row.namesは、行名のベクトルを保存します.このパラメータを使用して、各行の実際の行名をベクトルとして指定できます.または、読み込むテーブルに行名の列番号または列名文字列が含まれます.データファイルに行ヘッダーがあり、最初の行のフィールド名がデータ列より1つ少ない場合、データファイルの1番目の列は行名とみなされます.この場合を除き、指定されたrowがありません.namesパラメータの場合、読み込まれた行名が自動的に番号付けされます.rowを使用できます.names=NULL強制行番号付け.(8)col.namesは、カラム名のベクトルを指定します.デフォルトでは、V 1,V 2,V 3という列順構成を加えています.
> mouse  head(mouse)
                      control_1 control_2 Akap95_1 Akap95_2
ENSMUSG00000060002.14       431       341      669      384
ENSMUSG00000072576.5          3         2        2        5
ENSMUSG00000030546.14         5         5        1        3
ENSMUSG00000073116.4          0         0        0        2
ENSMUSG00000026228.6          2         0        2        3
ENSMUSG00000095102.1          0         0        0        0

Tip:rownames、colnamesはbaseパッケージの行名、列名関数です.そしてrow.names、col.namesはread.table関数の行名、パラメータ(9)as.is read.table()関数が文字型データを読み出すときに因子型変数に変換するかどうかを決定するために使用されます.この関数は、FALSEの値をとると、文字型データを因子型データに変換し、TRUEの値をとると、文字型データとして保持する.値は、論理値ベクトル(必要に応じて値を循環させることができる)、数値型ベクトルまたは文字型ベクトルであってもよく、係数に変換されない列を制御します.パラメータcolClasses=「character」を設定することで、数値型の列を含むすべての列の係数への変換を阻止できます.(10)na.stringsは、欠落した値を表す文字ベクトルとしてオプションです.na.strings=c("-9","?")-9と?値は、データの読み出し時にNA(11)colClassesに変換され、カラムが属するクラスの文字列ベクトルを指定します.(12)nrows整数.ファイルから読み出す最大行数を指定します.負数またはその他の無効な値は無視されます.(13)skip整数.データの読み出し時に省略される行数.(14)check.names論理値.このパラメータ値をTRUEに設定すると、データ・ボックス内の変数名がチェックされ、構文上有効な変数名であることが確認されます.(15)fill論理値.空白行を無視しない場合(すなわちblank.lines.skip=FLASE)であり、fillがTRUEに設定されている場合、データファイル内の行のデータが他の行より少ない場合、空白領域が自動的に追加されます.(16)strip.white論理値、デフォルトはFALSE.このパラメータはsepパラメータが指定されている場合にのみ有効です.このパラメータがTRUEに設定されている場合、データファイルに囲まれていない文字列領域の前後のスペースは削除されます.(17)blank.lines.skip論理値、このパラメータ値がTRUEに設定されている場合、データファイルの空白行は無視されます.デフォルト値はTRUEです.(18)comment.char文字型.単一文字または空文字を含むベクトル.コメント文字の先頭文字を表します.「」を使用してコメントを閉じることができます.(19)allowEscapes論理値.「」のようなCスタイルのエスケープ記号です.このエスケープ記号が文字列に含まれていない場合、この関数はフィールド区切り記号として解釈されます.(20)flush論理値.デフォルト値はFALSEである.このパラメータ値がTRUEに設定されている場合、この関数は指定された列数を読み出して次の行に進む.これにより、ユーザは最後のフィールドの後に注釈を追加することができる.(21)stringsAsFactors論理値、タグにおける文字ベクトルが因子に変換される必要があるかどうか、デフォルトはTRUEである.
まず,StringとFactorの違いを明らかにする.Stringは文字列で、UFOを発見した人の口頭での記述など、些細な情報を記録するために使用できます.Factorは、そのため、1行の記録に「分類マーク」を付けるために使用されます.例えば、人の性別factorsは「男」「女」に設定することができ、仕事の効率が最も高い日付のfactorsは「Mon」「Tue」であり、仕事の効率に対しても「high」「low」であることができますなど.Factorタイプ属性の場合、R言語は、データのfactorレベル(level)を自動的に統計することができます.たとえば、男性、どのくらいあるか、Monがどのくらいあるかなどです.stringsAsFactors=Fは、「データを読み込むときに文字列に遭遇した後もfactorsに変換せず、文字列フォーマットとして保持される」ことを意味します.
(22)fileEncoding文字列タイプ.ファイルの符号化方法を指定する.このパラメータを指定すると、テキストデータは指定したフォーマットで再符号化される.(23)encodingは、文字列の符号化方式を入力すると仮定する.(24)text文字列タイプ.fileパラメータが指定されていない場合、関数はテキストリンクを介してtextからデータを読み出すことができる.(25)skipNul論理値.Null値を無視するかどうか.デフォルトはFALSEです.
参考資料1:R言語でread.table()関数の使い方の詳細-翔宇亭IT楽園