【データ科学ノート】第二章データの読み書き
【データ科学ノート】第二章データの読み書き
文書ディレクトリ
前言
ブログはすでにPDFリソースにアップロードされており、システムは直接ソースを開くことができず、かっこいい不二プログラム猿に注目してこそダウンロードすることができる.(私信やコメントは気にしないで、注釈リソース名は取得できます)
リソースリンク:【データ科学ノート】第二章データ読み_书くpdf 281KB
2.1データの読み込み
2.1.1直接入力
1.c()
関数c()
関数は、各値を1つのベクトルまたはリストに練り、数値型ベクトル、文字型ベクトル、または他のベクトルを形成することができる.>x c(1,2,3,4,5)
>x
[1] 1 2 3 4 5
> y c('a','b','c')
> y
[1] 'a' 'b' 'c'
2.scan()
関数scan()
関数機能はc()
関数と類似しており、scan()
を入力すると、ユーザの入力データを待つためにスペースで区切られる(c関数はカンマで区切られる).> x scan()
1: 1 2 3 4 5 6
7:
Read 6 items
2.1.2 Rパッケージに読み込まれたデータ
R言語では、他のパッケージデータ接続が必要な場合、data (package = '')
を使用することができる.たとえば、ISLRパケットの自己データを表示するには、次の手順に従います.> data (package = 'ISLR')
ISLRパッケージのWageデータが必要な場合は、次の操作を行います.data( wage , package = 'ISLR')
2.1.3外部ファイルからデータを読み込む
大きなデータオブジェクトは、外部ファイルの読み込みです.ネットワーク、スプレッドシート、データベース、テキストファイル、論文形式など、多くのタイプがあります.一般的にはExcelなどでデータを処理します.
(一)テキストファイルを読み込むread.tabe ( file , header = logical_value , sep = 'delimiter' , row.names = 'name' )
ここで、file
は区切り記号付きテキストファイル名であり、header
は最初の行に変数名が含まれているかどうかを示し、sep
は区切り記号を指定するために使用される.
(二)Exce l形式のデータを読み込むのは一般的によくある.xlsと.xlsxデータテーブルは、このフォーマットが複雑であるため、直接インポートを避けるべきである.このようなファイルを変換する.csvファイルは、データ処理を行っています.read.csv ( file = 'file.name' , header = TRUE , sep = ',' , ...)
外部データを読み込むための一般的なコマンドの比較:
関数#カンスウ#
ヘッダ
sep(デフォルト区切り記号)
quote(引用するかどうか)
dec(小数表記)
read.table
FALSE
\’ or\"
.
read.csv
TRUE
,
\"
.
read.csv2
TRUE
;
\"
,
read.delim
TRUE
\t
\"
.
read.delim2
TRUE
\t
\"
,
(三)SQL Serverデータベースデータを読み込む
現在、SQLデータベースを深く理解していないため、接触が少ない.現段階では少しだけ理解するだけです.1.ODBCデータソース2を構成する.R言語接続データベース
(四)他のフォーマットデータを読み込むには理解するだけで、現段階ではしばらく使えない.他のフォーマットのデータを読み込むには、foreignパッケージをインストールします.install.package( 'foreign' )
library( foreign )
2.1.1直接入力
1.
c()
関数c()
関数は、各値を1つのベクトルまたはリストに練り、数値型ベクトル、文字型ベクトル、または他のベクトルを形成することができる.>x c(1,2,3,4,5)
>x
[1] 1 2 3 4 5
> y c('a','b','c')
> y
[1] 'a' 'b' 'c'
2.
scan()
関数scan()
関数機能はc()
関数と類似しており、scan()
を入力すると、ユーザの入力データを待つためにスペースで区切られる(c関数はカンマで区切られる).> x scan()
1: 1 2 3 4 5 6
7:
Read 6 items
2.1.2 Rパッケージに読み込まれたデータ
R言語では、他のパッケージデータ接続が必要な場合、
data (package = '')
を使用することができる.たとえば、ISLRパケットの自己データを表示するには、次の手順に従います.> data (package = 'ISLR')
ISLRパッケージのWageデータが必要な場合は、次の操作を行います.
data( wage , package = 'ISLR')
2.1.3外部ファイルからデータを読み込む
大きなデータオブジェクトは、外部ファイルの読み込みです.ネットワーク、スプレッドシート、データベース、テキストファイル、論文形式など、多くのタイプがあります.一般的にはExcelなどでデータを処理します.
(一)テキストファイルを読み込む
read.tabe ( file , header = logical_value , sep = 'delimiter' , row.names = 'name' )
ここで、
file
は区切り記号付きテキストファイル名であり、header
は最初の行に変数名が含まれているかどうかを示し、sep
は区切り記号を指定するために使用される.(二)Exce l形式のデータを読み込むのは一般的によくある.xlsと.xlsxデータテーブルは、このフォーマットが複雑であるため、直接インポートを避けるべきである.このようなファイルを変換する.csvファイルは、データ処理を行っています.
read.csv ( file = 'file.name' , header = TRUE , sep = ',' , ...)
外部データを読み込むための一般的なコマンドの比較:
関数#カンスウ#
ヘッダ
sep(デフォルト区切り記号)
quote(引用するかどうか)
dec(小数表記)
read.table
FALSE
\’ or\"
.
read.csv
TRUE
,
\"
.
read.csv2
TRUE
;
\"
,
read.delim
TRUE
\t
\"
.
read.delim2
TRUE
\t
\"
,
(三)SQL Serverデータベースデータを読み込む
現在、SQLデータベースを深く理解していないため、接触が少ない.現段階では少しだけ理解するだけです.1.ODBCデータソース2を構成する.R言語接続データベース
(四)他のフォーマットデータを読み込むには理解するだけで、現段階ではしばらく使えない.他のフォーマットのデータを読み込むには、foreignパッケージをインストールします.
install.package( 'foreign' )
library( foreign )
2.1.4一括読取データ
理解するだけで、現段階ではしばらく使えません.
2.1.5 R言語によるファイルの読み間違い
多くのR言語のユーザーは読み込みエラーの問題に直面し、90%以上の原因は符号化とコードブロックのインデントの問題、特に異なる言語環境とオペレーティングシステムにある.(一)符号化問題
主に異なる言語の変換によるものです.
(二)区切り文字の問題
データの読み込みはすべて正常ですが、読み出したときにデータが自動的に列化されず、行全体になっていることがわかります.
例を挙げます.
> dat read.csv( file = 'data2013.csv', sep=';' )
> dim( dat ) #
これは、区切り記号の設定に問題があるためであり、
sep=','
ではなくsep=';'
である.> dat read.csv( file = 'data2013.csv', sep=',' )
2.2データの書き出し
R言語データ出力時には、write()
を使用できます.write( x , file = 'data' , ncolums if ( is.character(x)) 1 else 5 , append = FALSE , sep = ' ')
ここで、x
はデータ(通常はマトリクスであってもベクトルであってもよい)、file
はファイル名であり、append=TRUE
の場合、原文にデータを追加しないと(FALSE
)新しいファイルを書く.
リストおよびデータベースデータについては、write.table()
関数、またはwrite.csv()
関数を使用することができる.
write( x , file = 'data' , ncolums if ( is.character(x)) 1 else 5 , append = FALSE , sep = ' ')