【データ科学ノート】第二章データの読み書き


【データ科学ノート】第二章データの読み書き


文書ディレクトリ

  • 【データ科学ノート】第二章データ読み書き
  • 前言
  • 2.1データの読み込み
  • 2.1.1直接入力
  • 2.1.2 Rパケットに読み込むデータ
  • 2.1.3外部ファイルからデータを読み込む
  • 2.1.4一括読取データ
  • 2.1.5 R言語読取ファイルのエラー箇所
  • 2.2データを書き出す
  • 前言


    ブログはすでにPDFリソースにアップロードされており、システムは直接ソースを開くことができず、かっこいい不二プログラム猿に注目してこそダウンロードすることができる.(私信やコメントは気にしないで、注釈リソース名は取得できます)
    リソースリンク:【データ科学ノート】第二章データ読み_书くpdf 281KB

    2.1データの読み込み


    2.1.1直接入力


    1.c()関数c()関数は、各値を1つのベクトルまたはリストに練り、数値型ベクトル、文字型ベクトル、または他のベクトルを形成することができる.
    >x  c(1,2,3,4,5)
    >x
    [1] 1 2 3 4 5   
    
    > y  c('a','b','c')
    > y
    [1] 'a' 'b' 'c' 
    

    2.scan()関数scan()関数機能はc()関数と類似しており、scan()を入力すると、ユーザの入力データを待つためにスペースで区切られる(c関数はカンマで区切られる).
    > x  scan()
    1: 1 2 3 4 5 6
    7:
    Read 6 items
    

    2.1.2 Rパッケージに読み込まれたデータ


    R言語では、他のパッケージデータ接続が必要な場合、data (package = '')を使用することができる.たとえば、ISLRパケットの自己データを表示するには、次の手順に従います.
    > data (package = 'ISLR')
    

    ISLRパッケージのWageデータが必要な場合は、次の操作を行います.
    data( wage , package = 'ISLR')
    

    2.1.3外部ファイルからデータを読み込む


    大きなデータオブジェクトは、外部ファイルの読み込みです.ネットワーク、スプレッドシート、データベース、テキストファイル、論文形式など、多くのタイプがあります.一般的にはExcelなどでデータを処理します.
    (一)テキストファイルを読み込む
    read.tabe ( file , header = logical_value , sep = 'delimiter' , row.names = 'name' )
    

    ここで、fileは区切り記号付きテキストファイル名であり、headerは最初の行に変数名が含まれているかどうかを示し、sepは区切り記号を指定するために使用される.
    (二)Exce l形式のデータを読み込むのは一般的によくある.xlsと.xlsxデータテーブルは、このフォーマットが複雑であるため、直接インポートを避けるべきである.このようなファイルを変換する.csvファイルは、データ処理を行っています.
    read.csv ( file = 'file.name' , header = TRUE , sep = ',' , ...)
    

    外部データを読み込むための一般的なコマンドの比較:
    関数#カンスウ#
    ヘッダ
    sep(デフォルト区切り記号)
    quote(引用するかどうか)
    dec(小数表記)
    read.table
    FALSE
    \’ or\"
    .
    read.csv
    TRUE
    ,
    \"
    .
    read.csv2
    TRUE
    ;
    \"
    ,
    read.delim
    TRUE
    \t
    \"
    .
    read.delim2
    TRUE
    \t
    \"
    ,
    (三)SQL Serverデータベースデータを読み込む
    現在、SQLデータベースを深く理解していないため、接触が少ない.現段階では少しだけ理解するだけです.1.ODBCデータソース2を構成する.R言語接続データベース
    (四)他のフォーマットデータを読み込むには理解するだけで、現段階ではしばらく使えない.他のフォーマットのデータを読み込むには、foreignパッケージをインストールします.
    install.package( 'foreign' )
    library( foreign )
    
  • SASデータ
  • SPSSデータ
  • Epi infoデータ
  • Stateデータ
  • 2.1.4一括読取データ


    理解するだけで、現段階ではしばらく使えません.

    2.1.5 R言語によるファイルの読み間違い


    多くのR言語のユーザーは読み込みエラーの問題に直面し、90%以上の原因は符号化とコードブロックのインデントの問題、特に異なる言語環境とオペレーティングシステムにある.(一)符号化問題
    主に異なる言語の変換によるものです.
    (二)区切り文字の問題
    データの読み込みはすべて正常ですが、読み出したときにデータが自動的に列化されず、行全体になっていることがわかります.
    例を挙げます.
    > dat  read.csv( file = 'data2013.csv', sep=';' )
    > dim( dat ) # 
    

    これは、区切り記号の設定に問題があるためであり、sep=','ではなくsep=';'である.
    > dat  read.csv( file = 'data2013.csv', sep=',' )
    

    2.2データの書き出し


    R言語データ出力時には、write() を使用できます.
    write( x , file = 'data' , ncolums if ( is.character(x)) 1 else 5 , append = FALSE , sep = ' ')
    

    ここで、xはデータ(通常はマトリクスであってもベクトルであってもよい)、fileはファイル名であり、append=TRUEの場合、原文にデータを追加しないと(FALSE)新しいファイルを書く.
    リストおよびデータベースデータについては、write.table()関数、またはwrite.csv()関数を使用することができる.