[Rプログラミング]単一変数資料


📌 資料の種類


📖 データフィーチャー別に分類

  • 分類資料
    プロトン費
  • 連続データ
    譲渡費
  • ✔類別資料


    資料
  • は、品質損失資料とも呼ばれ、性別などのカテゴリまたはグループを区別できる値からなる資料
  • である.
  • カテゴリデータの値は基本的に数字で表すことができず、サイズ比較や算術演算
  • は適用されない.
  • カテゴリデータはデジタルタグの計算可能な連続データではありません
    性別:0,1
    ex)血液型:1、2、3、4
  • ✔連続型資料

  • 量子化資料、大きさの数字からなる
  • 連続型データの値はサイズ比較が可能である、平均値、最値、最切り上げ等の算術演算
  • .

    📖 変数カウントで分類

  • 単一変数データ:1つの変数のみからなるデータで、「日変数データ」
  • とも呼ばれる.
  • 多変数データ:2つ以上の変数からなるデータであり、多変数データとも呼ばれ、2つの変数からなるデータは
  • である.
  • 単変数データはベクトルに格納、多変数データはマトリクスまたはデータフレームに格納解析
  • を行う.
  • 行列またはデータフレーム形式のデータのうち、1列は変数
  • を表す.
  • は、個数=変数の個数
  • として列挙される
  • 変数の数とデータの特性に基づいて、
  • を細分化することができる.
    <変数の数とデータの特性によって分類>

  • たんへんすうデータ
    カテゴリ資料
    れんぞくデータ

  • たへんすうデータ
    カテゴリ資料
    れんぞくデータ
  • 📌 単一変数分類資料でのナビゲート

  • 単一汎用データ(変数品質データ):属性とカテゴリ特徴を持つデータ
    -カテゴリデータにできる基本的な作業は、データに含まれる観測値の種類別統計数:
  • である.
  • の数字を数えると、それぞれの比率
  • がわかります.
  • の棒グラフまたは円図
  • を作成できます.
  • ex)学生たちが好きな季節
  • 📖 度数分布表

    > favorite <- c('winter', 'summer','spring','summer','summer',
    +               'fall','fall','summer','spring','spring')
    > favorite
     [1] "winter" "summer" "spring" "summer" "summer" "fall"   "fall"  
     [8] "summer" "spring" "spring"
     
    > table(favorite) #도수분포표 계산
    favorite
      fall spring summer winter 
         2      3      4      1 
         
    > table(favorite)/length(favorite) #비율 출력
    favorite
      fall spring summer winter 
       0.2    0.3    0.4    0.1 

    📖 棒グラフ

    > ds <- table(favorite)
    > ds
    favorite
      fall spring summer winter 
         2      3      4      1 
    > barplot(ds, main='favorite season')

    📖 円図

    > ds <- table(favorite)
    > ds
    favorite
      fall spring summer winter 
         2      3      4      1 
    > pie(ds, main='favorite season')

    📖 数字で表す分類資料

  • 数値形式の分類資料も度数分布を計算し、棒グラフと円図を描いて資料の内容を確認した.
    ex)15名の学生が好きな色の資料を調べる
    2,3,2,1,1,2,2,1,3,2,1,3,2,1,2
    (1=緑、2=赤、3=青)
  • > favorite.color <- c(2,3,2,1,1,2,2,1,3,2,1,3,2,1,2)
    > ds <- table(favorite.color)
    > ds
    favorite.color
    1 2 3 
    5 7 3 
    > barplot(ds,main='favorite color')
    > colors <- c('green','red','blue')
    > names(ds) <- colors #자료값 1,2,3을 green, red, blue로 변경
    > ds
    green   red  blue 
        5     7     3 
    > barplot(ds,main='favorite color', col=colors) #색 지정 막대그래프
    > pie(ds, main='favorite color', col=colors)

    📌 単一変数連続データのナビゲーション


    📖 平均値と中心値

  • 連続型資料は観測値が大きいため,分類資料と比較して多様な分析方法が存在する
  • 平均値、中心値:
  • 、すべてのデータを表すことができます
  • 平均
  • 中央値:データ値をサイズ順に並べた場合、最も中央に位置する値
  • .
  • 節の平均値は、資料の観測値において、小値の子n%と大値の親n%を除いて、中間の残存値のみをとり、平均値
  • を算出する.
    > weight <- c(60,62,64,65,68,69)
    > weight.heavy <- c(weight,120)
    > weight
    [1] 60 62 64 65 68 69
    > weight.heavy
    [1]  60  62  64  65  68  69 120
    
    > mean(weight) #평균
    [1] 64.66667
    > mean(weight.heavy) #평균
    [1] 72.57143
    
    > median(weight) #중앙값
    [1] 64.5
    > median(weight.heavy) #중앙값
    [1] 65
    
    > mean(weight, trim=0.2) #절사평균(상하위 20% 제외)
    [1] 64.75
    > mean(weight.heavy,trim=0.2) #절사평균(상하위 20% 제외)
    [1] 65.6

    📖 四分位数

  • 四分位数とは、与えられたデータの値をサイズ順に並べたときに、その四等分された点における値
  • をいう.
  • 資料の値を4等分して3つの等分点を生成し、先から「第1象限数(Q 1)」、「第2象限数(Q 2)」、「第3象限数(Q 3)」と呼ばれ、第2象限数(Q 2)は中央値と同じである.
  • は4つのセグメントに分けられ、4つのセグメントのデータ量はそれぞれ25%、
  • を占めている.

    100人の学生を対象に、英語の試験の結果に対して四分位数を求めた.
    Q 1=60,Q 2=80,仮にQ 3=90→
    25人の学生の成績は60点未満だ.
    25人の学生の成績は60点から80点の間だ.
    25人の学生の成績は80点から90点の間にある.
    25人の学生の成績は90点以上だ.
    90点以上の学生が25名いるので、今回の英語の試験は簡単です.
    全体の50%が80点以上を記録した.
    > mydata <- c(60,62,64,65,68,69,120)
    > quantile(mydata)
       0%   25%   50%   75%  100% 
     60.0  63.0  65.0  68.5 120.0 
    > quantile(mydata, (0:10)/10) #10% 단위로 구간을 나누어 계산
       0%   10%   20%   30%   40%   50%   60%   70%   80%   90%  100% 
     60.0  61.2  62.4  63.6  64.4  65.0  66.8  68.2  68.8  89.4 120.0 
    > summary(mydata)
       Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
      60.00   63.00   65.00   72.57   68.50  120.00

    📖 山砲

  • 散乱とは、所与のデータにおける値の散乱度合い(散乱度合い)
  • を意味する.
  • 分散と標準偏差が散布
  • 資料の分散と標準偏差が小さいことは,資料の観測値が平均値付近に集中していることを意味する.
    > mydata <- c(60,62,64,65,68,69,120)
    
    > var(mydata) #분산
    [1] 447.2857
    
    > sd(mydata) #표준편차
    [1] 21.14913
    
    > range(mydata) #값의 범위
    [1]  60 120
    
    > diff(range(mydata)) #최댓값, 최솟값의 차이
    [1] 60

    📖 ヒストグラム

  • ヒストグラムは、連続データ分布を可視化するための外観ストライプに似ています.
  • の棒グラフを描くには、値の種類別にカウントできる必要があるが、身長や体重などの資料に値のない種類の概念は、種類別に
  • をカウントできない.
  • 連続型資料では、
  • の方法を用いて区間を区分し、区間中の値の個数を計算する.
    > dist <- cars[,2] #자동차 제동거리
    > hist(dist, #자료
    +      main="Histogram for 제동거리", #제목
    +      xlab="제동거리", #x축 레이블
    +      ylab="빈도수", #y축 레이블
    +      border="blue", #막대 테두리색
    +      col="green", #막대색
    +      las=2, #x축 글씨 방향(0~3)
    +      breaks=5) #막대 개수 조절

    *棒グラフとヒストグラムの比較

  • 本の間に隙間がある場合、棒グラフ
  • 間隔がなく、棒が1本くっついている限り、ヒストグラム
  • ストライプはストライプの面積に意味がないことを示し、ヒストグラムはストライプの面積にも意味がある.

    📖 ブロック図

  • ブロック図は、四分位数をグラフィック形式で表示するブロックひげ図とも呼ばれる.
  • は、データの分散形態を含む様々な情報を提供するグラフィックであり、単一変数数値型データの理解によく用いられる.
    > dist <- cars[,2] #자동차 제동거리
    > boxplot(dist, main="자동차 제동거리")
    > boxplot.stats(dist)
    $stats
    [1]  2 26 36 56 93
    
    $n
    [1] 50
    
    $conf
    [1] 29.29663 42.70337
    
    $out
    [1] 120

    📖 パケットデータのブロック図

    > boxplot(Petal.Length~Species, data=iris, main="품종별 꽃잎의 길이")

    📖 1つの画面に複数のグラフィックを出力

    > par(mfrow=c(1,3)) #1X3 가상화면 분할
    > barplot(table(mtcars$carb),
    +         main="Barplot of Carburetors",
    +         xlab="#of carburetors",
    +         ylab="frequency",
    +         col="blue")
    > barplot(table(mtcars$cyl),
    +         main="Barplot of Cylender",
    +         xlab="#of cylender",
    +         ylab="frequency",
    +         col="red")
    > barplot(table(mtcars$gear),
    +         main="Barplot of Grar",
    +         xlab="#if gears",
    +         ylab="frequency",
    +         col="green")
    
    par(mfrow=c(1,1)) #가상화면 분할 해제