表とグラフ

3418 ワード

表とグラフ

品質資料

度数分布表
まず,質量データに対して最も多く用いられるのは度数分布テーブルである.
例えば、2800人がA、B、Cの3人に投票した結果、Aの1520票Bの770票Cの510票となった.
候補A,B,Cを1つの列に書き,その度数を隣に書き,総和を一番下に書き,度数分布テーブルと呼ぶ.
周波数テーブルが質量データである場合は「周波数」と呼ばれ、スコア分布テーブルとして使用されます.

a <- rep("A", 1520) ; a #A를 1520개 만들어서 a에 저장한다
b <- rep(“B”,770) ; b #B를 770개를 만들어서 b에 저장하라.
c <- rep(“C”,510) ; c # C를 510개 만들고 c를 한번 보겠습니다.
x <- c(a,b,c) ;x #a, b, c를 묶어서 하나의 벡터로 x에 저장하라
table(x) #A, B, C로 구성되어 있는 x라는 벡터를 도수분포표를 table(x)를 실행 하면 A가 1520개 B가 770개 C가 510개 
y <- as.matrix(table(x)) ;y # row형태로 즉 행 형태로 주어져 있는데 이것을 column 벡터형식으로   table(x)를 as.matrix()를 이용해서 행렬로 바꾸어줍니다.
as.matrix() 에서 as. 이라는 것은 ‘어떠한 형태로 바꾸어라’
freq <- y[,1] ; freq #y의 첫 번째 column에 있는 1520, 770, 510이라는 숫자를 freq에 저장
relative_freq <- freq/sum(y) #상대 도수
z <- cbind(freq, relative_freq) ;z #상대 도수를 column끼리 묶기

#z에 두개의 column벡터를 묶어서 저장하게 되면 z의 첫 번째 column은 freq, 두 번째 column은 relative_freq로 저장

円グラフ

x <- c(1520, 770, 510) ;x #x는 1520라는 숫자와 770이라는 숫자, 510이라는 숫자가 A, B, C 각각의 도수로 구성

lab <- c(“A”, “B”, “C”) ; lab
y <- round(x/sum(x)*100, digits=1) ; y #상대도수에 100을 곱해서 소수점 한자리가 되게 반올림해서 y에 저장
w <- paste(lab, “(”, y, “%”, “)”) ;w #lab(y%) 와 같은 식으로 먼저 괄호를 열고 y값 비율과 %기호를 붙이고 괄호를 닫은 것을 w에 저장
pie(x, labels=w, main=“pie chart”) #파이 차트 그리기, 입력값, 라벨, 제목

*例:レポート30ページの各ページの誤字数

A, B, C (누적도수%) 이것이 조금 전 우리가 했던 w에 저장
 
x <- c(1,1,1,3,0,0,1,1,1,0,2,2,0,0,0,1,2,1,2,0,0,1,6,4,3,3,1,2,4,0) ;x
y <- as.matrix(table(x)) ;y #30개의 숫자를 table로 만들어서 이를 행렬 형태로 바꾼 것을 y에 저장
freq <- y[,1]; freq # 첫 번째 값을 freq에 저장
rel_freq <- freq/sum(freq); rel_freq #상대도수를 구하기 위해서 freq에 sum(freq)를 나누어준 것을 rel_freq에 저장

csum <- cumsum(freq); csum #cumsum은 cumulative sum 즉 누적 합으로 freq 도수를 누적을 시켜서 csum에 입력하라는 의미

c_rel_freq <- csum/sum(freq) # csum을 전체 합으로 나누면 누적 상대도수
z <- cbind(freq, rel_freq, csum, c_rel_freq) ;z #도수, 상대도수, 누적 도수, 누적 상대도수를 열 벡터로 묶어서 z에 저장

量子化された資料

埋め込まれたデータを読み込むためにdata()コマンドを入力します.今回は忠実な間欠データを使用します.
ヒストグラム
実際のデータで待機している2番目の変数のヒストグラムについて
忠実な資料名
待機変数名
histヒストグラムを描く

data()
hist(faithful$waiting)

大きさを階級区間と呼ぶ.
この階級の数は通常固定されていないが、10~20個を使うのが適当だ.なぜなら、階級の数が多すぎるか少なすぎると、資料をうまく説明できないからだ.
現在これは40から100の5、つまり階級区間の大きさは5です.
全部で12個の部分から構成されています.
このヒストグラムから,このような形状のグラフに似ていることがわかる.
きらめく.資料全体の分布に関する情報を得ることができます.
茎葉図
茎葉図もさっきの信頼できるデータを利用してこの変数を待っています
茎-葉を描くためなら茎という命令

stem(faithful$waiting)

そうすると左を見ると4と5が2つありますこの部分は10単位です
右の数字は単位数です.
では、ここの4 3は43を意味します.
次は45個、46個、47個の3個が描かれています.
もともと2つの10単位数が現れる必要はなく、1つだけで3 5 6 7 8 9を後ろにずっと書くことができ、ヒストグラムや相対度数はデータごとの値を知ることができず、この区間内にいくつかの値があることしか知らない.
逆に,茎葉画像はすべての値を知ることができる.
最小値と最大値は既知です.
もう一つの特徴はヒストグラムの役割も果たしていることです.
すなわち,分布の形態を推測できる.
たとえば、このシェイプはここで見ることができます.
90度回転すると分布の形になります
以下の名前はなぜ茎葉図なのでしょうか.左の値は10単位の数字、100単位の数字の場合がありますが、左の値は茎と呼ばれます.
ここの単位数字は葉と呼ばれています.
そのため、木の幹に葉がぶら下がっているように、その形は全体的に分布の形態を推測し、すべてのデータの値を表すことができるので、茎葉図は非常に有用なグラフです.

Reference

この問題について(表とグラフ), 我々は、より多くの情報をここで見つけました https://velog.io/@qsdcfd/표와-그래프

テキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。

Collection and Share based on the CC Protocol

普通の英語でお願いします

[pandas] DataFrame groupby