본문 바로가기
수학/응용통계학

[응용통계학] 2장. 자료의 요약 및 정리(2) - 도표를 이용한 자료의 정리

by judy@ 2021. 2. 28.

도표를 이용한 자료의 정리

이전 포스팅에서는 자료의 특성을 몇 개의 숫자로 요약하였다면, 이번엔 자료를 도표나 그림을 이용하여 정리

 

1. 도수분포표와 상대도수분포표

자료의 개수가 많으면, 자료를 몇 개의 그룹으로 나누어, 각 그룹에 해당하는 자료의 수를 통해 요약하는 것이 편리

대표적인 예가 도수분포표와 상대도수분포표

 

예를 들어, 15세대로 구성된 한 구역의 세대별 자녀수를 조사하여 다음과 같은 자료를 얻었다면,

 

0,1,3,1,2,0,4,6,3,2,2,1,0,1,2

 

위 자료는 0에서 6까지 7가지의 종류로 구성되어 있으며, 아래의 표로 요약 가능함.

계급(자녀수) 도수
0 3
1 4
2 4
3 2
4 1
5 0
6 1
합계 15

 

1) 도수분포표

계급(class): 자료를 요약하기 위해 사용하는 값, 위 표에서 0에서 6까지의 값을 계급이라 함.

도수(frequency): 각 계급에 속한 자료의 개수

 

도수분포표 작성 시, 자료의 수가 너무 많거나 적으면 자료의 특성이 잘 반영되지 않을 수 있으므로, 적당한 수의 계급을 결정하는 것이 좋음

 

- 계급의 결정

(1) 이산형자료

셀 수 있는 이산형자료의 경우, 값을 직접 계급으로, 혹은 몇 개의 값을 묶어 계급으로 사용할 수 있음.

(2) 연속형자료

 

계급 대신 계급 구간(class interval, 계급의 범위)과 계급폭(class width, 계급구간의 길이)의 개념을 사용해 도수분포표를 작성함.

 

사전에 정해진 계급 구간의 개수와 계급폭이 없다면,

자료의 개수와 자료의 범위를 사용하는 다음의 식을 사용하여 도수분포표를 결정하고 나타낼 수 있음.

 

- 스터지스(Sturges)의 공식

 

연속형 자료의 계급 구간 및 계급폭 설정을 위한 공식

 

예제) 스터지스의 공식을 활용하여 특정자료의 도수분포표를 구한다고 해보자.

 

이 때 자료의 수가 40, R의 값이 3.1이라면, 계급의 수는 위 공식에 따라

K = 1 + 3.3log10(40) = 6.28.         -> K는 6 혹은 7이 적당하다.

 

또한, 계급의 수에 따라 계급폭은

K = 6인 경우, C = 3.1/6 = 0.52

K = 7인 경우, C = 3.1/7 = 0.44

가 된다.

위를 기반으로 K=7, C=0.5 정도로 일반화하여 결정하면 된다.

 

이후 전체 자료가 모두 포함되도록 최댓값과 최솟값을 고려하여 계급구간을 정하면 된다.

이 때, 특정 자료가 양쪽 구간 모두에 포함되지 않도록 계급구간에서 적당한 수를 빼거나 더해서 계급구간을 보정한다.

 

계급구간 계급중앙값 도수
1.45 ~ 1.95 1.7 2
1.95 ~ 2.45 2.2 1
2.45 ~ 2.95 2.7 4
2.95 ~ 3.45 3.2 15
3.45 ~ 3.95 3.7 10
3.95 ~ 4.45 4.2 5
4.45 ~ 4.95 4.7 3
합계   40

 

- 연속형변수의 도수분포표를 작성하는 방법의 순서 요약

(1) 계급구간의 수 K를 정한다

(2) 범위 R을 사용하여 등간격 계급폭 C를 구한다

(3) 각 자료가 하나의 계급구간에 포함되도록 계급구간을 보정한다

(4) 각 계급구간의 계급중앙값도수를 구한다

(5) 계급구간, 계급중앙값, 도수,도수의 합을 표기한다

 

2) 상대도수분포표

각 계급구간에서 도수 대신 도수를 자료의 개수 n으로 나누어 계산한 상대도수를 나타낸 표

 

도수분포표에서 i번째 계급구간의 도수를 fi라 하면, 상대도수분포표에서 i번째 계급구간의 도수 f'i = fi/ n 이 된다.

 

3) 누적도수분포표, 누적상대도수분포표

도수분포표와 상대도수분포표를 누적하여 얻을 수 있는 표

 

누적도수분포표에서 i번째 계급구간의 누적도수를 Fi라하면 Fi = f1 + f2 + ... + fi 가 되며,

누적상대도수분포표에서 i번째 계급구간의 누적상대도수를 F'i라하면 F'i = f'1 + f'2 + ... + f'i 가 된다.

 

예제) 특정 자료에 대한 여러가지 도수분포표

계급구간 계급중앙값 도수 상대도수 누적도수 누적상대도수
1.45 ~ 1.95 1.7 2 0.050 2 0.050
1.95 ~ 2.45 2.2 1 0.025 3 0.075
2.45 ~ 2.95 2.7 4 0.100 7 0.175
2.95 ~ 3.45 3.2 15 0.375 22 0.550
3.45 ~ 3.95 3.7 10 0.250 32 0.800
3.95 ~ 4.45 4.2 5 0.125 37 0.925
4.45 ~ 4.95 4.7 3 0.075 40 1.000
합계   40 1    

 

 

2. 히스토그램(histogram) 혹은 막대그래프

자료를 위와 같이 도수분포나 상대도수분포표로 정리하고 이것을 다시 그래프로 나타낸 것

좌표축에서 가로축에 계급구간을, 세로축에는 각 계급구간의 도수 혹은 상대도수를 표시하여 막대로 도형화한 것.

 

위 자료를 파이썬 matplotlib을 통해 히스토그램으로 나타낸 것은 다음과 같다.

 

matplotlib으로 그린 히스토그램
matplotlib으로 그린 상대도수 히스토그램
matplotlib으로 그린 누적도수 히스토그램

히스토그램은 시각적인 효과를 가지기에 도수분포표나 상대도수분포표보다 자료의 특성을 쉽게 파악할 수 있다

그러나 계급폭이 일정하지 않은 경우, 오히려 자료의 특성이 왜곡되기 쉽다.

 

도수다각형(frequency polygon)

히스토그램의 단점을 보완하기 위해, 각 계급의 중앙값을 직선으로 연결시켜 다각형 형태로 연결한 그래프

도수다각형은 다각형의 처음과 끝에 도수가 0인 계급구간을 추가하여 그림.

 

파이썬 matplotlib 라이브러리의 경우, 전체 자료를 읽어 도수다각형을 그려주는 메서드는 없는 것으로 추정.

따라서 다른 라이브러리를 사용하여 별도로 중앙값을 입력하여 plot으로 그려야하는 것으로 보임.

귀찮으니 나중에 그려야지 ㅎㅎ

 

3. 줄기-잎 그림(stem-and-leaf display)

자료의 값에서 큰 단위의 값을 줄기로 하고 작은 단위의 값을 잎으로 하여, 세로줄에는 줄기를, 가로줄에는 각 줄기에 해당하는 잎을 적어 넣은 그림.

 

도수분포표나 히스토그램과 비슷한 성격을 가지면서, 모든 자료의 값을 확인할 수 있는 그림.

특히 자료의 수가 비교적 적은 경우 유용하게 사용(앞으로 다루게 될 데이터들은 수가 많은 편이라 이 도표를 잘 사용하지 않는 듯)

 

예제)

 

27.5, 27.6, 27.6, 30.3, 28.8, 22.9, 26.6, 31.8, 28.4, 26.9,

30.0, 31.2, 29.4, 28.0, 26.8, 26.9, 28.4, 28.8, 28.5, 26.3, 29.9

 

다음 수는 정수부분을을 줄기로, 소수부분을 잎으로 하면 줄기-잎 그림으로 자료를 정리할 수 있음.

 

 

정수부분(줄기) 소수부분(잎)          
22 9          
23            
24            
25            
26 3 6 8 9 9  
27 5 6 6      
28 0 4 4 5 8 8
29 4 9        
30 0 3        
31 2 8        

< 단위: 0.1>

 

- 위와 같이 줄기-잎 그림은 자료 전체의 값을 한 눈에 확인할 수 있음

- 위 그림은 시계 반대 방향으로 90도 회전하면 히스토그램의 형태가 되며, 각 줄기의 잎의 길이가 히스토그램의 막대의 길이가 됨.

- 간편하게 작성 가능

- 줄기가 적고 잎이 많으면 자료의 특성이 잘 드러나지 않으므로, 단위를 적절히 조절하여 특성이 잘 드러날 수 있도록 결정해야 함.

 

 

줄기-잎 그림에서 줄기의 수를 결정하는 일반적인 공식

 

 

3. 상자그림

반응형