본문 바로가기
수학/응용통계학

[응용통계학] 2장. 자료의 요약 및 정리(1) - 자료의 요약

by judy@ 2021. 2. 23.

1. 모집단과 표본

- 원소: 통계적 자료를 얻기 위한 조사에서 조사대상이 되는 개체 하나하나를 칭함

- 모집단(population): 원소 전체의 모임

   - 무한모집단(infinite population): 원소의 수가 무한인 모집단, 유한모집단(finite poluation): 원소의 수가 유한인 모집단

- 표본(sample): 모집단의 일부

 

- 전수조사(census): 모집단 원소 전체를 빠짐없이 모두 조사하는 방법.

    - 모집단 자료: 전수 조사를 통해 얻은 자료

- 표본조사(sampling survey): 모집단의 일부를 조사하는 방법

    - 표본 자료: 표본조사를 통해 얻은 자료

 

모집단의 특성을 가장 잘 반영하는 자료는 당연히 모집단 자료이겠지만, 무한모집단의 경우, 전수조사가 불가능하며, 유한모집단이어도 현실적으로는 어려움. 따라서 표본조사를 통해서 추출한 표본 자료를 얻는 것이 일반적.

 

- 랜덤추출(random sampling): 모집단으로부터 어떠한 인위적인 조작이 없이 무작위로 표본을 추출하는 방법. 모집단으로부터 표본을 추출하는 방법 중에서 가장 일반적인 방법.

 

2. 모수와 통계량

- 모수(parameter): 모집단의 특성을 나타내는 수치. 전수조사를 통해 얻은 모집단 자료로부터 정의됨. 보통 greek alphabet을 사용하여 표기

- 통계량(statistic): 표본의 특성을 나타내는 수치. 표본조사를 통해 얻은 표본자료로부터 정의됨. 보통 english alphabet을 사용하여 표기

 

** 하나의 모수에는 반드시 하나 이상의 통계량이 대응되어 정의되며, 이러한 통계량을 모수의 근사값 혹은 추정값으로 활용

 

3. 대표값

1) 대표값

: 자료의 특성을 나타내는 다양한 수치 중 가장 대표적인 것으로, 자료 전체의 중심 위치를 하나의 값으로 요약하는 수치이며, 이러한 의미에서 중심값이라고도 한다.

 

대표값의 종류

(1) 평균(mean)

: 대표값 중 가장 널리 사용되는 값이며, 자료의 합을 자료의 개수로 나눈 값으로 정의

 

n개의 자료 x1, x2, x3, ..., xn의 평균

 자료가 모집단자료인 경우 모평균, 표본자료인 경우 표본평균이라고 함.

 

- 장점:

  계산이 간편, 관측값의 정보가 모두 반영됨.

 

- 단점:

  이상점(outlier)에 민감. 따라서 이상점이 존재하는 경우, 평균을 대표값으로 사용하는 것은 바람직하지 않음.

 

단점을 보완하기 위하여 이상점을 제거하여 평균을 구할 수 있음.

 

- a% 절사평균(trimmed mean): 자료 중에서 큰 값과 작은 값을 각각 a%만큼 버린 나머지 자료로부터 구한 평균. 모집단자료에서는 모절사평균, 표본자료인 경우 표본절사평균이라 함.

 

평균의 종류

- 산술평균(arithmetic mean):자료의 중요도가 모두 같은 경우에 사용. 평균과 절사평균이 포함

- 가중평균(weighted mean): 자료의 중요도가 모두 같지 않은 경우, 중요도를 반영하기 위하여 가중치를 사용하는 평균

   특히, 물가지수와 같은 통계지수를 구할 때 자주 사용됨.

 

n개의 자료 x1, x2, x3, ..., xn의 가중치를 각각 w1, w2, ..., wn 이라 할 때 가중평균

  

(2) 중위수(Median) 혹은 중앙값

: 크기순으로 배열된 자료에서, 자료의 개수가 홀수인 경우 중앙에 위치한 자료를, 짝수인 경우 중앙에 위치한 두 자료의 평균

 

** 자료가 모집단 자료인 경우 모중위수, 표본자료인 경우 표본중위수

일반적인 중위수의 표기법

- 중위수의 장점

  자료에 이상점이 있는 경우, 평균이 중심을 정확히 요약하지 못하는 것, 절사평균은 데이터의 일부를 버리는 것과 같은 단점을 보완, 즉 이상점의 영향을 크게 받지 않음

 

(3) 최빈수(Mode)

자료 중에서 가장 많이 출현한 값

** 자료가 모집단 자료인 경우 모최빈수, 표본자료인 경우 표본최빈수

 

- 대표값의 성질을 가지며, 정의에 따라 한 개 이상 존재 가능.

- 계산 간편, 자료의 수가 많아도 쉽게 구할 수 있음.

- 무게나 부피와 같은 양적자료(quantitative data)뿐만 아니라, 만족도와 같은 질적자료(qualitative data)에도 사용할 수 있음.

 

2) 산포도

전체 자료가 퍼진 정도를 하나의 값으로 요약한 값

 

(1) 범위(Range)

자료 중 가장 큰 값에서 가장 작은 값을 뺀 값

** 자료가 모집단 자료인 경우 모범위, 표본자료인 경우 표본범위

 

- 범위는 자료에서 최대값과 최소값만 고려하므로 자료의 정보를 모두 반영하지 않음

 

(2) 분산(Variance)

각각의 자료가 중심인 평균에서 얼마만큼 떨어져 있는가를 계산하고, 이를 제곱하여 평균을 낸 값

 

- 이전까지의 개념에서는 식은 같지만 자료의 종류에 따라 모ㅇㅇ/표본ㅇㅇ 으로 값을 분류하였는데, 분산의 경우 정의하는 식이 다르므로 유의해야 함.

 

- 모분산(population variance)의 정의

모분산과 모편차의 정의

- 표본분산(sample variance)의 정의

표본분산과 표본편차의 정의

표본분산의 계산 시 자료의 개수 n이 아닌, (n-1)로 나눔. 이 개념은 3장에서 자세히 알게 될 것.

표본 분산 계산 시 아래의 정리를 사용하여 계산하는 것이 더 간편

 

표본 분산 간편 계산 식

 

표준편차(standard deviation)

분산의 양의 제곱근

 

- 분산은 편차를 제곱하여 계산하기에 측정단위가 자료 측정단위의 제곱이 됨. 따라서 자료와 같은 측정 단위를 갖도록 양의 제곱근을 사용

 

* 분산 및 표준편차는 측정단위에 따라 바뀜. 측정 단위에 무관한 산포도의 개념으로 변동계수를 사용함.

 

  변동계수(coefficient of Variation)는 표준편차와 평균의 비율.

  (y = ax 일 때, 두 항에 모두 a가 존재하여 나눠지므로, 측정단위의 영향을 덜 받음)

변동계수

(3) 사분위편차

분산 또한 평균처럼 이상점에 민감. 이 단점을 보완하기 위한 산포도가 사분위 편차

 

사분위수(quartile)

: 자료를 작은 값에서 큰 값으로 크기순으로 나열하였을 때 4등분되는 위치의 값

 

- 제1사분위수: 가장 작은 사분위수, 제2사분위수: 가운데 사분위수, 제3사분위수: 가장 큰 사분위수

- 제1사분위수보다 작거나, 제3사분위수보다 큰 이상점에 영향을 받지 않음

- 자료의 절반이 제1사분위수와 제3사분위수 사이에 포함

- 제3사분위수와 제1사분위수의 차이가 산포도를 측정하는 수치

 

사분위편차(Interquartile Range) 혹은 사분위수범위

큰 값들과 작은 값들 중 각각 25%를 버린나머지 자료들의 범위에 해당.

사분위편차

 

반응형