[응용통계학] 2장. 자료의 요약 및 정리(1)

1. 모집단과 표본

- 원소: 통계적 자료를 얻기 위한 조사에서 조사대상이 되는 개체 하나하나를 칭함

- 모집단(population): 원소 전체의 모임

- 무한모집단(infinite population): 원소의 수가 무한인 모집단, 유한모집단(finite poluation): 원소의 수가 유한인 모집단

- 표본(sample): 모집단의 일부

- 전수조사(census): 모집단 원소 전체를 빠짐없이 모두 조사하는 방법.

- 모집단 자료: 전수 조사를 통해 얻은 자료

- 표본조사(sampling survey): 모집단의 일부를 조사하는 방법

- 표본 자료: 표본조사를 통해 얻은 자료

모집단의 특성을 가장 잘 반영하는 자료는 당연히 모집단 자료이겠지만, 무한모집단의 경우, 전수조사가 불가능하며, 유한모집단이어도 현실적으로는 어려움. 따라서 표본조사를 통해서 추출한 표본 자료를 얻는 것이 일반적.

- 랜덤추출(random sampling): 모집단으로부터 어떠한 인위적인 조작이 없이 무작위로 표본을 추출하는 방법. 모집단으로부터 표본을 추출하는 방법 중에서 가장 일반적인 방법.

2. 모수와 통계량

- 모수(parameter): 모집단의 특성을 나타내는 수치. 전수조사를 통해 얻은 모집단 자료로부터 정의됨. 보통 greek alphabet을 사용하여 표기

- 통계량(statistic): 표본의 특성을 나타내는 수치. 표본조사를 통해 얻은 표본자료로부터 정의됨. 보통 english alphabet을 사용하여 표기

** 하나의 모수에는 반드시 하나 이상의 통계량이 대응되어 정의되며, 이러한 통계량을 모수의 근사값 혹은 추정값으로 활용

3. 대표값

1) 대표값

: 자료의 특성을 나타내는 다양한 수치 중 가장 대표적인 것으로, 자료 전체의 중심 위치를 하나의 값으로 요약하는 수치이며, 이러한 의미에서 중심값이라고도 한다.

대표값의 종류

(1) 평균(mean)

: 대표값 중 가장 널리 사용되는 값이며, 자료의 합을 자료의 개수로 나눈 값으로 정의

자료가 모집단자료인 경우 모평균, 표본자료인 경우 표본평균이라고 함.

- 장점:

계산이 간편, 관측값의 정보가 모두 반영됨.

- 단점:

이상점(outlier)에 민감. 따라서 이상점이 존재하는 경우, 평균을 대표값으로 사용하는 것은 바람직하지 않음.

단점을 보완하기 위하여 이상점을 제거하여 평균을 구할 수 있음.

- a% 절사평균(trimmed mean): 자료 중에서 큰 값과 작은 값을 각각 a%만큼 버린 나머지 자료로부터 구한 평균. 모집단자료에서는 모절사평균, 표본자료인 경우 표본절사평균이라 함.

평균의 종류

- 산술평균(arithmetic mean):자료의 중요도가 모두 같은 경우에 사용. 평균과 절사평균이 포함

- 가중평균(weighted mean): 자료의 중요도가 모두 같지 않은 경우, 중요도를 반영하기 위하여 가중치를 사용하는 평균

특히, 물가지수와 같은 통계지수를 구할 때 자주 사용됨.

n개의 자료 x1, x2, x3, ..., xn의 가중치를 각각 w1, w2, ..., wn 이라 할 때 가중평균

(2) 중위수(Median) 혹은 중앙값

: 크기순으로 배열된 자료에서, 자료의 개수가 홀수인 경우 중앙에 위치한 자료를, 짝수인 경우 중앙에 위치한 두 자료의 평균

** 자료가 모집단 자료인 경우 모중위수, 표본자료인 경우 표본중위수

- 중위수의 장점

자료에 이상점이 있는 경우, 평균이 중심을 정확히 요약하지 못하는 것, 절사평균은 데이터의 일부를 버리는 것과 같은 단점을 보완, 즉 이상점의 영향을 크게 받지 않음

(3) 최빈수(Mode)

자료 중에서 가장 많이 출현한 값

** 자료가 모집단 자료인 경우 모최빈수, 표본자료인 경우 표본최빈수

- 대표값의 성질을 가지며, 정의에 따라 한 개 이상 존재 가능.

- 계산 간편, 자료의 수가 많아도 쉽게 구할 수 있음.

- 무게나 부피와 같은 양적자료(quantitative data)뿐만 아니라, 만족도와 같은 질적자료(qualitative data)에도 사용할 수 있음.

2) 산포도

전체 자료가 퍼진 정도를 하나의 값으로 요약한 값

(1) 범위(Range)

자료 중 가장 큰 값에서 가장 작은 값을 뺀 값

** 자료가 모집단 자료인 경우 모범위, 표본자료인 경우 표본범위

- 범위는 자료에서 최대값과 최소값만 고려하므로 자료의 정보를 모두 반영하지 않음

(2) 분산(Variance)

각각의 자료가 중심인 평균에서 얼마만큼 떨어져 있는가를 계산하고, 이를 제곱하여 평균을 낸 값

- 이전까지의 개념에서는 식은 같지만 자료의 종류에 따라 모ㅇㅇ/표본ㅇㅇ 으로 값을 분류하였는데, 분산의 경우 정의하는 식이 다르므로 유의해야 함.

- 모분산(population variance)의 정의

- 표본분산(sample variance)의 정의

표본분산의 계산 시 자료의 개수 n이 아닌, (n-1)로 나눔. 이 개념은 3장에서 자세히 알게 될 것.

표본 분산 계산 시 아래의 정리를 사용하여 계산하는 것이 더 간편

표준편차(standard deviation)

분산의 양의 제곱근

- 분산은 편차를 제곱하여 계산하기에 측정단위가 자료 측정단위의 제곱이 됨. 따라서 자료와 같은 측정 단위를 갖도록 양의 제곱근을 사용

* 분산 및 표준편차는 측정단위에 따라 바뀜. 측정 단위에 무관한 산포도의 개념으로 변동계수를 사용함.

변동계수(coefficient of Variation)는 표준편차와 평균의 비율.

(y = ax 일 때, 두 항에 모두 a가 존재하여 나눠지므로, 측정단위의 영향을 덜 받음)

(3) 사분위편차

분산 또한 평균처럼 이상점에 민감. 이 단점을 보완하기 위한 산포도가 사분위 편차

사분위수(quartile)

: 자료를 작은 값에서 큰 값으로 크기순으로 나열하였을 때 4등분되는 위치의 값

- 제1사분위수: 가장 작은 사분위수, 제2사분위수: 가운데 사분위수, 제3사분위수: 가장 큰 사분위수

- 제1사분위수보다 작거나, 제3사분위수보다 큰 이상점에 영향을 받지 않음

- 자료의 절반이 제1사분위수와 제3사분위수 사이에 포함

- 제3사분위수와 제1사분위수의 차이가 산포도를 측정하는 수치

사분위편차(Interquartile Range) 혹은 사분위수범위

큰 값들과 작은 값들 중 각각 25%를 버린나머지 자료들의 범위에 해당.

'수학 > 응용통계학' 카테고리의 다른 글

[응용통계학] 4장. 확률변수와 확률분포 (0)	2021.03.28
[응용통계학] 3장. 확률 (0)	2021.03.20
[응용통계학] 2장. 자료의 요약 및 정리(3) - 도표를 이용한 자료의 정리_박스 플롯(상자그림) (0)	2021.03.08
[응용통계학] 2장. 자료의 요약 및 정리(2) - 도표를 이용한 자료의 정리 (0)	2021.02.28
[응용통계학] 1장. 통계학 개요 (0)	2021.02.21

완벽하지 않은 완벽주의자

[응용통계학] 2장. 자료의 요약 및 정리(1) - 자료의 요약

1. 모집단과 표본

2. 모수와 통계량