1. 모집단과 표본
- 원소: 통계적 자료를 얻기 위한 조사에서 조사대상이 되는 개체 하나하나를 칭함
- 모집단(population): 원소 전체의 모임
- 무한모집단(infinite population): 원소의 수가 무한인 모집단, 유한모집단(finite poluation): 원소의 수가 유한인 모집단
- 표본(sample): 모집단의 일부
- 전수조사(census): 모집단 원소 전체를 빠짐없이 모두 조사하는 방법.
- 모집단 자료: 전수 조사를 통해 얻은 자료
- 표본조사(sampling survey): 모집단의 일부를 조사하는 방법
- 표본 자료: 표본조사를 통해 얻은 자료
모집단의 특성을 가장 잘 반영하는 자료는 당연히 모집단 자료이겠지만, 무한모집단의 경우, 전수조사가 불가능하며, 유한모집단이어도 현실적으로는 어려움. 따라서 표본조사를 통해서 추출한 표본 자료를 얻는 것이 일반적.
- 랜덤추출(random sampling): 모집단으로부터 어떠한 인위적인 조작이 없이 무작위로 표본을 추출하는 방법. 모집단으로부터 표본을 추출하는 방법 중에서 가장 일반적인 방법.
2. 모수와 통계량
- 모수(parameter): 모집단의 특성을 나타내는 수치. 전수조사를 통해 얻은 모집단 자료로부터 정의됨. 보통 greek alphabet을 사용하여 표기
- 통계량(statistic): 표본의 특성을 나타내는 수치. 표본조사를 통해 얻은 표본자료로부터 정의됨. 보통 english alphabet을 사용하여 표기
** 하나의 모수에는 반드시 하나 이상의 통계량이 대응되어 정의되며, 이러한 통계량을 모수의 근사값 혹은 추정값으로 활용
3. 대표값
1) 대표값
: 자료의 특성을 나타내는 다양한 수치 중 가장 대표적인 것으로, 자료 전체의 중심 위치를 하나의 값으로 요약하는 수치이며, 이러한 의미에서 중심값이라고도 한다.
대표값의 종류
(1) 평균(mean)
: 대표값 중 가장 널리 사용되는 값이며, 자료의 합을 자료의 개수로 나눈 값으로 정의
자료가 모집단자료인 경우 모평균, 표본자료인 경우 표본평균이라고 함.
- 장점:
계산이 간편, 관측값의 정보가 모두 반영됨.
- 단점:
이상점(outlier)에 민감. 따라서 이상점이 존재하는 경우, 평균을 대표값으로 사용하는 것은 바람직하지 않음.
단점을 보완하기 위하여 이상점을 제거하여 평균을 구할 수 있음.
- a% 절사평균(trimmed mean): 자료 중에서 큰 값과 작은 값을 각각 a%만큼 버린 나머지 자료로부터 구한 평균. 모집단자료에서는 모절사평균, 표본자료인 경우 표본절사평균이라 함.
평균의 종류
- 산술평균(arithmetic mean):자료의 중요도가 모두 같은 경우에 사용. 평균과 절사평균이 포함
- 가중평균(weighted mean): 자료의 중요도가 모두 같지 않은 경우, 중요도를 반영하기 위하여 가중치를 사용하는 평균
특히, 물가지수와 같은 통계지수를 구할 때 자주 사용됨.
(2) 중위수(Median) 혹은 중앙값
: 크기순으로 배열된 자료에서, 자료의 개수가 홀수인 경우 중앙에 위치한 자료를, 짝수인 경우 중앙에 위치한 두 자료의 평균
** 자료가 모집단 자료인 경우 모중위수, 표본자료인 경우 표본중위수
- 중위수의 장점
자료에 이상점이 있는 경우, 평균이 중심을 정확히 요약하지 못하는 것, 절사평균은 데이터의 일부를 버리는 것과 같은 단점을 보완, 즉 이상점의 영향을 크게 받지 않음
(3) 최빈수(Mode)
자료 중에서 가장 많이 출현한 값
** 자료가 모집단 자료인 경우 모최빈수, 표본자료인 경우 표본최빈수
- 대표값의 성질을 가지며, 정의에 따라 한 개 이상 존재 가능.
- 계산 간편, 자료의 수가 많아도 쉽게 구할 수 있음.
- 무게나 부피와 같은 양적자료(quantitative data)뿐만 아니라, 만족도와 같은 질적자료(qualitative data)에도 사용할 수 있음.
2) 산포도
전체 자료가 퍼진 정도를 하나의 값으로 요약한 값
(1) 범위(Range)
자료 중 가장 큰 값에서 가장 작은 값을 뺀 값
** 자료가 모집단 자료인 경우 모범위, 표본자료인 경우 표본범위
- 범위는 자료에서 최대값과 최소값만 고려하므로 자료의 정보를 모두 반영하지 않음
(2) 분산(Variance)
각각의 자료가 중심인 평균에서 얼마만큼 떨어져 있는가를 계산하고, 이를 제곱하여 평균을 낸 값
- 이전까지의 개념에서는 식은 같지만 자료의 종류에 따라 모ㅇㅇ/표본ㅇㅇ 으로 값을 분류하였는데, 분산의 경우 정의하는 식이 다르므로 유의해야 함.
- 모분산(population variance)의 정의
- 표본분산(sample variance)의 정의
표본분산의 계산 시 자료의 개수 n이 아닌, (n-1)로 나눔. 이 개념은 3장에서 자세히 알게 될 것.
표본 분산 계산 시 아래의 정리를 사용하여 계산하는 것이 더 간편
표준편차(standard deviation)
분산의 양의 제곱근
- 분산은 편차를 제곱하여 계산하기에 측정단위가 자료 측정단위의 제곱이 됨. 따라서 자료와 같은 측정 단위를 갖도록 양의 제곱근을 사용
* 분산 및 표준편차는 측정단위에 따라 바뀜. 측정 단위에 무관한 산포도의 개념으로 변동계수를 사용함.
변동계수(coefficient of Variation)는 표준편차와 평균의 비율.
(y = ax 일 때, 두 항에 모두 a가 존재하여 나눠지므로, 측정단위의 영향을 덜 받음)
(3) 사분위편차
분산 또한 평균처럼 이상점에 민감. 이 단점을 보완하기 위한 산포도가 사분위 편차
사분위수(quartile)
: 자료를 작은 값에서 큰 값으로 크기순으로 나열하였을 때 4등분되는 위치의 값
- 제1사분위수: 가장 작은 사분위수, 제2사분위수: 가운데 사분위수, 제3사분위수: 가장 큰 사분위수
- 제1사분위수보다 작거나, 제3사분위수보다 큰 이상점에 영향을 받지 않음
- 자료의 절반이 제1사분위수와 제3사분위수 사이에 포함
- 제3사분위수와 제1사분위수의 차이가 산포도를 측정하는 수치
사분위편차(Interquartile Range) 혹은 사분위수범위
큰 값들과 작은 값들 중 각각 25%를 버린나머지 자료들의 범위에 해당.
'수학 > 응용통계학' 카테고리의 다른 글
[응용통계학] 4장. 확률변수와 확률분포 (0) | 2021.03.28 |
---|---|
[응용통계학] 3장. 확률 (0) | 2021.03.20 |
[응용통계학] 2장. 자료의 요약 및 정리(3) - 도표를 이용한 자료의 정리_박스 플롯(상자그림) (0) | 2021.03.08 |
[응용통계학] 2장. 자료의 요약 및 정리(2) - 도표를 이용한 자료의 정리 (0) | 2021.02.28 |
[응용통계학] 1장. 통계학 개요 (0) | 2021.02.21 |