본문 바로가기
수학/응용통계학

[응용통계학] 2장. 자료의 요약 및 정리(3) - 도표를 이용한 자료의 정리_박스 플롯(상자그림)

by judy@ 2021. 3. 8.

상자그림(box plot)

자료의 사분위수, 좌우로의 치우침, 꼬리의 상태 등 자료의 분포적 특성을 파악하기 위해 사용

이상점을 분류하거나 여러 종류의 자료의 특성을 동시에 비교할 수 있음

 

* 용어 정리

 - 스텝(step): 사분위편차(IQR = Q3 - Q1)의 1.5배

 - 안 울타리(inner fence): 제1, 3 사분위수에서 1스텝 바깥쪽 값

    - 아래쪽 안 울타리(lower inner fence): f1 = Q1 - 1 x 스텝

    - 위쪽 안 울타리(upper inner fence): f2 = Q3 + 1 x 스텝

 - 바깥 울타리(outer fence): 제1, 3 사분위수에서 2스텝 바깥쪽 값

    - 아래쪽 바깥 울타리(lower outer fence): F1 = Q1 - 2 x 스텝

    - 위쪽 바깥 울타리(upper outer fence): F2 = Q3 + 2 x 스텝

 

 

 - 인접값(adjacent value): 안 울타리 fi 안쪽에 위치하면서 안 울타리에 가장 가까운 값

 - 이상점(outlier): 안 울타리 fi 바깥쪽에 위치하는 값

   - 보통이상점(mild outlier): 이상점 중, 안 울타리 fi와 바깥 울타리 Fi 사이에 있는 값

   - 극단이상점(extreme outlier): 이상점 중, 안 울타리 fi와 바깥 울타리 Fi 사이에 있는 값

 

박스 플롯에서의 용어와 이상점

박스 플롯 그리는 순서

1) 제1, 3 사분위수를 막대로 표시하고 연결하여 상자 그리기

2) 상자 속에 중위수의 위치를 막대로 표시

3) 인접값을 막대로 표시하고 제 1, 3사분위수 막대와 직선으로 연결

4) 보통이상점과 극단이상점을 특별한 기호로 표시(보통이상점 O, 극단이상점 X 등으로 표기)

 

- python - matplotlib 으로 그린 박스 플롯은 다음과 같다.

 

박스 플롯의 해석

1) 상자의 길이는 자료의 사분위편차이므로 자료가 퍼진 정도(산포도)를 나타냄

2) 중위수가 상자의 가운데에 위치하면, 자료가 대략적으로 중위수에서 좌우대칭으로 분포.

    중위수가 어느 한 쪽으로 치우쳐 있으면, 자료가 비대칭적으로 분포

3) 상자와 인접값을 연결하는 직선이 좌(우)측으로 길게 나타나면, 자료는 좌(우)측으로 긴 꼬리를 가지며 분포

4) 인접값 바깥쪽에 특별한 기호가 있으면 이상점이 존재.

반응형