본문 바로가기
수학

[데이터 마이닝] 데이터 분할(훈련 데이터, 검정 데이터, 테스트 데이터)

by judy@ 2021. 5. 19.

데이터 마이닝 시, 모형 생성 이전에 데이터셋을 분할하여

일부는 학습을 목적으로, 나머지는 모형을 검증, 평가하기 위한 목적으로 활용한다.

 

I. 분할 데이터 종류

1) 학습용 데이터(training data) (50%)

구축용, 추정용, 훈련용 데이터라고도 불리며,

데이터 마이닝 모델을 만드는 데에 사용됨.

2) 검정용 데이터(validation data) (30%)

개발 데이터(development data)라고도 불리며,

구축된 모형의 과대추정(overfitting) 및 과소추정(underfitting)을

미세 조정(fine tuning) 하는 데에 활용됨.

3) 시험용 데이터(test data) (20%)

구축된 모형의 성능을 검증, 평가하는 데에 사용됨.

 

II. 데이터 분할 방법

일반적으로는 위와 같이 분할하나 데이터의 양이 충분하지 않은 경우에는 아래와 같은 방법을 사용하여 데이터를 분할한다.

1) 홀드 아웃(hold-out) 방법

주어진 데이터를 랜덤하게 두 개의 데이터로 구분하여 사용

주로 학습용 데이터와 시험용 데이터로 분리

2) 교차 확인(cross-validation) 방법

주어진 데이터를 k개의 fold로 구분하여,

k-1 folds 를 훈련용 데이터로, 나머지 1 fold를 검증용 데이터로 설정하여 학습한 뒤,

이를 k번 반복 측정한 결과를 평균내어 최종 값으로 사용

주로 10-fold cross-validation을 많이 사용

 

 

출처: 2021 ADsP 데이터 분석 준전문가, Data Edu

반응형