데이터 마이닝 시, 모형 생성 이전에 데이터셋을 분할하여
일부는 학습을 목적으로, 나머지는 모형을 검증, 평가하기 위한 목적으로 활용한다.
I. 분할 데이터 종류
1) 학습용 데이터(training data) (50%)
구축용, 추정용, 훈련용 데이터라고도 불리며,
데이터 마이닝 모델을 만드는 데에 사용됨.
2) 검정용 데이터(validation data) (30%)
개발 데이터(development data)라고도 불리며,
구축된 모형의 과대추정(overfitting) 및 과소추정(underfitting)을
미세 조정(fine tuning) 하는 데에 활용됨.
3) 시험용 데이터(test data) (20%)
구축된 모형의 성능을 검증, 평가하는 데에 사용됨.
II. 데이터 분할 방법
일반적으로는 위와 같이 분할하나 데이터의 양이 충분하지 않은 경우에는 아래와 같은 방법을 사용하여 데이터를 분할한다.
1) 홀드 아웃(hold-out) 방법
주어진 데이터를 랜덤하게 두 개의 데이터로 구분하여 사용
주로 학습용 데이터와 시험용 데이터로 분리
2) 교차 확인(cross-validation) 방법
주어진 데이터를 k개의 fold로 구분하여,
k-1 folds 를 훈련용 데이터로, 나머지 1 fold를 검증용 데이터로 설정하여 학습한 뒤,
이를 k번 반복 측정한 결과를 평균내어 최종 값으로 사용
주로 10-fold cross-validation을 많이 사용
출처: 2021 ADsP 데이터 분석 준전문가, Data Edu
반응형
'수학' 카테고리의 다른 글
[빅분기] 실기 후기 및 도움받은 사이트 공유 (Python) (0) | 2021.12.05 |
---|---|
[빅분기] 필기 합격 후기 (0) | 2021.11.21 |
분류 성능 지표 제대로 알고 넘어가기 (정분류율, 특이도, 민감도, 재현율, F1 score, 정확도 등) (0) | 2021.05.08 |
[MAC] RStudio 기본 코드 및 데이터 유형 (0) | 2021.04.24 |
[Mac] Mac 환경에 R 및 R studio 설치 (0) | 2021.04.24 |