[데이터 마이닝] 데이터 분할(훈련 데이터, 검정 데이터, 테스트 데이터)
데이터 마이닝 시, 모형 생성 이전에 데이터셋을 분할하여 일부는 학습을 목적으로, 나머지는 모형을 검증, 평가하기 위한 목적으로 활용한다. I. 분할 데이터 종류 1) 학습용 데이터(training data) (50%) 구축용, 추정용, 훈련용 데이터라고도 불리며, 데이터 마이닝 모델을 만드는 데에 사용됨. 2) 검정용 데이터(validation data) (30%) 개발 데이터(development data)라고도 불리며, 구축된 모형의 과대추정(overfitting) 및 과소추정(underfitting)을 미세 조정(fine tuning) 하는 데에 활용됨. 3) 시험용 데이터(test data) (20%) 구축된 모형의 성능을 검증, 평가하는 데에 사용됨. II. 데이터 분할 방법 일반적으로는 위와..
2021. 5. 19.
분류 성능 지표 제대로 알고 넘어가기 (정분류율, 특이도, 민감도, 재현율, F1 score, 정확도 등)
데이터 마이닝 "분류 성능 지표" 제대로 알고 넘어가기 머신 러닝 알고리즘이나 딥러닝 모델을 활용하여 예측 모델을 만들었을 때, 모델의 성능을 평가(검증)하기 위해 활용하는 다양한 지표가 존재합니다. 결국 "모델이 잘 만들어졌는가"를 확인하기 위한 지표이므로 대체로 유사해보이지만, 모델의 형태나 예측 목적에 따라 적절한 지표를 사용해야 합니다. 자주 사용하지만, 사용할 때마다 잊어 다시 확인하곤 하기에, 이번 기회에 개념을 다시 한 번 짚고 넘어가려 합니다. 개념 확립에 앞서, 이해를 돕기 위한 심플한 예제를 정하겠습니다. - 환자의 병원 전자의무기록(EMR) 데이터를 이용해 골다공증 여부를 예측하는 모형을 생성함. 골다공증: Positive(1) 정상: Normal(0) I. 분류 성능 지표 Matri..
2021. 5. 8.