[데이터 마이닝] 데이터 분할(훈련 데이터, 검정 데이터, 테스트 데이터)
데이터 마이닝 시, 모형 생성 이전에 데이터셋을 분할하여 일부는 학습을 목적으로, 나머지는 모형을 검증, 평가하기 위한 목적으로 활용한다. I. 분할 데이터 종류 1) 학습용 데이터(training data) (50%) 구축용, 추정용, 훈련용 데이터라고도 불리며, 데이터 마이닝 모델을 만드는 데에 사용됨. 2) 검정용 데이터(validation data) (30%) 개발 데이터(development data)라고도 불리며, 구축된 모형의 과대추정(overfitting) 및 과소추정(underfitting)을 미세 조정(fine tuning) 하는 데에 활용됨. 3) 시험용 데이터(test data) (20%) 구축된 모형의 성능을 검증, 평가하는 데에 사용됨. II. 데이터 분할 방법 일반적으로는 위와..
2021. 5. 19.
분류 성능 지표 제대로 알고 넘어가기 (정분류율, 특이도, 민감도, 재현율, F1 score, 정확도 등)
데이터 마이닝 "분류 성능 지표" 제대로 알고 넘어가기 머신 러닝 알고리즘이나 딥러닝 모델을 활용하여 예측 모델을 만들었을 때, 모델의 성능을 평가(검증)하기 위해 활용하는 다양한 지표가 존재합니다. 결국 "모델이 잘 만들어졌는가"를 확인하기 위한 지표이므로 대체로 유사해보이지만, 모델의 형태나 예측 목적에 따라 적절한 지표를 사용해야 합니다. 자주 사용하지만, 사용할 때마다 잊어 다시 확인하곤 하기에, 이번 기회에 개념을 다시 한 번 짚고 넘어가려 합니다. 개념 확립에 앞서, 이해를 돕기 위한 심플한 예제를 정하겠습니다. - 환자의 병원 전자의무기록(EMR) 데이터를 이용해 골다공증 여부를 예측하는 모형을 생성함. 골다공증: Positive(1) 정상: Normal(0) I. 분류 성능 지표 Matri..
2021. 5. 8.
자연어 처리와 텍스트 마이닝(NLP vs. Text Mining)
텍스트 데이터를 다룸에 있어, 다음의 두 용어가 혼용되어 둘의 차이를 명확히 하고자 한다. 먼저 둘의 정의는 다음과 같다. 텍스트 마이닝(Text Mining) 텍스트 분석으로도 불리며, 비정형 데이터에 대하여 자연어 처리 기술과 문서 처리 기술을 적용하여 유용한 정보를 추출, 가공하는 것을 목적으로 하는 기술 핵심 연구 분야: 문서 요약, 특성 추출, 토픽 추출, 문서 분류 등 자연어 처리(Natural Language Processing, NLP) 자연어란 인간이 일상에서 사용하는 언어로, 컴퓨터가 인간의 언어 현상을 이해, 해석, 조작할 수 있도록 연구하고 구현하는 인공지능의 주요 분야 핵심 기술: 형태소 분석 기술, 구문분석 기술, 의미분석 기술, 단어 및 문장 생성 기술 응용: 정보 검색, 문서..
2021. 3. 29.