본문 바로가기

수학17

[빅분기] 필기 합격 후기 지난 10월 초에 시행했던 빅분기 3회 필기 시험을 합격하였습니다!!! 인증!! 높은 점수는 아니지만, 합격하였으니 지금부터 실기 시험을 준비하려 합니다!! 야호 2주도 안남았지만 화이팅^^ 2021. 11. 21.
[데이터 마이닝] 데이터 분할(훈련 데이터, 검정 데이터, 테스트 데이터) 데이터 마이닝 시, 모형 생성 이전에 데이터셋을 분할하여 일부는 학습을 목적으로, 나머지는 모형을 검증, 평가하기 위한 목적으로 활용한다. I. 분할 데이터 종류 1) 학습용 데이터(training data) (50%) 구축용, 추정용, 훈련용 데이터라고도 불리며, 데이터 마이닝 모델을 만드는 데에 사용됨. 2) 검정용 데이터(validation data) (30%) 개발 데이터(development data)라고도 불리며, 구축된 모형의 과대추정(overfitting) 및 과소추정(underfitting)을 미세 조정(fine tuning) 하는 데에 활용됨. 3) 시험용 데이터(test data) (20%) 구축된 모형의 성능을 검증, 평가하는 데에 사용됨. II. 데이터 분할 방법 일반적으로는 위와.. 2021. 5. 19.
분류 성능 지표 제대로 알고 넘어가기 (정분류율, 특이도, 민감도, 재현율, F1 score, 정확도 등) 데이터 마이닝 "분류 성능 지표" 제대로 알고 넘어가기 머신 러닝 알고리즘이나 딥러닝 모델을 활용하여 예측 모델을 만들었을 때, 모델의 성능을 평가(검증)하기 위해 활용하는 다양한 지표가 존재합니다. 결국 "모델이 잘 만들어졌는가"를 확인하기 위한 지표이므로 대체로 유사해보이지만, 모델의 형태나 예측 목적에 따라 적절한 지표를 사용해야 합니다. 자주 사용하지만, 사용할 때마다 잊어 다시 확인하곤 하기에, 이번 기회에 개념을 다시 한 번 짚고 넘어가려 합니다. 개념 확립에 앞서, 이해를 돕기 위한 심플한 예제를 정하겠습니다. - 환자의 병원 전자의무기록(EMR) 데이터를 이용해 골다공증 여부를 예측하는 모형을 생성함. 골다공증: Positive(1) 정상: Normal(0) I. 분류 성능 지표 Matri.. 2021. 5. 8.
[MAC] RStudio 기본 코드 및 데이터 유형 #01 R 기본 코드 1) 패키지 관련 (1) 기본 패키지 설치를 위해 다음 코드를 콘솔에 입력 install.packages("AID") (2) 다운로드한 AID 패키지의 help document 보기 library(help=AID) 2) 프로그램 파일 실행 코드 (1) 스크립트로 작성된 파일을 실행하는 코드 source("파일명") (2) R 코드 실행 결과를 특정 파일에서 출력 (덮어쓰기) sink("파일명") (3) 그래픽 출력을 pdf 파일로 지정 pdf("파일명") #02 R의 데이터 유형 데이터 유형 모드 숫자(Number) integer, double 논리값(Logical) True(T), False(F) 문자(Character) "a", "abc" 2021. 4. 24.
[Mac] Mac 환경에 R 및 R studio 설치 데이터 분석 준전문가(ADsP) 자격증 취득을 준비하며, mac 환경에 R을 설치하게 되었습니다. R이란? R은 통계와 데이터마이닝 및 그래프를 다루기 위한 오픈소스 프로그래밍 언어입니다. 저는 python(numpy, pandas)에 익숙한 편인데, 이번 기회로 R과 친해져보려 합니다ㅎㅎ 아무튼 R을 macos에 설치하려고 하는데, R언어를 편리하게 사용할 수 있는 IDE인 RStudio를 함께 설치해보겠습니다! 아래 순서를 따라 설치하면 됩니다! 1. R 설치하기 2. RStudio 설치하기 #01 R 설치하기 1) R for macos 설치 사이트에 접속하여 R-4.0.5.pkg 설치 - 저와 다른 시기에 접속하는 경우 패키지의 버전은 다를 수 있습니다. 필요한 버전이 정해져 있지 않다면, Late.. 2021. 4. 24.
[응용통계학] 4장. 확률변수와 확률분포 응용통계학 4장 확률변수와 확률분포는 다음 목차로 구성 4.1 확률변수 4.2 이산형 확률분포 4.3 연속형 확률분포 4.4 결합확률분포 4.5 주변확률분포 4.6 두 확률변수의 독립성 4.7 확률변수의 기대값 4.8 확률변수의 분산 4.9 공분산과 상관계수 4.10 기대값, 분산의 성질 4.1 확률변수 확률 변수 개념이 필요한 이유를 예로 들어 이해해보자. 1) 표본공간의 각각의 표본점을 하나의 실수로 대응시키면, 표본공간의 표현의 임의성을 배제할 수 있음. 1개의 동전을 1회 던지는 실험에서 앞면이 나타나는 경우를 표본점 H, 뒷면이 나타나는 경우를 표본점 T로 표기하면, 표본공간 S = {H, T} 로 표기할 수 있음. 그러나 표현에 따라 H와 T를 각각 앞, 뒤로 표기 가능하며, 이런 경우 S =.. 2021. 3. 28.