분류 전체보기209 [Mac] Mac 환경에 R 및 R studio 설치 데이터 분석 준전문가(ADsP) 자격증 취득을 준비하며, mac 환경에 R을 설치하게 되었습니다. R이란? R은 통계와 데이터마이닝 및 그래프를 다루기 위한 오픈소스 프로그래밍 언어입니다. 저는 python(numpy, pandas)에 익숙한 편인데, 이번 기회로 R과 친해져보려 합니다ㅎㅎ 아무튼 R을 macos에 설치하려고 하는데, R언어를 편리하게 사용할 수 있는 IDE인 RStudio를 함께 설치해보겠습니다! 아래 순서를 따라 설치하면 됩니다! 1. R 설치하기 2. RStudio 설치하기 #01 R 설치하기 1) R for macos 설치 사이트에 접속하여 R-4.0.5.pkg 설치 - 저와 다른 시기에 접속하는 경우 패키지의 버전은 다를 수 있습니다. 필요한 버전이 정해져 있지 않다면, Late.. 2021. 4. 24. 자연어 처리와 텍스트 마이닝(NLP vs. Text Mining) 텍스트 데이터를 다룸에 있어, 다음의 두 용어가 혼용되어 둘의 차이를 명확히 하고자 한다. 먼저 둘의 정의는 다음과 같다. 텍스트 마이닝(Text Mining) 텍스트 분석으로도 불리며, 비정형 데이터에 대하여 자연어 처리 기술과 문서 처리 기술을 적용하여 유용한 정보를 추출, 가공하는 것을 목적으로 하는 기술 핵심 연구 분야: 문서 요약, 특성 추출, 토픽 추출, 문서 분류 등 자연어 처리(Natural Language Processing, NLP) 자연어란 인간이 일상에서 사용하는 언어로, 컴퓨터가 인간의 언어 현상을 이해, 해석, 조작할 수 있도록 연구하고 구현하는 인공지능의 주요 분야 핵심 기술: 형태소 분석 기술, 구문분석 기술, 의미분석 기술, 단어 및 문장 생성 기술 응용: 정보 검색, 문서.. 2021. 3. 29. [응용통계학] 4장. 확률변수와 확률분포 응용통계학 4장 확률변수와 확률분포는 다음 목차로 구성 4.1 확률변수 4.2 이산형 확률분포 4.3 연속형 확률분포 4.4 결합확률분포 4.5 주변확률분포 4.6 두 확률변수의 독립성 4.7 확률변수의 기대값 4.8 확률변수의 분산 4.9 공분산과 상관계수 4.10 기대값, 분산의 성질 4.1 확률변수 확률 변수 개념이 필요한 이유를 예로 들어 이해해보자. 1) 표본공간의 각각의 표본점을 하나의 실수로 대응시키면, 표본공간의 표현의 임의성을 배제할 수 있음. 1개의 동전을 1회 던지는 실험에서 앞면이 나타나는 경우를 표본점 H, 뒷면이 나타나는 경우를 표본점 T로 표기하면, 표본공간 S = {H, T} 로 표기할 수 있음. 그러나 표현에 따라 H와 T를 각각 앞, 뒤로 표기 가능하며, 이런 경우 S =.. 2021. 3. 28. [Tesseract] 이미지 텍스트 파싱 Tesseract(테서렉트) 광학 문자 인식 엔진. 무료 소프트웨어이며, Google에서 개발 후원 영상 내 문자를 인식하는 OCR 엔진으로, pip, brew 등을 통해 설치 가능 - homebrew 를 이용한 tesseract 설치 brew install tesseract - tesseract 설치 및 버전 확인 tesseract -v - 설치 후 텍스트 파싱 코드 tesseract [이미지경로] stdout 2021. 3. 22. [응용통계학] 3장. 확률 응용통계학 3장 확률은 다음의 목차로 이루어져 있다. 3.1 표본공간과 사상 3.2 사상의 확률 3.3 확률법칙 3.4 조건확률 3.5 베이즈 정리 3.1 표본공간과 사상 확률의 두 가지 전제조건 i ) 어떠한 '실험이나 조사'가 있어야 함 ii ) 실험이나 조사의 '결과'가 있어야 함 1) 표본공간과 표본점 - 표본공간(Sample Space): 어떤 실험이나 조사에서 얻을 수 있는 '모든 결과의 집합', S로 표기 - 표본점(Sample Point): 표본공간에 속하는 각각의 원소 - 표본공간은 표본점의 유한성에 따라 유한표본공간(finite sample space): 표본점의 개수가 유한인 공간 무한표본공간(infinite sample space): 표본점의 개수가 무한인 공간 - 표본공간은 표본점.. 2021. 3. 20. [응용통계학] 2장. 자료의 요약 및 정리(3) - 도표를 이용한 자료의 정리_박스 플롯(상자그림) 상자그림(box plot) 자료의 사분위수, 좌우로의 치우침, 꼬리의 상태 등 자료의 분포적 특성을 파악하기 위해 사용 이상점을 분류하거나 여러 종류의 자료의 특성을 동시에 비교할 수 있음 * 용어 정리 - 스텝(step): 사분위편차(IQR = Q3 - Q1)의 1.5배 - 안 울타리(inner fence): 제1, 3 사분위수에서 1스텝 바깥쪽 값 - 아래쪽 안 울타리(lower inner fence): f1 = Q1 - 1 x 스텝 - 위쪽 안 울타리(upper inner fence): f2 = Q3 + 1 x 스텝 - 바깥 울타리(outer fence): 제1, 3 사분위수에서 2스텝 바깥쪽 값 - 아래쪽 바깥 울타리(lower outer fence): F1 = Q1 - 2 x 스텝 - 위쪽 바깥.. 2021. 3. 8. 이전 1 ··· 31 32 33 34 35 다음