본문 바로가기

인공지능57

자연어 처리와 텍스트 마이닝(NLP vs. Text Mining) 텍스트 데이터를 다룸에 있어, 다음의 두 용어가 혼용되어 둘의 차이를 명확히 하고자 한다. 먼저 둘의 정의는 다음과 같다. 텍스트 마이닝(Text Mining) 텍스트 분석으로도 불리며, 비정형 데이터에 대하여 자연어 처리 기술과 문서 처리 기술을 적용하여 유용한 정보를 추출, 가공하는 것을 목적으로 하는 기술 핵심 연구 분야: 문서 요약, 특성 추출, 토픽 추출, 문서 분류 등 자연어 처리(Natural Language Processing, NLP) 자연어란 인간이 일상에서 사용하는 언어로, 컴퓨터가 인간의 언어 현상을 이해, 해석, 조작할 수 있도록 연구하고 구현하는 인공지능의 주요 분야 핵심 기술: 형태소 분석 기술, 구문분석 기술, 의미분석 기술, 단어 및 문장 생성 기술 응용: 정보 검색, 문서.. 2021. 3. 29.
NIH dataset unzip/ load/ handling 이번 포스팅의 목적 - NIH CXR Dataset Info 에서 데이터 셋의 readme를 해석하여 얻은 데이터에 대한 기초 정보를 기반으로, 데이터를 다운로드하여 1) 압축을 풀고, 2) 주피터 노트북에서 데이터를 로드한 뒤, 3) 데이터를 간단하게 핸들링하여 파악해보자!! 0. 데이터 다운로드 NIH cxr dataset 데이터 경로에 들어가면 readme를 비롯한 다양한 파일들과 영상 정보가 존재함을 알 수 있다. 전체 데이터를 다운로드하려니, 용량이 너무 커서 다운로드되지 않는다고 하여, 필요한 정보를 로컬로 일부 다운로드하여 핸들링해본 뒤, 나머지도 다운로드하기로 결심하였다. 현재 다운로드한 파일의 정보: - train_val_list.txt & test_list.txt - images - i.. 2021. 2. 21.
NIH Chest X-ray Dataset info 이번 포스팅의 목적 - NIH Chest X-ray dataset를 이용하여 질병 분류 딥러닝 모델을 구축하고, 데이터를 핸들링하기 전, readme를 해석하여 데이터에 대한 기초 정보를 얻자!! 데이터는 어디에? - 데이터 관련 article: www.nih.gov/news-events/news-releases/nih-clinical-center-provides-one-largest-publicly-available-chest-x-ray-datasets-scientific-community NIH Clinical Center provides one of the largest publicly available chest x-ray datasets to scientific community The data.. 2021. 2. 20.