이번 포스팅의 목적
- NIH Chest X-ray dataset를 이용하여 질병 분류 딥러닝 모델을 구축하고, 데이터를 핸들링하기 전,
readme를 해석하여 데이터에 대한 기초 정보를 얻자!!
데이터는 어디에?
- 데이터 관련 article: www.nih.gov/news-events/news-releases/nih-clinical-center-provides-one-largest-publicly-available-chest-x-ray-datasets-scientific-community
- 데이터 경로: nihcc.app.box.com/v/ChestXray-NIHCC/file/220660789610nihcc.app.box.com/v/ChestXray-NIHCC/folder/36938765345
NIH(National Institutes of Health)란?
미국 보건복지부의 공공보건국 산하기관 중 하나인 국립의학연구기관이며, 연구활동 외에 교육 및 정보제공 등을 지원함.
NIH Chest X-ray dataset란?
NIH 임상 센터(clinical center)에서 2017년 9월 배포한 100,000(십만)개가 넘는 흉부 X-ray 영상과 영상과 관련한 데이터.
AI 및 컴퓨터를 이용한 질병 진단의 발전에 기여하고자 무료로 배포
- 30,000 명 이상의 환자로부터 얻은 정보
README 내용
1. 배경 및 동기
흉부 X선 영상을 이용한 빈도 높게 촬영되며, 비용적인 측면에서도 효율적임.
임상 분야에서 CAD(computer-aided detection and diagnosis)를 성공적으로 실현하기 위해서는, 영상 데이터의 수를 충분히 충족시켜주어야 함.
해당 데이터베이스는
- open-i(https: //openi.nlm.nih.gov)에서 제공하는 전면 흉부 X선 영상 대비 27배나 되는 수의 데이터를 제공하며,
- PACS 데이터베이스와 실제 병원의 전면 데이터로 이루어짐 --> 실제 병원의 영상을 대표할 수 있으므로 의미있다!!
- 영상의 레이블은 NLP를 통해서 추출.
2. 상세 정보
- 데이터셋의 크기: 112,120 전면부 X선 영상, 30,805의 환자에게서 추출됨.
- 14개의 질병에 대해 텍스트로 레이블링 됨.(각각의 영상에 여러 개의 클래스에 대해 레이블링 되어있음)
- 14개의 질병 정보
Atelectasis, Consolidation, Infiltration, Pneumothorax, Edema, Emphysema, Fibrosis, Effusion, Pneumonia, Pleural_thickening, Cardiomegaly, Nodule, Mass and Hernia
3. 데이터 셋 내용
1) 112,120 전면부 X선 영상(PNG)
- 해상도: 1024*1024
2) 영상 메타 데이터
- Image Index, Finding Labels, Follow-up #, Patient ID, Patient Age, Patient Gender, View Position, Original Image Size and Original Image Pixel Spacing.
3) 1,000(천)장의 영상에 대한 bounding box
- 같은 환자에 대한 데이터는 training/ validation 혹은 test set 둘 중 하나에만 존재
* 이 정보에 대한 추가적인 설명(뇌피셜): 같은 환자에 대한 데이터가 훈련 데이터와 검증 데이터에서 겹치면 정확도가 특히 높게 나올 가능성이 있기 때문에, 이와 같은 에러를 미리 배제하고자 중복되는 환자는 넣지 않음.
* 예를 들어 환자 1에 대한 데이터가 훈련 데이터와 테스트 데이터에 둘다 존재하면, 환자 1에 대해 이미 학습을 한 모델은 환자 1에 대해서 높은 확률로 예측을 맞출 경우가 있음.
4) 데이터 셋 분리하기 위한 텍스트 파일
- train_val_list.txt 와 test_list.txt
- 같은 환자 영상은 training/validation 혹은 testing set 둘 중 하나에만 존재.(위에서 설명한 이유에 의거해)
4. 한계
- 영상의 레이블이 nlp로 추출되었기에 90% 이상임에도 불구하고, 잘못되었을 수도 있음.
- 질병 위치 바운딩 박스는 굉장히 적음
- 흉부 X선 영상에 대한 보고서(nlp로 레이블을 추출한 소스)는 따로 제공되지 않음.
5. 추가 첨부파일들
a. 14개의 질병의 분포
b. 보편적인 흉부 질환 8개에 대한 예제
c. 지도 학습 딥러닝 모델을 이용한 질병 위치에 대한 예제
다음 포스팅부터는 위 정보를 활용하여 데이터를 로드하고, 전처리를 진행해볼 예정
출처:
- NIH란(terms.naver.com/entry.nhn?docId=1233278&cid=40942&categoryId=34609)
- nihcc.app.box.com/v/ChestXray-NIHCC/file/220660789610
'인공지능' 카테고리의 다른 글
자연어 데이터 전처리 방법 - 영어 (0) | 2023.05.15 |
---|---|
gcloud scp로 데이터 전송하기 (0) | 2023.05.10 |
딥러닝 robust 의미 (0) | 2023.02.15 |
자연어 처리와 텍스트 마이닝(NLP vs. Text Mining) (0) | 2021.03.29 |
NIH dataset unzip/ load/ handling (0) | 2021.02.21 |