본문 바로가기
수학/시계열 분석

[시계열] EEG database data set 소개 (알코올 중독 관련 EEG 데이터셋)

by judy@ 2022. 9. 25.

안녕하세요. 리주연입니다.

최근 시계열 데이터 분석에 관심이 생겨, 헬스케어 분야의 데이터를 서치하다가 발견한 EEG 데이터셋에 대해 소개하려 합니다.

 

부끄러운 이야기이지만, 평소 UCI Repository 등에서 데이터셋을 다운로드하여 활용할 시,

제공하고 있는 데이터셋 명세에 대해서 숙지하지 않고, 무작정 부딪혀 활용하였습니다.

그러다 보니, 한창 탐색적 분석을 하던 도중 데이터셋이 목적에 부합하지 않거나,
이미 알려진 것에 대해서도 수백번 삽질을 하여 깨닫는 경우가 많았습니다..쩝..;;

 

앞으로 이 데이터를 활용하여, 시계열 시각화, 요약 통계, 분해, 분류 모델링까지 다양한 task를 수행해보려 하는데,
이에 앞서 어떤 목적으로 수집된, 어떤 정보를 담고 있는 데이터인지 명확하게 알아보아 삽질을 최소화해보려 합니다.

 


Data set Abstract

  • 데이터셋 명: EEG Database Data Set
  • 출처: UCI Machine Learning Repository
  • 이 데이터는 EEG와 알코올 중독(alcoholism)에 대한 유전적 소인의 상관 관계를 조사하기 위한 대규모 연구에서 비롯됨. 256Hz에서 샘플링된 두피에 배치된 64개 전극측정 값에 대한 데이터.

데이터 요약 정보

위 표를 통해, 이 데이터는 다변량, 시계열 데이터이며, 122개의 인스턴스를 포함.
4개의 속성을 가지고, 명목형, 수치형 속성이 존재하며, 결측이 있는 데이터임을 알 수 있음.

 

EEG 란?

EEG(electroencephalogram, 뇌전도)전극을 통해 뇌의 전기적 활동을 기록하는 전기 생리학적 측정 방법과 그 결과를 말함. 일반적으로 두피에 전극을 부착하여 신호를 측정하는 경우를 의미함. 이 신호는 신경 세포 내부에서 발생하는 이온 전류에 의해 유도된 전위의 요동을 측정한 것이며, 환자 진단 시에는 주로 특정 사건이 일어날 때 발생하는 사건 관련 전위나 뇌파의 스펙트럼 밀도를 주로 분석한다고 함.

뇌전증 환자를 대부분 뇌전도의 이상을 통해 진단하며, 수면 장애, 혼수 상태, 뇌증, 뇌사 등을 진단할 때에도 사용함. 뇌종양, 뇌졸중 의심 시에 가장 처음으로 진단할 수 있는 도구였으나, MRI, PET 등의 방식이 개발된 이후로는 잘 사용되지 않음. 공간 분해능은 별로 좋지 않지만, 밀리초 단위의 시간 분해능을 가지고 있다는 특징 때문에 여전히 연구/ 사용되는 도구 

(출처: 위키백과)

256Hz의 해석

Hz는 주파수, 진동수의 단위로, 1Hz는 1초에 한 번을 의미한다. 그러면 256Hz는 1초에 256번이라는 것이고, 이 데이터는 1초 간 256번 측정한 아주 짧은 시계열성 데이터임을 알 수 있음.

Data set Information

이 데이터는 알코올 중독(alcoholism) 유전적 요인과 EEG의 관계를 확인하기 위한 데이터로,
피험자(subjects)가 대조군(control)실험군(case)인 알코올 중독 그룹으로 나뉨.

 

각각의 피험자는 그림인 단일 자극(S1) 또는 두 가지 자극(S1 and S2)에 노출됨. 두 가지 자극은 두 자극이 일치하는 조건과 불일치하는 조건으로 나뉨. 즉, 세 종류의 상황에 놓일 수 있었음.

 

총 피험자는 122명이고, 각각의 피험자는 120개의 시험을 완료함. 전극의 위치는 EEG 표준 전극 위치(Standard Electrode Position Nomenclature, American Electroencephalographic Association 1990)를 활용하여 배치하였으며, 데이터 수집에 대한 프로세스는 Zhang et al. (1995)에서 상세히 설명하였다고 함.

 

이 데이터 세트에는 세 가지의 버전이 있음.

1. The Small Data Set

작은 데이터 세트(smni97_eeg_data.tar.gz)에는 알코올 중독자(a_co2a0000364) 및 대조군(c_co2c0000337)의 2명의 대상에 대한 데이터가 포함됨. 이 데이터는 c_1(하나의 자극), c_m(이전과 일치하는 두 번째 자극) 및 c_n(이전과 불일치하는 두 번째 자극)의 3가지 일치 패러다임에 대한 각 10번의 실행 자료임.

 

즉, 두 명의 대상에 대해 각각 3 종류의 패러다임에 대해 10번씩 실행한 30개의 데이터를 가지므로, 총 60개의 데이터를 포함할 것

2. The Large Data Set

대용량 데이터 세트(SMNI_CMI_TRAIN.tar.gz 및 SMNI_CMI_TEST.tar.gz)에는 10명의 알코올 중독자 및 10명의 대조군에 대한 데이터가 포함되어 있으며, 피험자당, 패러다임당 10회 실행된 데이터. 훈련 데이터와 테스트 데이터가 있는데, 이 때 테스트 데이터는 훈련 데이터와 동일한 대상을 활용했지만, 피험자당, 패러다임당, 10 샘플 외 실행의 데이터라고 함.

여기서 말하는 샘플외 실행은 "out-of-sample runs"라는 표현을 직역한 것인데, 확실히는 모르겠지만, stackexchange를 참고하여 나름대로 해석해 봄. 예측에서 in-sample과 out-of-sample이라는 개념이 있는데, in-sample은 훈련 데이터의 데이터를 예측한 것, out-of-sample은 훈련 데이터를 벗어난, 상이한 기간의 데이터를 예측하는 것을 의미하는 것으로 보임. 여기서 out-of-sample runs의 의미는 1) 같은 대상자들에 대해 동일한 패러다임을 다른 자극으로 수행한 데이터 혹은 2) 다른 대상자들에 대해 동일한 패러다임을 동일한 자극으로 수행한 데이터 일 것으로 보임.

 

훈련 데이터와 테스트 데이터는 각각 20명(10명 대조군, 10명 실험군)에 대해 3종류의 패러다임을 10회씩 실행한 데이터.

3. The Full Data Set

마지막으로 전체 데이터 세트에는 122명의 피험자에 대한, 모든 120개의 시험이 포함됨. 전체 데이터 세트는 약 700MB를 차지함.

(단, co2c1000367의 17개 시도에서 빈 파일이 있으며, 일부 error가 포함됨)

 

Attribute Information

각 시도는 개별적인 파일로 저장되며, 다음의 포맷을 따름


# co2a0000364.rd 
# 120 trials, 64 chans, 416 samples 368 post_stim samples 
# 3.906000 msecs uV 
# S1 obj , trial 0 
# FP1 chan 0 
0 FP1 0 -8.921 
0 FP1 1 -8.433 
0 FP1 2 -2.574 
0 FP1 3 5.239 
0 FP1 4 11.587 
0 FP1 5 14.028

처음 네 줄은 헤더 정보로, 1행은 피험자 식별자를 포함하며 4번째 문자로 피험자가 대조군(c)인지 알코올 중독자(a)인지 알 수 있음. co2a000364.rd에서 4번째 문자가 a이므로 이 데이터는 알코올 중독자의 데이터임. 4행은 일치 조건을 식별하며, 이 데이터는 S1 obj, trial 0로 표기되어 있음. 이 외에도 S1 obj, S2 match, S2 nomatch 가 발생할 수 있는 행임.

5행은 어떤 전극의 데이터가 시작되는지를 식별하는 것으로, 여기에서는 FP1 전극(electroid), 0번째 전극 센서의 데이터가 시작됨을 알림. 이후에 등장하는 행들은 4개의 값으로 구성되며, 각각 시험 번호, 센서 위치, 샘플 번호(0-255), 센서 값(micro volts)을 의미함.

 

위를 통해 각각의 파일들이 위와 같은 포맷으로 구성되어 있으며,
각 파일의 헤더에서 데이터의 클래스 정보, 어떤 패러다임의 몇 회차 정보를 의미하는지를 파악할 수 있음.

 


결론적으로, 데이터 메타 정보를 천천히 숙독하여 보니, 데이터를 읽어 다양한 방법으로 탐구하여 얻을 수 있는 포맷, 개수 등의 정보들을 훨씬 편하게 얻을 수 있었습니다.
우선, EEG 데이터 탐색 및 다양한 task를 수행할 시, 전극 종류에 따라, 패러다임의 종류에 따라 집계하거나 그룹핑하여 데이터의 패턴을 확인하고 필터링할 수 있음을 알 수 있었습니다. 또한 데이터에 대조군인지 알코올 중독자인지 어노테이션이 되어 있으므로, 이를 기반으로 시계열 인공지능 모형을 활용하여 분류 모델링을 수행해볼 수도 있을 것 같습니다. 그 외에도 여러 종류의 전극에 대한 시계열 데이터를 시각화, 요약하고, 나아가 데이터의 주파수를 분해하는 기법들도 활용해 볼 수 있어, 다양한 시도를 해보기에 적합한 데이터로 알아보길 잘했다는 생각이 들었습니다.

이 데이터를 활용하여 앞으로 다양한 시계열 분석 기법을 적용하고 그 기록을 남겨보겠습니다.

반응형