텍스트 데이터를 다룸에 있어, 다음의 두 용어가 혼용되어 둘의 차이를 명확히 하고자 한다.
먼저 둘의 정의는 다음과 같다.
텍스트 마이닝(Text Mining)
텍스트 분석으로도 불리며,
비정형 데이터에 대하여 자연어 처리 기술과 문서 처리 기술을 적용하여
유용한 정보를 추출, 가공하는 것을 목적으로 하는 기술
핵심 연구 분야: 문서 요약, 특성 추출, 토픽 추출, 문서 분류 등
자연어 처리(Natural Language Processing, NLP)
자연어란 인간이 일상에서 사용하는 언어로,
컴퓨터가 인간의 언어 현상을 이해, 해석, 조작할 수 있도록
연구하고 구현하는 인공지능의 주요 분야
핵심 기술: 형태소 분석 기술, 구문분석 기술, 의미분석 기술, 단어 및 문장 생성 기술
응용: 정보 검색, 문서 자동 분류, 클러스터링, 기계 번역, 챗봇 등
위 정의를 통해 다음 두 가지 Fact를 알 수 있음
- 텍스트 마이닝에는 자연어 처리 기술이 적용
- 두 기술과 분야는 유사한 듯하나 목적에 차이가 있음
하나씩 살펴보면,
1. 텍스트 마이닝에 자연어 처리 기술, 문서 처리 기술이 적용됨.
즉, 텍스트 분석의 목적(유용한 정보를 추출, 가공하는 것)을 달성하기 위하여 사용하는 주요 기술 중 하나가 자연어 처리 기술임
2. 두 기술과 분야는 유사한 듯하나 목적에 차이가 있음
텍스트 마이닝의 목적은 비정형 데이터에서 유용한 정보를 추출, 가공하는 것이라면
자연어 처리는 컴퓨터가 인간의 언어 현상을 이해하고, 해석하고 조작할 수 있도록 하는 것.
텍스트 마이닝이 보다 실용적인 목적이며,
자연어 처리는 언어를 연구하는 언어학 및 언어 현상의 내적 기재를 탐구하는 언어 인지 과학과 연관이 깊음
정리하면,
두 기술은 목적의 측면에서 약간 다르나,
최근에는 유사한 혹은 같은 의미로 혼용된다
'인공지능' 카테고리의 다른 글
자연어 데이터 전처리 방법 - 영어 (0) | 2023.05.15 |
---|---|
gcloud scp로 데이터 전송하기 (0) | 2023.05.10 |
딥러닝 robust 의미 (0) | 2023.02.15 |
NIH dataset unzip/ load/ handling (0) | 2021.02.21 |
NIH Chest X-ray Dataset info (0) | 2021.02.20 |