채팅 AI를 사용하여 한국어 텍스트 증강하기 (GPT-3.5, Bard, Clova X비교)
목차 배경 모바일 앱으로 쓰여진 한국어로 구성된 문장들을 여러 개 보유하고 있는데, 유사한 의미를 가지나 다르게 표현된 여러 개의 문장이 필요했다. 이렇게 기존 데이터로 유사한 데이터를 생성하는 것을 데이터 증강(augmentation)이라고 한다. 증강은 주로 비전 분야에서 많이 사용되었으나, 최근에는 거대 언어 모델이 발전함에 따라 자연어 분야에서도 필요로 한다고 한다. 영어는 우선 데이터도 많고, 연구가 많이 이루어졌으며, 단어의 구성이 비교적 단순하여 데이터 증강이 쉬운 편이지만, 한국어는 그렇지 않다. 알파벳을 나열하는 영어와 달리, 자음소의 조합이 하나의 음절을 이루고, 이 음절의 조합에 따라 단어가 구성되기 때문이다. 그래서 한국어 자연어 처리를 위한 라이브러리가 따로 있기도 하며, 일반적인..
2023. 9. 5.