본문 바로가기

인공지능/ChatGPT3

채팅 AI를 사용하여 한국어 텍스트 증강하기 (GPT-3.5, Bard, Clova X비교) 목차 배경 모바일 앱으로 쓰여진 한국어로 구성된 문장들을 여러 개 보유하고 있는데, 유사한 의미를 가지나 다르게 표현된 여러 개의 문장이 필요했다. 이렇게 기존 데이터로 유사한 데이터를 생성하는 것을 데이터 증강(augmentation)이라고 한다. 증강은 주로 비전 분야에서 많이 사용되었으나, 최근에는 거대 언어 모델이 발전함에 따라 자연어 분야에서도 필요로 한다고 한다. 영어는 우선 데이터도 많고, 연구가 많이 이루어졌으며, 단어의 구성이 비교적 단순하여 데이터 증강이 쉬운 편이지만, 한국어는 그렇지 않다. 알파벳을 나열하는 영어와 달리, 자음소의 조합이 하나의 음절을 이루고, 이 음절의 조합에 따라 단어가 구성되기 때문이다. 그래서 한국어 자연어 처리를 위한 라이브러리가 따로 있기도 하며, 일반적인.. 2023. 9. 5.
OpenAI API에서 사용하는 jsonl 파일 읽고 쓰기 OpenAI의 Fine-tuning API를 사용하려면 jsonl 확장자로 데이터를 준비해야 한다. 간단히 말하면 jsonl은 key, value 형태의 json을 개행문자(\n)로 구분해놓은 파일이다. openai 파인 튜닝 예제 데이터를 보면, prompt, completion이라는 key, value로 구성된 json이 하나의 샘플이며, 이 샘플을 나열할 때에는 개행문자를 통해 구분되게끔 하였다. {"prompt": "", "completion": ""} {"prompt": "", "completion": ""} {"prompt": "", "completion": ""} ... from openai platform 위와 같은 파일을 읽고 쓰려면, python의 I/O와 json 라이브러리를 적절히 .. 2023. 8. 17.
[openai-cookbook] 임베딩과 이웃 기반 검색을 사용한 추천 예제 (리뷰문서) 목차 포스팅 개요 자료 위치: https://github.com/openai/openai-cookbook/blob/main/examples/Recommendation_using_embeddings.ipynb 주제: 추천을 위해 유사한 아이템을 찾는 데에 임베딩을 사용하는 방법에 대해 기술. AG의 뉴스 아티클 코퍼스를 사용함 특이점 다른 유사도 기반 검색의 경우, 질의-위키피디아, 리뷰 키워드-리뷰전문 등 있었음. 이번에는 기사-유사한 기사의 검색임. 즉, 아이템 간의 유사도 검색을 하여 A 기사를 보고 있는 사람이 관심 있을만한 유사한 다른 기사를 추천하는 데에 의미가 있음. openai에 유사도를 계산하는 모듈이 있음. 이걸 사용함. 특별한 것은 아님. 공식 도큐먼트가 없음? 핵심 내용 “기사가 주어.. 2023. 6. 4.