n-gram
주어진 텍스트 또는 음성 샘플에서 연속적으로 배열된 n개 항목을 말함. 항목은 음절, 문자, 단어 쌍이 될 수 있고, 일반적으로 코퍼스에서 수집됨. shingles이라고 불리기도 함.
n에 따라 다음과 같이 불리기도 함
- n=1: unigram
- n=2: bigram 또는 digram
- n=3: trigram
- four-gram, give-gram…
참고
계산 생물학에서는 k-mer라고 부름. 1-mer, 2-mer, 3-mer 또는 monomer, dimer, trimer, tetramer, pentamer, etc..
n-gram model
카운트에 기반한 통계적 접근을 사용하는 SLM(Statistic language model)의 일종. 모든 단어를 고려하는 것이 아니라, 일부 단어만 고려.
n-1개의 단어에 의존하여 그 다음 나올 단어를 예측. 만약 ABC가 1000번, ABD가 500번 등장하면, AB뒤에는 C가 올 것으로 예측하게 됨.
challenges
- n-1개만 고려하기 때문에, 그보다 한참 앞, 또는 뒤의 문맥이 전혀 고려되지 않을 수 있고, 이에 따라 전체 문장을 고려한 모델에 비해 정확도가 떨어질 수 밖에 없음.
- n을 크게 잡으면 희소 문제가 심각해지고, 작게 잡으면 문맥을 고려하지 못해 정확도가 떨어짐. n은 최대 5를 넘으면 안된다고 함.
참고
반응형
'인공지능' 카테고리의 다른 글
multi-label classification의 활성화 함수와 손실 함수 (0) | 2023.07.01 |
---|---|
LlamaIndex로 검색 엔진 구축하기 (라마인덱스, openai-cookbook) (1) | 2023.06.29 |
어텐션 개념 이해하기 (어텐션과 K, Q, V) (0) | 2023.05.26 |
[논문리뷰] NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE (0) | 2023.05.25 |
machine translation에서 align, alignment의 의미 (0) | 2023.05.23 |