n-gram과 n-gram 언어 모델

주어진 텍스트 또는 음성 샘플에서 연속적으로 배열된 n개 항목을 말함. 항목은 음절, 문자, 단어 쌍이 될 수 있고, 일반적으로 코퍼스에서 수집됨. shingles이라고 불리기도 함.

n에 따라 다음과 같이 불리기도 함

참고

계산 생물학에서는 k-mer라고 부름. 1-mer, 2-mer, 3-mer 또는 monomer, dimer, trimer, tetramer, pentamer, etc..

카운트에 기반한 통계적 접근을 사용하는 SLM(Statistic language model)의 일종. 모든 단어를 고려하는 것이 아니라, 일부 단어만 고려.

n-1개의 단어에 의존하여 그 다음 나올 단어를 예측. 만약 ABC가 1000번, ABD가 500번 등장하면, AB뒤에는 C가 올 것으로 예측하게 됨.

challenges

n-1개만 고려하기 때문에, 그보다 한참 앞, 또는 뒤의 문맥이 전혀 고려되지 않을 수 있고, 이에 따라 전체 문장을 고려한 모델에 비해 정확도가 떨어질 수 밖에 없음.
n을 크게 잡으면 희소 문제가 심각해지고, 작게 잡으면 문맥을 고려하지 못해 정확도가 떨어짐. n은 최대 5를 넘으면 안된다고 함.

multi-label classification의 활성화 함수와 손실 함수 (0)	2023.07.01
LlamaIndex로 검색 엔진 구축하기 (라마인덱스, openai-cookbook) (1)	2023.06.29
어텐션 개념 이해하기 (어텐션과 K, Q, V) (0)	2023.05.26
[논문리뷰] NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE (0)	2023.05.25
machine translation에서 align, alignment의 의미 (0)	2023.05.23

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

완벽하지 않은 완벽주의자