n-gram과 n-gram 언어 모델
n-gram 주어진 텍스트 또는 음성 샘플에서 연속적으로 배열된 n개 항목을 말함. 항목은 음절, 문자, 단어 쌍이 될 수 있고, 일반적으로 코퍼스에서 수집됨. shingles이라고 불리기도 함. n에 따라 다음과 같이 불리기도 함 n=1: unigram n=2: bigram 또는 digram n=3: trigram four-gram, give-gram… 참고 계산 생물학에서는 k-mer라고 부름. 1-mer, 2-mer, 3-mer 또는 monomer, dimer, trimer, tetramer, pentamer, etc.. n-gram model 카운트에 기반한 통계적 접근을 사용하는 SLM(Statistic language model)의 일종. 모든 단어를 고려하는 것이 아니라, 일부 단어만 고려...
2023. 5. 31.
어텐션 개념 이해하기 (어텐션과 K, Q, V)
초기 제안된 어텐션 메커니즘에 기반하여, 개념과 구성, 원리에 대해 정리해보자. 목차 - 등장 배경 - 개념 - 원리 - K, Q, V? - 파생 개념 이해 * 어텐션 함수 * self-attention * multi-head attention 등장 배경 Attention은 주목, 집중의 의미를 가지는 명사로, 여기서도 같은 의미로 사용됨 기계 번역을 위한 딥러닝 모델(구체적으로는 RNN Encoder-Decoder)에 처음 도입하여 세상에 등장함 번역은 A라는 언어로 기술된 글을 같은 의미를 갖으나 B 언어로 표현된 글로 변환하는 것을 말함. A언어로 기술된 글을 이해한 뒤, 그 언어를 B의 언어로 재탄생시키는 원리에서 착안하여, 글을 이해하는 Encoder와 글을 생성하는 Decoder로 구성된 구조..
2023. 5. 26.