[ NLP ] 원-핫 인코딩과 분포 가설
2020-10-21 22:20:07
원-핫 인코딩 방식이란 단어를 하나의 벡터로 표현하는 법으로 각 값은 0 혹은 1만 갖는다. 예를 들어 남자, 여자, 아빠, 엄마를 알려줘야 한다고 할 때 남자라면 [1,0,0,0] 값을 여자는 [0,1,0,0] 으로 표현하는 것이 원-핫 인코딩 방식이다. 하지만 실제 자연어 처리 문제는 수백만개의 넘는 단어를 표현해야하므로 이런 방법은 공간을 너무 많이 사용하게 된다. 그리고 이런 표현은 벡터값 자체에는 단어의 특징이 전혀 표현되지 않는다. 이런 문제를 해결하기 위해서 벡터의 크기가 작으면서 벡터가 단어의 의미를 표현할 수 있는 방법들이 있는데 이러한 방법들을 분포 가설(같은 문맥의 단어, 즉 비슷한 위치에 나오는 단어는 비슷한 의미를 가짐)을 기반으로 한다. 크게 카운트 기반 방법과 예측 방법이 있음..