[ NLP ] 텍스트 유사도 ( 자카드 유사도, 코사인 유사도 )
2020-10-26 19:49:48
이 소설 쓴 사람이 누구야? 내가 보고 있는 소설 작가가 누구야? 두 문장은 같은 의미이지만 인공지능 스피커는 다른 문장으로 인식한다. 효율성을 위해 같은 대답을 준비해야하고 이때 문장이 유사한지 측정해야하며, 텍스트 유사도 측정 방법을 사용해 이를 측정한다. 텍스트 유사도 : 텍스트가 얼마나 유사한지를 표한하는 방식 중 하나 일반적으로 유사도를 측정하기 위해 정량화 하는 방법에는 단순히 같은 단어의 개수를 사용하여 유사도를 판단하는 방법 형태소로 나눠 형태소를 비교하는 방법 자소 단위로 나누어 단어를 비교하는 방법 이 중 딥러닝을 기반으로 텍스트의 유사도를 측정하는 방식을 보면 단어, 형태소, 유사도의 종류에 상관 없이, 텍스트를 벡터화한 후 벡터화된 문장들 간의 유사도를 측정하는 방법이다. 그리고 자..