[ NLP ] 사이킷런을 사용해서 데이터를 수치화 하는 방법
2020-09-18 00:49:39
사이킷런을 사용해서 데이터를 수치화 하는 방법 이 세 가지 방법은 모두 텍스트를 벡터로 만든다 CountVectorizer : 단순히 각 텍스트에서 횟수 기준으로 특징 추출하는 방법 TfidfVectorizer : TF-IDE라는 값을 사용해서 텍스트 특징 추출 HashingVectorizer : CountVectorizer과 동일한 방법이지만 텍스트를 처리할 때 해시를 이용하여 실행시간을 줄임 - CountVectorizer 예를 들어 "나는 매일 공부를 한다" 문장을 횟수값으로 이뤄진 벡터로 만든다면 먼저 단어 사전을 정의한다 단어 사전에 "나는","너가","매일","공부를","한다","좋아한다" 6개 단어로 되어 있다고 하면 "나는 매일 공부를 한다" 문장의 경우 [1,0,1,1,1,0] 이라는 벡..