기계 이해 태스크에서는 대체로 자연 언어를 이해하는 과제에서 기계가 텍스트 내용에 대해 추론을 잘 하는지 파악하는 목적에서 학습하게 된다.
그렇기 때문에 이 태스크를 QA 태스크라고 부르기도 하며 보통 QA(Question Answering) 형태의 데이터셋을 활용해 기계에게 학습하게 한다.
여기서는 대표적으로 연구에서 활용하는 2개의 데이터셋을 봐보자
: 기계가 데이터를 통해 학습해서 텍스트를 이해하고 추론하는 목적에서 만들어진 데이터셋.
총 20가지 부류의 질문 내용으로 구성 돼
있으며 질문 데이터셋 구성은 아래 그림과 같다.
bAbI 데이터셋은 시간 순서대로 나열된 텍스트 문장 정보와 그에 대한 질문으로 구성되어 텍스트 정보에 대해 질문을 던지고 응답하는 형태다.
그림의 예로 Task1은 Single Supporting Fact라고 해서 질문의 답을 찾는데 한 개의 근거만 찾아 알 수 있게 하는 경우다.
질문인 "Where is Mary"와 관련된 문장은
인데 시간 순서상 맨 마지막에 있는 문장을 보게 되고 Mary의 위치를 물었으니 "office"가 정답이 된다.
이처럼 문장의 내용을 알 수 있어야 하고 논리적인 관계를 파악할 수 있어야 하는 데이터셋 20가지가 구성돼 있다.
:기계 이해 태스크에서 가장 유명한 데이터셋 중 하나. 위키피디아에 있는 내용을 크라우드 소싱해서 QA 데이터셋으로 만듦.
46개의 주제에 대해 약 10만 개의 질문 데이터셋으로 구성되어 있으며 인물, 시간, 장소, 이유 등 다양한 형태의 질문이 있다. 그리고 약 10만 개의 어휘와 짧은 텍스트부터 400단어가 넘는 긴 텍스트까지 다양한 길이의 지문을 포함하고 있다.
위 그림을 보면 "precipitation"에 대한 설명인데 "What causes precipitation to fall"이라고 묻고 있다.
이 질문의 답으로 텍스트 안에 있는 단어를 선택하게 한다.
이러한 데이터 구성 덕분에 이 데이터셋에 관한 모델링에서는 정답을 선택할 떄는 텍스트의 토큰 위치의 시작점과 끝점을 지정하도록 학습한다.
모델 학습에 대한 평가는 정답 위치와 완벽하게 일치하는지를 보는 EM 점수와 정답 위치와 겹치는 지를 보는 F1 점수를 통해 본다.
텍스트가 아닌 이미지를 이해하고 질문을 던진다면??
VGA는 이미지에 대한 정보와 텍스트 질의를 통해 이미지 컨텍스트에 해당하는 답을 알려주는 태스크다.
그림을 보면 질문이 나오는데 AI System을 통해 "bababas"라는 결론을 얻도록 학습해야한다.
여기서 AI System은 머신러닝 또는 딥러닝 모델이라 보면 된다. 어떻게 이를 통해 해결할 수 있는지 간단한 예로 보면,
이 모델은 2개의 모델이 합쳐진 형태다. 하나는 Image Embedding이라는 모델로서 이미지에 대한 정보를 추출하는 모델이고,
아래는 Question Embedding이라는 질문 텍스트에 대한 정보를 추출하는 모델이다.
각 두 정보에 대해 모델을 통해 추출하고 난 후 두 정보를 조합해서 답을 추론하는 모델을 만들어 정답을 찾고자 한다. 이 같은 학습을 여러 데이터를 가지고 한다면 이미지 정보에 대해 질문하게 됐을 때 정답을 추론할 수 있는 인공지는 모델을 만들 수 있다.
[ 출처 : 책 ( 텐서플로와 머신러닝으로 시작하는 자연어 처리) ]
[ kaggle ] kaggle api 사용하기 (0) | 2020.12.08 |
---|---|
[ NLP ] 탐색적 데이터 분석 (0) | 2020.12.05 |
[ NLP ] 기계 이해 (0) | 2020.11.14 |
[ NLP ] 텍스트 유사도 ( 유클리디언 유사도, 맨하탄 유사도 ) (0) | 2020.11.10 |
[ NLP ] 텍스트 유사도 ( 자카드 유사도, 코사인 유사도 ) (0) | 2020.10.26 |