[ NLP ] 탐색적 데이터 분석
2020-12-05 19:21:47
처음 캐글 문제를 풀 때, 많은 사람들은 모델을 만들고 훈련 후 성능을 평가하고, 성능이 안 나온다면 다른 모델을 사용하는데, 이처럼 모델에 문제가 있는 경우도 있지만 해당 문제를 해결하려면 우선 데이터 이해가 선행돼야 한다. 이런 과정을 탐색적 데이터 분석이라고 함. 이런 과정을 통해 생각하지 못한 데이터의 여러 패턴이나 잠재적인 문제점 발견할 수 있음. 그리고 모델에 문제가 없다고 해도 데이터에 따라 맞는 모델이 있는데 모델과 데이터가 맞지 않다면 좋은 결과를 얻을 수 없다. 즉, 아무리 좋은 모델이라해도 데이터와 안 맞는 모델이라면 문제가 발생할 수 있다. 탐색적 데이터 분석은 어떻게 진행되는가? 답은 정해진 틀 없이 데이터에 대한 많은 정보를 내면 된다. (데이터에 대한 정보란? 데이터의 평균값,..