shell을 열고
conda install -c anaconda beautifulsoup4
Beautiful Soup은 웹에 있는 HTML 문서를 가져오거나 파싱할 수 있다. 예를 들어, html 태그를 지워보면
import requests
from bs4 import BeautifulSoup
rq = requests.get("https://yanoo.tistory.com/category/%ED%94%84%EB%A1%9C%EA%B7%B8%EB%9E%98%EB%B0%8D/Web")
text=rq.content
print(text)
뭔가 지저분하게 html 태그가 포함되어 알아볼 수 없지만 라이브러리를 이용해 태그를 지워보면
text=BeautifulSoup(text,"html5lib").get_text()
print(text)
html 태그는 제거된 모습을 볼 수 있다.
[ NLP ] 텍스트 분류 (1) | 2020.10.24 |
---|---|
[ NLP ] 원-핫 인코딩과 분포 가설 (2) | 2020.10.21 |
[ NLP ] 토크나이징 (0) | 2020.09.23 |
[ NLP ] 사이킷런을 사용해서 데이터를 수치화 하는 방법 (0) | 2020.09.18 |
[ 사이킷런(scikit-learn) ] DLL load failed: 지정된 프로시저를 찾을 수 없습니다. 해결방법 (0) | 2020.09.16 |