[ Beautiful Soup ] Beautiful Soup 설치와 html 태그 제거

728x90

shell을 열고

conda install -c anaconda beautifulsoup4

Beautiful Soup은 웹에 있는 HTML 문서를 가져오거나 파싱할 수 있다. 예를 들어, html 태그를 지워보면

import requests
from bs4 import BeautifulSoup

rq = requests.get("https://yanoo.tistory.com/category/%ED%94%84%EB%A1%9C%EA%B7%B8%EB%9E%98%EB%B0%8D/Web")
text=rq.content

print(text)

뭔가 지저분하게 html 태그가 포함되어 알아볼 수 없지만 라이브러리를 이용해 태그를 지워보면

text=BeautifulSoup(text,"html5lib").get_text()
print(text)

html 태그는 제거된 모습을 볼 수 있다.

728x90

'프로그래밍 > NLP' 카테고리의 다른 글

[ NLP ] 텍스트 분류 (1)	2020.10.24
[ NLP ] 원-핫 인코딩과 분포 가설 (2)	2020.10.21
[ NLP ] 토크나이징 (0)	2020.09.23
[ NLP ] 사이킷런을 사용해서 데이터를 수치화 하는 방법 (0)	2020.09.18
[ 사이킷런(scikit-learn) ] DLL load failed: 지정된 프로시저를 찾을 수 없습니다. 해결방법 (0)	2020.09.16

'프로그래밍 > NLP' 카테고리의 다른 글

티스토리툴바