Python

5분만에 네이버 뉴스 기사 크롤링하기

뚜둔뚜둔 2020. 7. 22. 13:51
오픈소스 라이브러리 BeautifulSoup

pip install bs4

from bs4 import BeautifulSoup

# urllib을 사용한 Request 보내기
import urllib.request
 
url = "https://news.naver.com/"

req = urllib.request.urlopen(url) # url에 대한 연결요청
res = req.read() # 연결요청에 대한 응답
 
soup = BeautifulSoup(res,'html.parser') # BeautifulSoup 객체생성
# print('html 모두 읽어옴 ')
# print(soup)


test = soup.find_all('strong')
print('strong안에 있는 내용 모두 출력')
print(test)

keywords = [each_line.get_text().strip() for each_line in test] # text만 추출
print("text만 추출")
print(keywords)

# 오픈소스 라이브러리 BeautifulSoup을 사용하여 크롤링하기

 

 

반응형