파이썬 데이터 분석

파이썬 네이버 뉴스 크롤링 및 엑셀 저장

병통 2022. 1. 27. 11:11

필요한 라이브러리 불러오기

from bs4 import BeautifulSoup
import requests
import pandas as pd

나는 "코로나" 와 관련된 뉴스 기사를 검색할 것이며 
5페이지까지 추출할 것이다.

 

word = "코로나"
page = 5

urls = []
for i in range (1,page + 1):
    if i == 1:
        page_num = 1
        url = "https://search.naver.com/search.naver?where=news&sm=tab_pge&query=" + word + "&start=" + str(page_num)
        urls.append(url)
    else:
        page_num = ((i-1) * 10) + 1
        url = "https://search.naver.com/search.naver?where=news&sm=tab_pge&query=" + word + "&start=" + str(page_num)
        urls.append(url)


print(urls)

 

url의 구조를 잘 파악해야한다. 
1페이지는 1로 표시되어 있지만
2페이지부터는 11,
3페이지는 21,
4페이지는 31로 구성되어 있다.

그렇기에 1만 그대로 1을 불러오고 2페이지부터는 해당 페이지 수치에 맞게 조정하는 for 문을 실행한다.

 

(작성 중 )