파이썬 네이버 뉴스 크롤링 및 엑셀 저장

파이썬 데이터 분석

파이썬 네이버 뉴스 크롤링 및 엑셀 저장

병통 2022. 1. 27. 11:11

필요한 라이브러리 불러오기

from bs4 import BeautifulSoup
import requests
import pandas as pd

나는 "코로나" 와 관련된 뉴스 기사를 검색할 것이며
5페이지까지 추출할 것이다.

word = "코로나"
page = 5

urls = []
for i in range (1,page + 1):
    if i == 1:
        page_num = 1
        url = "https://search.naver.com/search.naver?where=news&sm=tab_pge&query=" + word + "&start=" + str(page_num)
        urls.append(url)
    else:
        page_num = ((i-1) * 10) + 1
        url = "https://search.naver.com/search.naver?where=news&sm=tab_pge&query=" + word + "&start=" + str(page_num)
        urls.append(url)

print(urls)

url의 구조를 잘 파악해야한다.
1페이지는 1로 표시되어 있지만
2페이지부터는 11,
3페이지는 21,
4페이지는 31로 구성되어 있다.

그렇기에 1만 그대로 1을 불러오고 2페이지부터는 해당 페이지 수치에 맞게 조정하는 for 문을 실행한다.

(작성 중 )

저작자표시

'파이썬 데이터 분석' 카테고리의 다른 글

파이썬 셀리니움 크롬드라이버 버전 오류 (맥북) (0)	2022.05.08
파이썬 크롤링 코드 (0)	2021.12.29
파이썬 konlpy 오류에 대해서 (0)	2021.09.29
맥북으로 하는 파이참 2일차 (1)	2021.03.22
파이참 1일차 (0)	2021.03.17

현재글파이썬 네이버 뉴스 크롤링 및 엑셀 저장

나만의 포트폴리오가 가득한 블로그

데이터, 프로그램, 파이참, r, 데이터분석, 알 스튜디오, 빅데이터, uipath, TURTLE, 빅데이터 분석, r studio, 데이터 분석, 크롤링, e비즈니스, 워드클라우드, 분석, IT, 파이썬, 프로그래밍, 대학생,

Today :
Yesterday :

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

병통스토리