네이버 블로그 발행글 제목과 링크 추출 방법
네이버 블로그의 발행글 제목과 링크를 추출하고 싶다면, Python과 웹 크롤링 기술을 활용하면 간단히 해결할 수 있습니다. 이 글에서는 Google Colab을 사용해 네이버 블로그의 글 목록을 가져오는 방법을 단계별로 설명합니다.
준비물
- Google 계정 (Colab 사용을 위해)
- 네이버 블로그 ID (예:
https://blog.naver.com/yourblogid
) - Python 기본 지식
추출 방법
네이버 블로그는 RSS 피드를 제공하지 않으므로, 직접 블로그 목록 페이지를 크롤링하거나 API를 활용해야 합니다. 여기서는 간단한 크롤링 방법을 소개합니다.
1. Colab에서 실행할 코드
아래는 네이버 블로그의 제목과 링크를 추출해 HTML로 출력하는 Python 코드입니다.
import requests
from bs4 import BeautifulSoup
from IPython.display import display, HTML
# 네이버 블로그 ID와 페이지 설정
blog_id = "yourblogid" # 자신의 블로그 ID로 변경
base_url = f"https://blog.naver.com/PostList.naver?blogId={blog_id}¤tPage="
# HTML 문자열 초기화
html_content = """
네이버 블로그 글 목록
네이버 블로그 발행글
"""
# 1페이지부터 5페이지까지 크롤링 (필요 시 페이지 수 조정)
for page in range(1, 6):
url = base_url + str(page)
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")
# 게시글 제목과 링크 추출
posts = soup.select(".itemfont")
for post in posts:
title_tag = post.find("span")
if title_tag:
title = title_tag.text.strip()
link = post.find("a")["href"] if post.find("a") else ""
full_link = f"https://blog.naver.com{link}"
html_content += f''
# HTML 닫기
html_content += """
"""
# Colab에서 결과 표시
display(HTML(html_content))
# HTML 파일로 저장
with open("naver_blog_posts.html", "w", encoding="utf-8") as file:
file.write(html_content)
print("HTML 파일이 'naver_blog_posts.html'로 저장되었습니다.")
2. 실행 방법
- Colab 접속: Google Colab에 접속해 새 노트북을 엽니다.
- 코드 붙여넣기: 위 코드를 Colab 셀에 붙여넣습니다.
- 블로그 ID 변경:
blog_id = "yourblogid"
부분을 자신의 네이버 블로그 ID로 수정합니다. - 실행: 셀을 실행하면 제목과 링크가 HTML로 표시되고, 파일로도 저장됩니다.
결과 예시
실행 후 생성된 HTML은 다음과 비슷한 형태입니다:
주의사항
- 네이버 블로그가 비공개 설정이라면 크롤링이 불가능합니다.
- 너무 많은 요청을 보내면 네이버에서 차단할 수 있으니,
time.sleep()
을 추가해 속도를 조절하세요. - 법적 문제를 피하려면 개인 용도로만 사용하세요.
마무리
이 방법을 통해 네이버 블로그의 발행글 제목과 링크를 쉽게 추출할 수 있습니다. 더 많은 페이지를 크롤링하거나 데이터를 엑셀로 저장하고 싶다면 코드를 수정해보세요. 질문이 있다면 댓글로 남겨주세요!