구글 블로그스팟 발행글 제목과 링크 추출 방법
Google 블로그스팟(Blogger)의 발행글 제목과 링크를 추출하려면 RSS 피드나 API를 활용할 수 있습니다. 이 글에서는 Google Colab에서 RSS 피드를 사용해 간단히 데이터를 가져오는 방법을 소개합니다.
준비물
- Google 계정 (Colab 사용을 위해)
- 블로그스팟 블로그 URL (예:
https://yourblog.blogspot.com
) - Python 기본 지식
추출 방법
블로그스팟은 RSS 피드를 제공하므로 이를 통해 제목과 링크를 쉽게 가져올 수 있습니다. 아래는 Colab에서 실행 가능한 Python 코드입니다.
1. Colab에서 실행할 코드
import requests
import xml.etree.ElementTree as ET
from IPython.display import display, HTML
# 블로그스팟 RSS 피드 URL
rss_url = "https://yourblog.blogspot.com/feeds/posts/default" # 자신의 블로그 URL로 변경
# RSS 데이터 가져오기
response = requests.get(rss_url)
rss_content = response.content
# XML 파싱
root = ET.fromstring(rss_content)
# HTML 문자열 초기화
html_content = """
블로그스팟 글 목록
블로그스팟 발행글
"""
# RSS에서 제목과 링크 추출
for item in root.findall(".//item"):
title = item.find("title").text
link = item.find("link").text
html_content += f''
# HTML 닫기
html_content += """
"""
# Colab에서 결과 표시
display(HTML(html_content))
# HTML 파일로 저장
with open("blogspot_posts.html", "w", encoding="utf-8") as file:
file.write(html_content)
print("HTML 파일이 'blogspot_posts.html'로 저장되었습니다.")
2. 실행 방법
- RSS URL 확인: 자신의 블로그스팟 주소 뒤에
/feeds/posts/default
를 붙여 RSS 피드 URL을 만듭니다. 예:https://yourblog.blogspot.com/feeds/posts/default
- Colab 접속: Google Colab에 접속해 새 노트북을 엽니다.
- 코드 붙여넣기: 위 코드를 Colab 셀에 붙여넣고,
rss_url
부분을 자신의 RSS URL로 수정합니다. - 실행: 셀을 실행하면 제목과 링크가 HTML로 표시되며,
blogspot_posts.html
파일로 저장됩니다.
결과 예시
실행 후 생성된 HTML은 다음과 비슷합니다:
주의사항
- 블로그가 비공개라면 RSS 피드가 작동하지 않을 수 있습니다.
- 기본 RSS 피드는 최대 25개 글만 제공하므로, 더 많은 글을 가져오려면 Blogger API를 활용해야 합니다.
- API 사용 시 Google 계정 인증과 API 키가 필요할 수 있습니다.
마무리
RSS 피드를 사용하면 블로그스팟의 발행글 제목과 링크를 간단히 추출할 수 있습니다. 더 많은 데이터를 원한다면 Blogger API를 참고해보세요. 질문이 있다면 댓글로 남겨주세요!