구글 블로그스팟 발행글 제목과 링크 추출 방법

구글 블로그스팟 발행글 제목과 링크 추출 방법

구글 블로그스팟 발행글 제목과 링크 추출 방법

Google 블로그스팟(Blogger)의 발행글 제목과 링크를 추출하려면 RSS 피드나 API를 활용할 수 있습니다. 이 글에서는 Google Colab에서 RSS 피드를 사용해 간단히 데이터를 가져오는 방법을 소개합니다.

준비물

  • Google 계정 (Colab 사용을 위해)
  • 블로그스팟 블로그 URL (예: https://yourblog.blogspot.com)
  • Python 기본 지식

추출 방법

블로그스팟은 RSS 피드를 제공하므로 이를 통해 제목과 링크를 쉽게 가져올 수 있습니다. 아래는 Colab에서 실행 가능한 Python 코드입니다.

1. Colab에서 실행할 코드

import requests
import xml.etree.ElementTree as ET
from IPython.display import display, HTML

# 블로그스팟 RSS 피드 URL
rss_url = "https://yourblog.blogspot.com/feeds/posts/default"  # 자신의 블로그 URL로 변경

# RSS 데이터 가져오기
response = requests.get(rss_url)
rss_content = response.content

# XML 파싱
root = ET.fromstring(rss_content)

# HTML 문자열 초기화
html_content = """



    
    블로그스팟 글 목록
    


    

블로그스팟 발행글

""" # RSS에서 제목과 링크 추출 for item in root.findall(".//item"): title = item.find("title").text link = item.find("link").text html_content += f'
{title}
' # HTML 닫기 html_content += """
""" # Colab에서 결과 표시 display(HTML(html_content)) # HTML 파일로 저장 with open("blogspot_posts.html", "w", encoding="utf-8") as file: file.write(html_content) print("HTML 파일이 'blogspot_posts.html'로 저장되었습니다.")

2. 실행 방법

  1. RSS URL 확인: 자신의 블로그스팟 주소 뒤에 /feeds/posts/default를 붙여 RSS 피드 URL을 만듭니다. 예: https://yourblog.blogspot.com/feeds/posts/default
  2. Colab 접속: Google Colab에 접속해 새 노트북을 엽니다.
  3. 코드 붙여넣기: 위 코드를 Colab 셀에 붙여넣고, rss_url 부분을 자신의 RSS URL로 수정합니다.
  4. 실행: 셀을 실행하면 제목과 링크가 HTML로 표시되며, blogspot_posts.html 파일로 저장됩니다.

결과 예시

실행 후 생성된 HTML은 다음과 비슷합니다:

첫 번째 글 제목
두 번째 글 제목

주의사항

  • 블로그가 비공개라면 RSS 피드가 작동하지 않을 수 있습니다.
  • 기본 RSS 피드는 최대 25개 글만 제공하므로, 더 많은 글을 가져오려면 Blogger API를 활용해야 합니다.
  • API 사용 시 Google 계정 인증과 API 키가 필요할 수 있습니다.

마무리

RSS 피드를 사용하면 블로그스팟의 발행글 제목과 링크를 간단히 추출할 수 있습니다. 더 많은 데이터를 원한다면 Blogger API를 참고해보세요. 질문이 있다면 댓글로 남겨주세요!