코랩으로 티스토리 블로그 발행글 제목과 링크 추출하기
티스토리 블로그의 발행글 제목과 링크를 자동으로 추출하고 싶다면, Google Colab을 활용한 간단한 방법을 추천드립니다. 이 글에서는 RSS 피드를 사용해 데이터를 가져오고, HTML로 결과를 정리하는 방법을 소개합니다.
준비물
- Google 계정 (Colab 사용을 위해)
- 티스토리 블로그 RSS 피드 URL (예:
https://yourblog.tistory.com/rss
)
추출 방법
티스토리 블로그는 RSS 피드를 제공하므로, 이를 활용해 제목과 링크를 쉽게 가져올 수 있습니다. 아래는 Google Colab에서 실행할 수 있는 Python 코드입니다.
1. Colab에서 실행할 코드
import requests
import xml.etree.ElementTree as ET
from IPython.display import display, HTML
# 티스토리 블로그 RSS 피드 URL
rss_url = "https://yourblog.tistory.com/rss" # 자신의 블로그 주소로 변경
# RSS 데이터 가져오기
response = requests.get(rss_url)
rss_content = response.content
# XML 파싱
root = ET.fromstring(rss_content)
# HTML 문자열 생성
html_content = """
티스토리 블로그 글 목록
티스토리 블로그 발행글
"""
# RSS에서 제목과 링크 추출
for item in root.findall(".//item"):
title = item.find("title").text
link = item.find("link").text
html_content += f''
# HTML 닫기
html_content += """
"""
# Colab에서 HTML 표시
display(HTML(html_content))
# HTML 파일로 저장
with open("tistory_posts.html", "w", encoding="utf-8") as file:
file.write(html_content)
print("HTML 파일이 'tistory_posts.html'로 저장되었습니다.")
2. 실행 방법
- RSS URL 확인: 자신의 티스토리 블로그 주소 뒤에
/rss
를 붙여 RSS 피드 URL을 찾습니다. 예:https://yourblog.tistory.com/rss
- Colab 열기: Google Colab에 접속합니다.
- 코드 붙여넣기: 위 코드를 새 Colab 노트북에 붙여넣고,
rss_url
부분을 자신의 RSS URL로 변경합니다. - 실행: 셀을 실행하면 제목과 링크가 HTML로 표시되고,
tistory_posts.html
파일로 저장됩니다.
결과 예시
실행 후 생성된 HTML은 다음과 비슷한 형태로 보입니다:
<div class="post"><a href="https://yourblog.tistory.com/1" >첫 번째 글 제목</a></div>
<div class="post"><a href="https://yourblog.tistory.com/2" >두 번째 글 제목</a></div>
주의사항
- 블로그가 비공개라면 RSS 피드가 작동하지 않을 수 있습니다.
- RSS 피드가 없는 경우,
BeautifulSoup
로 직접 스크래핑해야 하지만, 티스토리 정책을 준수해야 합니다.
마무리
이 방법을 사용하면 티스토리 블로그의 글 목록을 쉽게 추출하고 HTML로 정리할 수 있습니다. 추가로 궁금한 점이 있다면 댓글로 남겨주세요!