코랩으로 티스토리 블로그 발행글 제목과 링크 추출하기

코랩으로 티스토리 블로그 발행글 제목과 링크 추출하기

코랩으로 티스토리 블로그 발행글 제목과 링크 추출하기

티스토리 블로그의 발행글 제목과 링크를 자동으로 추출하고 싶다면, Google Colab을 활용한 간단한 방법을 추천드립니다. 이 글에서는 RSS 피드를 사용해 데이터를 가져오고, HTML로 결과를 정리하는 방법을 소개합니다.

준비물

  • Google 계정 (Colab 사용을 위해)
  • 티스토리 블로그 RSS 피드 URL (예: https://yourblog.tistory.com/rss)

추출 방법

티스토리 블로그는 RSS 피드를 제공하므로, 이를 활용해 제목과 링크를 쉽게 가져올 수 있습니다. 아래는 Google Colab에서 실행할 수 있는 Python 코드입니다.

1. Colab에서 실행할 코드

import requests
import xml.etree.ElementTree as ET
from IPython.display import display, HTML

# 티스토리 블로그 RSS 피드 URL
rss_url = "https://yourblog.tistory.com/rss"  # 자신의 블로그 주소로 변경

# RSS 데이터 가져오기
response = requests.get(rss_url)
rss_content = response.content

# XML 파싱
root = ET.fromstring(rss_content)

# HTML 문자열 생성
html_content = """



    
    티스토리 블로그 글 목록
    


    

티스토리 블로그 발행글

""" # RSS에서 제목과 링크 추출 for item in root.findall(".//item"): title = item.find("title").text link = item.find("link").text html_content += f'
{title}
' # HTML 닫기 html_content += """
""" # Colab에서 HTML 표시 display(HTML(html_content)) # HTML 파일로 저장 with open("tistory_posts.html", "w", encoding="utf-8") as file: file.write(html_content) print("HTML 파일이 'tistory_posts.html'로 저장되었습니다.")

2. 실행 방법

  1. RSS URL 확인: 자신의 티스토리 블로그 주소 뒤에 /rss를 붙여 RSS 피드 URL을 찾습니다. 예: https://yourblog.tistory.com/rss
  2. Colab 열기: Google Colab에 접속합니다.
  3. 코드 붙여넣기: 위 코드를 새 Colab 노트북에 붙여넣고, rss_url 부분을 자신의 RSS URL로 변경합니다.
  4. 실행: 셀을 실행하면 제목과 링크가 HTML로 표시되고, tistory_posts.html 파일로 저장됩니다.

결과 예시

실행 후 생성된 HTML은 다음과 비슷한 형태로 보입니다:

<div class="post"><a href="https://yourblog.tistory.com/1" >첫 번째 글 제목</a></div>
<div class="post"><a href="https://yourblog.tistory.com/2" >두 번째 글 제목</a></div>

주의사항

  • 블로그가 비공개라면 RSS 피드가 작동하지 않을 수 있습니다.
  • RSS 피드가 없는 경우, BeautifulSoup로 직접 스크래핑해야 하지만, 티스토리 정책을 준수해야 합니다.

마무리

이 방법을 사용하면 티스토리 블로그의 글 목록을 쉽게 추출하고 HTML로 정리할 수 있습니다. 추가로 궁금한 점이 있다면 댓글로 남겨주세요!