워드프레스 블로그 발행글 제목과 링크 추출 방법
워드프레스(WordPress) 블로그의 발행글 제목과 링크를 추출하려면 RSS 피드나 REST API를 사용할 수 있습니다. 이 글에서는 Google Colab에서 RSS 피드를 활용해 간단히 데이터를 가져오는 방법을 소개합니다.
준비물
- Google 계정 (Colab 사용을 위해)
- 워드프레스 블로그 URL (예:
https://yourblog.com
) - Python 기본 지식
추출 방법
워드프레스는 기본적으로 RSS 피드를 제공하므로 이를 통해 제목과 링크를 쉽게 추출할 수 있습니다. 아래는 Colab에서 실행 가능한 Python 코드입니다.
1. Colab에서 실행할 코드
import requests
import xml.etree.ElementTree as ET
from IPython.display import display, HTML
# 워드프레스 RSS 피드 URL
rss_url = "https://yourblog.com/feed/" # 자신의 블로그 RSS URL로 변경
# RSS 데이터 가져오기
response = requests.get(rss_url)
rss_content = response.content
# XML 파싱
root = ET.fromstring(rss_content)
# HTML 문자열 초기화
html_content = """
워드프레스 글 목록
워드프레스 발행글
"""
# RSS에서 제목과 링크 추출
for item in root.findall(".//item"):
title = item.find("title").text
link = item.find("link").text
html_content += f''
# HTML 닫기
html_content += """
"""
# Colab에서 결과 표시
display(HTML(html_content))
# HTML 파일로 저장
with open("wordpress_posts.html", "w", encoding="utf-8") as file:
file.write(html_content)
print("HTML 파일이 'wordpress_posts.html'로 저장되었습니다.")
2. 실행 방법
- RSS URL 확인: 자신의 워드프레스 블로그 주소 뒤에
/feed/
를 붙여 RSS 피드 URL을 확인합니다. 예:https://yourblog.com/feed/
- Colab 접속: Google Colab에 접속해 새 노트북을 엽니다.
- 코드 붙여넣기: 위 코드를 Colab 셀에 붙여넣고,
rss_url
부분을 자신의 RSS URL로 수정합니다. - 실행: 셀을 실행하면 제목과 링크가 HTML로 표시되며,
wordpress_posts.html
파일로 저장됩니다.
결과 예시
실행 후 생성된 HTML은 다음과 비슷한 형태입니다:
주의사항
- 블로그가 비공개거나 RSS 피드가 비활성화된 경우 작동하지 않을 수 있습니다. 워드프레스 관리자 설정에서 RSS 피드가 활성화되어 있는지 확인하세요.
- RSS 피드는 기본적으로 최근 10~20개 글만 제공합니다. 더 많은 데이터를 원한다면 워드프레스 REST API(
/wp-json/wp/v2/posts
)를 활용하세요. - API 사용 시 인증이 필요할 수 있으니 블로그 설정을 점검하세요.
추가 팁: REST API 사용
RSS 대신 REST API를 사용하려면 아래 코드를 참고하세요:
import requests
response = requests.get("https://yourblog.com/wp-json/wp/v2/posts")
posts = response.json()
for post in posts:
print(f"제목: {post['title']['rendered']}, 링크: {post['link']}")
마무리
워드프레스의 RSS 피드를 사용하면 발행글 제목과 링크를 간단히 추출할 수 있습니다. 더 복잡한 데이터를 원한다면 WordPress REST API를 탐구해보세요. 궁금한 점이 있다면 댓글로 남겨주세요!