워드프레스 블로그 발행글 제목과 링크 추출 방법

워드프레스 블로그 발행글 제목과 링크 추출 방법

워드프레스 블로그 발행글 제목과 링크 추출 방법

워드프레스(WordPress) 블로그의 발행글 제목과 링크를 추출하려면 RSS 피드나 REST API를 사용할 수 있습니다. 이 글에서는 Google Colab에서 RSS 피드를 활용해 간단히 데이터를 가져오는 방법을 소개합니다.

준비물

  • Google 계정 (Colab 사용을 위해)
  • 워드프레스 블로그 URL (예: https://yourblog.com)
  • Python 기본 지식

추출 방법

워드프레스는 기본적으로 RSS 피드를 제공하므로 이를 통해 제목과 링크를 쉽게 추출할 수 있습니다. 아래는 Colab에서 실행 가능한 Python 코드입니다.

1. Colab에서 실행할 코드

import requests
import xml.etree.ElementTree as ET
from IPython.display import display, HTML

# 워드프레스 RSS 피드 URL
rss_url = "https://yourblog.com/feed/"  # 자신의 블로그 RSS URL로 변경

# RSS 데이터 가져오기
response = requests.get(rss_url)
rss_content = response.content

# XML 파싱
root = ET.fromstring(rss_content)

# HTML 문자열 초기화
html_content = """



    
    워드프레스 글 목록
    


    

워드프레스 발행글

""" # RSS에서 제목과 링크 추출 for item in root.findall(".//item"): title = item.find("title").text link = item.find("link").text html_content += f'
{title}
' # HTML 닫기 html_content += """
""" # Colab에서 결과 표시 display(HTML(html_content)) # HTML 파일로 저장 with open("wordpress_posts.html", "w", encoding="utf-8") as file: file.write(html_content) print("HTML 파일이 'wordpress_posts.html'로 저장되었습니다.")

2. 실행 방법

  1. RSS URL 확인: 자신의 워드프레스 블로그 주소 뒤에 /feed/를 붙여 RSS 피드 URL을 확인합니다. 예: https://yourblog.com/feed/
  2. Colab 접속: Google Colab에 접속해 새 노트북을 엽니다.
  3. 코드 붙여넣기: 위 코드를 Colab 셀에 붙여넣고, rss_url 부분을 자신의 RSS URL로 수정합니다.
  4. 실행: 셀을 실행하면 제목과 링크가 HTML로 표시되며, wordpress_posts.html 파일로 저장됩니다.

결과 예시

실행 후 생성된 HTML은 다음과 비슷한 형태입니다:

첫 번째 글 제목
두 번째 글 제목

주의사항

  • 블로그가 비공개거나 RSS 피드가 비활성화된 경우 작동하지 않을 수 있습니다. 워드프레스 관리자 설정에서 RSS 피드가 활성화되어 있는지 확인하세요.
  • RSS 피드는 기본적으로 최근 10~20개 글만 제공합니다. 더 많은 데이터를 원한다면 워드프레스 REST API(/wp-json/wp/v2/posts)를 활용하세요.
  • API 사용 시 인증이 필요할 수 있으니 블로그 설정을 점검하세요.

추가 팁: REST API 사용

RSS 대신 REST API를 사용하려면 아래 코드를 참고하세요:

import requests
response = requests.get("https://yourblog.com/wp-json/wp/v2/posts")
posts = response.json()
for post in posts:
    print(f"제목: {post['title']['rendered']}, 링크: {post['link']}")

마무리

워드프레스의 RSS 피드를 사용하면 발행글 제목과 링크를 간단히 추출할 수 있습니다. 더 복잡한 데이터를 원한다면 WordPress REST API를 탐구해보세요. 궁금한 점이 있다면 댓글로 남겨주세요!