ウェブノウハウ

WEB KNOWHOW

Pythonでスクレイピング → WordPressサイトに掲載

1. スクレイピングした情報をWordPressに掲載するシステムの全体像

Pythonを使うと、いわゆるスクレイピングという手法を使って、さまざまなサイトの情報を割と簡単にとってくることができます。
ということで今回のテーマはズバリこちら ↓

Pythonで外部の情報提供元サイトからスクレイピングを使って情報を取得し、自分(自社)が運営するWordPress製のサイトに掲載する

 
サイト側のシステムはウェブサイト制作の標準ツールといえるWordPressを使うので、きっとこれから自社のサイトを強化したいと考えるたくさんのサイト運営者の方に役立つノウハウになっていると思います。ぜひ熟読してください。
 
- 重要 -
なお、スクレイピングは許可なく他のサイトから情報をコピーして使います。したがってその情報の使い方には慎重にならなければなりません。少なくともスクレイピングしてきた情報の引用元を明記するなどの最低限のマナーは守らなければならないし、そもそも情報を他に転載することを禁止しているサイトも多くありますので、その点は十分に注意した上で活用してください。

 
さて、それではまず今回のシステムの全体像を把握しましょう。
①②③④は処理の時系列的な順番を指しています。

スクレイピングした情報をWordPressサイトに表示するシステムの全体像

【ポイント】

  1. 今回のシステムは大きく2つ。
    (1)本体のサイトはWordPress、(2)情報掲載元から情報を取ってサイトに渡すのはPython製の小さなプログラム群、です。
  2. 誰でも簡単に作れるようなシステムにしたいので、サイトは普通のレンタルサーバーで構築し、細かいライブラリインストールやもろもろの設定などをする必要があるPython側だけAWSで構築することにします。そうすることで、メールもレンタルサーバーで使えます。
    (このようにサーバーを2つに分けたとしても、昨今のレンサバ価格事情を考えれば、増えるコストは屁みたいなものです。)
  3. 情報取得するサイトは、とある仕事情報掲載サイト、検索する条件はキーワードとし、その検索キーワードはWordPress管理画面から登録、編集できるようにします。
  4. WordPressとPythonプログラムとのデータ連携はWordPressの標準APIである WP REST API を使い、取得した情報をWordPressに自動投稿します。
  5. 処理は毎日定刻に起動するようにします。
  6. 自動投稿した投稿をウェブページに表示します。

 
以上ポイントを整理した上で、次回より実際にシステムの構築に入っていきます。

【100ウェブ新着情報メルマガ】

WordPressカスタマイズ事例やウェブ制作ノウハウの新着情報、お役立ち情報を
リアルタイムにメルマガ配信!