ウェブノウハウ

WEB KNOWHOW

Pythonでスクレイピング → WordPressサイトに掲載

3. Pythonおよびライブラリのインストール

EC2に Python3.10.9 をインストールします。

3.10.9はデフォルトではないので、ちょっと特殊なインストールが必要です。
そこでpyenvという環境構築用のモジュールを最初にインストールします。
 

1. pyenvインストール

sudo yum install git
git clone https://github.com/pyenv/pyenv.git ~/.pyenv

次にpyenvのパスの設定をします。
以下のコマンドで .bashrc を開き、

vi ~/.bashrc

以下のコードを貼り付けて保存してください。

export PATH="$HOME/.pyenv/bin:$PATH"
eval "$(pyenv init -)"

そしたら、以下のコマンドで反映させます。

source ~/.bashrc

ついでにパスが通ったか確認しておきましょう。

pyenv --version

 

2. pyenvでPythonのインストール

pyenvでインストールできるPythonのバージョンリストを表示し、3.10.9があることを確認します。

pyenv install -l

インストールのためのもろもろライブラリも含めてPythonインストール。

sudo yum install gcc
sudo yum install -y openssl11 openssl11-devel
sudo yum -y install bzip2-devel ncurses-devel libffi-devel readline-devel sqlite-devel.x86_64 xz-devel
pyenv install 3.10.9

インストールされたPythonのバージョンを確認。

pyenv versions

実行されるPythonのバージョンを確認。

python -V

3.10.9ではない場合は、実行するPythonのバージョンを3.10.9にします。

pyenv global 3.10.9

以上でPythonはインストールできたので、次にスクレイピングに必要なライブラリをインストールします。
 

3. スクレイピング用のライブラリのインストール

pip install requests
pip install webdriver_manager
pip install selenium

これら3つのライブラリの役割を簡単に説明すると、requestsはHTTP通信、webdriver_managerはブラウザ、seleniumはブラウザを動かして情報を取ったり入力したりします。
 

4. Pythonファイルを置くディレクトリを作る

Pythonファイルを置くディレクトリを作ったら、SSHクライアントソフトでそのディレクトリにファイルを上げられるようにしたいので、当該ディレクトリのオーナーをSSH接続アカウントのec2-userにしてしまいます。(最適な方法ではありませんが、少人数のエンジニアでシステム構築する場合などはこれでも問題ないです)

cd /var/www/
sudo mkdir app
sudo chown -R ec2-user /var/www/app/

以上で、EC2セットアップ完了です。
次はスクレイピングの基本的なやり方について説明をします。

【100ウェブ新着情報メルマガ】

WordPressカスタマイズ事例やウェブ制作ノウハウの新着情報、お役立ち情報を
リアルタイムにメルマガ配信!