【Google Colaboratory】無料環境でスクレイピング開発します
業務内容
日々の業務改善として、スクレイピングをご検討の方をサポートします。
基本的な開発に関して
-
Python言語での開発になります
-
requests+BeautifulSoupを利用します
-
環境構築の手間と費用を省くためGoogle Colaboratoryを利用します
-
プログラムが長大になった場合には、外部ファイルへのクラス化を行います
-
プログラムの定期実行は費用内に含まれておりません(基本的に対応しません)
-
連続で対象をスクレイピングをする場合、対象への負荷軽減のため、3秒から二桁秒までの処理間隔を空けます
実績例
-
対象をあらかじめHTML保存し、保存したHTMLをスクレイピングし、CSVにデータをまとめる
-
GoogleスプレッドシートにまとめたURLに対し、連続でスクレイピング実行
-
サイトへのログイン操作の自動化から、ログイン後のページ情報をスクレイピングしデータ取得
DBが必要な場合
SQLITEというDBを使います。
参考までに、手元にて自然言語処理プログラムとの連携で900万レコードくらいを常時扱っています。
その他に、
- Googleスプレッドシート
- CSV
をデータ保存の方法として用意しています。
※いずれもGoogle Drive内に保存します。
スプレッドシートは扱いが手軽です。
CSVはかさばりますが、他のシステムやアプリケーションとの連携が容易かと思われます。
Seleniumに関して
Selenium利用は、ブラウザ操作その他対応が必要な場合に限定します。
(ターゲットURLがスクレイピングは禁止していないサイトだが仮想ブラウザ外のアクセスを受け付けない等)
免責
-
対象HTMLファイル自体が壊れている場合、データ取得ができません
-
スクレイピング対象の文字コードの設定ミスなどで一部のデータが取れないことがあります
-
開発時にスクレイピング対象がスクレイピング対策やセキュリティ対策を行った場合、スクレイピングが不可能となります。その場合も、作業費としていただいた費用に関しては返金返品ができかねます。