レビュー
概要
PythonでWebデータを自動収集するプログラムを基礎から紹介。HTTP、HTML解析、Scrapy、API、証明書など、現実のサイトからローデータを得るプロセスを順を追って解説。
読みどころ
- requests、Beautiful Soup、Scrapyの基本的な使い方を、実際のサイト構造を分析しながら説明し、検証・エラーに対処する工夫を補足。
- 認証・ログイン、スクレイピングマナー、robots.txtへの配慮など、法令遵守とモラルの話を巻末で整理。
- 実践的なプロジェクトとして、ニュースや商品情報を定期的に収集するパターンも紹介。
類書との比較
『Python Webスクレイピング入門』(技術評論社)は初心者向けだが、こちらは現場で起きやすい問題と対処の幅が広く、実装工程をチームで共有しやすい。
こんな人におすすめ
- データ収集を業務で担当する人。
- プロトタイプ的に情報を集めて分析したい人。
- スクレイピング倫理を大事にしたい人。
感想
APIの作りを追いながらスクレイピングを組むと、信頼できるパイプラインができるようになった。