書評:『Pythonクローリング&スクレイピング -データ収集・解析のための実践開発ガイド-』
wget + sed を使ったクローリング&スクレイピングのコンセプトの紹介に始まり、クローリング先の Web サイトに迷惑を欠けないための配慮(クローリング間隔の設定、robots.txt の解釈など)やデータベースへの保存など周辺知識についての説明も交えながら数多くのライブラリを使ったクローリング&スクレイピングの実践手法を丁寧に解説している良書でした。
Pythonクローリング&スクレイピング -データ収集・解析のための実践開発ガイド-
- 作者: 加藤耕太
- 出版社/メーカー: 技術評論社
- 発売日: 2016/12/16
- メディア: 大型本
- この商品を含むブログ (1件) を見る
一つ一つの手法(ライブラリ)を深く説明するというよりは、目的に応じた手法をたくさん紹介しているという形式なので「こんなことがやってみたい」というアイディアがあれば「これを使えば良さそう」というのが何か見つかると思います。見つかった後は、それについてネットで調べたり、それ専門の本を読むと良いでしょう。自分はひとまず「Robobrowser」を使う方法に落ち着きました。概念がシンプルでわかりやすいのが魅力的です。
逆に最初から最後まで一度に全部手を出そうとすると息切れしそうなくらいのボリュームだったので、一部は「こんな手法もある、こんなこともできる」ということを把握するくらいに留めました。必要になったとき・ステップアップしたいと感じたときに改めて参照したいと思います。
また、ライブラリの紹介とは別に特にこの本から知ることができて良かったのは Chrome の「検証」機能です。右クリックメニューに「検証」という項目があり、それを押すと html 中のその要素を見ることができるのですが、さらにそこで右クリックを押すと「Copy」からスクレイピング時に利用できる selector や XPath を取得できる、というもの。
Web 開発者には常識的な機能なのかも知れませんが、実際に自分がスクレイピングを行いたいサイトの構造を調べるためにとても役立ちました。
良い本に出会えて感謝です。