Rubyによるクローラー開発技法

タイトルが面白そうだったので流し読みで読んだ。RubyでWebサイトをクロールしてスクレイピングしてデータ集める方法について、Anemoneとかライブラリの使い方とか、具体的にいろんなサイトからデータを切り出すためのCSSセレクタの指定とか正規表現のマッチングとかを実例としていろいろソースを載せてるので、どんなかんじで書けばよいのかの参考になる。実際作るものの目的によってそのまま流用できないので、サンプル1つずつ試したりはしてない。あとクローラーの運用周りにも触れててRobots.txtとかDBへの保存とかメール通知とかエラーで止めるとか再ラン方法とか真面目に作る場合に何を考えないといけないかもあるので、クローラーを動かしっぱなしにしてデータ集める場合の考慮事項の参考になりそう。