Rubyによるクローラー開発技法

作者: 佐々木拓郎,るびきち
出版社/メーカー: SBクリエイティブ
発売日: 2014/08/23
メディア: 単行本
この商品を含むブログ (10件) を見る

タイトルが面白そうだったので流し読みで読んだ。RubyでWebサイトをクロールしてスクレイピングしてデータ集める方法について、Anemoneとかライブラリの使い方とか、具体的にいろんなサイトからデータを切り出すためのCSS セレクタの指定とか正規表現のマッチングとかを実例としていろいろソースを載せてるので、どんなかんじで書けばよいのかの参考になる。実際作るものの目的によってそのまま流用できないので、サンプル1つずつ試したりはしてない。あとクローラーの運用周りにも触れててRobots.txtとかDBへの保存とかメール通知とかエラーで止めるとか再ラン方法とか真面目に作る場合に何を考えないといけないかもあるので、クローラーを動かしっぱなしにしてデータ集める場合の考慮事項の参考になりそう。