ビッグデータ時代に不可欠な「Webスクレイピング」を行うための「クローラー」の実装方法が分かりやすく説明されています。
近年ではビッグデータの有効利用がさけばれていますが、
ビッグデータの収集方法として
「Webスクレイピング」が注目されています。

インターネット上に存在する膨大なページからビッグデータに相当するデータを収集する事を指します。

ツイッターのつぶやきデータの収集等が有名な例としてあげられると思います。


本書では、
この「Webスクレイピング」を実現するために「クローラー」を作成するとの流れになっています。


本書を読む事で
・「クローラー」の概要と作成する上で基本となる考え方
・「クローラー」作成に必要なライブラリの利用方法と生データの解析方法(形態素解析を含む自然言語処理)の概要
・より実用的な「クローラー」に育てて行くための考え方
・目的別「クローラー」の作成方法
・「クローラー」の運用方法
等の知識が学べます。


利用しているライブラリは「nokogiri」、
「anemone」となっています。

「nokogiri」はHTMLやXMLをパース(解析)するためのライブラリです。

「anemone」は「クローラー」作成用のライブラリ(フレームワークの方が相応しい!?)です。


「クローラー」を初めて作る人を意識して書かれており、
全般的に私には理解しやすかったです。

説明の順番も、
まず動くものを提示し、
その後に実際の実装方法の説明、

応用、
各論的な内容が来て、
最後に実際の運用方法の説明でしめるという流れが理想的であると感じます。
Rubyによるクローラー開発技法 巡回・解析機能の実装と21の運用例

その他の感想

効果あり!お勧め!
寒い冬の走り方がよく分かる
Vitaでのプレイ
商品情報の補足など
あくまで昔
スゴク小さい子供用みたい
海賊世界!
クリスマスイベントのプレゼントに使用しました。
内容いい
量の割には値段も安いのでお得です。
価格変動の激しさに注意
いつも裏切らないハーバート シルト氏の著書
投稿しない
むちむちのラブリー♡♡クロス イン ピーチパンティー♡♡♡
一般人にはあまり活用できない本
まあまあな出来。
敏感肌、敏感粘膜過ぎてどれも使えないので
価格以上の品質です。
模型用にこういうの欲しかった。
ちょっとウエスト大きめ
痛気持ちいい!!
風に強いが、風に煽られやすい
「CL102DW」と比較して・・
作品が繋がっていてわくわくします❗
これで この値段は 安いよね
達也をめぐるもう一つのストーリー。
硬めですがちょっとなら走れるくらいです
使用感は良いけども
自分で直せました
戻る