英文のスクレイピングとしては実践的。日本語に対しては考察が必要。
Python3環境(Mac)にてプログラムを動作検証済み。

膨大なウェブサイトから情報を抽出するコンピュータソフトウェア技術を記載した本書だが、
以下の事を学ぶことができる。


・BeautifulSoupライブラリを利用してhtmlを字句解析
・必要データを永続化(download, csv, MySQL)
・様々な文章形式(各種文字コード, csv, PDF, Word)の読み込み
・文字のフィルタリング、
クリーニングして体系化の方法
・フォーム入力、
Cookie、
認証が必要なページの読み込み方法
・JavaScript使用ページもJS実行後の画面として解析する方法
・画像に記載されているテキストを解析する方法
・bot(scraping)対策をしているサイトの回避策
・Web画面の各種入力動作をunittest+Seleniumで再現する方法
・リモート(主にTOR)からの実行する方法

様々なフォーマットファイルや、
JavaScriptの実行やCookie、
認証が必要なサイトでの情報の入手方法は実践的で、
実装例も載っているので即座に役に立つ。

ただ、
7~8章の取得したデータを文章整形やクリーニングして体系化したり、
要約した内容を抽出する場合は、
本書では自然言語としての観点から見た英語(単語ごとに空白が入る英語だから通用する部分もあり)の文章に対するスクレイプ方法としての見解であるため、
日本語では別途考察が必要だと感じた。

内容はWeb関連技術者には既知の内容も多いかもれしないが、
良書の部類に入ると感じた。


作業環境:mac, linux(unix)
対応バーション:Python 2.x,3.x

注意事項:
・筆者のサイトからソース等入手できるが、
日本語版書籍の方が新しく刷新されている模様
 ※それでもバグはあり、
下記の章項目ごとに記載あり
PythonによるWebスクレイピング

その他の感想

白い書物が僕
バトルシーンは少な目で、ドラマ性重視の10巻
あの結婚式はないよ!!
お坊さん、頑張って~!
韓国製ですが
フロントベイなら★+1します。
小学校入学祝いに!
ちょつと読むのが大変
Dr佐藤は亡くなってるのに
途中でどうでもよくなるくらい微妙でした
カーキ色?
TECHNOS T4271TB
自宅トレーニングには良いが負荷が強いです。
4歳の子にプレゼントしました
すごくピッカリしました。
せっかく本体を安く買えたのだからカバーも安いのがいい。
前代未聞のかわいさ!!
幻想的な絵本
ヘイゼンジャケットは良い品です。
焦げ付かず,大変便利
全てのことばに興味ある人のために
まだ取り付けていませんが緊急用として。
映画館で見れなかったので
リコール求む
女性には調度良いサイズ~雪かきの備えとして
気に入っています。
愛犬はクシュン!クシュン!と言うけれど、、、、
意外に蒸れない、滑らないインソールです
良かったですよ
文字が細かい
戻る