PythonによるWebスクレイピングの感想

※サンプル画像 クリックで拡大します

参照データ

タイトル	PythonによるWebスクレイピング
発売日	販売日未定
製作者	Ryan Mitchell
販売元	オライリージャパン
JANｺｰﾄﾞ	9784873117614
カテゴリ	ジャンル別 » コンピュータ・IT » プログラミング » ソフトウェア開発・言語

購入者の感想

Python3環境(Mac)にてプログラムを動作検証済み。
膨大なウェブサイトから情報を抽出するコンピュータソフトウェア技術を記載した本書だが、以下の事を学ぶことができる。

・BeautifulSoupライブラリを利用してhtmlを字句解析
・必要データを永続化(download, csv, MySQL)
・様々な文章形式(各種文字コード, csv, PDF, Word)の読み込み
・文字のフィルタリング、クリーニングして体系化の方法
・フォーム入力、Cookie、認証が必要なページの読み込み方法
・JavaScript使用ページもJS実行後の画面として解析する方法
・画像に記載されているテキストを解析する方法
・bot(scraping)対策をしているサイトの回避策
・Web画面の各種入力動作をunittest+Seleniumで再現する方法
・リモート(主にTOR)からの実行する方法

様々なフォーマットファイルや、JavaScriptの実行やCookie、認証が必要なサイトでの情報の入手方法は実践的で、実装例も載っているので即座に役に立つ。
ただ、7～8章の取得したデータを文章整形やクリーニングして体系化したり、要約した内容を抽出する場合は、本書では自然言語としての観点から見た英語(単語ごとに空白が入る英語だから通用する部分もあり)の文章に対するスクレイプ方法としての見解であるため、日本語では別途考察が必要だと感じた。
内容はWeb関連技術者には既知の内容も多いかもれしないが、良書の部類に入ると感じた。

作業環境：mac, linux(unix)
対応バーション：Python 2.x,3.x

注意事項：
・筆者のサイトからソース等入手できるが、日本語版書籍の方が新しく刷新されている模様
　※それでもバグはあり、下記の章項目ごとに記載あり

PythonによるWebスクレイピングの感想

参照データ

購入者の感想

あなたの感想と評価

関連商品の価格と中古