PythonによるWebスクレイピング の感想

アマゾンで購入する

参照データ

タイトルPythonによるWebスクレイピング
発売日販売日未定
製作者Ryan Mitchell
販売元オライリージャパン
JANコード9784873117614
カテゴリジャンル別 » コンピュータ・IT » プログラミング » ソフトウェア開発・言語

購入者の感想

Python3環境(Mac)にてプログラムを動作検証済み。
膨大なウェブサイトから情報を抽出するコンピュータソフトウェア技術を記載した本書だが、以下の事を学ぶことができる。

・BeautifulSoupライブラリを利用してhtmlを字句解析
・必要データを永続化(download, csv, MySQL)
・様々な文章形式(各種文字コード, csv, PDF, Word)の読み込み
・文字のフィルタリング、クリーニングして体系化の方法
・フォーム入力、Cookie、認証が必要なページの読み込み方法
・JavaScript使用ページもJS実行後の画面として解析する方法
・画像に記載されているテキストを解析する方法
・bot(scraping)対策をしているサイトの回避策
・Web画面の各種入力動作をunittest+Seleniumで再現する方法
・リモート(主にTOR)からの実行する方法

様々なフォーマットファイルや、JavaScriptの実行やCookie、認証が必要なサイトでの情報の入手方法は実践的で、実装例も載っているので即座に役に立つ。
ただ、7~8章の取得したデータを文章整形やクリーニングして体系化したり、要約した内容を抽出する場合は、本書では自然言語としての観点から見た英語(単語ごとに空白が入る英語だから通用する部分もあり)の文章に対するスクレイプ方法としての見解であるため、日本語では別途考察が必要だと感じた。
内容はWeb関連技術者には既知の内容も多いかもれしないが、良書の部類に入ると感じた。

作業環境:mac, linux(unix)
対応バーション:Python 2.x,3.x

注意事項:
・筆者のサイトからソース等入手できるが、日本語版書籍の方が新しく刷新されている模様
 ※それでもバグはあり、下記の章項目ごとに記載あり

あなたの感想と評価

コメント欄

関連商品の価格と中古

PythonによるWebスクレイピング

アマゾンで購入する
オライリージャパンから発売されたRyan MitchellのPythonによるWebスクレイピング(JAN:9784873117614)の感想と評価
2017 - copyright© みんこみゅ - アマゾン商品の感想と評価 all rights reserved.