PythonによるWebスクレイピング の感想
参照データ
タイトル | PythonによるWebスクレイピング |
発売日 | 販売日未定 |
製作者 | Ryan Mitchell |
販売元 | オライリージャパン |
JANコード | 9784873117614 |
カテゴリ | ジャンル別 » コンピュータ・IT » プログラミング » ソフトウェア開発・言語 |
購入者の感想
Python3環境(Mac)にてプログラムを動作検証済み。
膨大なウェブサイトから情報を抽出するコンピュータソフトウェア技術を記載した本書だが、以下の事を学ぶことができる。
・BeautifulSoupライブラリを利用してhtmlを字句解析
・必要データを永続化(download, csv, MySQL)
・様々な文章形式(各種文字コード, csv, PDF, Word)の読み込み
・文字のフィルタリング、クリーニングして体系化の方法
・フォーム入力、Cookie、認証が必要なページの読み込み方法
・JavaScript使用ページもJS実行後の画面として解析する方法
・画像に記載されているテキストを解析する方法
・bot(scraping)対策をしているサイトの回避策
・Web画面の各種入力動作をunittest+Seleniumで再現する方法
・リモート(主にTOR)からの実行する方法
様々なフォーマットファイルや、JavaScriptの実行やCookie、認証が必要なサイトでの情報の入手方法は実践的で、実装例も載っているので即座に役に立つ。
ただ、7~8章の取得したデータを文章整形やクリーニングして体系化したり、要約した内容を抽出する場合は、本書では自然言語としての観点から見た英語(単語ごとに空白が入る英語だから通用する部分もあり)の文章に対するスクレイプ方法としての見解であるため、日本語では別途考察が必要だと感じた。
内容はWeb関連技術者には既知の内容も多いかもれしないが、良書の部類に入ると感じた。
作業環境:mac, linux(unix)
対応バーション:Python 2.x,3.x
注意事項:
・筆者のサイトからソース等入手できるが、日本語版書籍の方が新しく刷新されている模様
※それでもバグはあり、下記の章項目ごとに記載あり
膨大なウェブサイトから情報を抽出するコンピュータソフトウェア技術を記載した本書だが、以下の事を学ぶことができる。
・BeautifulSoupライブラリを利用してhtmlを字句解析
・必要データを永続化(download, csv, MySQL)
・様々な文章形式(各種文字コード, csv, PDF, Word)の読み込み
・文字のフィルタリング、クリーニングして体系化の方法
・フォーム入力、Cookie、認証が必要なページの読み込み方法
・JavaScript使用ページもJS実行後の画面として解析する方法
・画像に記載されているテキストを解析する方法
・bot(scraping)対策をしているサイトの回避策
・Web画面の各種入力動作をunittest+Seleniumで再現する方法
・リモート(主にTOR)からの実行する方法
様々なフォーマットファイルや、JavaScriptの実行やCookie、認証が必要なサイトでの情報の入手方法は実践的で、実装例も載っているので即座に役に立つ。
ただ、7~8章の取得したデータを文章整形やクリーニングして体系化したり、要約した内容を抽出する場合は、本書では自然言語としての観点から見た英語(単語ごとに空白が入る英語だから通用する部分もあり)の文章に対するスクレイプ方法としての見解であるため、日本語では別途考察が必要だと感じた。
内容はWeb関連技術者には既知の内容も多いかもれしないが、良書の部類に入ると感じた。
作業環境:mac, linux(unix)
対応バーション:Python 2.x,3.x
注意事項:
・筆者のサイトからソース等入手できるが、日本語版書籍の方が新しく刷新されている模様
※それでもバグはあり、下記の章項目ごとに記載あり