3日で通読可能なバイオインフォマティクスの分野の専門家にも勧めたい好著 データ分析よりもデータの加工に力点
ビジネスの世界で使われているデータサイエンスの手法は、
生物化学・医学研究などの分野でビッグデータを解析するときにバイオインフォマティクス(システム生物学)という名前で活用されてきている。
私は、
その分野で研究するものだが、
バイオインフォマティクス関連書では、
良著がないので、
その基礎ともなるビジネス書である本書を手に取ってみた。
本書は3日あれば、
データのインプットをしながら通読可能。
優れているのは第1章で、
データサイエンティストは、
1)ビジネスの理解(企画・営業担当者)、
2)統計学の理解(学者・研究者)、
3)データ処理の理解(ITエンジニア)に長けている3タイプがあり、
それぞれの連携が必要としていることで、
これは生物化学・医学研究にも共通する内容。
2章ではデータ分析の過程を5つのフローとし、
1)現状把握、
2)問題発見、
3)データの収集と加工、
4)データ分析、
5)解決案に分けている。
続く3-10章は、
実際のデータを用いて、
上記の5つの過程の実例を示していくが、
力点は3)におかれ、
手元のデータをいかにRを用いて、
データプログラムに入力できる形に加工できるかが詳述されている。
一方、
4)でデータをグラフなどでビジュアル化したり、
統計的に解析する段階になると、
詳細は各プログラムに譲るなどとしており、
本書だけで、
グラフを書いたり、
結果を導くのは困難。
本書は、
データをインプットする形までが詳述されて、
その実際の解析が本書だけではできないので、
4)のためには他書が必要。
本書はRの解説書ではないが、
初心者でも使えるようにとしており、
Rのダウンロードの仕方や使い方が3、
4章までは詳しく書かれているが、
その後は、
Rの関数の説明が省かれることが多い。
Webでは、
本書発行後に正誤表が公開されており、
また、
読者の質問に著者自らが回答するようになっており、
極めて良心的。
9章の決定木分析は、
概念はつかめるが、
なぜ実数、
比率、
主成分の三つの説明変数を使わなければならないのか、
なぜ複数のクラスタ数(本例では3,4,5,6)でクラスタリングを実行しなければならないのか(たとえば、
なぜクラスタ数4だけでは駄目なのか)などの説明がない。
第10章の機械学習は“紙面の関係上”とのことで、
説明も分析も略されており、
理解は困難。
他に、
将来の改訂の時、
考慮して欲しいのは次の点。
1)本書のカバーの裏と最後のページに、
本書で
ビジネス活用事例で学ぶ データサイエンス入門

その他の感想

快眠できました
写真撮影に重宝しています。
CX-3に無理やり装着しました!
ネジ固定式が好き
安価で性能も安定しています。
確率論と論理学と経済学と心理学の融合.
素材は【高級】のようですが。
獣医で勧められて
心温まる本 オススメです。
戦争を非戦闘員の女性の視点からみる
かなり方べりがひどかったので交換しました
250g×2で送付されてきました
消しゴムセット
泡なのが…髪が多い人には物足りない
一つの教科書になりうる内容の濃さです
生地は厚い
売れるのは「読者」ではなく「神田昌典と著者」であることに注意! 前作と内容が全く同じ駄本!
粘りつく感触が・・・。
キヤノン製fax電話に使えました
現代の自動車エンジンの技術を知る必携の書
満足です(,,・ω・,,)
綺麗に映ります
夜のランニングで使用
大学生の息子用に
アポの基本なんて知りませんでした
安いですが、Mac、DELL 普通にmemTestクリアしました。
パーティグッズとして 写真を多く撮る人に
防水に難ありでした。
カッティングシート
Amazonでのチェックはないのか?
戻る