プログラマのための文字コード技術入門 (WEB+DB PRESS plus) (WEB+DB PRESS plusシリーズ) の感想
参照データ
タイトル | プログラマのための文字コード技術入門 (WEB+DB PRESS plus) (WEB+DB PRESS plusシリーズ) |
発売日 | 販売日未定 |
製作者 | 矢野 啓介 |
販売元 | 技術評論社 |
JANコード | 9784774141640 |
カテゴリ | 本 » ジャンル別 » コンピュータ・IT » インターネット・eビジネス |
購入者の感想
SEのハシクレとして日本語と格闘し、惨めに挫折した敗残兵としては、これほど懇切な解説で言語処理を学べる若手技術者諸君が羨ましい。
そもそも日本語処理がここまで複雑怪奇になったのは、他の用例が見出せないのに現実に使われているから、というだけの理由で別コードを付すべき文字がある、とか、字形の微妙な相違を吸収する『包摂(ほうせつ)』の概念をせっかく取り入れたのに、整理方針が一貫せず、矛盾や齟齬を放置した、など、JIS規格自体に根本原因がある。おかげで、単純な座標変換演算では到底対処しきれない、プログラマー泣かせの状況が蔓延してしまった。
本書前半では、文字コード体系がどのように構築され、拡張され、複雑化したか、1バイト(正確には7ビット)文字から2バイト文字、4バイト文字、と段階を追って丁寧に解説している。とくに、例外処理が必要になってしまった背景や理由の説明は、多くの実例や図解入りで非常に詳細だ。
文字集合同士の認識を切り替えるため内部挿入するエスケープシーケンスコードや、複数個のフォントで1個の文字を表現する合成文字などの存在も厄介だ。これらは不可分の一連データであり、中途で分断する操作は厳禁なのだが、むしろこうした箇所で処理ミス判定ミスが多発する。
プログラミング言語によっても基準コードや処理体系が異なるし、コンパイル時にオプション指定を誤るなど、文字化けが発生するケースはじつに多い。
本書中盤以降では、そうしたミスを犯しやすい注意点を、誤認識の発生メカニズムにも触れながら詳説している。
エンコード時に自動判別するためのコードの特徴の見分け方、Unicodeが内包するセキュリティ面の弱点、などの解説も明確。
全体の目配り気配りが非常に優れている。
“漢字文化圏”で、2バイト文字を扱う必然がある日本人にとって、挑戦し甲斐がある技術分野。内容充実の本書は必携と言えよう。
そもそも日本語処理がここまで複雑怪奇になったのは、他の用例が見出せないのに現実に使われているから、というだけの理由で別コードを付すべき文字がある、とか、字形の微妙な相違を吸収する『包摂(ほうせつ)』の概念をせっかく取り入れたのに、整理方針が一貫せず、矛盾や齟齬を放置した、など、JIS規格自体に根本原因がある。おかげで、単純な座標変換演算では到底対処しきれない、プログラマー泣かせの状況が蔓延してしまった。
本書前半では、文字コード体系がどのように構築され、拡張され、複雑化したか、1バイト(正確には7ビット)文字から2バイト文字、4バイト文字、と段階を追って丁寧に解説している。とくに、例外処理が必要になってしまった背景や理由の説明は、多くの実例や図解入りで非常に詳細だ。
文字集合同士の認識を切り替えるため内部挿入するエスケープシーケンスコードや、複数個のフォントで1個の文字を表現する合成文字などの存在も厄介だ。これらは不可分の一連データであり、中途で分断する操作は厳禁なのだが、むしろこうした箇所で処理ミス判定ミスが多発する。
プログラミング言語によっても基準コードや処理体系が異なるし、コンパイル時にオプション指定を誤るなど、文字化けが発生するケースはじつに多い。
本書中盤以降では、そうしたミスを犯しやすい注意点を、誤認識の発生メカニズムにも触れながら詳説している。
エンコード時に自動判別するためのコードの特徴の見分け方、Unicodeが内包するセキュリティ面の弱点、などの解説も明確。
全体の目配り気配りが非常に優れている。
“漢字文化圏”で、2バイト文字を扱う必然がある日本人にとって、挑戦し甲斐がある技術分野。内容充実の本書は必携と言えよう。