統計的データクリーニングの理論と実践
R によるデータ編集/欠測補完システム
- 著者:
- Mark van der Loo/Edwin de Jonge/地道 正行/高橋 雅夫/藤野 友和/安川 武彦
- 出版社:
- 共立出版
- 出版日:
- 2022年02月24日頃
- ISBN:
- 9784320114630
- 価格:
- ¥6,380
- 在庫:
- 1
- 判型:
- 単行本
書籍紹介
統計的なデータクリーニングシステムを構築するための包括的なガイド データクリーニングとは、入手した原データを、分析に耐えうる品質にするために、エラーや矛盾する値を検出・修正し、欠測を補完する作業のことで、データ分析においてしばしば最も時間のかかるプロセスである。公的統計分野において、この分野は「データ編集」とも呼ばれ、この 50 年余に多くの知見が蓄積されてきたが、一般の統計のコミュニティにおける文献は多くない。 本書は、 2013 年に開催された世界規模の R ユーザーカンファレンスである useR!2013 において行われたデータクリーニングのチュートリアルがきっかけとなり,オランダ統計局の研究部門に所属する著者によって書かれている。近年のビックデータ時代の到来により、調査集計を行う公的統計部局は行政記録その他の幅広いデータを取り扱うようになるとともに、より広い分野においてもデータの入手が容易になったためにデータクリーニングの要請は広がり、公的統計分野での知見はより多くの分野で役立つ可能性を持っている。 著者は、本書で紹介されるデータ検証やエラーの局所化、エラー修正のための様々な方法や欠測値の補完といった様々なデータクリーニングのための R のパッケージの多くを開発しており、実際に使用するためのコード例も豊富に掲載され、数値やテキスト、日付等のデータの取り扱いや、数値計算時の留意点など、プログラミングに関する内容も収録されている。 本書の特徴 データ分析を行う際に、しばしば最も手のかかるデータクリーニングに焦点を当て、理論と R による実装の双方向から解説 アドホックで、データ毎に異なるカスタムメイドのクリーニングシステムではなく、汎用性を重視した構築の方法論も解説 データの矛盾を解消し、欠測を補完するための統計的手法、バッチ処理化やデータ変遷のモニタリングについても解説 〔原著〕 Statistical Data Cleaning with Applications in R, Wiley, 2018.