pandas

Python で表形式データを扱うためのライブラリ。データ分析の定番ツール

データ分析Python
pandas」の技術書を見る (35 冊) →

pandas とは

pandas (パンダス) は、Python で表形式のデータを効率よく扱うためのライブラリだ。Excel のような行と列からなるデータ (データフレーム) を、プログラムで自在に操作できる。データの読み込み・加工・集計・結合・欠損値の処理などを簡潔に記述でき、データ分析機械学習の前処理で欠かせない定番ツールになっている。

何ができるか

機能 内容
読み書き CSV・Excel・データベースとの入出力
加工 フィルタ、並べ替え、列の追加
集計 グループ化して合計・平均を算出
結合 複数の表を結合する
欠損処理 欠けたデータの補完・除去

SQL での集計に近い操作を、Python のコードとして表現できると考えると分かりやすい。

なぜ重要か

実際のデータは、欠損・表記ゆれ・形式の不揃いなど「汚れ」に満ちている。機械学習や統計分析を行う前に、データをきれいに整える前処理が必要で、その作業の大部分を pandas が担う。「分析の 8 割は前処理」とも言われるほど、データを扱う仕事で使用頻度が高いライブラリだ。

利用上の注意点

pandas は便利だが、大量データ (数千万行を超える規模) では処理が重くなり、メモリを大量に消費することがある。その場合は、データベースで処理する、より高速なライブラリを併用する、といった工夫が必要になる。また、便利なメソッドが多い反面、非効率な書き方をすると遅くなりやすい。基本的な操作に慣れたら、効率的な書き方も意識したい。pandas を活かすには、統計やデータの性質への理解が土台として効いてくる。

学習には関連書籍が役立つ。

この記事は役に立ちましたか?

関連用語

関連する記事