pandas
Python で表形式データを扱うためのライブラリ。データ分析の定番ツール
pandas とは
pandas (パンダス) は、Python で表形式のデータを効率よく扱うためのライブラリだ。Excel のような行と列からなるデータ (データフレーム) を、プログラムで自在に操作できる。データの読み込み・加工・集計・結合・欠損値の処理などを簡潔に記述でき、データ分析や機械学習の前処理で欠かせない定番ツールになっている。
何ができるか
| 機能 | 内容 |
|---|---|
| 読み書き | CSV・Excel・データベースとの入出力 |
| 加工 | フィルタ、並べ替え、列の追加 |
| 集計 | グループ化して合計・平均を算出 |
| 結合 | 複数の表を結合する |
| 欠損処理 | 欠けたデータの補完・除去 |
SQL での集計に近い操作を、Python のコードとして表現できると考えると分かりやすい。
なぜ重要か
実際のデータは、欠損・表記ゆれ・形式の不揃いなど「汚れ」に満ちている。機械学習や統計分析を行う前に、データをきれいに整える前処理が必要で、その作業の大部分を pandas が担う。「分析の 8 割は前処理」とも言われるほど、データを扱う仕事で使用頻度が高いライブラリだ。
利用上の注意点
pandas は便利だが、大量データ (数千万行を超える規模) では処理が重くなり、メモリを大量に消費することがある。その場合は、データベースで処理する、より高速なライブラリを併用する、といった工夫が必要になる。また、便利なメソッドが多い反面、非効率な書き方をすると遅くなりやすい。基本的な操作に慣れたら、効率的な書き方も意識したい。pandas を活かすには、統計やデータの性質への理解が土台として効いてくる。
学習には関連書籍が役立つ。
この記事は役に立ちましたか?
関連用語
関連する記事
データベース本ガイド - SQL から設計まで学べる技術書の選び方
データベースの基礎から設計、パフォーマンスチューニングまで学べる技術書の選び方と学習順序を紹介します。
本についてくるダウンロード素材を使い倒す
プログラミングの本には、サンプルコードや素材のダウンロード特典がついていることがあります。この特典を活用するだけで、学習効率が大きく変わります。
機械学習・AI 本ガイド - エンジニアが読むべき技術書の選び方
機械学習の基礎から実践まで学べる技術書の選び方を紹介。「Python ではじめる機械学習」などのハンズオン本を軸に、数学が苦手な人向けの学習ルートと ML 本の賞味期限の見極め方を解説します。