スクレイピング

Web ページから必要な情報を自動で抽出する技術。データ収集を効率化する

データ収集自動化
スクレイピング」の技術書を見る (41 冊) →

スクレイピングとは

スクレイピング (Web スクレイピング) は、Web ページから必要な情報を自動で抽出する技術だ。人がブラウザで見て手作業でコピーする代わりに、プログラムがページの内容を取得し、目的のデータだけを取り出す。価格調査、ニュース収集、研究用のデータ収集など、Web 上に散らばる情報を効率的に集める手段として使われる。

基本的な流れ

手順 内容
取得 対象ページの HTML を取り込む
解析 HTML の構造から目的の要素を特定
抽出 テキストや属性を取り出す
保存 データを表やファイルに整形

Python では、ページ取得と解析を支援するライブラリが充実しており、スクレイピングの定番言語になっている。

API との使い分け

データを提供する公式の API がある場合は、スクレイピングより API を使う方が望ましい。API は構造化されたデータを安定して提供し、提供側も想定した使い方だからだ。スクレイピングは、API が用意されていない情報を取得する手段として位置づけられる。まず API の有無を確認するのが定石になる。

重要な注意点 (法と倫理)

スクレイピングは強力だが、無制限に行ってよいわけではない。多くのサイトは利用規約でスクレイピングを禁止・制限しており、これに反する取得は規約違反になりうる。また、短時間に大量アクセスするとサーバーに負荷をかけ、業務妨害とみなされる恐れがある。取得したデータの利用 (特に著作権や個人情報) にも配慮が必要だ。対象サイトの規約とアクセスルール (robots.txt 等) を確認し、適切な間隔を空けてアクセスするなど、節度ある利用が大前提になる。技術的に可能であることと、行ってよいことは別である点を、常に意識する必要がある。

学習には関連書籍が役立つ。

この記事は役に立ちましたか?

関連用語

関連する記事