創屋ぷれす

スクレイピング、クローラー&スパイダー

WEB上にはたくさんの情報が存在します。単に閲覧したいだけの場合もありますが、システム開発に絡む場合は、自動的にリンクをたどって、ページを収集し、ページ内容を抽出・分類して利用することになります。
例えばWEBの検索エンジンなどが良い例ですね。また、最近では機械学習のためのデータ収集のために使われることも多いのではないでしょうか。

これらの行為を表す用語として
WEBスクレイピング・・・WEB上ページから必要となる情報を収集する仕組み技術
WEBクローリング・・・WEB上のリンクをたどってページを収集する仕組み技術
WEBクローラー/スパイダー・・・クローリングするプログラムの呼称的なもの
などがあります。

弊社で開発したサービス(またたびv2とか)でもいくつか実現したりしています。
最近ではインデックスのない大量のデータファイルのダウンロードにScrapyを使いました。

創屋のホームページはこちらから

Comments are closed.