創屋ぷれす

Apache Sparkとは

こんにちは.
今回は「Apache Spark」について調べましたので,書いていきたいと思います.

〇Apache Sparkとは
大規模データの分散処理をオンメモリでリアルタイムに実現するプラットフォームです.
データを高速に汎用的に処理することを目的に設計されています.
Scala,Python,Java,SQLから使用可能です.

〇そもそも分散処理とは
ある計算処理をネットワーク接続された複数のマシンを用いて同時並列で処理すること.
ビッグデータを扱う際に,計算処理を複数のマシンで分散して処理時間を短くするための手法の1つです.
安いサーバーを複数用意して分散処理できるので,費用を抑えることが可能ですが,その分複雑なプログラムが必要になってきます.

〇Hadoopとの使い分け
他の分散処理フレームワークでメジャーなものとして「Hadoop」が存在します.
Hadoopは,デスクIOを並列化してスループットを高める手法を取っています.

オンメモリで処理できるサイズのデータを比較的早く処理したいときはSpark,
オンメモリで処理できないサイズのデータを永続化しつつ少しずつ処理したいときはHadoop
という使い分けが良いそうです.

WindowsでもLinux系マシンでも動作して簡単に試すことができるので,分散処理を体験してみてはいかがでしょうか.

Comments are closed.