Apache Spark 無料のビッグデータツール
無料のビッグデータツールを使用したメモリデータ処理
大規模なデータ処理のための柔軟で軽量で、より高速な統一分析エンジン。 Hadoopと統合され、複数の言語をサポートします。
概要
Apache Sparkは、無料でオープンソースのビッグデータ処理エンジンです。 Hadoop MapReduceに基づいており、高速計算用に設計されています。 Apache Sparkは、Hadoop MapReduceモデルを拡張して、インタラクティブクエリやストリーム処理など、より効率的に実行できるようにするためのより多くのタイプの計算を可能にします。インメモリクラスターコンピューティングをサポートし、アプリケーションの処理速度を高めます。 Apache Sparkは、反復アルゴリズム、インタラクティブクエリ、ストリーミングなど、さまざまなワークロードを処理します。フォールトトレランス、高度な分析、怠zyな評価、リアルタイムストリーム処理、インメモリデータ処理など、すぐに使用できる機能が付属しています。 Apache Sparkで80を超える高レベルオペレーターが利用できます。これは、並列アプリケーションの作成に使用できます。また、リアルタイムのストリーム処理を可能にするAPIも含まれています。 Apache Sparkでは、すべての変換は本質的に怠zyです。結果をすぐに提供する代わりに、既存のRDDから新しいRDDを作成することを意味します。その結果、システムのパフォーマンスが向上します。 Apache Sparkは、Java、R、Scala、Pythonなどの複数の言語をサポートしますが、HadoopはJava Languageのみをサポートしています。 Apache Sparkは、大規模な速度を高めるタスクのメモリ内処理を可能にします。 Apache Sparkは、HadoopのHDFSファイルシステムと、Parquet、JSON、CSV、ORCなどの複数のファイルフォーマットでうまく機能します。 Hadoopは、入力データソースまたは宛先としてApache Sparkと簡単に統合できます。
特徴
以下は、Apache Sparkの重要な機能です。
- 無料でオープンソース
- 処理速度が高速
- 柔軟で使いやすさ
- リアルタイムストリーム処理
- 再利用可能性
- フォールトトレランス
- 複数の言語をサポートします
- Hadoopと統合
- 効率的なコスト
- 高度な分析
- インメモリコンピューティング
インストール
** Ubuntu 18.04にApache Sparkをインストールします**
コマンドを実行して、Apache Sparkをダウンロードします。
$ wget https://archive.apache.org/dist/spark/spark-3.1.1/spark-3.1.1-bin-hadoop3.2.tgz
以下のコマンドを使用してTARファイルを抽出します。
$ tar -zxf spark-3.1.1-bin-hadoop3.2.tgz
抽出されたディレクトリを移動します。
$ sudo mv spark-3.1.1-bin-hadoop3.2 /opt/spark
.bashrcファイルを開き、以下の行を追加します。
export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
次のコマンドで環境を有効にします。
$ source ~/.bashrc
Spark Masterサーバーを開始します。
$ start-master.sh
Browserを開き、Webインターフェイスにアクセスするためにhttp:// server-ip:8080を入力します。