Apache Spark 免费的大数据工具
使用免费大数据工具的内存数据处理
用于大规模数据处理的灵活,轻巧和更快的统一分析引擎。与Hadoop集成并支持多种语言。
概述
Apache Spark是一种免费的开源大数据处理引擎。它基于Hadoop MapReduce,是为快速计算而设计的。 Apache Spark扩展了Hadoop MapReduce模型,以更有效地进行更多类型的计算,例如交互式查询和流处理。它支持内存群集计算,从而提高了应用程序的处理速度。 Apache Spark处理各种工作负载,包括迭代算法,交互式查询和流媒体。它具有开箱即用的功能,例如容差,高级分析,懒惰评估,实时流处理,内存数据处理等等。 Apache Spark中有80多个高级运算符,可用于创建并行应用程序。它还包括一个允许实时流处理的API。在Apache Spark中,所有转换本质上都是懒惰的。这意味着它没有立即提供结果,而是从现有的RDD创建了一个新的RDD。结果,系统的性能得到了改善。 Apache Spark支持多种语言,例如Java,R,Scala,Python,而Hadoop仅支持Java语言。 Apache Spark允许内存处理,以增加大量速度。 Apache Spark与Hadoop的HDFS文件系统和多个文件形式(如Parquet,JSON,CSV,ORC)配合得很好。可以轻松地将Hadoop与Apache Spark作为输入数据源或目标集成。
安装
**在Ubuntu上安装Apache Spark 18.04 **
执行命令下载Apache Spark。
$ wget https://archive.apache.org/dist/spark/spark-3.1.1/spark-3.1.1-bin-hadoop3.2.tgz
使用以下命令提取焦油文件。
$ tar -zxf spark-3.1.1-bin-hadoop3.2.tgz
移动提取的目录。
$ sudo mv spark-3.1.1-bin-hadoop3.2 /opt/spark
打开.bashrc文件,然后将下面的行添加到其中。
export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
通过以下命令激活环境。
$ source ~/.bashrc
启动Spark Master Server。
$ start-master.sh
打开浏览器并输入http:// server-ip:8080,用于访问Web界面。