大数据处理

Apache Spark 免费的大数据工具

使用免费大数据工具的内存数据处理

用于大规模数据处理的灵活,轻巧和更快的统一分析引擎。与Hadoop集成并支持多种语言。

概述

Apache Spark是一种免费的开源大数据处理引擎。它基于Hadoop MapReduce,是为快速计算而设计的。 Apache Spark扩展了Hadoop MapReduce模型,以更有效地进行更多类型的计算,例如交互式查询和流处理。它支持内存群集计算,从而提高了应用程序的处理速度。 Apache Spark处理各种工作负载,包括迭代算法,交互式查询和流媒体。它具有开箱即用的功能,例如容差,高级分析,懒惰评估,实时流处理,内存数据处理等等。 Apache Spark中有80多个高级运算符,可用于创建并行应用程序。它还包括一个允许实时流处理的API。在Apache Spark中,所有转换本质上都是懒惰的。这意味着它没有立即提供结果,而是从现有的RDD创建了一个新的RDD。结果,系统的性能得到了改善。 Apache Spark支持多种语言,例如Java,R,Scala,Python,而Hadoop仅支持Java语言。 Apache Spark允许内存处理,以增加大量速度。 Apache Spark与Hadoop的HDFS文件系统和多个文件形式(如Parquet,JSON,CSV,ORC)配合得很好。可以轻松地将Hadoop与Apache Spark作为输入数据源或目标集成。

系统要求

为了安装Apache Spark,您必须具有以下软件: -Java -Scala

特征

以下是Apache Spark的关键功能:

  • 免费和开源
  • 快速处理速度
  • 灵活而易于使用
  • 实时流处理
  • 可重复使用
  • 容错
  • 支持多种语言
  • 与Hadoop集成
  • 成本效益
  • 高级分析
  • 内存计算

安装

**在Ubuntu上安装Apache Spark 18.04 **

执行命令下载Apache Spark。

$ wget https://archive.apache.org/dist/spark/spark-3.1.1/spark-3.1.1-bin-hadoop3.2.tgz

使用以下命令提取焦油文件。

$ tar -zxf spark-3.1.1-bin-hadoop3.2.tgz

移动提取的目录。

$ sudo mv spark-3.1.1-bin-hadoop3.2 /opt/spark

打开.bashrc文件,然后将下面的行添加到其中。

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

通过以下命令激活环境。

$ source ~/.bashrc

启动Spark Master Server。

$ start-master.sh

打开浏览器并输入http:// server-ip:8080,用于访问Web界面。

探索

您可能会发现以下链接相关:

 简体中文