Apache Spark 免费的大数据工具

使用免费大数据工具的内存数据处理

用于大规模数据处理的灵活，轻巧和更快的统一分析引擎。与Hadoop集成并支持多种语言。

概述

Apache Spark是一种免费的开源大数据处理引擎。它基于Hadoop MapReduce，是为快速计算而设计的。 Apache Spark扩展了Hadoop MapReduce模型，以更有效地进行更多类型的计算，例如交互式查询和流处理。它支持内存群集计算，从而提高了应用程序的处理速度。 Apache Spark处理各种工作负载，包括迭代算法，交互式查询和流媒体。它具有开箱即用的功能，例如容差，高级分析，懒惰评估，实时流处理，内存数据处理等等。 Apache Spark中有80多个高级运算符，可用于创建并行应用程序。它还包括一个允许实时流处理的API。在Apache Spark中，所有转换本质上都是懒惰的。这意味着它没有立即提供结果，而是从现有的RDD创建了一个新的RDD。结果，系统的性能得到了改善。 Apache Spark支持多种语言，例如Java，R，Scala，Python，而Hadoop仅支持Java语言。 Apache Spark允许内存处理，以增加大量速度。 Apache Spark与Hadoop的HDFS文件系统和多个文件形式（如Parquet，JSON，CSV，ORC）配合得很好。可以轻松地将Hadoop与Apache Spark作为输入数据源或目标集成。

系统要求

为了安装Apache Spark，您必须具有以下软件： -Java -Scala

特征

以下是Apache Spark的关键功能：

免费和开源
快速处理速度
灵活而易于使用
实时流处理
可重复使用
容错
支持多种语言
与Hadoop集成
成本效益
高级分析
内存计算

安装

在Ubuntu上安装Apache Spark 18.04

执行命令下载Apache Spark。

$ wget https://archive.apache.org/dist/spark/spark-3.1.1/spark-3.1.1-bin-hadoop3.2.tgz

使用以下命令提取焦油文件。

$ tar -zxf spark-3.1.1-bin-hadoop3.2.tgz

移动提取的目录。

$ sudo mv spark-3.1.1-bin-hadoop3.2 /opt/spark

打开.bashrc文件，然后将下面的行添加到其中。

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

通过以下命令激活环境。

$ source ~/.bashrc

启动Spark Master Server。

$ start-master.sh

打开浏览器并输入http：// server-ip：8080，用于访问Web界面。

探索

您可能会发现以下链接相关：

2021年的前5个开源大数据工具

Apache Spark 免费的大数据工具

使用免费大数据工具的内存数据处理

用于大规模数据处理的灵活，轻巧和更快的统一分析引擎。与Hadoop集成并支持多种语言。

Apache Spark

概述

系统要求

特征

安装

**在Ubuntu上安装Apache Spark 18.04 **

探索

在Ubuntu上安装Apache Spark 18.04