Apache Spark Bezplatný nástroj Big Data

Zpracování dat v paměti pomocí bezplatného nástroje Big Data

Flexibilní, lehký a rychlejší sjednocený analytický motor pro rozsáhlé zpracování dat. Integrováno s Hadoopem a podporuje více jazyků.

Přehled

Apache Spark je bezplatný a otevřený zdrojový motor pro zpracování dat. Je založen na Hadoop MapReduce a je navržen pro rychlý výpočet. Apache Spark rozšiřuje model Hadoop MapReduce, aby umožnil efektivněji provádět více typů výpočtů, jako jsou interaktivní dotazy a zpracování proudu. Podporuje výpočetní technika v paměti, která zvyšuje rychlost zpracování aplikace. Apache Spark zpracovává celou řadu pracovních zátěží včetně iteračních algoritmů, interaktivních dotazů a streamování. Dodává se s funkcemi mimo box, jako je tolerance poruch, pokročilá analytika, líné hodnocení, zpracování toku v reálném čase, zpracování dat v paměti a mnoho dalších. V Apache Spark je k dispozici více než 80 operátorů na vysoké úrovni, které lze použít k vytváření paralelních aplikací. Zahrnuje také API, které umožňuje zpracování proudu v reálném čase. V Apache Spark jsou všechny transformace líné povahy. To znamená, že místo toho, aby výsledek okamžitě poskytl, vytvoří nový RDD z existujícího. Výsledkem je, že se výkon systému zlepšuje. Apache Spark podporuje několik jazyků, jako jsou Java, R, Scala, Python, zatímco Hadoop podporuje pouze Java Jazy. Apache Spark umožňuje zpracování úkolů, které zvyšují masivní rychlost. Apache Spark dobře funguje se systémem souborů HDFS HDFS HDFS a více formáty souborů, jako jsou Parquet, JSON, CSV, ORC. Hadoop lze snadno integrovat s Apache Spark buď jako zdroj vstupních dat nebo cíle.

Požadavky na systém

Chcete -li nainstalovat Apache Spark, musíte mít následující software:

Java
Scala

Funkce

Následující jsou klíčové rysy Apache Spark:

Zdarma a open source
Rychlá rychlost zpracování
Flexibilní a snadné použití
Zpracování proudu v reálném čase
Opakovatelnost
Odolnost proti chybám
Podporujte více jazyků
Integrováno s Hadoopem
nákladové efektivní
Pokročilá analytika
Výpočetní technika v paměti

Instalace

Nainstalujte Apache Spark na Ubuntu 18.04

Spusťte příkaz ke stažení Apache Spark.

$ wget https://archive.apache.org/dist/spark/spark-3.1.1/spark-3.1.1-bin-hadoop3.2.tgz

Extrahujte soubor TAR pomocí příkazu níže.

$ tar -zxf spark-3.1.1-bin-hadoop3.2.tgz

Přesuňte extrahovaný adresář.

$ sudo mv spark-3.1.1-bin-hadoop3.2 /opt/spark

Otevřete soubor .basrc a přidejte do něj níže.

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

Aktivujte prostředí s následujícím příkazem.

$ source ~/.bashrc

Spusťte Spark Master Server.

$ start-master.sh

Otevřete prohlížeč a zadejte http: // server-ip: 8080 pro přístup k webovému rozhraní.

Prozkoumejte

Následující odkazy můžete považovat za relevantní:

Top 5 Open Source Big Data Tools v roce 2021