Apache Spark Bezplatný nástroj Big Data
Zpracování dat v paměti pomocí bezplatného nástroje Big Data
Flexibilní, lehký a rychlejší sjednocený analytický motor pro rozsáhlé zpracování dat. Integrováno s Hadoopem a podporuje více jazyků.
Přehled
Apache Spark je bezplatný a otevřený zdrojový motor pro zpracování dat. Je založen na Hadoop MapReduce a je navržen pro rychlý výpočet. Apache Spark rozšiřuje model Hadoop MapReduce, aby umožnil efektivněji provádět více typů výpočtů, jako jsou interaktivní dotazy a zpracování proudu. Podporuje výpočetní technika v paměti, která zvyšuje rychlost zpracování aplikace. Apache Spark zpracovává celou řadu pracovních zátěží včetně iteračních algoritmů, interaktivních dotazů a streamování. Dodává se s funkcemi mimo box, jako je tolerance poruch, pokročilá analytika, líné hodnocení, zpracování toku v reálném čase, zpracování dat v paměti a mnoho dalších. V Apache Spark je k dispozici více než 80 operátorů na vysoké úrovni, které lze použít k vytváření paralelních aplikací. Zahrnuje také API, které umožňuje zpracování proudu v reálném čase. V Apache Spark jsou všechny transformace líné povahy. To znamená, že místo toho, aby výsledek okamžitě poskytl, vytvoří nový RDD z existujícího. Výsledkem je, že se výkon systému zlepšuje. Apache Spark podporuje několik jazyků, jako jsou Java, R, Scala, Python, zatímco Hadoop podporuje pouze Java Jazy. Apache Spark umožňuje zpracování úkolů, které zvyšují masivní rychlost. Apache Spark dobře funguje se systémem souborů HDFS HDFS HDFS a více formáty souborů, jako jsou Parquet, JSON, CSV, ORC. Hadoop lze snadno integrovat s Apache Spark buď jako zdroj vstupních dat nebo cíle.
Požadavky na systém
Chcete -li nainstalovat Apache Spark, musíte mít následující software:
- Java
- Scala
Funkce
Následující jsou klíčové rysy Apache Spark:
- Zdarma a open source
- Rychlá rychlost zpracování
- Flexibilní a snadné použití
- Zpracování proudu v reálném čase
- Opakovatelnost
- Odolnost proti chybám
- Podporujte více jazyků
- Integrováno s Hadoopem
- nákladové efektivní
- Pokročilá analytika
- Výpočetní technika v paměti
Instalace
Nainstalujte Apache Spark na Ubuntu 18.04
Spusťte příkaz ke stažení Apache Spark.
$ wget https://archive.apache.org/dist/spark/spark-3.1.1/spark-3.1.1-bin-hadoop3.2.tgz
Extrahujte soubor TAR pomocí příkazu níže.
$ tar -zxf spark-3.1.1-bin-hadoop3.2.tgz
Přesuňte extrahovaný adresář.
$ sudo mv spark-3.1.1-bin-hadoop3.2 /opt/spark
Otevřete soubor .basrc a přidejte do něj níže.
export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
Aktivujte prostředí s následujícím příkazem.
$ source ~/.bashrc
Spusťte Spark Master Server.
$ start-master.sh
Otevřete prohlížeč a zadejte http: // server-ip: 8080 pro přístup k webovému rozhraní.