Apache Spark Strumento Big Data gratuito

Elaborazione dei dati in memoria con strumento Big Data gratuito

Motore di analisi unificato flessibile, leggero e più veloce per l'elaborazione dei dati su larga scala. Integrato con Hadoop e supporta più lingue.

Panoramica ### ** ** Apache Spark è un motore di elaborazione dei big data gratuita e open source. Si basa su Hadoop MapReduce ed è progettato per un calcolo rapido. Apache Spark estende il modello Hadoop MapReduce per consentire di eseguire più tipi di calcoli, come le query interattive e l’elaborazione del flusso, in modo più efficiente. Supporta il cluster in memoria di calcolo, che aumenta la velocità di elaborazione di un’applicazione. Apache Spark gestisce una varietà di carichi di lavoro tra cui algoritmi iterativi, query interattive e streaming. Viene fornito con funzionalità out-of-the-box come tolleranza agli errori, analisi avanzata, valutazione pigra, elaborazione in tempo reale, elaborazione dei dati in memoria e molti altri. Oltre 80 operatori di alto livello sono disponibili in Apache Spark, che possono essere utilizzate per creare applicazioni parallele. Include anche un’API che consente l’elaborazione del flusso in tempo reale. In Apache Spark, tutte le trasformazioni sono di natura pigro. Implica che invece di fornire immediatamente il risultato, crea un nuovo RDD da quello esistente. Di conseguenza, le prestazioni del sistema sono migliorate. Apache Spark supporta più lingue come Java, R, Scala, Python mentre Hadoop supporta solo la lingua Java. Apache Spark consente l’elaborazione in memoria di compiti che aumentano la massiccia velocità. Apache Spark funziona bene con il file system HDFS di Hadoop e più formatori di file come Parquet, JSON, CSV, ORC. Hadoop può essere facilmente integrato con Apache Spark come origine dati di input o destinazione.

Requisiti di sistema

Per installare Apache Spark, è necessario disporre dei seguenti software:

Java
Scala

Caratteristiche

Di seguito sono riportate le caratteristiche chiave di Apache Spark:

gratuito e open source
Velocità di elaborazione rapida
flessibile e facilità da usare
Elaborazione del flusso in tempo reale
riusabilità
tolleranza agli errori
Supportare più lingue
integrato con Hadoop
Costo efficiente
Analisi avanzata
Informatica in memoria

Installazione

Installa Apache Spark su Ubuntu 18.04

Esegui il comando per scaricare Apache Spark.

$ wget https://archive.apache.org/dist/spark/spark-3.1.1/spark-3.1.1-bin-hadoop3.2.tgz

Estrarre il file TAR utilizzando il comando sotto.

$ tar -zxf spark-3.1.1-bin-hadoop3.2.tgz

Spostare la directory estratta.

$ sudo mv spark-3.1.1-bin-hadoop3.2 /opt/spark

Apri il file .Bashrc e aggiungi le righe sotto.

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

Attiva l’ambiente con il seguente comando.

$ source ~/.bashrc

Avviare Spark Master Server.

$ start-master.sh

Apri il browser e immettere http: // server-ip: 8080 per accedere all’interfaccia Web.

Esplorare

Potresti trovare i seguenti collegamenti pertinenti:

Top 5 strumenti di big data open source nel 2021