Apache Spark Strumento Big Data gratuito
Elaborazione dei dati in memoria con strumento Big Data gratuito
Motore di analisi unificato flessibile, leggero e più veloce per l'elaborazione dei dati su larga scala. Integrato con Hadoop e supporta più lingue.
Panoramica ### ** ** Apache Spark è un motore di elaborazione dei big data gratuita e open source. Si basa su Hadoop MapReduce ed è progettato per un calcolo rapido. Apache Spark estende il modello Hadoop MapReduce per consentire di eseguire più tipi di calcoli, come le query interattive e l’elaborazione del flusso, in modo più efficiente. Supporta il cluster in memoria di calcolo, che aumenta la velocità di elaborazione di un’applicazione. Apache Spark gestisce una varietà di carichi di lavoro tra cui algoritmi iterativi, query interattive e streaming. Viene fornito con funzionalità out-of-the-box come tolleranza agli errori, analisi avanzata, valutazione pigra, elaborazione in tempo reale, elaborazione dei dati in memoria e molti altri. Oltre 80 operatori di alto livello sono disponibili in Apache Spark, che possono essere utilizzate per creare applicazioni parallele. Include anche un’API che consente l’elaborazione del flusso in tempo reale. In Apache Spark, tutte le trasformazioni sono di natura pigro. Implica che invece di fornire immediatamente il risultato, crea un nuovo RDD da quello esistente. Di conseguenza, le prestazioni del sistema sono migliorate. Apache Spark supporta più lingue come Java, R, Scala, Python mentre Hadoop supporta solo la lingua Java. Apache Spark consente l’elaborazione in memoria di compiti che aumentano la massiccia velocità. Apache Spark funziona bene con il file system HDFS di Hadoop e più formatori di file come Parquet, JSON, CSV, ORC. Hadoop può essere facilmente integrato con Apache Spark come origine dati di input o destinazione.
Requisiti di sistema
Per installare Apache Spark, è necessario disporre dei seguenti software:
- Java
- Scala
Caratteristiche
Di seguito sono riportate le caratteristiche chiave di Apache Spark:
- gratuito e open source
- Velocità di elaborazione rapida
- flessibile e facilità da usare
- Elaborazione del flusso in tempo reale
- riusabilità
- tolleranza agli errori
- Supportare più lingue
- integrato con Hadoop
- Costo efficiente
- Analisi avanzata
- Informatica in memoria
Installazione
Installa Apache Spark su Ubuntu 18.04
Esegui il comando per scaricare Apache Spark.
$ wget https://archive.apache.org/dist/spark/spark-3.1.1/spark-3.1.1-bin-hadoop3.2.tgz
Estrarre il file TAR utilizzando il comando sotto.
$ tar -zxf spark-3.1.1-bin-hadoop3.2.tgz
Spostare la directory estratta.
$ sudo mv spark-3.1.1-bin-hadoop3.2 /opt/spark
Apri il file .Bashrc e aggiungi le righe sotto.
export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
Attiva l’ambiente con il seguente comando.
$ source ~/.bashrc
Avviare Spark Master Server.
$ start-master.sh
Apri il browser e immettere http: // server-ip: 8080 per accedere all’interfaccia Web.