Elaborazione dei big data

Apache Spark Strumento Big Data gratuito

Elaborazione dei dati in memoria con strumento Big Data gratuito

Motore di analisi unificato flessibile, leggero e più veloce per l'elaborazione dei dati su larga scala. Integrato con Hadoop e supporta più lingue.

Panoramica ### ** ** Apache Spark è un motore di elaborazione dei big data gratuita e open source. Si basa su Hadoop MapReduce ed è progettato per un calcolo rapido. Apache Spark estende il modello Hadoop MapReduce per consentire di eseguire più tipi di calcoli, come le query interattive e l’elaborazione del flusso, in modo più efficiente. Supporta il cluster in memoria di calcolo, che aumenta la velocità di elaborazione di un’applicazione. Apache Spark gestisce una varietà di carichi di lavoro tra cui algoritmi iterativi, query interattive e streaming. Viene fornito con funzionalità out-of-the-box come tolleranza agli errori, analisi avanzata, valutazione pigra, elaborazione in tempo reale, elaborazione dei dati in memoria e molti altri. Oltre 80 operatori di alto livello sono disponibili in Apache Spark, che possono essere utilizzate per creare applicazioni parallele. Include anche un’API che consente l’elaborazione del flusso in tempo reale. In Apache Spark, tutte le trasformazioni sono di natura pigro. Implica che invece di fornire immediatamente il risultato, crea un nuovo RDD da quello esistente. Di conseguenza, le prestazioni del sistema sono migliorate. Apache Spark supporta più lingue come Java, R, Scala, Python mentre Hadoop supporta solo la lingua Java. Apache Spark consente l’elaborazione in memoria di compiti che aumentano la massiccia velocità. Apache Spark funziona bene con il file system HDFS di Hadoop e più formatori di file come Parquet, JSON, CSV, ORC. Hadoop può essere facilmente integrato con Apache Spark come origine dati di input o destinazione.

Requisiti di sistema

Per installare Apache Spark, è necessario disporre dei seguenti software:

  • Java
  • Scala

Caratteristiche

Di seguito sono riportate le caratteristiche chiave di Apache Spark:

  • gratuito e open source
  • Velocità di elaborazione rapida
  • flessibile e facilità da usare
  • Elaborazione del flusso in tempo reale
  • riusabilità
  • tolleranza agli errori
  • Supportare più lingue
  • integrato con Hadoop
  • Costo efficiente
  • Analisi avanzata
  • Informatica in memoria

Installazione

Installa Apache Spark su Ubuntu 18.04

Esegui il comando per scaricare Apache Spark.

$ wget https://archive.apache.org/dist/spark/spark-3.1.1/spark-3.1.1-bin-hadoop3.2.tgz

Estrarre il file TAR utilizzando il comando sotto.

$ tar -zxf spark-3.1.1-bin-hadoop3.2.tgz

Spostare la directory estratta.

$ sudo mv spark-3.1.1-bin-hadoop3.2 /opt/spark

Apri il file .Bashrc e aggiungi le righe sotto.

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

Attiva l’ambiente con il seguente comando.

$ source ~/.bashrc

Avviare Spark Master Server.

$ start-master.sh

Apri il browser e immettere http: // server-ip: 8080 per accedere all’interfaccia Web.

Esplorare

Potresti trovare i seguenti collegamenti pertinenti:

 Italiano