Traitement des mégadonnées

Apache Spark Outil gratuit de Big Data

Traitement des données en mémoire avec outil gratuit de Big Data

Moteur d'analyse unifié flexible, léger et plus rapide pour le traitement des données à grande échelle. Intégré à Hadoop et prend en charge plusieurs langues.

Aperçu

Apache Spark est un moteur de traitement des mégadonnées gratuit et open source. Il est basé sur Hadoop MapReduce et est conçu pour un calcul rapide. Apache Spark étend le modèle Hadoop MapReduce pour permettre à plus de types de calculs, tels que les requêtes interactives et le traitement des flux, à effectuer plus efficacement. Il prend en charge l’informatique en cluster en mémoire, ce qui augmente la vitesse de traitement d’une application. Apache Spark gère une variété de charges de travail, notamment des algorithmes itératifs, des requêtes interactives et du streaming. Il est livré avec des fonctionnalités prêtes à l’emploi telles que la tolérance aux pannes, l’analyse avancée, l’évaluation paresseuse, le traitement de flux en temps réel, le traitement des données en mémoire et bien d’autres. Plus de 80 opérateurs de haut niveau sont disponibles dans Apache Spark, qui peuvent être utilisés pour créer des applications parallèles. Il comprend également une API qui permet le traitement de flux en temps réel. Dans Apache Spark, toutes les transformations sont de nature paresseuse. Cela implique qu’au lieu de fournir le résultat immédiatement, il crée un nouveau RDD à partir de celui existant. En conséquence, les performances du système sont améliorées. Apache Spark prend en charge plusieurs langues comme Java, R, Scala, Python tandis que Hadoop ne prend en charge que le langage Java. Apache Spark permet un traitement en mémoire des tâches qui augmentent la vitesse massive. Apache Spark fonctionne bien avec le système de fichiers HDFS de Hadoop et plusieurs formats de fichiers comme Parquet, JSON, CSV, ORC. Hadoop peut être facilement intégré à Apache Spark comme source de données d’entrée ou destination.

Configuration requise

Afin d’installer Apache Spark, vous devez avoir les logiciels suivants:

  • Java
  • Scala

Caractéristiques

Voici les principales caractéristiques d’Apache Spark:

  • gratuit et open source
  • vitesse de traitement rapide
  • flexible et facilité à utiliser
  • Traitement de flux en temps réel
  • Réutilisabilité
  • Tolérance aux défauts
  • Prise en charge de plusieurs langues
  • intégré à Hadoop
  • Rentable
  • Analyse avancée
  • Computation en mémoire

Installation

Installez Apache Spark sur Ubuntu 18.04

Exécutez la commande pour télécharger Apache Spark.

$ wget https://archive.apache.org/dist/spark/spark-3.1.1/spark-3.1.1-bin-hadoop3.2.tgz

Extraire le fichier TAR à l’aide de la commande ci-dessous.

$ tar -zxf spark-3.1.1-bin-hadoop3.2.tgz

Déplacez le répertoire extrait.

$ sudo mv spark-3.1.1-bin-hadoop3.2 /opt/spark

Ouvrez le fichier .bashrc et ajoutez-y sous les lignes.

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

Activez l’environnement avec la commande suivante.

$ source ~/.bashrc

Démarrez le serveur Spark Master.

$ start-master.sh

Ouvrez le navigateur et entrez http: // server-ip: 8080 pour accéder à l’interface Web.

Explorer

Vous pouvez trouver les liens suivants pertinents:

 Français