Procesamiento de big data

Apache Spark Herramienta gratuita de big data

Procesamiento de datos en memoria con herramienta gratuita de big data

Motor de análisis unificado flexible, liviano y más rápido para el procesamiento de datos a gran escala. Integrado con Hadoop y admite múltiples idiomas.

Descripción general

Apache Spark es un motor de procesamiento de big data gratuito y de código abierto. Se basa en Hadoop MapReduce y está diseñado para un cálculo rápido. Apache Spark extiende el modelo Hadoop MapReduce para permitir que se realicen más tipos de cálculos, como consultas interactivas y procesamiento de la corriente, de manera más eficiente. Admite la computación de clúster en memoria, lo que aumenta la velocidad de procesamiento de una aplicación. Apache Spark maneja una variedad de cargas de trabajo, incluidos algoritmos iterativos, consultas interactivas y transmisión. Viene con características listas para usar, como tolerancia a fallas, análisis avanzado, evaluación perezosa, procesamiento de flujo en tiempo real, procesamiento de datos en memoria y muchos más. Más de 80 operadores de alto nivel están disponibles en Apache Spark, que se puede utilizar para crear aplicaciones paralelas. También incluye una API que permite el procesamiento de transmisión en tiempo real. En Apache Spark, todas las transformaciones son de naturaleza floja. Implica que, en lugar de proporcionar el resultado de inmediato, crea un nuevo RDD del existente. Como resultado, se mejora el rendimiento del sistema. Apache Spark admite múltiples idiomas como Java, R, Scala, Python, mientras que Hadoop solo admite el lenguaje Java. Apache Spark permite el procesamiento en memoria de tareas que aumentan la velocidad masiva. Apache Spark funciona bien con el sistema de archivos HDFS de Hadoop y varios formatos de archivos como Parquet, JSON, CSV, ORC. Hadoop se puede integrar fácilmente con Apache Spark, ya sea como fuente de datos o destino.

Requisitos del sistema

Para instalar Apache Spark, debe tener los siguientes software:

  • Java
  • Scala

Características

Las siguientes son las características clave de Apache Spark:

  • código abierto y abierto
  • Velocidad de procesamiento rápida
  • Flexible y facilidad para usar
  • Procesamiento de flujo en tiempo real
  • reutilización
  • Tolerancia a fallos
  • Apoyar múltiples idiomas
  • Integrado con Hadoop
  • rentable
  • Análisis avanzado
  • Computación en memoria

Instalación

Instale Apache Spark en Ubuntu 18.04

Ejecutar el comando para descargar Apache Spark.

$ wget https://archive.apache.org/dist/spark/spark-3.1.1/spark-3.1.1-bin-hadoop3.2.tgz

Extraiga el archivo TAR usando el siguiente comando.

$ tar -zxf spark-3.1.1-bin-hadoop3.2.tgz

Mueva el directorio extraído.

$ sudo mv spark-3.1.1-bin-hadoop3.2 /opt/spark

Abra el archivo .bashrc y agregue las líneas a continuación.

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

Active el entorno con el siguiente comando.

$ source ~/.bashrc

Inicie el servidor Spark Master.

$ start-master.sh

Abra el navegador e ingrese http: // Server-IP: 8080 para acceder a la interfaz web.

Explorar

Puede encontrar los siguientes enlaces relevantes:

 Español