Processamento de big data

Apache Spark Ferramenta de big data grátis

Processamento de dados na memória com ferramenta gratuita de big data

Motor de análise unificado flexível, leve e mais rápido para processamento de dados em larga escala. Integrado ao Hadoop e suporta vários idiomas.

Visão geral

O Apache Spark é um mecanismo de processamento de big data de código aberto e gratuito. É baseado no Hadoop MapReduce e foi projetado para computação rápida. O Apache Spark estende o modelo Hadoop MapReduce para permitir que mais tipos de cálculos, como consultas interativas e processamento de fluxos, sejam executados com mais eficiência. Ele suporta computação de cluster em memória, que aumenta a velocidade de processamento de um aplicativo. O Apache Spark lida com uma variedade de cargas de trabalho, incluindo algoritmos iterativos, consultas interativas e streaming. Ele vem com recursos prontos para uso, como tolerância a falhas, análise avançada, avaliação preguiçosa, processamento de fluxos em tempo real, processamento de dados na memória e muito mais. Mais de 80 operadores de alto nível estão disponíveis no Apache Spark, que pode ser usado para criar aplicativos paralelos. Ele também inclui uma API que permite o processamento de fluxos em tempo real. Em Apache Spark, todas as transformações são preguiçosas por natureza. Isso implica que, em vez de fornecer o resultado imediatamente, ele cria um novo RDD a partir do existente. Como resultado, o desempenho do sistema é aprimorado. O Apache Spark suporta vários idiomas como Java, R, Scala, Python, enquanto o Hadoop só suporta o idioma Java. O Apache Spark permite o processamento na memória de tarefas que aumentam a velocidade maciça. O Apache Spark funciona bem com o sistema de arquivos HDFS do Hadoop e vários formatos de arquivo como Parquet, JSON, CSV, ORC. O Hadoop pode ser facilmente integrado ao Apache Spark como uma fonte de dados de entrada ou destino.

Requisitos de sistema

Para instalar o Apache Spark, você deve ter os seguintes softwares:

  • Java
  • scala

Características

A seguir estão os principais recursos do Apache Spark:

  • código aberto e de código aberto
  • velocidade de processamento rápido
  • flexível e facilidade de usar
  • Processamento de fluxo em tempo real
  • reutilização
  • Tolerância ao erro
  • Suporte a vários idiomas
  • integrado ao Hadoop
  • Custo benefício
  • análise avançada
  • Computação na memória

Instalação

Instale o Apache Spark no Ubuntu 18.04

Execute o comando para baixar o Apache Spark.

$ wget https://archive.apache.org/dist/spark/spark-3.1.1/spark-3.1.1-bin-hadoop3.2.tgz

Extraia o arquivo TAR usando o comando abaixo.

$ tar -zxf spark-3.1.1-bin-hadoop3.2.tgz

Mova o diretório extraído.

$ sudo mv spark-3.1.1-bin-hadoop3.2 /opt/spark

Abra o arquivo .bashrc e adicione as linhas abaixo.

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

Ative o ambiente com o seguinte comando.

$ source ~/.bashrc

Inicie o Spark Master Server.

$ start-master.sh

Abra o navegador e digite http: // server-ip: 8080 para acessar a interface da web.

Explore

Você pode encontrar os seguintes links relevantes:

 Português