Przetwarzanie dużych zbiorów danych

Apache Spark Bezpłatne narzędzie Big Data

Przetwarzanie danych w pamięci za pomocą bezpłatnego narzędzia Big Data

Elastyczny, lekki i szybszy ujednolicony silnik analityczny do przetwarzania danych na dużą skalę. Zintegrowany z Hadoop i obsługuje wiele języków.

Przegląd

Apache Spark to bezpłatny i otwarty silnik przetwarzania dużych danych. Opiera się na Hadoop MapReduce i jest przeznaczony do szybkich obliczeń. Apache Spark rozszerza model MapReduce Hadoop, aby umożliwić bardziej wydajne wykonywanie większej liczby rodzajów obliczeń, takich jak interaktywne zapytania i przetwarzanie strumienia. Obsługuje obliczenia klastrów w pamięci, co zwiększa szybkość przetwarzania aplikacji. Apache iskra obsługuje różnorodne obciążenia, w tym algorytmy iteracyjne, interaktywne zapytania i przesyłanie strumieniowe. Jest wyposażony w nietypowe funkcje, takie jak tolerancja błędów, zaawansowana analityka, leniwa ocena, przetwarzanie strumienia w czasie rzeczywistym, przetwarzanie danych w pamięci i wiele innych. Ponad 80 operatorów wysokiego poziomu jest dostępnych w Apache Spark, których można użyć do tworzenia równoległych aplikacji. Zawiera także interfejs API, który umożliwia przetwarzanie strumienia w czasie rzeczywistym. W Apache Spark wszystkie transformacje mają charakter leniwy. Oznacza to, że zamiast natychmiastowego dostarczenia wyniku, tworzy nowy RDD z istniejącego. W rezultacie wydajność systemu uległa poprawie. Apache Spark obsługuje wiele języków, takich jak Java, R, Scala, Python, podczas gdy Hadoop obsługuje tylko język Java. Apache Spark umożliwia przetwarzanie zadań w pamięci, które zwiększają ogromną prędkość. Apache Spark działa dobrze z systemem plików HDFS Hadfs i wieloma formatami plików, takimi jak Parquet, Json, CSV, ORC. Hadoop można łatwo zintegrować z Apache Spark albo jako wejściowe źródło danych lub miejsce docelowe.

Wymagania systemowe

Aby zainstalować Apache Spark, musisz mieć następujące oprogramowanie:

  • Java
  • Scala

Cechy

Poniżej znajdują się kluczowe funkcje Apache Spark:

  • Bezpłatne i open source
  • Szybka prędkość przetwarzania
  • Elastyczne i łatwe do użycia
  • Przetwarzanie strumieni w czasie rzeczywistym
  • Ponowne użycie
  • Tolerancja błędów
  • Obsługuj wiele języków
  • Zintegrowany z Hadoop
  • Opłacalne
  • Zaawansowana analityka
  • Obliczanie w pamięci

Instalacja

** Zainstaluj Apache Spark na Ubuntu 18.04 **

Wykonaj polecenie, aby pobrać Apache Spark.

$ wget https://archive.apache.org/dist/spark/spark-3.1.1/spark-3.1.1-bin-hadoop3.2.tgz

Wyodrębnij plik TAR za pomocą komendy poniżej.

$ tar -zxf spark-3.1.1-bin-hadoop3.2.tgz

Przenieś wyodrębniony katalog.

$ sudo mv spark-3.1.1-bin-hadoop3.2 /opt/spark

Otwórz plik .bashrc i dodaj do niego poniżej linie.

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

Aktywuj środowisko za pomocą następującego polecenia.

$ source ~/.bashrc

Uruchom serwer Spark Master.

$ start-master.sh

Otwórz przeglądarkę i wprowadź http: // server-IP: 8080 w celu uzyskania dostępu do interfejsu internetowego.

Badać

Możesz znaleźć istotne następujące linki:

 Polski