Apache Spark Bezpłatne narzędzie Big Data
Przetwarzanie danych w pamięci za pomocą bezpłatnego narzędzia Big Data
Elastyczny, lekki i szybszy ujednolicony silnik analityczny do przetwarzania danych na dużą skalę. Zintegrowany z Hadoop i obsługuje wiele języków.
Przegląd
Apache Spark to bezpłatny i otwarty silnik przetwarzania dużych danych. Opiera się na Hadoop MapReduce i jest przeznaczony do szybkich obliczeń. Apache Spark rozszerza model MapReduce Hadoop, aby umożliwić bardziej wydajne wykonywanie większej liczby rodzajów obliczeń, takich jak interaktywne zapytania i przetwarzanie strumienia. Obsługuje obliczenia klastrów w pamięci, co zwiększa szybkość przetwarzania aplikacji. Apache iskra obsługuje różnorodne obciążenia, w tym algorytmy iteracyjne, interaktywne zapytania i przesyłanie strumieniowe. Jest wyposażony w nietypowe funkcje, takie jak tolerancja błędów, zaawansowana analityka, leniwa ocena, przetwarzanie strumienia w czasie rzeczywistym, przetwarzanie danych w pamięci i wiele innych. Ponad 80 operatorów wysokiego poziomu jest dostępnych w Apache Spark, których można użyć do tworzenia równoległych aplikacji. Zawiera także interfejs API, który umożliwia przetwarzanie strumienia w czasie rzeczywistym. W Apache Spark wszystkie transformacje mają charakter leniwy. Oznacza to, że zamiast natychmiastowego dostarczenia wyniku, tworzy nowy RDD z istniejącego. W rezultacie wydajność systemu uległa poprawie. Apache Spark obsługuje wiele języków, takich jak Java, R, Scala, Python, podczas gdy Hadoop obsługuje tylko język Java. Apache Spark umożliwia przetwarzanie zadań w pamięci, które zwiększają ogromną prędkość. Apache Spark działa dobrze z systemem plików HDFS Hadfs i wieloma formatami plików, takimi jak Parquet, Json, CSV, ORC. Hadoop można łatwo zintegrować z Apache Spark albo jako wejściowe źródło danych lub miejsce docelowe.
Wymagania systemowe
Aby zainstalować Apache Spark, musisz mieć następujące oprogramowanie:
- Java
- Scala
Cechy
Poniżej znajdują się kluczowe funkcje Apache Spark:
- Bezpłatne i open source
- Szybka prędkość przetwarzania
- Elastyczne i łatwe do użycia
- Przetwarzanie strumieni w czasie rzeczywistym
- Ponowne użycie
- Tolerancja błędów
- Obsługuj wiele języków
- Zintegrowany z Hadoop
- Opłacalne
- Zaawansowana analityka
- Obliczanie w pamięci
Instalacja
** Zainstaluj Apache Spark na Ubuntu 18.04 **
Wykonaj polecenie, aby pobrać Apache Spark.
$ wget https://archive.apache.org/dist/spark/spark-3.1.1/spark-3.1.1-bin-hadoop3.2.tgz
Wyodrębnij plik TAR za pomocą komendy poniżej.
$ tar -zxf spark-3.1.1-bin-hadoop3.2.tgz
Przenieś wyodrębniony katalog.
$ sudo mv spark-3.1.1-bin-hadoop3.2 /opt/spark
Otwórz plik .bashrc i dodaj do niego poniżej linie.
export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
Aktywuj środowisko za pomocą następującego polecenia.
$ source ~/.bashrc
Uruchom serwer Spark Master.
$ start-master.sh
Otwórz przeglądarkę i wprowadź http: // server-IP: 8080 w celu uzyskania dostępu do interfejsu internetowego.