Nagy adatfeldolgozás

Apache Spark Ingyenes nagy adat eszköz

Memóriában lévő adatfeldolgozás ingyenes Big Data eszközzel

Rugalmas, könnyű és gyorsabb egységes elemző motor nagyszabású adatfeldolgozáshoz. Integrált a Hadoop -hoz és támogatja a több nyelvet.

Áttekintés

Az Apache Spark egy ingyenes és nyílt forráskódú nagy adatfeldolgozó motor. A Hadoop MapReduce -on alapul, és a gyors számításra tervezték. Az Apache Spark kiterjeszti a Hadoop MapReduce modellt, hogy több típusú számítás, például interaktív lekérdezések és patakfeldolgozás hatékonyabban hajtsa végre. Támogatja a memóriában lévő klaszter számítástechnikát, amely növeli az alkalmazás feldolgozási sebességét. Az Apache Spark különféle munkaterhelést kezeli, beleértve az iteratív algoritmusokat, az interaktív lekérdezéseket és a streaminget. A dobozon kívüli funkciókkal, például a hibatűrés, a fejlett elemzés, a lusta értékelés, a valós idejű patak feldolgozása, a memória-adatfeldolgozás és még sok más. Több mint 80 magas szintű operátor érhető el az Apache Sparkban, amely felhasználható párhuzamos alkalmazások létrehozására. Ez magában foglal egy API-t is, amely lehetővé teszi a valós idejű patak feldolgozását. Az Apache Sparkban az összes átalakulás lusta jellegű. Ez azt jelenti, hogy az eredmény azonnali megadása helyett új RDD -t hoz létre a meglévőből. Ennek eredményeként a rendszer teljesítménye javul. Az Apache Spark több nyelvet támogat, például Java, R, Scala, Python, míg a Hadoop csak a Java nyelvet támogatja. Az Apache Spark lehetővé teszi a memóriában lévő feladatok feldolgozását, amelyek növelik a hatalmas sebességet. Az Apache Spark jól működik a Hadoop HDFS fájlrendszerével és több fájlformátummal, mint például a Parquet, a JSON, a CSV, az ORC. A Hadoop könnyen integrálható az Apache Spark -hoz, akár bemeneti adatforrásként, akár célként.

Rendszerkövetelmények

Az Apache Spark telepítéséhez a következő szoftverekkel kell rendelkeznie:

  • Java
  • Scala

Jellemzők

Az alábbiakban bemutatjuk az Apache Spark legfontosabb jellemzőit:

  • Ingyenes és nyílt forráskódú
  • Gyors feldolgozási sebesség
  • rugalmas és könnyű használni
  • Valós idejű patakfeldolgozás
  • Újrahasználhatóság
  • Hibatűrés
  • Támogassa a több nyelvet
  • Integrált a Hadoop -szal
  • Költséghatékony
  • Fejlett elemzés
  • A memóriában lévő számítástechnika

telepítés

Telepítse az Apache Spark -ot az Ubuntu 18.04 -re

Végezze el a parancsot az Apache Spark letöltéséhez.

$ wget https://archive.apache.org/dist/spark/spark-3.1.1/spark-3.1.1-bin-hadoop3.2.tgz

Az alábbi parancs segítségével bontsa ki a TAR fájlt.

$ tar -zxf spark-3.1.1-bin-hadoop3.2.tgz

Mozgassa a kibontott könyvtárat.

$ sudo mv spark-3.1.1-bin-hadoop3.2 /opt/spark

Nyissa meg a .bashrc fájlt, és adja hozzá az alábbi sorokat.

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

Aktiválja a környezetet a következő paranccsal.

$ source ~/.bashrc

Indítsa el a Spark Master Server -et.

$ start-master.sh

Nyissa meg a böngészőt, és írja be a http: // server-IP: 8080 hüvelyt a webes felület eléréséhez.

Fedezd fel

A következő linkeket relevánsnak találhatja:

 Magyar