Apache Spark Ingyenes nagy adat eszköz
Memóriában lévő adatfeldolgozás ingyenes Big Data eszközzel
Rugalmas, könnyű és gyorsabb egységes elemző motor nagyszabású adatfeldolgozáshoz. Integrált a Hadoop -hoz és támogatja a több nyelvet.
Áttekintés
Az Apache Spark egy ingyenes és nyílt forráskódú nagy adatfeldolgozó motor. A Hadoop MapReduce -on alapul, és a gyors számításra tervezték. Az Apache Spark kiterjeszti a Hadoop MapReduce modellt, hogy több típusú számítás, például interaktív lekérdezések és patakfeldolgozás hatékonyabban hajtsa végre. Támogatja a memóriában lévő klaszter számítástechnikát, amely növeli az alkalmazás feldolgozási sebességét. Az Apache Spark különféle munkaterhelést kezeli, beleértve az iteratív algoritmusokat, az interaktív lekérdezéseket és a streaminget. A dobozon kívüli funkciókkal, például a hibatűrés, a fejlett elemzés, a lusta értékelés, a valós idejű patak feldolgozása, a memória-adatfeldolgozás és még sok más. Több mint 80 magas szintű operátor érhető el az Apache Sparkban, amely felhasználható párhuzamos alkalmazások létrehozására. Ez magában foglal egy API-t is, amely lehetővé teszi a valós idejű patak feldolgozását. Az Apache Sparkban az összes átalakulás lusta jellegű. Ez azt jelenti, hogy az eredmény azonnali megadása helyett új RDD -t hoz létre a meglévőből. Ennek eredményeként a rendszer teljesítménye javul. Az Apache Spark több nyelvet támogat, például Java, R, Scala, Python, míg a Hadoop csak a Java nyelvet támogatja. Az Apache Spark lehetővé teszi a memóriában lévő feladatok feldolgozását, amelyek növelik a hatalmas sebességet. Az Apache Spark jól működik a Hadoop HDFS fájlrendszerével és több fájlformátummal, mint például a Parquet, a JSON, a CSV, az ORC. A Hadoop könnyen integrálható az Apache Spark -hoz, akár bemeneti adatforrásként, akár célként.
Rendszerkövetelmények
Az Apache Spark telepítéséhez a következő szoftverekkel kell rendelkeznie:
- Java
- Scala
Jellemzők
Az alábbiakban bemutatjuk az Apache Spark legfontosabb jellemzőit:
- Ingyenes és nyílt forráskódú
- Gyors feldolgozási sebesség
- rugalmas és könnyű használni
- Valós idejű patakfeldolgozás
- Újrahasználhatóság
- Hibatűrés
- Támogassa a több nyelvet
- Integrált a Hadoop -szal
- Költséghatékony
- Fejlett elemzés
- A memóriában lévő számítástechnika
telepítés
Telepítse az Apache Spark -ot az Ubuntu 18.04 -re
Végezze el a parancsot az Apache Spark letöltéséhez.
$ wget https://archive.apache.org/dist/spark/spark-3.1.1/spark-3.1.1-bin-hadoop3.2.tgz
Az alábbi parancs segítségével bontsa ki a TAR fájlt.
$ tar -zxf spark-3.1.1-bin-hadoop3.2.tgz
Mozgassa a kibontott könyvtárat.
$ sudo mv spark-3.1.1-bin-hadoop3.2 /opt/spark
Nyissa meg a .bashrc fájlt, és adja hozzá az alábbi sorokat.
export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
Aktiválja a környezetet a következő paranccsal.
$ source ~/.bashrc
Indítsa el a Spark Master Server -et.
$ start-master.sh
Nyissa meg a böngészőt, és írja be a http: // server-IP: 8080 hüvelyt a webes felület eléréséhez.