Apache Spark Alat Data Besar Gratis
Pemrosesan data dalam memori dengan alat data besar gratis
Mesin analitik terpadu yang fleksibel, ringan, dan lebih cepat untuk pemrosesan data skala besar. Terintegrasi dengan Hadoop dan mendukung berbagai bahasa.
Ringkasan
Apache Spark adalah mesin pemrosesan data besar yang gratis dan open. Ini didasarkan pada Hadoop MapReduce dan dirancang untuk perhitungan cepat. Apache Spark memperluas model Hadoop MapReduce untuk memungkinkan lebih banyak jenis perhitungan, seperti kueri interaktif dan pemrosesan aliran, untuk dilakukan secara lebih efisien. Ini mendukung komputasi cluster in-memory, yang meningkatkan kecepatan pemrosesan aplikasi. Apache Spark menangani berbagai beban kerja termasuk algoritma iteratif, pertanyaan interaktif, dan streaming. Muncul dengan fitur out-of-the-box seperti toleransi kesalahan, analitik canggih, evaluasi malas, pemrosesan aliran waktu nyata, pemrosesan data dalam memori, dan banyak lagi. Lebih dari 80 operator tingkat tinggi tersedia di Apache Spark, yang dapat digunakan untuk membuat aplikasi paralel. Ini juga termasuk API yang memungkinkan pemrosesan aliran waktu nyata. Dalam Apache Spark, semua transformasi bersifat malas. Ini menyiratkan bahwa alih -alih memberikan hasilnya segera, itu menciptakan RDD baru dari yang sudah ada. Akibatnya, kinerja sistem ditingkatkan. Apache Spark mendukung berbagai bahasa seperti Java, R, Scala, Python sedangkan Hadoop hanya mendukung bahasa Java. Apache Spark memungkinkan pemrosesan tugas dalam memori yang meningkatkan kecepatan besar. Apache Spark bekerja dengan baik dengan sistem file HDFS Hadoop dan beberapa format file seperti parket, json, csv, orc. Hadoop dapat dengan mudah diintegrasikan dengan Apache Spark baik sebagai sumber data input atau tujuan.
Persyaratan sistem
Untuk menginstal Apache Spark, Anda harus memiliki perangkat lunak berikut:
- Java
- Scala
Fitur
Berikut ini adalah fitur utama Apache Spark:
- Sumber Gratis dan Terbuka
- Kecepatan pemrosesan cepat
- fleksibel dan kemudahan untuk digunakan
- Pemrosesan aliran waktu nyata
- Reusability
- Toleransi kesalahan
- Dukung banyak bahasa
- Terintegrasi dengan Hadoop
- Biaya efisien
- Analisis Lanjutan
- Komputasi dalam memori
Instalasi
Instal Apache Spark di Ubuntu 18.04
Jalankan perintah untuk mengunduh Apache Spark.
$ wget https://archive.apache.org/dist/spark/spark-3.1.1/spark-3.1.1-bin-hadoop3.2.tgz
Ekstrak file tar menggunakan perintah di bawah ini.
$ tar -zxf spark-3.1.1-bin-hadoop3.2.tgz
Pindahkan direktori yang diekstraksi.
$ sudo mv spark-3.1.1-bin-hadoop3.2 /opt/spark
Buka file .bashrc dan tambahkan baris di bawah ke dalamnya.
export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
Aktifkan lingkungan dengan perintah berikut.
$ source ~/.bashrc
Mulai Server Spark Master.
$ start-master.sh
Buka browser dan masukkan http: // server-IP: 8080 untuk mengakses antarmuka web.