Apache Spark Ücretsiz Büyük Veri Aracı
Ücretsiz büyük veri aracı ile bellek içi veri işleme
Büyük ölçekli veri işleme için esnek, hafif ve daha hızlı birleşik analitik motor. Hadoop ile entegre ve birden fazla dili destekler.
Genel Bakış
Apache Spark, ücretsiz ve açık kaynaklı büyük veri işleme motorudur. Hadoop MapReduce’a dayanır ve hızlı hesaplama için tasarlanmıştır. Apache Spark, etkileşimli sorgular ve akış işlemesi gibi daha fazla hesaplama türünün daha verimli bir şekilde gerçekleştirilmesi için Hadoop MapReduce modelini genişletir. Bir uygulamanın işleme hızını artıran bellek içi küme hesaplamasını destekler. Apache Spark, yinelemeli algoritmalar, etkileşimli sorgular ve akış dahil olmak üzere çeşitli iş yüklerini işler. Arıza toleransı, gelişmiş analitik, tembel değerlendirme, gerçek zamanlı akış işleme, bellek içi veri işleme ve daha fazlası gibi kullanıma hazır özelliklerle birlikte gelir. Paralel uygulamalar oluşturmak için kullanılabilecek Apache Spark’ta 80’den fazla üst düzey operatör mevcuttur. Ayrıca gerçek zamanlı akış işlemeye izin veren bir API içerir. Apache Spark’ta tüm dönüşümler doğada tembeldir. Sonucu hemen sağlamak yerine, mevcut olandan yeni bir RDD oluşturduğu anlamına gelir. Sonuç olarak, sistemin performansı iyileştirildi. Apache Spark, Java, R, Scala, Python gibi birden fazla dili desteklerken, Hadoop sadece Java dilini destekler. Apache Spark, büyük hızı artıran görevlerin bellek içi işlenmesine izin verir. Apache Spark, Hadoop’un HDFS dosya sistemi ve Parke, JSON, CSV, ORC gibi birden fazla dosya formatıyla iyi çalışır. Hadoop, bir giriş veri kaynağı veya hedef olarak Apache Spark ile kolayca entegre edilebilir.
Sistem gereksinimleri
Apache Spark’ı kurmak için aşağıdaki yazılımlara sahip olmanız gerekir:
- Java
- Scala
Özellikler
Apache Spark’ın temel özellikleri aşağıdadır:
- Ücretsiz ve açık kaynak
- Hızlı işlem hızı
- Esnek ve kullanım kolaylığı
- Gerçek zamanlı akış işlemesi
- Tekrar Kullanılabilirlik
- Hata Toleransı
- Birden çok dili destekleyin
- Hadoop ile entegre edilmiş
- Maliyet verimli
- Gelişmiş Analytics
- Bellek içi bilgi işlem
Kurulum
Ubuntu’ya Apache Spark’ı yükleyin 18.04
Apache Spark’ı indirmek için komutu yürüt.
$ wget https://archive.apache.org/dist/spark/spark-3.1.1/spark-3.1.1-bin-hadoop3.2.tgz
Aşağıdaki komutu kullanarak katran dosyasını çıkarın.
$ tar -zxf spark-3.1.1-bin-hadoop3.2.tgz
Çıkarılan dizini taşıyın.
$ sudo mv spark-3.1.1-bin-hadoop3.2 /opt/spark
.Bashrc dosyasını açın ve içine alt satır ekleyin.
export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
Çevreyi aşağıdaki komutla etkinleştirin.
$ source ~/.bashrc
Spark ana sunucusunu başlatın.
$ start-master.sh
Tarayıcıyı açın ve web arayüzüne erişmek için http: // server-ip: 8080 girin.