Apache Spark Ücretsiz Büyük Veri Aracı

Ücretsiz büyük veri aracı ile bellek içi veri işleme

Büyük ölçekli veri işleme için esnek, hafif ve daha hızlı birleşik analitik motor. Hadoop ile entegre ve birden fazla dili destekler.

Genel Bakış

Apache Spark, ücretsiz ve açık kaynaklı büyük veri işleme motorudur. Hadoop MapReduce’a dayanır ve hızlı hesaplama için tasarlanmıştır. Apache Spark, etkileşimli sorgular ve akış işlemesi gibi daha fazla hesaplama türünün daha verimli bir şekilde gerçekleştirilmesi için Hadoop MapReduce modelini genişletir. Bir uygulamanın işleme hızını artıran bellek içi küme hesaplamasını destekler. Apache Spark, yinelemeli algoritmalar, etkileşimli sorgular ve akış dahil olmak üzere çeşitli iş yüklerini işler. Arıza toleransı, gelişmiş analitik, tembel değerlendirme, gerçek zamanlı akış işleme, bellek içi veri işleme ve daha fazlası gibi kullanıma hazır özelliklerle birlikte gelir. Paralel uygulamalar oluşturmak için kullanılabilecek Apache Spark’ta 80’den fazla üst düzey operatör mevcuttur. Ayrıca gerçek zamanlı akış işlemeye izin veren bir API içerir. Apache Spark’ta tüm dönüşümler doğada tembeldir. Sonucu hemen sağlamak yerine, mevcut olandan yeni bir RDD oluşturduğu anlamına gelir. Sonuç olarak, sistemin performansı iyileştirildi. Apache Spark, Java, R, Scala, Python gibi birden fazla dili desteklerken, Hadoop sadece Java dilini destekler. Apache Spark, büyük hızı artıran görevlerin bellek içi işlenmesine izin verir. Apache Spark, Hadoop’un HDFS dosya sistemi ve Parke, JSON, CSV, ORC gibi birden fazla dosya formatıyla iyi çalışır. Hadoop, bir giriş veri kaynağı veya hedef olarak Apache Spark ile kolayca entegre edilebilir.

Sistem gereksinimleri

Apache Spark’ı kurmak için aşağıdaki yazılımlara sahip olmanız gerekir:

Java
Scala

Özellikler

Apache Spark’ın temel özellikleri aşağıdadır:

Ücretsiz ve açık kaynak
Hızlı işlem hızı
Esnek ve kullanım kolaylığı
Gerçek zamanlı akış işlemesi
Tekrar Kullanılabilirlik
Hata Toleransı
Birden çok dili destekleyin
Hadoop ile entegre edilmiş
Maliyet verimli
Gelişmiş Analytics
Bellek içi bilgi işlem

Kurulum

Ubuntu’ya Apache Spark’ı yükleyin 18.04

Apache Spark’ı indirmek için komutu yürüt.

$ wget https://archive.apache.org/dist/spark/spark-3.1.1/spark-3.1.1-bin-hadoop3.2.tgz

Aşağıdaki komutu kullanarak katran dosyasını çıkarın.

$ tar -zxf spark-3.1.1-bin-hadoop3.2.tgz

Çıkarılan dizini taşıyın.

$ sudo mv spark-3.1.1-bin-hadoop3.2 /opt/spark

.Bashrc dosyasını açın ve içine alt satır ekleyin.

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

Çevreyi aşağıdaki komutla etkinleştirin.

$ source ~/.bashrc

Spark ana sunucusunu başlatın.

$ start-master.sh

Tarayıcıyı açın ve web arayüzüne erişmek için http: // server-ip: 8080 girin.

Keşfetmek

Aşağıdaki bağlantıları alakalı bulabilirsiniz:

2021’de Top 5 Açık Kaynak Büyük Veri Aracı