Büyük Veri İşleme

Apache Spark Ücretsiz Büyük Veri Aracı

Ücretsiz büyük veri aracı ile bellek içi veri işleme

Büyük ölçekli veri işleme için esnek, hafif ve daha hızlı birleşik analitik motor. Hadoop ile entegre ve birden fazla dili destekler.

Genel Bakış

Apache Spark, ücretsiz ve açık kaynaklı büyük veri işleme motorudur. Hadoop MapReduce’a dayanır ve hızlı hesaplama için tasarlanmıştır. Apache Spark, etkileşimli sorgular ve akış işlemesi gibi daha fazla hesaplama türünün daha verimli bir şekilde gerçekleştirilmesi için Hadoop MapReduce modelini genişletir. Bir uygulamanın işleme hızını artıran bellek içi küme hesaplamasını destekler. Apache Spark, yinelemeli algoritmalar, etkileşimli sorgular ve akış dahil olmak üzere çeşitli iş yüklerini işler. Arıza toleransı, gelişmiş analitik, tembel değerlendirme, gerçek zamanlı akış işleme, bellek içi veri işleme ve daha fazlası gibi kullanıma hazır özelliklerle birlikte gelir. Paralel uygulamalar oluşturmak için kullanılabilecek Apache Spark’ta 80’den fazla üst düzey operatör mevcuttur. Ayrıca gerçek zamanlı akış işlemeye izin veren bir API içerir. Apache Spark’ta tüm dönüşümler doğada tembeldir. Sonucu hemen sağlamak yerine, mevcut olandan yeni bir RDD oluşturduğu anlamına gelir. Sonuç olarak, sistemin performansı iyileştirildi. Apache Spark, Java, R, Scala, Python gibi birden fazla dili desteklerken, Hadoop sadece Java dilini destekler. Apache Spark, büyük hızı artıran görevlerin bellek içi işlenmesine izin verir. Apache Spark, Hadoop’un HDFS dosya sistemi ve Parke, JSON, CSV, ORC gibi birden fazla dosya formatıyla iyi çalışır. Hadoop, bir giriş veri kaynağı veya hedef olarak Apache Spark ile kolayca entegre edilebilir.

Sistem gereksinimleri

Apache Spark’ı kurmak için aşağıdaki yazılımlara sahip olmanız gerekir:

  • Java
  • Scala

Özellikler

Apache Spark’ın temel özellikleri aşağıdadır:

  • Ücretsiz ve açık kaynak
  • Hızlı işlem hızı
  • Esnek ve kullanım kolaylığı
  • Gerçek zamanlı akış işlemesi
  • Tekrar Kullanılabilirlik
  • Hata Toleransı
  • Birden çok dili destekleyin
  • Hadoop ile entegre edilmiş
  • Maliyet verimli
  • Gelişmiş Analytics
  • Bellek içi bilgi işlem

Kurulum

Ubuntu’ya Apache Spark’ı yükleyin 18.04

Apache Spark’ı indirmek için komutu yürüt.

$ wget https://archive.apache.org/dist/spark/spark-3.1.1/spark-3.1.1-bin-hadoop3.2.tgz

Aşağıdaki komutu kullanarak katran dosyasını çıkarın.

$ tar -zxf spark-3.1.1-bin-hadoop3.2.tgz

Çıkarılan dizini taşıyın.

$ sudo mv spark-3.1.1-bin-hadoop3.2 /opt/spark

.Bashrc dosyasını açın ve içine alt satır ekleyin.

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

Çevreyi aşağıdaki komutla etkinleştirin.

$ source ~/.bashrc

Spark ana sunucusunu başlatın.

$ start-master.sh

Tarayıcıyı açın ve web arayüzüne erişmek için http: // server-ip: 8080 girin.

Keşfetmek

Aşağıdaki bağlantıları alakalı bulabilirsiniz:

 Türkçe