Apache Spark ابزار داده بزرگ رایگان
پردازش داده های حافظه با ابزار بزرگ داده بزرگ
موتور تحلیلی انعطاف پذیر ، سبک و سریعتر برای پردازش داده های در مقیاس بزرگ. یکپارچه با Hadoop و از چندین زبان پشتیبانی می کند.
بررسی اجمالی
Apache Spark یک موتور پردازش داده بزرگ منبع آزاد و باز است. این مبتنی بر Hadoop MapReduce است و برای محاسبات سریع طراحی شده است. Apache Spark مدل Hadoop MapReduce را گسترش می دهد تا انواع بیشتری از محاسبات ، مانند نمایش داده های تعاملی و پردازش جریان ، با کارآمدتر انجام شود. از محاسبات خوشه ای در حافظه پشتیبانی می کند ، که سرعت پردازش یک برنامه را افزایش می دهد. Apache Spark انواع بار کاری از جمله الگوریتم های تکراری ، نمایش داده های تعاملی و جریان را اداره می کند. این ویژگی با ویژگی های خارج از جعبه مانند تحمل گسل ، تجزیه و تحلیل پیشرفته ، ارزیابی تنبل ، پردازش جریان در زمان واقعی ، پردازش داده های حافظه و موارد دیگر همراه است. بیش از 80 اپراتور سطح بالا در Apache Spark موجود است که می تواند برای ایجاد برنامه های موازی استفاده شود. همچنین شامل یک API است که امکان پردازش جریان در زمان واقعی را فراهم می کند. در Apache Spark ، همه تحولات در طبیعت تنبل هستند. این بدان معنی است که به جای ارائه سریع نتیجه ، RDD جدید از موجود موجود ایجاد می کند. در نتیجه ، عملکرد سیستم بهبود یافته است. Apache Spark از چندین زبان مانند Java ، R ، Scala ، Python پشتیبانی می کند ، در حالی که Hadoop فقط از زبان جاوا پشتیبانی می کند. Apache Spark اجازه می دهد تا در حافظه کارهایی که سرعت گسترده را افزایش می دهد ، پردازش شود. Apache Spark با سیستم فایل HDFS Hadoop و چندین فرم پرونده مانند Parquet ، JSON ، CSV ، ORC خوب کار می کند. Hadoop را می توان به راحتی با Apache Spark یا به عنوان منبع داده ورودی یا مقصد ادغام کرد.
امکانات
در زیر ویژگی های اصلی Apache Spark:
- منبع آزاد و آزاد
- سرعت پردازش سریع
- انعطاف پذیر و سهولت استفاده
- پردازش جریان در زمان واقعی
- قابلیت استفاده مجدد
- تحمل خطا
- از چندین زبان پشتیبانی کنید
- یکپارچه با Hadoop
- صرفه جویی در هزینه
- تجزیه و تحلیل پیشرفته
- محاسبات در حافظه
نصب و راه اندازی
نصب Apache Spark را در اوبونتو 18.04 نصب کنید
برای بارگیری Apache Spark دستور اجرای دستور را اجرا کنید.
$ wget https://archive.apache.org/dist/spark/spark-3.1.1/spark-3.1.1-bin-hadoop3.2.tgz
پرونده TAR را با استفاده از دستور زیر استخراج کنید.
$ tar -zxf spark-3.1.1-bin-hadoop3.2.tgz
فهرست استخراج شده را حرکت دهید.
$ sudo mv spark-3.1.1-bin-hadoop3.2 /opt/spark
پرونده .bashrc را باز کنید و خطوط زیر آن را اضافه کنید.
export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
محیط را با دستور زیر فعال کنید.
$ source ~/.bashrc
سرور Master Spark را شروع کنید.
$ start-master.sh
مرورگر را باز کنید و برای دسترسی به رابط وب http: // server-ip: 8080 را وارد کنید.