빅 데이터 처리

Apache Spark 무료 빅 데이터 도구

무료 빅 데이터 도구를 사용한 메모리 내 데이터 처리

대규모 데이터 처리를위한 유연하고 가볍고 빠른 통합 분석 엔진. Hadoop과 통합되어 여러 언어를 지원합니다.

개요

Apache Spark는 무료 및 오픈 소스 빅 데이터 처리 엔진입니다. Hadoop Mapreduce를 기반으로하며 빠른 계산을 위해 설계되었습니다. Apache Spark는 Hadoop MapReduce 모델을 확장하여 대화식 쿼리 및 스트림 처리와 같은 더 많은 유형의 계산을보다 효율적으로 수행 할 수 있도록합니다. 이 제품은 메모리 인 클러스터 컴퓨팅을 지원하여 응용 프로그램의 처리 속도를 향상시킵니다. Apache Spark는 반복 알고리즘, 대화식 쿼리 및 스트리밍을 포함한 다양한 워크로드를 처리합니다. 결함 공차, 고급 분석, 게으른 평가, 실시간 스트림 처리, 메모리 내 데이터 처리 등과 같은 상자 외 기능이 제공됩니다. Apache Spark에서 80 개가 넘는 고급 운영자가 제공되며 병렬 응용 프로그램을 작성하는 데 사용할 수 있습니다. 또한 실시간 스트림 처리를 허용하는 API도 포함되어 있습니다. Apache Spark에서는 모든 변형이 본질적으로 게으릅니다. 결과를 즉시 제공하는 대신 기존 RDD에서 새로운 RDD를 생성한다는 것을 의미합니다. 결과적으로 시스템의 성능이 향상되었습니다. Apache Spark는 Java, R, Scala, Python과 같은 여러 언어를 지원하는 반면 Hadoop은 Java 언어 만 지원합니다. Apache Spark는 대규모 속도를 높이는 작업의 메모리 처리를 허용합니다. Apache Spark는 Hadoop의 HDFS 파일 시스템 및 Parquet, JSON, CSV, ORC와 같은 여러 파일 형식에서 잘 작동합니다. Hadoop은 입력 데이터 소스 또는 대상으로 Apache Spark와 쉽게 통합 할 수 있습니다.

시스템 요구 사항

Apache Spark를 설치하려면 다음과 같은 소프트웨어가 있어야합니다.

  • 자바
  • 스칼라

특징

다음은 Apache Spark의 주요 기능입니다.

  • 무료 및 오픈 소스
  • 빠른 처리 속도
  • 유연하고 사용하기 쉽습니다
  • 실시간 스트림 처리
  • 재사용 성
  • 결함 허용
  • 여러 언어를 지원합니다
  • Hadoop과 통합
  • 비용 효율성
  • 고급 분석
  • 메모리 내 컴퓨팅

설치

Ubuntu에 Apache Spark 설치 18.04

Apache Spark를 다운로드하려면 명령을 실행하십시오.

$ wget https://archive.apache.org/dist/spark/spark-3.1.1/spark-3.1.1-bin-hadoop3.2.tgz

아래 명령을 사용하여 TAR 파일을 추출하십시오.

$ tar -zxf spark-3.1.1-bin-hadoop3.2.tgz

추출 된 디렉토리를 이동하십시오.

$ sudo mv spark-3.1.1-bin-hadoop3.2 /opt/spark

.bashrc 파일을 열고 아래 줄을 추가하십시오.

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

다음 명령으로 환경을 활성화하십시오.

$ source ~/.bashrc

Spark Master 서버를 시작하십시오.

$ start-master.sh

브라우저를 열고 웹 인터페이스에 액세스하려면 http : // server-ip : 8080을 입력하십시오.

탐구하다

다음 링크를 찾을 수 있습니다.

-2021 년 상위 5 개 오픈 소스 빅 데이터 도구

 한국인