Herramienta de big data de código abierto

Hadoop Herramienta gratuita de big data

Analizar conjuntos de datos complejos con software de análisis de big data

Procesamiento más rápido de datos complejos con herramientas de big data de código abierto y gratuito. Se ocupa de un volumen masivo, variedad de conjuntos de datos y mejore la toma de decisiones comerciales.

Descripción general

Hadoop es una herramienta de big data gratuita y de código abierto. Es un software de análisis de big data de big data robusto, confiable y escalable. HDFS (sistema de archivos distribuido alto), MapReduce e hilo son los tres componentes clave de Hadoop. HDFS es una capa de almacenamiento que se compone de dos tipos de nodos: nanodos y datanodes. Los metadatos sobre la ubicación de un bloque se almacenan en Namenode. En un período predeterminado, DataNodes almacena el bloque y envía informes de bloque a Namenode. La capa de procesamiento de MapReduce se divide en dos fases: la fase de mapa y la fase de reducción. Está destinado al procesamiento concurrente de datos que se distribuyen en varios nodos. En Hadoop Big Data, Yarn es la capa de programación de trabajo y gestión de recursos. Hadoop es uno de los mejores software de big data para procesar grandes datos. Hadoop Cluster es altamente escalable, por lo que permite la escala horizontal y vertical al marco Hadoop. Tiene una función de tolerancia a fallas que se basa en un mecanismo de replicación para garantizar la tolerancia a las fallas. Hadoop asegura que los datos todavía estén disponibles, incluso cuando las cosas no van bien. Si uno de los Datanodes falla, el usuario puede acceder a datos de otros Datanodes que tienen una copia de los mismos datos. Hadoop es un sistema de almacenamiento de datos distribuido que permite que los datos se procesen a través de un clúster de nodos. Como resultado, ofrece las capacidades de procesamiento de rayos de Hadoop Framework.

Requisitos del sistema

Para instalar Hadoop, debe tener los siguientes software:

Java
Usuario con privilegios de sudo

Características

Las siguientes son las características clave de Hadoop:

código abierto y abierto
Procesamiento de datos más rápido
Procesamiento distribuido
Tolerancia a fallos
confiable y escalable
fácil de usar y rentable
localidad de datos
Alta disponibilidad de datos

Instalación

Instale Hadoop en Ubuntu

Primero, ejecute el comando a continuación para instalar el servidor y el cliente OpenSSH.

sudo apt install openssh-server openssh-client -y

Ejecutar el comando para descargar Hadoop.

wget https://downloads.apache.org/hadoop/common/hadoop-3.2.1/hadoop-3.2.1.tar.gz

Extraiga los archivos para iniciar la instalación de Hadoop.

tar xzf hadoop-3.2.1.tar.gz

Explorar

Puede encontrar los siguientes enlaces relevantes:

Top 5 herramientas de big data de código abierto en 2021