Hadoop Herramienta gratuita de big data
Analizar conjuntos de datos complejos con software de análisis de big data
Procesamiento más rápido de datos complejos con herramientas de big data de código abierto y gratuito. Se ocupa de un volumen masivo, variedad de conjuntos de datos y mejore la toma de decisiones comerciales.
Descripción general
Hadoop es una herramienta de big data gratuita y de código abierto. Es un software de análisis de big data de big data robusto, confiable y escalable. HDFS (sistema de archivos distribuido alto), MapReduce e hilo son los tres componentes clave de Hadoop. HDFS es una capa de almacenamiento que se compone de dos tipos de nodos: nanodos y datanodes. Los metadatos sobre la ubicación de un bloque se almacenan en Namenode. En un período predeterminado, DataNodes almacena el bloque y envía informes de bloque a Namenode. La capa de procesamiento de MapReduce se divide en dos fases: la fase de mapa y la fase de reducción. Está destinado al procesamiento concurrente de datos que se distribuyen en varios nodos. En Hadoop Big Data, Yarn es la capa de programación de trabajo y gestión de recursos. Hadoop es uno de los mejores software de big data para procesar grandes datos. Hadoop Cluster es altamente escalable, por lo que permite la escala horizontal y vertical al marco Hadoop. Tiene una función de tolerancia a fallas que se basa en un mecanismo de replicación para garantizar la tolerancia a las fallas. Hadoop asegura que los datos todavía estén disponibles, incluso cuando las cosas no van bien. Si uno de los Datanodes falla, el usuario puede acceder a datos de otros Datanodes que tienen una copia de los mismos datos. Hadoop es un sistema de almacenamiento de datos distribuido que permite que los datos se procesen a través de un clúster de nodos. Como resultado, ofrece las capacidades de procesamiento de rayos de Hadoop Framework.
Requisitos del sistema
Para instalar Hadoop, debe tener los siguientes software:
- Java
- Usuario con privilegios de sudo
Características
Las siguientes son las características clave de Hadoop:
- código abierto y abierto
- Procesamiento de datos más rápido
- Procesamiento distribuido
- Tolerancia a fallos
- confiable y escalable
- fácil de usar y rentable
- localidad de datos
- Alta disponibilidad de datos
Instalación
Instale Hadoop en Ubuntu
Primero, ejecute el comando a continuación para instalar el servidor y el cliente OpenSSH.
sudo apt install openssh-server openssh-client -y
Ejecutar el comando para descargar Hadoop.
wget https://downloads.apache.org/hadoop/common/hadoop-3.2.1/hadoop-3.2.1.tar.gz
Extraiga los archivos para iniciar la instalación de Hadoop.
tar xzf hadoop-3.2.1.tar.gz