Hadoop Gratis big data tool

Analyseer complexe gegevenssets met big data -analysesoftware

Snellere verwerking van complexe gegevens met gratis en open source big data -tools. Omgaan met massaal volume, verscheidenheid aan gegevenssets en het verbeteren van de besluitvorming van de zakelijke.

Overzicht

Hadoop is een gratis en open source big data -tool. Het is robuuste, betrouwbare en schaalbare big data -analysesoftware. HDFS (hoog gedistribueerd bestandssysteem), MapReduce en Yarn zijn de drie belangrijkste componenten van Hadoop. HDFS is een opslaglaag die bestaat uit twee soorten knooppunten: namenoden en datanodes. De metagegevens over de locatie van een blok is opgeslagen in Namenode. In een vooraf bepaalde periode slaat Datanodes het blok op en verzendt blokrapporten naar Namenode. De MapReduce -verwerkingslaag is verdeeld in twee fasen: de kaartfase en de verlagingsfase. Het is bedoeld voor gelijktijdige verwerking van gegevens die over verschillende knooppunten worden verdeeld. In Hadoop Big Data is garen de lagen voor het plannen van taken en resource management. Hadoop is een van de beste big data -software voor het verwerken van grote gegevens. Hadoop -cluster is zeer schaalbaar, dus het maakt horizontale en verticale schaling naar het Hadoop -raamwerk mogelijk. Het heeft een fouttolerantiefunctie die afhankelijk is van een replicatiemechanisme om fouttolerantie te waarborgen. Hadoop zorgt ervoor dat gegevens nog steeds beschikbaar zijn, zelfs als het niet goed gaat. Als een van de datanodes mislukt, heeft de gebruiker toegang tot gegevens van andere datanodes met een kopie van dezelfde gegevens. Hadoop is een gedistribueerd gegevensopslagsysteem waarmee gegevens kunnen worden verwerkt via een cluster van knooppunten. Als gevolg hiervan geeft het het Hadoop-framework bliksemsnelle verwerkingsmogelijkheden.

Systeem vereisten

Om Hadoop te installeren, moet je de volgende software hebben:

Java
Gebruiker met sudo -privileges

Functies

Hierna volgen de belangrijkste kenmerken van Hadoop:

Gratis en open source
Snellere gegevensverwerking
Gedistribueerde verwerking
Fouttolerantie
Betrouwbaar en schaalbaar
gemakkelijk te gebruiken en kosteneffectief
Gegevenslocatie
Hoge beschikbaarheid van gegevens

Installatie

Installeer Hadoop op Ubuntu

Voer eerst de onderstaande opdracht uit om OpenSSH -server en client te installeren.

sudo apt install openssh-server openssh-client -y

Voer de opdracht uit om Hadoop te downloaden.

wget https://downloads.apache.org/hadoop/common/hadoop-3.2.1/hadoop-3.2.1.tar.gz

Pak de bestanden uit om de Hadoop -installatie te initiëren.

tar xzf hadoop-3.2.1.tar.gz

Ontdekken

Mogelijk vindt u de volgende links relevant:

Top 5 open source big data tools in 2021