Hadoop Gratis big data tool
Analyseer complexe gegevenssets met big data -analysesoftware
Snellere verwerking van complexe gegevens met gratis en open source big data -tools. Omgaan met massaal volume, verscheidenheid aan gegevenssets en het verbeteren van de besluitvorming van de zakelijke.
Overzicht
Hadoop is een gratis en open source big data -tool. Het is robuuste, betrouwbare en schaalbare big data -analysesoftware. HDFS (hoog gedistribueerd bestandssysteem), MapReduce en Yarn zijn de drie belangrijkste componenten van Hadoop. HDFS is een opslaglaag die bestaat uit twee soorten knooppunten: namenoden en datanodes. De metagegevens over de locatie van een blok is opgeslagen in Namenode. In een vooraf bepaalde periode slaat Datanodes het blok op en verzendt blokrapporten naar Namenode. De MapReduce -verwerkingslaag is verdeeld in twee fasen: de kaartfase en de verlagingsfase. Het is bedoeld voor gelijktijdige verwerking van gegevens die over verschillende knooppunten worden verdeeld. In Hadoop Big Data is garen de lagen voor het plannen van taken en resource management. Hadoop is een van de beste big data -software voor het verwerken van grote gegevens. Hadoop -cluster is zeer schaalbaar, dus het maakt horizontale en verticale schaling naar het Hadoop -raamwerk mogelijk. Het heeft een fouttolerantiefunctie die afhankelijk is van een replicatiemechanisme om fouttolerantie te waarborgen. Hadoop zorgt ervoor dat gegevens nog steeds beschikbaar zijn, zelfs als het niet goed gaat. Als een van de datanodes mislukt, heeft de gebruiker toegang tot gegevens van andere datanodes met een kopie van dezelfde gegevens. Hadoop is een gedistribueerd gegevensopslagsysteem waarmee gegevens kunnen worden verwerkt via een cluster van knooppunten. Als gevolg hiervan geeft het het Hadoop-framework bliksemsnelle verwerkingsmogelijkheden.
Systeem vereisten
Om Hadoop te installeren, moet je de volgende software hebben:
- Java
- Gebruiker met sudo -privileges
Functies
Hierna volgen de belangrijkste kenmerken van Hadoop:
- Gratis en open source
- Snellere gegevensverwerking
- Gedistribueerde verwerking
- Fouttolerantie
- Betrouwbaar en schaalbaar
- gemakkelijk te gebruiken en kosteneffectief
- Gegevenslocatie
- Hoge beschikbaarheid van gegevens
Installatie
Installeer Hadoop op Ubuntu
Voer eerst de onderstaande opdracht uit om OpenSSH -server en client te installeren.
sudo apt install openssh-server openssh-client -y
Voer de opdracht uit om Hadoop te downloaden.
wget https://downloads.apache.org/hadoop/common/hadoop-3.2.1/hadoop-3.2.1.tar.gz
Pak de bestanden uit om de Hadoop -installatie te initiëren.
tar xzf hadoop-3.2.1.tar.gz