现实数据处理工具

Apache Storm 免费的大数据工具

免费的大数据分析工具用于处理数据流

使用大数据处理工具和访问实时数据分析以一种容忍和水平可扩展方法中快速处理大量数据。

概述

Apache Storm是一种开源实时数据处理工具。这是一种简单,用户友好的大数据处理工具,可与任何编程语言一起使用。它可以纳入小型和大型企业。它是可扩展的,即使负载增加,也可以通过线性添加资源来维持效率。 Apache Storm实时处理数据流,而Hadoop则分批处理数据。现有的排队和数据库技术可以与Apache Storm集成。即使群集的链接节点失败或丢失了一个或多个链接的节点,它也可以保证数据处理。 Apache Storm有四个组件,包括元组,流,喷嘴和螺栓。在Apache Storm中,元组是主要数据结构。它支持所有数据类型,并具有有序元素列表。流是无序的元素序列。喷头是用于从数据源读取数据的流来源。实现喷嘴的主要接口是ISPOUT。此外,还有许多可用的接口,包括Irichpout,BaserichSpout和Kafkaspout。螺栓是逻辑处理的组成部分。喷头将信息发送到螺栓和螺栓过程,从而导致新的输出流。实现螺栓的中央接口称为“ Ibolt”。此外,Apache Storm是众所周知的REE大数据分析工具。结果,许多大公司使用它,例如Twitter,Navisite,Wego,Yahoo等。该实时分析工具以Java语言开发。此实时数据处理工具的许可证是Apache 2.0。

系统要求

为了安装Apache Storm,您必须具有以下软件: -Java

  • 具有sudo特权的用户

特征

以下是Apache Storm的关键特征:

  • 免费和开源
  • 实时数据处理
  • 快速可靠
  • 高度可扩展和平行
  • 容错
  • 简单的API
  • 与任何语言一起使用
  • 易于使用和部署
  • 与排队和数据库系统集成

安装

**在Ubuntu上安装Apache Storm 18.04 **

安装Zookeeper框架

首先,在服务器上安装Zookeeper框架。创建目录并导航到其中。

$ mkdir ~/bigdata
$ cd ~/bigdata

执行命令下载Zookeeper框架。

$ wget https://downloads.apache.org/zookeeper/zookeeper-3.6.0/apache-zookeeper-3.6.0-bin.tar.gz

通过在下面的命令下运行来提取文件并更改目录。

$ tar xfvz apache-zookeeper-3.6.0-bin.tar.gz
$ cd apache-zookeeper-3.6.0-bin.tar.gz

复制带有新名称的示例配置文件。

$ cp conf/zoo_sample.cfg conf/zoo.cfg

打开conf/zoo.cfg文件,然后将以下代码添加到其中。

admin.enableServer=true
admin.serverPort=9990

运行命令启动Zookeeper。

$ bin/zkServer.sh start

安装apache风暴

执行命令下载Apache Storm。

$ wget ftp://apache.uib.no/pub/apache/storm/apache-storm-2.1.0/apache-storm-2.1.0.tar.gz

使用以下命令提取焦油文件并更改目录。

$ tar -zxf apache-storm-2.1.0.tar.gz
$ cd apache-storm-2.1.0

打开conf/storm.yaml文件,并在其中添加以下行。

storm.zookeeper.servers:
 - "localhost"
nimbus.seeds: [ "localhost" ]

运行命令以启动nimbus。

$ bin/storm nimbus

通过在下面的命令下运行主管。

$ bin/storm supervisor

启动UI。

$ bin/storm ui

打开浏览器并输入http:// localhost:8080以访问风暴群集信息及其运行拓扑。

探索

您可能会发现以下链接相关:

 简体中文