Apache Storm Herramienta gratuita de big data
Herramientas gratuitas de análisis de big data para procesar flujos de datos
Procese rápidamente una gran cantidad de datos en un método escalable tolerante a fallas y horizontal utilizando la herramienta de procesamiento de big data y acceda a análisis de datos en tiempo real.
Descripción general
Apache Storm es una herramienta de procesamiento de datos en tiempo real de código abierto. Es una herramienta de procesamiento de big data simple y fácil de usar que funciona con cualquier lenguaje de programación. Se puede incorporar en pequeñas y grandes empresas. Es altamente escalable y puede mantener la eficiencia incluso cuando la carga aumenta, agregando recursos de manera lineal. Apache Storm procesa los flujos de datos en tiempo real, mientras que Hadoop procesa datos en lotes. Las tecnologías existentes de colas y bases de datos se pueden integrar con Apache Storm. Garantiza el procesamiento de datos incluso si uno o más de los nodos vinculados del clúster falla o se pierden mensajes. Apache Storm tiene cuatro componentes que incluyen tupla, transmisión, picos y pernos. En Apache Storm, la tupla es la estructura de datos primaria. Admite todos los tipos de datos y tiene una lista de elementos ordenados. Stream es una secuencia desordenada de tuplas. Spouts es una fuente de transmisiones que se utiliza para leer datos de fuentes de datos. La interfaz principal para implementar Souts es ISpout. Además, hay numerosas interfaces disponibles, incluidas Irichspout, Baserichspout y Kafkaspout. Los pernos son componentes del procesamiento lógico. Las boquillas envían información al proceso de pernos y pernos, lo que resulta en una nueva secuencia de salida. La interfaz central para implementar pernos se llama “Ibolt”. Además, Apache Storm es la conocida herramienta de análisis de Big Data REE. Como resultado, muchas grandes corporaciones lo usan como Twitter, Navisite, Wego, Yahoo y muchas otras. Esta herramienta de análisis en tiempo real se desarrolla en lenguaje Java. La licencia para esta herramienta de procesamiento de datos en tiempo real es Apache 2.0.
Requisitos del sistema
Para instalar Apache Storm, debe tener los siguientes software:
- Java
- Usuario con privilegios de sudo
Características
Las siguientes son las características clave de Apache Storm:
- código abierto y abierto
- Procesamiento de datos en tiempo real
- Rápido y confiable
- Altamente escalable y paralelo
- Tolerancia a fallos
- API simple
- Use con cualquier idioma
- Fácil de usar e implementar
- Integrarse con los sistemas de colas y bases de datos
Instalación
Instale la tormenta Apache en Ubuntu 18.04
Instale el marco Zookeeper
Primero, instale el marco Zookeeper en el servidor. Cree directorio y navegue hacia él.
$ mkdir ~/bigdata
$ cd ~/bigdata
Ejecutar el comando para descargar Zookeeper Framework.
$ wget https://downloads.apache.org/zookeeper/zookeeper-3.6.0/apache-zookeeper-3.6.0-bin.tar.gz
Extraiga los archivos y cambie el directorio ejecutando los comandos a continuación.
$ tar xfvz apache-zookeeper-3.6.0-bin.tar.gz
$ cd apache-zookeeper-3.6.0-bin.tar.gz
Copie el archivo de configuración de muestra con el nuevo nombre.
$ cp conf/zoo_sample.cfg conf/zoo.cfg
Abra el archivo conf/zoo.cfg y agregue el siguiente código.
admin.enableServer=true
admin.serverPort=9990
Ejecutar el comando para iniciar Zookeeper.
$ bin/zkServer.sh start
Instale la tormenta Apache
Ejecutar el comando para descargar Apache Storm.
$ wget ftp://apache.uib.no/pub/apache/storm/apache-storm-2.1.0/apache-storm-2.1.0.tar.gz
Extraiga el archivo TAR y cambie el directorio utilizando los comandos a continuación.
$ tar -zxf apache-storm-2.1.0.tar.gz
$ cd apache-storm-2.1.0
Abra el archivo Conf/Storm.yaml y agregue las líneas a continuación.
storm.zookeeper.servers:
- "localhost"
nimbus.seeds: [ "localhost" ]
Ejecutar el comando para iniciar el nimbus.
$ bin/storm nimbus
Inicie el supervisor ejecutando el siguiente comando.
$ bin/storm supervisor
Empiece la interfaz de usuario.
$ bin/storm ui
Abra su navegador e ingrese http: // localhost: 8080 para acceder a la información del clúster de tormenta y su topología de ejecución.