ITELLIGENT

Cuál es el mejor framework de Big Data, ¿Spark o Hadoop?

Post sobre:

Escrito por:

Martel, Jaime
07/07/2016
Spark es un framework que proporciona una serie de plataformas, sistemas y normas interconectados para proyectos de Big Data.

Al igual que Hadoop, Spark es un framework de código abierto y bajo el ala del Apache Software Foundation. Al ser código abierto puede ser modificado para crear versiones personalizadas dirigidas a problemas específicos o industriales. Tanto los desarrolladores individuales  como las empresas crean versiones personalizadas que  perfeccionan y actualizan constantemente el core añadiendo más funcionalidades y mejoras de rendimiento. De hecho, Spark fue el proyecto más activo de Apache el año pasado. También fue la más activa de todas las aplicaciones de código abierto de Big Data, con más de 500 colaboradores de más de 200 organizaciones.

Spark es visto por los expertos como un producto más avanzado que Hadoop. Está diseñado para trabajar “In-memory”. Esto significa que transfiere los datos desde los discos duros a memoria principal – hasta 100 veces más rápido en algunas operaciones-. Estas transferencias se realiza partiendo estos datos en diversos “Chunks»

Spark es muy popular y usado por grandes empresas para  el almacenamiento y análisis de datos al nivel “multi-petabyte”, esto ha sido posible gracias a su velocidad. En 2014, Spark estableció un récord mundial al completar un benchmark que incluía la selección de 100 terabytes de datos en 23 minutos – el récord mundial anterior era de 71 minutos conseguido por Hadoop.

Asimismo, este framework ha demostrado ser muy adecuado para aplicaciones de aprendizaje automático. El Machine Learning (aprendizaje automático) es una de las áreas de informática más apasionante y de las que más rápido está creciendo.  A los ordenadores se les enseña a detectar patrones en los datos y a adaptar su comportamiento basado en el modelado y análisis automático de cualquier tarea que estén llevando a cabo.

Está diseñado desde cero para ser fácil de instalar y utilizar –para personas que tiene un mínimo de experiencia en informática-. Con el fin de ponerlo a disposición de más negocios, muchos proveedores ofrecen sus propias versiones -como ocurre con Hadoop-, que están dirigidos a determinados sectores, o con configuración personalizada para proyectos con clientes individuales, así como servicios de consultoría asociados para su creación y funcionamiento.

Spark utiliza el cluster computing para su potencia de cálculo (analítica) y su almacenamiento. Esto significa que puede utilizar los recursos de muchos nodos (oredenadores)  unidos entre sí para sus análisis. Es una solución escalable que significa que si se necesita más potencia de cálculo, sólo tiene que introducir más nodos en el sistema. Con el almacenamiento distribuido, los enormes conjuntos de datos recogidos para el análisis de grandes volúmenes de datos pueden ser almacenados en múltiples discos duros individuales más pequeños. Esto acelera las operaciones de lectura y/o escritura, debido al «head», que lee la información de los discos con menos distancia física para desplazarse sobre la superficie del disco. Al igual que con la potencia de procesamiento, se puede añadir más capacidad de almacenamiento cuando sea necesario, el hardware básico y comúnmente disponible (para cualquier disco duro de un ordenador estándar) supone menos costes de infraestructuras.

A diferencia de Hadoop, Spark no viene con su propio sistema de archivos, en lugar de eso, se puede integrar con muchos sistemas de archivos incluyendo de Hadoop HDFS, MongoDB y el sistema S3 de Amazon.

Otro elemento de este framework es el Spark Streaming, que permite en desarrollo de aplicaciones para el análisis de datos en streaming, datos en tiempo real – como el análisis automático de videos o datos de las redes sociales – “sobre la marcha” o en tiempo real.

En las industrias que cambian rápidamente como sucede en la industria del marketing,  el análisis en tiempo real tiene enormes ventajas. Por ejemplo, los anuncios pueden basarse en función del comportamiento de un usuario en un momento determinado, en lugar de ver el comportamiento histórico, aumentando la posibilidad de provocar el impulso de compra.

Esta es una breve introducción a Apache Spark – sobre qué es, cómo funciona  y por qué mucha gente piensa que es el futuro-.

Fuente: Bernard Marr  at «What Is Spark – An Easy Explanation For Absolutely Anyone«.

Traducción: ITELLIGENT INFORMATION TECHNOLOGIES, SL.

Otras entradas de esta categoría

¿Quieres aportar nueva información o hacernos un comentario?

0 comentarios

Trackbacks/Pingbacks

  1. Bitacoras.com - Información Bitacoras.com Esta anotación ha sido propuesta por un usuario para ser votada en Bitacoras.com. Para que el proceso finalice,…

Enviar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *