Tag: Hadoop

El sector IT (Information Technology) es uno de los que mayor demanda de profesionales genera actualmente. Las empresas de este sector buscan principalmente expertos en Big Data y Analítica empresarial que sepan adaptarse a la nueva revolución de la industria 4.0. Y es que la repentina aparición de los expertos en Big Data tiene una razón de ser. Hoy en día las organizaciones comienzan a enfrentarse a unas cantidades y formatos de información con las que nunca antes habían tenido que lidiar. Por ese motivo son necesarios los perfiles profesionales especializados en analítica que sepan gestionar y emitir conclusiones a partir de estos grandes volúmenes de datos (Big Data).

Esta  fiebre del Big Data también surge en el momento en el que aparece la tecnología que posibilita el manejo de este tipo de datos. La importancia de estos avances tecnológicos es indiscutible, pero igual de importantes resultan las personas capaces de manejarlos correctamente. De hecho, podemos afirmar que estamos asistiendo a una falta de especialistas en Big Data para muchos sectores. Una de las causas de esta inexistencia de profesionales sea que no existe un consenso sobre cuáles son las funciones que un profesional en Big Data desempeña dentro de una organización. Por este motivo, hemos visto la necesidad de recopilar en este post, a groso modo, los 10 perfiles profesionales más recurrentes en el sector IT:

  1. Data Scientist
  2. Data architect
  3. Data Analyts
  4. Data Engineer
  5. Statistician
  6. Database Administrator
  7. Business Analyts
  8. Data and Analytics Manager
  9. Audit Analytss
  10. Data Journalist

DATA SCIENTIST 

Científico de datos

Según Harvard Business Review se trata de la profesión más atractiva del siglo XXI. El data scientist, como su propio nombre indica, es un experto en la Ciencia de Datos (Data Science). Su trabajo se centra en extraer conocimiento a partir de grandes volúmenes de datos extraídos de diversas fuentes y múltiples formatos para dar respuesta a las cuestiones que se planteen.

El Data Scientist posee las siguientes habilidades y competencias:

DATA ARCHITECT

Arquitecto de datos

El arquitecto de datos debe diseñar, crear, implementar y administrar la arquitectura de datos de una organización. Los arquitectos de datos definen cómo los datos serán almacenados, consumidos, integrados y administrados por diferentes entidades de datos y sistemas informáticos, así como cualquier aplicación que utilice o procese esos datos de alguna manera.

¿Qué habilidades debe poseer un arquitecto de datos?

DATA ANALYTS

Analista de datos

Se trata de un profesional que recopila, procesa y gestiona datos relevantes para la empresa, estando encargados de su análisis estadístico. Se encarga de:  interpretar datos y analizar resultados mediante técnicas estadísticas; desarrollar e implementar análisis de datos, sistemas de recolección de datos y otras estrategias que optimicen la eficiencia estadística y la calidad; adquirir datos de fuentes de datos primarias o secundarias y mantener bases de datos.

Las habilidades más destacadas de este perfil profesional son:

  • Manejo de programas de hoja de cálculo (Excel)
  • Conocimiento de sistemas de base de datos (SQL y noSQL)
  • Comunicación y visualización
  • Matemáticas, estadísticas y Matching Learning
  • Adicto a los datos con un alto coeficiente de resolución
  • Los lenguajes que debe saber manejar son: R, Python, Javascript, C/C++, SQL.

DATA ENGINEER

Ingeniero de datos

Un ingeniero de datos es un trabajador cuyas principales responsabilidades laborales incluyen la preparación de datos para usos analíticos u operacionales. Las tareas específicas manejadas por los ingenieros de datos pueden variar de una organización a otra, pero normalmente incluyen construir pipelines de datos para reunir información de diferentes fuentes. Otras funciones del ingeniero de datos son: integrar, consolidar y limpiar datos; y estructurarlos para su uso en aplicaciones analíticas. Las habilidades que debe tener un Data Engineer son:

  • Conocimiento de sistemas de base de datos (SQL y noSQL)
  • Modelado de datos y herramientas ETL
  • APIs de datos
  • Soluciones de almacenamiento de datos
  • Persona versátil
  • Los lenguajes que debe saber manejar son:  R, SQL,HivE, Python, Java, SAS, SPSS, Ruby, C++, Perl, Maths

STATISTICIAN

Estadístico

Se encargan de recoger, analizar e interpretar datos numéricos. Sus resultados ayudan a otros profesionales a tomar decisiones informadas, a crear políticas de empresa y a comprender distintos aspectos de la vida moderna. Se tratan de profesionales con un conocimiento profundo y eminentemente aplicado de las diferentes técnicas estadísticas y de investigación operativa  que les permitan evaluar  la información y obtener argumentos científicos en los que apoyar la toma de decisiones. Un statistician es una persona capaz de planificar, diseñar y realizar un estudio estadístico asi como la explotación de datos.

Por tanto, las habilidades de este perfil serán:

  • Estadística
  • Minería de datos y Matching Learning
  • Computación distribuida
  • Conocimiento de sistemas de base de datos (SQL y noSQL)
  • Herramientas Cloud
  • Un entusiasta de la estadística y la lógica
  • Los lenguajes que debe saber manejar son: R, SAS, SPSS, Matlab, Python, Perl, Spark, SQL,HivE, Pig.

DATABASE ADMINISTRATOR

Administrador de base de datos

El administrador de base de datos es aquel profesional que administra las tecnologías de la información y la comunicación, siendo responsable de los aspectos técnicos, tecnológicos, científicos, inteligencia de negocios y legales de bases de datos, y de la calidad de datos.

 Las habilidades que debe tener un administrador de base de datos son:

  • Copia de seguridad y recuperación
  • Modelado de datos y diseño
  • Computación distribuida (Hadoop)
  • Conocimiento de sistemas de base de datos (SQL y noSQL)
  • Seguridad de los datos
  • ERP y conocimiento de negocio
  • Persona precavida ante posibles crisis o desastres
  • Los lenguajes y las tecnologías que debe saber manejar son: SQL, Java, Ruby on Rails, XML, C#, Python

BUSINESS ANALYTS

Analista de negocio

El analista de negocio o business analyst es la persona que posee conocimientos técnicos sobre la construcción de sistemas informáticos y al mismo tiempo comprende y está al corriente de las necesidades del usuario que requiere de esos sistemas para realizar su trabajo. Su misión es la de ser el interlocutor entre el usuario y el departamento de sistemas. El papel de un analista de sistemas también puede definirse como un puente entre los problemas empresariales y las soluciones tecnológicas. Aquí los problemas empresariales pueden ser cualquier cosa acerca de los sistemas empresariales, por ejemplo, los modelos, procesos o métodos. Las soluciones tecnológicas pueden ser el uso de arquitectura, de tecnología, herramientas o aplicaciones de software. Los analistas de sistemas están obligados a analizar, transformar y, en última instancia, resolver los problemas del negocio con la ayuda de la tecnología.

Las competencias y habilidades del profesional en BA son:

DATA AND ANALYTICS MANAGER

Gestor de datos y analítica

El gestor de datos y analítica se encarga de liderar y desarrollar el equipo de analistas de datos. Es el responsable de la elaboración las estrategias para el análisis y representación de los datos así como saber implementar soluciones analíticas.  Las competencias y habilidades de este perfil profesional son:

  • Conocimiento de sistemas de base de datos (SQL y noSQL)
  • Liderazgo y gestión de proyectos
  • Comunicación interpersonal
  • Minería de datos y modelado predictivo
  • Los lenguajes que debe saber manejar son: SQL, R, SAS, Python, Matlab, Java

Audit Analyts

Auditor de datos

El auditor de datos se encarga de revisar, examinar y evaluar con coherencia la integridad de los datos que maneja una empresa. La herramienta principal de un Audit Analyts es el dato, un dato que debe ser correcto y de buena calidad. Su trabajo consiste en ayudar a las compañías a extraer información útil y precisa para así tomar decisiones de forma rápida con el menor riesgo de negocio.

Las competencias del auditor de datos son:

  • Conocimiento de sistemas de base de datos (SQL y noSQL)
  • Protocolos y soluciones de seguridad en infraestructuras tecnológicas
  • Seguridad de los datos
  • Los lenguajes y las tecnologías que debe saber manejar son: SQL, R, SAS, Java, XML, Python

 

Data Journalist

Periodista de datos

El periodista de datos, además de una solidad formación periodística debe de conocer y manejar las nuevas herramientas del Data Science y Big Data. Deber ser capaz, gracias a dichas herramientas, de extraer información de los grandes repositorios de información y datos que la era del Big Data pone a su disposición. Un claro ejemplo de este nuevo perfil demandante es la aparición de Masters y Expertos en este área en las Universidades españolas como:

Algunos ejemplos de éxito de periodismo de datos en España e Iberoamérica.

¿Cómo es el perfil de un especialista en Data Science, Big Data y Business Analytics?

El perfil del experto en Big Data que demanda el mercado, suele cumplir los siguientes requisitos:

  • Es un experto en alguno de estos ámbitos: ingeniería informática, matemáticas, estadística, marketing.
  • Tiene una gran capacidad para la resolución de problemas
  • Es capaz de analizar, resolver y explicar lo que ha visto de manera que los demás lo entiendan sin entrar en conceptos científicos.
  • Tiene conocimientos en programación. Es capaz de expresar la información en lenguajes informáticos.
  • Se adapta fácilmente a cualquier tecnología.
  • Conocimiento de lenguajes específicos como SQL, Hadoop, Spark, R, SAS, Java, XML, Python, etc.  

Sin duda, el crecimiento del Big Data ha disparado la demanda de profesionales especialistas en el análisis de datos pero también de potentes herramientas de Business Intelligence que den una solución global a la empresa.

 

Spark es un framework que proporciona una serie de plataformas, sistemas y normas interconectados para proyectos de Big Data.

Al igual que Hadoop, Spark es un framework de código abierto y bajo el ala del Apache Software Foundation. Al ser código abierto puede ser modificado para crear versiones personalizadas dirigidas a problemas específicos o industriales. Tanto los desarrolladores individuales  como las empresas crean versiones personalizadas que  perfeccionan y actualizan constantemente el core añadiendo más funcionalidades y mejoras de rendimiento. De hecho, Spark fue el proyecto más activo de Apache el año pasado. También fue la más activa de todas las aplicaciones de código abierto de Big Data, con más de 500 colaboradores de más de 200 organizaciones.

Spark es visto por los expertos como un producto más avanzado que Hadoop. Está diseñado para trabajar “In-memory”. Esto significa que transfiere los datos desde los discos duros a memoria principal – hasta 100 veces más rápido en algunas operaciones-. Estas transferencias se realiza partiendo estos datos en diversos “Chunks”

Spark es muy popular y usado por grandes empresas para  el almacenamiento y análisis de datos al nivel “multi-petabyte”, esto ha sido posible gracias a su velocidad. En 2014, Spark estableció un récord mundial al completar un benchmark que incluía la selección de 100 terabytes de datos en 23 minutos – el récord mundial anterior era de 71 minutos conseguido por Hadoop.

Asimismo, este framework ha demostrado ser muy adecuado para aplicaciones de aprendizaje automático. El Machine Learning (aprendizaje automático) es una de las áreas de informática más apasionante y de las que más rápido está creciendo.  A los ordenadores se les enseña a detectar patrones en los datos y a adaptar su comportamiento basado en el modelado y análisis automático de cualquier tarea que estén llevando a cabo.

Está diseñado desde cero para ser fácil de instalar y utilizar –para personas que tiene un mínimo de experiencia en informática-. Con el fin de ponerlo a disposición de más negocios, muchos proveedores ofrecen sus propias versiones -como ocurre con Hadoop-, que están dirigidos a determinados sectores, o con configuración personalizada para proyectos con clientes individuales, así como servicios de consultoría asociados para su creación y funcionamiento.

Spark utiliza el cluster computing para su potencia de cálculo (analítica) y su almacenamiento. Esto significa que puede utilizar los recursos de muchos nodos (oredenadores)  unidos entre sí para sus análisis. Es una solución escalable que significa que si se necesita más potencia de cálculo, sólo tiene que introducir más nodos en el sistema. Con el almacenamiento distribuido, los enormes conjuntos de datos recogidos para el análisis de grandes volúmenes de datos pueden ser almacenados en múltiples discos duros individuales más pequeños. Esto acelera las operaciones de lectura y/o escritura, debido al “head”, que lee la información de los discos con menos distancia física para desplazarse sobre la superficie del disco. Al igual que con la potencia de procesamiento, se puede añadir más capacidad de almacenamiento cuando sea necesario, el hardware básico y comúnmente disponible (para cualquier disco duro de un ordenador estándar) supone menos costes de infraestructuras.

A diferencia de Hadoop, Spark no viene con su propio sistema de archivos, en lugar de eso, se puede integrar con muchos sistemas de archivos incluyendo de Hadoop HDFS, MongoDB y el sistema S3 de Amazon.

Otro elemento de este framework es el Spark Streaming, que permite en desarrollo de aplicaciones para el análisis de datos en streaming, datos en tiempo real – como el análisis automático de videos o datos de las redes sociales – “sobre la marcha” o en tiempo real.

En las industrias que cambian rápidamente como sucede en la industria del marketing,  el análisis en tiempo real tiene enormes ventajas. Por ejemplo, los anuncios pueden basarse en función del comportamiento de un usuario en un momento determinado, en lugar de ver el comportamiento histórico, aumentando la posibilidad de provocar el impulso de compra.

Esta es una breve introducción a Apache Spark – sobre qué es, cómo funciona  y por qué mucha gente piensa que es el futuro-.

Fuente: Bernard Marr  at “What Is Spark – An Easy Explanation For Absolutely Anyone“.

Traducción: ITELLIGENT INFORMATION TECHNOLOGIES, SL.

El próximo mes de Octubre, entre los días 15 y 16, Madrid será centro de todas las miradas con el desarrollo de la IV Edición del Big Data Spain. El evento, que acogerá a más de 600 expertos en tecnología y analítica de datos, sirve de encuentro e intercambio de conocimientos de tecnologías innovadoras como Spark, NoSQL data management, Hadoop, Cloud entre otras. El acontecimiento se llevará a cabo en Kinépolis Madrid en la Ciudad de la Imagen en Pozuelo de Alarcón.

En esta nueva ocasión los temas que se abordarán son:

  • Modelos predictivos de análisis.
  • Uso de Big Data para la prevención del fraude.
  • El uso proactivo de datos cruzados para gestionar bases de datos de diferentes áreas de negocio.
  • El móvil y su aplicación del Big Data. Ocultación de datos personales.
  • Empleo analítica avanzada en sistemas Open Source.
  • Avance de las máquinas en técnicas de autoaprendizaje.
  • Aplicación del Big Data para la comunicación entre máquinas y dispositivos en el ámbito de Internet de las cosas (smart cities, wearables).

En cuanto a los ponentes más destacados que se darán cita en esta edición de Big Data Spain estará el consultor de O´Reilly, Paco Nathan, así como profesionales de redes sociales tales como Kartik Paramasivan (Linkedin), Jason Sundram (Facebook) y William Vambenepe (Google). Los cuáles nos van a transmitir cómo abordan en sus respectivas compañías el desafío de administrar tal inmensa cantidad de datos y en tiempo real (Big Data).

Respecto a las empresas que ya han confirmado su asistencia a las conferencias se encuentran Data Artisans, el CERN, Facebook, Mesosphere, Neo O´Really Learning Team, Linkedin, SAP Hana o Zalando entre otros.

Eventos, como el que acogerá Madrid el próximo mes de Octubre, vienen a poner de manifiesto la importancia del potencial que supone para las empresas el manejo eficiente de los datos, pudiendo representar un cambio fundamental para una compañía.

Big-Data-Spain2