Tag: Big Data Analytics

El sector IT (Information Technology) es uno de los que mayor demanda de profesionales genera actualmente. Las empresas de este sector buscan principalmente expertos en Big Data y Analítica empresarial que sepan adaptarse a la nueva revolución de la industria 4.0. Y es que la repentina aparición de los expertos en Big Data tiene una razón de ser. Hoy en día las organizaciones comienzan a enfrentarse a unas cantidades y formatos de información con las que nunca antes habían tenido que lidiar. Por ese motivo son necesarios los perfiles profesionales especializados en analítica que sepan gestionar y emitir conclusiones a partir de estos grandes volúmenes de datos (Big Data).

Esta  fiebre del Big Data también surge en el momento en el que aparece la tecnología que posibilita el manejo de este tipo de datos. La importancia de estos avances tecnológicos es indiscutible, pero igual de importantes resultan las personas capaces de manejarlos correctamente. De hecho, podemos afirmar que estamos asistiendo a una falta de especialistas en Big Data para muchos sectores. Una de las causas de esta inexistencia de profesionales sea que no existe un consenso sobre cuáles son las funciones que un profesional en Big Data desempeña dentro de una organización. Por este motivo, hemos visto la necesidad de recopilar en este post, a groso modo, los 10 perfiles profesionales más recurrentes en el sector IT:

  1. Data Scientist
  2. Data architect
  3. Data Analyts
  4. Data Engineer
  5. Statistician
  6. Database Administrator
  7. Business Analyts
  8. Data and Analytics Manager
  9. Audit Analytss
  10. Data Journalist

DATA SCIENTIST 

Científico de datos

Según Harvard Business Review se trata de la profesión más atractiva del siglo XXI. El data scientist, como su propio nombre indica, es un experto en la Ciencia de Datos (Data Science). Su trabajo se centra en extraer conocimiento a partir de grandes volúmenes de datos extraídos de diversas fuentes y múltiples formatos para dar respuesta a las cuestiones que se planteen.

El Data Scientist posee las siguientes habilidades y competencias:

DATA ARCHITECT

Arquitecto de datos

El arquitecto de datos debe diseñar, crear, implementar y administrar la arquitectura de datos de una organización. Los arquitectos de datos definen cómo los datos serán almacenados, consumidos, integrados y administrados por diferentes entidades de datos y sistemas informáticos, así como cualquier aplicación que utilice o procese esos datos de alguna manera.

¿Qué habilidades debe poseer un arquitecto de datos?

DATA ANALYTS

Analista de datos

Se trata de un profesional que recopila, procesa y gestiona datos relevantes para la empresa, estando encargados de su análisis estadístico. Se encarga de:  interpretar datos y analizar resultados mediante técnicas estadísticas; desarrollar e implementar análisis de datos, sistemas de recolección de datos y otras estrategias que optimicen la eficiencia estadística y la calidad; adquirir datos de fuentes de datos primarias o secundarias y mantener bases de datos.

Las habilidades más destacadas de este perfil profesional son:

  • Manejo de programas de hoja de cálculo (Excel)
  • Conocimiento de sistemas de base de datos (SQL y noSQL)
  • Comunicación y visualización
  • Matemáticas, estadísticas y Matching Learning
  • Adicto a los datos con un alto coeficiente de resolución
  • Los lenguajes que debe saber manejar son: R, Python, Javascript, C/C++, SQL.

DATA ENGINEER

Ingeniero de datos

Un ingeniero de datos es un trabajador cuyas principales responsabilidades laborales incluyen la preparación de datos para usos analíticos u operacionales. Las tareas específicas manejadas por los ingenieros de datos pueden variar de una organización a otra, pero normalmente incluyen construir pipelines de datos para reunir información de diferentes fuentes. Otras funciones del ingeniero de datos son: integrar, consolidar y limpiar datos; y estructurarlos para su uso en aplicaciones analíticas. Las habilidades que debe tener un Data Engineer son:

  • Conocimiento de sistemas de base de datos (SQL y noSQL)
  • Modelado de datos y herramientas ETL
  • APIs de datos
  • Soluciones de almacenamiento de datos
  • Persona versátil
  • Los lenguajes que debe saber manejar son:  R, SQL,HivE, Python, Java, SAS, SPSS, Ruby, C++, Perl, Maths

STATISTICIAN

Estadístico

Se encargan de recoger, analizar e interpretar datos numéricos. Sus resultados ayudan a otros profesionales a tomar decisiones informadas, a crear políticas de empresa y a comprender distintos aspectos de la vida moderna. Se tratan de profesionales con un conocimiento profundo y eminentemente aplicado de las diferentes técnicas estadísticas y de investigación operativa  que les permitan evaluar  la información y obtener argumentos científicos en los que apoyar la toma de decisiones. Un statistician es una persona capaz de planificar, diseñar y realizar un estudio estadístico asi como la explotación de datos.

Por tanto, las habilidades de este perfil serán:

  • Estadística
  • Minería de datos y Matching Learning
  • Computación distribuida
  • Conocimiento de sistemas de base de datos (SQL y noSQL)
  • Herramientas Cloud
  • Un entusiasta de la estadística y la lógica
  • Los lenguajes que debe saber manejar son: R, SAS, SPSS, Matlab, Python, Perl, Spark, SQL,HivE, Pig.

DATABASE ADMINISTRATOR

Administrador de base de datos

El administrador de base de datos es aquel profesional que administra las tecnologías de la información y la comunicación, siendo responsable de los aspectos técnicos, tecnológicos, científicos, inteligencia de negocios y legales de bases de datos, y de la calidad de datos.

 Las habilidades que debe tener un administrador de base de datos son:

  • Copia de seguridad y recuperación
  • Modelado de datos y diseño
  • Computación distribuida (Hadoop)
  • Conocimiento de sistemas de base de datos (SQL y noSQL)
  • Seguridad de los datos
  • ERP y conocimiento de negocio
  • Persona precavida ante posibles crisis o desastres
  • Los lenguajes y las tecnologías que debe saber manejar son: SQL, Java, Ruby on Rails, XML, C#, Python

BUSINESS ANALYTS

Analista de negocio

El analista de negocio o business analyst es la persona que posee conocimientos técnicos sobre la construcción de sistemas informáticos y al mismo tiempo comprende y está al corriente de las necesidades del usuario que requiere de esos sistemas para realizar su trabajo. Su misión es la de ser el interlocutor entre el usuario y el departamento de sistemas. El papel de un analista de sistemas también puede definirse como un puente entre los problemas empresariales y las soluciones tecnológicas. Aquí los problemas empresariales pueden ser cualquier cosa acerca de los sistemas empresariales, por ejemplo, los modelos, procesos o métodos. Las soluciones tecnológicas pueden ser el uso de arquitectura, de tecnología, herramientas o aplicaciones de software. Los analistas de sistemas están obligados a analizar, transformar y, en última instancia, resolver los problemas del negocio con la ayuda de la tecnología.

Las competencias y habilidades del profesional en BA son:

DATA AND ANALYTICS MANAGER

Gestor de datos y analítica

El gestor de datos y analítica se encarga de liderar y desarrollar el equipo de analistas de datos. Es el responsable de la elaboración las estrategias para el análisis y representación de los datos así como saber implementar soluciones analíticas.  Las competencias y habilidades de este perfil profesional son:

  • Conocimiento de sistemas de base de datos (SQL y noSQL)
  • Liderazgo y gestión de proyectos
  • Comunicación interpersonal
  • Minería de datos y modelado predictivo
  • Los lenguajes que debe saber manejar son: SQL, R, SAS, Python, Matlab, Java

Audit Analyts

Auditor de datos

El auditor de datos se encarga de revisar, examinar y evaluar con coherencia la integridad de los datos que maneja una empresa. La herramienta principal de un Audit Analyts es el dato, un dato que debe ser correcto y de buena calidad. Su trabajo consiste en ayudar a las compañías a extraer información útil y precisa para así tomar decisiones de forma rápida con el menor riesgo de negocio.

Las competencias del auditor de datos son:

  • Conocimiento de sistemas de base de datos (SQL y noSQL)
  • Protocolos y soluciones de seguridad en infraestructuras tecnológicas
  • Seguridad de los datos
  • Los lenguajes y las tecnologías que debe saber manejar son: SQL, R, SAS, Java, XML, Python

 

Data Journalist

Periodista de datos

El periodista de datos, además de una solidad formación periodística debe de conocer y manejar las nuevas herramientas del Data Science y Big Data. Deber ser capaz, gracias a dichas herramientas, de extraer información de los grandes repositorios de información y datos que la era del Big Data pone a su disposición. Un claro ejemplo de este nuevo perfil demandante es la aparición de Masters y Expertos en este área en las Universidades españolas como:

Algunos ejemplos de éxito de periodismo de datos en España e Iberoamérica.

¿Cómo es el perfil de un especialista en Data Science, Big Data y Business Analytics?

El perfil del experto en Big Data que demanda el mercado, suele cumplir los siguientes requisitos:

  • Es un experto en alguno de estos ámbitos: ingeniería informática, matemáticas, estadística, marketing.
  • Tiene una gran capacidad para la resolución de problemas
  • Es capaz de analizar, resolver y explicar lo que ha visto de manera que los demás lo entiendan sin entrar en conceptos científicos.
  • Tiene conocimientos en programación. Es capaz de expresar la información en lenguajes informáticos.
  • Se adapta fácilmente a cualquier tecnología.
  • Conocimiento de lenguajes específicos como SQL, Hadoop, Spark, R, SAS, Java, XML, Python, etc.  

Sin duda, el crecimiento del Big Data ha disparado la demanda de profesionales especialistas en el análisis de datos pero también de potentes herramientas de Business Intelligence que den una solución global a la empresa.

 

DISSET confía en ITELLIGENT

  • La consultora mallorquina DISSET contrata los servicios de Escucha Activa de ITELLIGENT para renovar sus servicios.
  • ITELLIGENT ofrecerá a DISSET información extraída de su plataforma de monitorización Netopinion para clientes específicos.

DISSET es una consultora especializada en comunicación corporativa e identidad online. Su cartera de servicios es amplia y está basada en la idea de una comunicación integral. Para llevar a cabo esta comunicación global, hacen uso de todas las herramientas disponibles para la construcción de marca.

Con más de 20 años de experiencia, DISSET posee un amplio recorrido en consultoría y gestión de marca. Posee, además, una amplia cartera de clientes entre los que se destacan el Govern de les Illes Balears, Air Europa, Consell de Mallorca, Agencia Balear de Turisme, Festival Park Outlets, Eroski, Perfume’s Club, Logitravel o la Autoridad Portuaria, entre otros.

En ITELLIGENT estamos encantados de trabajar con consultoras de comunicación y marketing como DISSET. Es una compañía con una amplia experiencia en la gestión de marca tanto offline como online, con una visión integral de la comunicación corporativa. Teniendo en cuenta esta premisa, DISSET ha optado por contratar los servicios de inteligencia comercial de ITELLIGENT, concretamente, la extracción de información inteligente de nuestra plataforma Netopinion con el fin de ofrecer  una renovación en la consultoría en marketing digital, reputación online y gestión de redes sociales a sus clientes.

Netopinion se centra en la escucha activa de marcas, productos o servicios en el mundo digital. A través de esta plataforma se puede analizar qué, quién, cuándo, dónde y cómo opinan los usuarios de la Red sobre una marca, producto o servicio específico. En otras palabras, permite gestionar la reputación online, el análisis de temáticas en las conversaciones online, gestión y analítica en redes sociales, detección de comunidades de usuarios por temáticas, entre otras múltiples funciones. En el caso que concierne a la Consultora DISSET, ITELLIGENT ofrecerá información específica de escucha activa extraída de Netopinion y que sea de relevancia para algunos de sus clientes. El objetivo es concretar y especificar aquellos datos que sean de valor para clientes de DISSET en la gestión estratégica de marca en el entorno digital.

NETOPINION Plataforma de Escucha Activa de ITELLIGENT

Qué significa Big Data y Data Science

Big Data ( o Grandes volúmenes de datos).

El crecimiento de los datos provocados en Internet y otras áreas (Ej. Genómica) hacen necesarias nuevas técnicas para poder acceder y utilizar estos datos.

Al mismo tiempo estos grandes volúmenes de datos ofrecen nuevas posibilidades de conocimiento y nuevos modelos de negocio. En particular, en Internet, este crecimiento comienza con la multiplicación en el número de webs comenzando los buscadores (ej. Google) a buscar nuevas formas de almacenar y acceder a estos grandes volúmenes de datos. Esta tendencia (blogs, redes sociales, IoT …) está provocando la aparición de nuevas herramientas de Big Data y la generalización de su uso.

Data Science (o Ciencia de Datos).

La oportunidad que los datos ofrecen para generar nuevo conocimiento requiere de técnicas sofisticadas de preparación de estos datos (estructuración) y análisis de los mismos. Así en Internet, sistemas de recomendación, traducción automática y otros sistemas de Inteligencia Artificial se basan en técnicas de Data Science.

CASO PRÁCTICO 1. Situaciones de riesgo en menores

Nancy Lublin, empleada de una ONG de ayuda a los jóvenes en EEUU, cuenta que en 2011 recibió una alarma con un texto de una chica que decía: “No para de violarme. Me ha dicho que no se lo diga a nadie. Es mi padre”.  Este hecho hizo que Lublin creara la organización Crisis Text Line (CTL).

CTL recibe millones de conversaciones en formato de texto (Big Data), ya que esta es la forma más habitual de expresión de los jóvenes. A partir de este gran volumen de datos (Big Data) en formato de texto, ha desarrollado algoritmos de Inteligencia Artificial (Data Science) que permiten detectar situaciones de riesgo de adolescentes, ponerlas en conocimiento de voluntarios y recomendar acciones que ayuden a minorar este riesgo.

Así por ejemplo, a partir de una conversación de chat de un adolescente, el sistema puede determinar que hay un 99% de probabilidad de un problema de abuso de drogas, alertar a un voluntario para que chatee con esta persona y dar al voluntario pautas a seguir e información de los centros de programas de rehabilitación que hayan cercanos al adolescente en cuestión.  Enla imagen, exponemos un ejemplo ficticio de cómo funcionaria el sistema de CTL:

inclusion-social-y-big-data_itelligent_caso-practico

Actualmente, CTL responde a más de 6,5 millones de textos evitando, en promedio, dos intentos de suicidios de jóvenes al día.  Además, CTL pone toda estos datos a disposición de otros organismos que puedan ayudar como son la Policía, Servicios Sociales, etc. Ofreciendo además información agregada de sus datos como puede verse en la imagen:

inclusion-social-y-big-data_itelligent_mapa

Mapa de zonas geográficas en EEUU en riesgo de suicidios adolescentes.

CASO PRÁCTICO 2. Abandono escolar en Andalucía

En Andalucía la tasa de abandono escolar  es del 23 %.  Se trata de la tasa de abandono más alta de España. La media española es del 19 %. Actualmente, el objetivo de Andalucía es reducirlo al 15 %  en cuatro años.

¿Qué puede ofrecer el Big Data y Data Science a este problema?

En particular la analítica predictiva (Data Science) permite predecir con antelación la probabilidad de que un niño abandone sus estudios básicos. Si además se dispone de grandes volúmenes de datos relacionados con la actividad de cada alumno, su situación social-familiar, entre otros datos (Big Data), se ha comprobado que la exactitud de estas predicciones puede ser muy alta. Así ocurre en un estudio de la Universidad de Copenhague, en el que se llega a predecir  con un 93 % de exactitud los casos de abandono escolar. Lógicamente, este modelo debe ser complementado con otras acciones como un protocolo de ayudas, subvenciones o acciones concretas para mejorar e incentivar al alumno a finalizar sus estudios académicos.

¿Porqué un sistema de este tipo puede tener éxito en Andalucía?

Un caso de éxito extrapolable a Andalucía es el de las Escuelas Publicas en Tacoma (Washington, EEUU). En estas escuelas la tasa de abandono escolar (Dropout) estaba en el 45 % en el año 2010 –la media nacional en EEUU en aquel año estaba en el 19 %-. Gracias a la aplicación de un modelo predictivo (Data Science) junto a otras acciones complementarias (como se muestra en la imagen inferior) fue posible reducir la tasa dropout al 22% en 2014.

inclusion-social-y-big-data_itelligent

Estos casos prácticos sobre Inclusión Social y Big Data fueron expuestos por Carmen Bernáldez Lara en la Jornada Ciudades Inteligentes, Ciudades Inlcusivas organizado por el Defensor del Pueblo Andaluz el pasado 20 de octubre, 2016 en la Fundación Cajasol en Sevilla.

Fuentes:

Spark es un framework que proporciona una serie de plataformas, sistemas y normas interconectados para proyectos de Big Data.

Al igual que Hadoop, Spark es un framework de código abierto y bajo el ala del Apache Software Foundation. Al ser código abierto puede ser modificado para crear versiones personalizadas dirigidas a problemas específicos o industriales. Tanto los desarrolladores individuales  como las empresas crean versiones personalizadas que  perfeccionan y actualizan constantemente el core añadiendo más funcionalidades y mejoras de rendimiento. De hecho, Spark fue el proyecto más activo de Apache el año pasado. También fue la más activa de todas las aplicaciones de código abierto de Big Data, con más de 500 colaboradores de más de 200 organizaciones.

Spark es visto por los expertos como un producto más avanzado que Hadoop. Está diseñado para trabajar “In-memory”. Esto significa que transfiere los datos desde los discos duros a memoria principal – hasta 100 veces más rápido en algunas operaciones-. Estas transferencias se realiza partiendo estos datos en diversos “Chunks”

Spark es muy popular y usado por grandes empresas para  el almacenamiento y análisis de datos al nivel “multi-petabyte”, esto ha sido posible gracias a su velocidad. En 2014, Spark estableció un récord mundial al completar un benchmark que incluía la selección de 100 terabytes de datos en 23 minutos – el récord mundial anterior era de 71 minutos conseguido por Hadoop.

Asimismo, este framework ha demostrado ser muy adecuado para aplicaciones de aprendizaje automático. El Machine Learning (aprendizaje automático) es una de las áreas de informática más apasionante y de las que más rápido está creciendo.  A los ordenadores se les enseña a detectar patrones en los datos y a adaptar su comportamiento basado en el modelado y análisis automático de cualquier tarea que estén llevando a cabo.

Está diseñado desde cero para ser fácil de instalar y utilizar –para personas que tiene un mínimo de experiencia en informática-. Con el fin de ponerlo a disposición de más negocios, muchos proveedores ofrecen sus propias versiones -como ocurre con Hadoop-, que están dirigidos a determinados sectores, o con configuración personalizada para proyectos con clientes individuales, así como servicios de consultoría asociados para su creación y funcionamiento.

Spark utiliza el cluster computing para su potencia de cálculo (analítica) y su almacenamiento. Esto significa que puede utilizar los recursos de muchos nodos (oredenadores)  unidos entre sí para sus análisis. Es una solución escalable que significa que si se necesita más potencia de cálculo, sólo tiene que introducir más nodos en el sistema. Con el almacenamiento distribuido, los enormes conjuntos de datos recogidos para el análisis de grandes volúmenes de datos pueden ser almacenados en múltiples discos duros individuales más pequeños. Esto acelera las operaciones de lectura y/o escritura, debido al “head”, que lee la información de los discos con menos distancia física para desplazarse sobre la superficie del disco. Al igual que con la potencia de procesamiento, se puede añadir más capacidad de almacenamiento cuando sea necesario, el hardware básico y comúnmente disponible (para cualquier disco duro de un ordenador estándar) supone menos costes de infraestructuras.

A diferencia de Hadoop, Spark no viene con su propio sistema de archivos, en lugar de eso, se puede integrar con muchos sistemas de archivos incluyendo de Hadoop HDFS, MongoDB y el sistema S3 de Amazon.

Otro elemento de este framework es el Spark Streaming, que permite en desarrollo de aplicaciones para el análisis de datos en streaming, datos en tiempo real – como el análisis automático de videos o datos de las redes sociales – “sobre la marcha” o en tiempo real.

En las industrias que cambian rápidamente como sucede en la industria del marketing,  el análisis en tiempo real tiene enormes ventajas. Por ejemplo, los anuncios pueden basarse en función del comportamiento de un usuario en un momento determinado, en lugar de ver el comportamiento histórico, aumentando la posibilidad de provocar el impulso de compra.

Esta es una breve introducción a Apache Spark – sobre qué es, cómo funciona  y por qué mucha gente piensa que es el futuro-.

Fuente: Bernard Marr  at “What Is Spark – An Easy Explanation For Absolutely Anyone“.

Traducción: ITELLIGENT INFORMATION TECHNOLOGIES, SL.