Category: Big Data e Inteligencia Artificial

Qué es Elasticsearch

ElasticSearch es un gestor de datos y motor de búsqueda basado en Lucene. Se trata de un sistema distribuido que permite trabajar con un gran volumen de datos de cualquier tipo, con una interfaz web RESTful de búsqueda así como clientes para distintos lenguajes de programación, y un sistema de analítica que permite realizar consultas en tiempo real. Elasticsearch está publicado como open source (código abierto) bajo licencia Apache y desarrollado en Java. Se trata de una tecnología que ayuda a optimizar la arquitectura de datos de nuestro negocio.

También es conocido bajo el acrónimo ELK, un conjunto de tres tecnologías de código abierto:

  • Elasticsearch. Motor de búsqueda y análisis.
  • Logstash. Canal de procesamiento de la información que ingiere datos de múltiples fuentes simultáneamente, las transforma y luego las envía a un “stash” como Elasticsearch.
  • Kibana. Permite la visualización de datos a través de tablas y gráficos.

Qué ventajas ofrece Elasticsearch

  1. Sistema distribuido. Los datos se almacenan en diferentes sistemas que colaboran entre sí y nos muestran los resultados que les demandamos en cada momento en una sola petición.
  2. Multitenencia de datos. Nos permite operar sobre distintos índices al mismo tiempo y así potenciar nuestras búsquedas.
  3. Acceso en tiempo real. Esta tecnología nos permite acceder de forma instantánea a los datos.
  4. Búsqueda de texto completo. Usar Elasticsearch hace que implementen una gran cantidad de funciones, tales como la división personalizada de texto en palabras, derivación personalizada, búsqueda personalizada, etc.
  5. Autocompletado y búsqueda instantánea. Buscar mientras el usuario escribe. Pueden ser simples sugerencias de búsquedas tratando de predecirlas en base al historial de búsqueda, o simplemente haciendo una búsqueda completamente nueva para cada palabra clave. Esta opción funciona como ocurre en el buscador Google, que escribimos una palabra y nos sugiere otras opciones de búsqueda. Además, al usar Elasticsearch nos permite encontrar lo que estamos buscando aunque tenga un error ortográfico.
  6. Consultas complejas y afinación. Elasticsearch tiene una poderosa DSL basada en JSON, que permite a los equipos de desarrollo construir consultas complejas y afinarlas para recibir los resultados más precisos de una búsqueda. También proporciona una forma de clasificar y agrupar los resultados.
  7. Ahorro tiempo de análisis y mayor velocidad. Elasticsearch puede ejecutar consultas complejas extremadamente rápido. También almacena casi todas las consultas estructuradas comúnmente utilizadas como filtro para el conjunto de resultados y las ejecuta solo una vez. Para cada otra solicitud que contiene un filtro en caché, comprueba el resultado de la caché. Esto ahorra el tiempo de análisis y ejecución de la consulta mejorando la velocidad.
  8. Elasticsearch está orientado a documentos.  Elasticsearch no utiliza esquemas, acepta documentos JSON e intenta detectar la estructura de datos, indexar los datos y hacer que se pueda buscar.
  9. Uso de facetas. Una búsqueda facetada es más sólida que una búsqueda de texto típica, lo que permite a los usuarios aplicar una cantidad de filtros a la información e incluso tener un sistema de clasificación basado en los datos. Esto permite una mejor organización de los resultados de búsqueda y permite a los usuarios determinar mejor qué información necesitan examinar.
  10. Escalabilidad horizontal y registro de nodos. Elasticsearch permite escalar horizontalmente, por lo que, gracias a su diseño, permite extender los recursos y equilibrar la carga entre los nodos de un cluster. Además, registra cualquier cambio realizado en registros de transacciones en múltiples nodos en el clúster para minimizar la posibilidad de pérdida de datos. Por otro lado, estos cluster pueden detectar aquellos nodos que fallan y reorganizarlos para que los datos siempre sean accesibles.

Al tratarse de una tecnología de open source, en su web, existen diversos videos tutoriales y webinars a los que puedes acceder de forma gratuita tan solo facilitando tu correo electrónico puedes aprender a utilizar Elasticsearch ¡si aún no lo has hecho!

videos_elasticsearch

Optimiza tus búsquedas de información del sector público con iboof.com, el primer motor de búsqueda gratuito de Open Data en España.

En este post te ofrecemos una guía completa de cómo mejorar tus búsquedas en iboof.com. En el caso que en tu búsqueda incluyas más de una palabra clave o keyword debes tener en cuenta una serie de criterios para que, aquello que buscas, sea realmente lo que te interesa. Para ello, estableceremos un ejemplo de varios términos (palabras) en una única búsqueda, para que te sirva de guía y así optimizar futuras búsquedas en iboof.com. Como ejemplo, supongamos que deseas buscar licitaciones sobre “marketing digital”, ¿qué funcionalidades ofrece iBOOF?

Estas son las 4 funcionalidades en las búsquedas en iboof.com:

  1. Búsqueda por defecto “comillas”~4. Si en el buscador incluyes las palabras (ej. marketing digital), por defecto iboof.com realizará una búsqueda en la base de datos de cualquier aparición de ambas palabras sin que necesariamente éstas aparezca una junto a la otra. Es decir, aparecerán los resultados que contengan todas las palabras de la búsqueda y que estén próximas entre sí. A esta opción se le llama Operador de palabras próximas (ej. “marketing digital”~4). El número (~4) significa que entre la palabra (marketing) y (digital) pueden aparecer en el documento hasta cuatro palabras entre ambas (ej. plan de marketing de contenido y digital).
  2. Búsqueda con operador “comillas”Los resultados que obtendrás en esta búsqueda (ej. “marketing digital”) será una búsqueda literal de los términos, es decir, aparecerán los resultados que contengan ambas palabras, una seguida de la otra, en cada uno de los documentos (ej. ..plan de marketing digital y..).
  3. Búsqueda con operador AND. Los resultados contiene todas las palabras de búsqueda incluyen los dos tipos de búsqueda anterior pero sin limitación de palabaras entre ambos términos. Esto quiere decir que, en los  resultados de búsqueda, aparezca:
    • (…) plan de marketing de contenido y digital (…)
    • (…) plan de marketing digital y (…)
    • (…) plan de marketing (…) -página 2 del documento- (…) en el ámbito digital (…) -página 10 del documento-.
  4. Búsqueda con operador OR. Los resultados contiene al menos una de las palabras de búsqueda. Se trata de una búsqueda más ampliada que contempla todos los resultados de las anteriores búsquedas además de aquellos documentos donde sólo aparezca la palabra marketing (sin digital) o digital (sin marketing). En base al ejemplo expuesto, esto supondría los resultados de textos tales como:
    • (…) plan de marketing de contenido y digital (…)
    • (…) plan de marketing digital y (…)
    • (…) plan de marketing (…) -página 2 del documento- (…) en el ámbito digital (…) -página 10 del docuemento-.
    • (…) plan de marketing (…) -sin necesidad que aparezca la palabra (digital) en el documento-.
    • (…) ámbito digital (…) -sin necesidad que aparezca la palabra (marketing) en el documento-.

¡OJO!  Si realizas esta última búsqueda ampliada puede aparecer mucho contenido irrelevante ya que si tu objetivo es buscar licitaciones de marketing digital, esta búsqueda te aparecerán licitaciones de marketing en general ademas de las digitales.

¿Ya has realizado una búsqueda? Si crees que los resultado mostrados son de interés para ti, el siguiente paso para mantenerte constantemente informado es crear una alerta inteligente en base a la búsqueda realizada. De esta forma, cada vez que se publique un nuevo boletín, licitación o documento de información pública en el que incluyan los términos de interés, recibirás en tu bandeja de entrada de tu correo electrónico un mail con la relación de documentos públicos publicados, un día después a la fecha de publicación. Este sistema de alertas inteligentes de iboof.com es muy sencillo, ¿sabes cómo crear una alerta?

Sigue los siguientes pasos para activar una alerta inteligente en iboof.com:

PASO UNO. Dirígete al icono de la campana que aparece en la parte superior izquierda de la página de resultados de la búsqueda realizada. Haz clic en el icono.

PASO UNO crear alerta en iboof

PASO DOS. Aparecerá un pop up en el que tendrás que introducir el mail al que quieras que lleguen estas alertas de iboof.com. Debes leer la política de privacidad y Aviso Legal de la web iboof.com y marcar la casilla que aceptas las misma. Tan solo haz clic en el boton “….)”

PASO DOS crear alerta en iboof

¡Y listo! Cuando se publique algún boletín/licitación/documento oficial donde aparezca los términos incluidos en la alerta, recibirás un mail en tu bandeja de entrada.

En todo proyecto en el que se trabaja con Big Data,  la visualización de datos es una de las áreas más relevantes para la comprensión y análisis de datos masivos. Asimismo, poder sacar partido a toda esa información y extraer conclusiones es imprescindible para cualquier empresa que trabaje con Big Data.

En concreto, la visualización de grandes volúmenes datos (Big Data Visualization) consiste en representar de forma comprensible y medible los datos obtenidos del procesamiento y modelización de grandes volúmenes de datos (Big Data) con el objetivo de, no sólo de mostrar de forma más atractiva los datos, sino de comunicar esta información de forma clara y entendible a través de gráficos, diagramas o infografías. En este punto es donde entran en juego las herramientas para la visualización de datos masivos. Saber elegir la herramienta adecuada para aquello que queramos comunicar es imprescindible para desarrollar una analítica empresarial o Business Analytics de forma eficiente.  A continuación, desglosamos cinco herramientas para la visualización de datos:

TABLEAU 

Se trata de una de las más conocidas herramientas de visualización de datos. Su interfaz permite generar visualizaciones sobre grandes volúmenes de datos y personalizarlo.  Posee una versión gratuita: Tableau Public, con la que puedes crear mapas interactivos, gráficos de barras, tartas, etc. de forma sencilla.

Características:

  • Puede importar tablas Excel,
  • Gráficos interactivos y pueden ser embebidos en tu web y/o compartirlos
  • Gráficos Responsive, optimizados para visualizarlos en diversos dispositivos (tablets y moviles)

QLIK View & Sense

QlikView pertenece a la empresa Qlik la cual posee varios productos para la visualización de datos masivos. El más popular es QlikView. Destaca por su sencillez, con una configuración muy personalizable, permitiendo a los usuarios tomar decisiones basadas en datos. Posibilita trabajar con grandes cantidades de datos procedentes de diferentes fuentes. La otra herramienta de la empres Qlik se llama QkikSense. Se trata de una versión aún más sencilla que QlikView para crear visualizaciones flexibles e interactivas.

QlikView y Qlik Sense comparten el mismo motor y una serie de capacidades básicas, pero hay diferencias entre ellos que reflejan tanto los avances en tecnología, como la evolución de las necesidades del consumidor en el mercado.

Características:

  • Gráficos Responsive, optimizados para visualizarlos en diversos dispositivos (tablets y móviles)
  • Permite formular y responder sus propias preguntas y seguir sus propias rutas hacia el conocimiento.

PLOTLY

Plotly, también conocida por su versión web Plot.ly, es una herramienta de visualización y análisis de datos online. Se trata de un software colaborativo bastante flexible que ofrece visualizaciones complejas y sofisticadas. Posee todo tipo de gráficas: columnas, líneas, circulares, histogramas, etc. Funciona con cualquier formato de datos (Excel, CSV o texto) y se puede importar desde Google Drive o Dropbox.

Características:

  • Está integrado con lenguajes de programación como Python, JavaScript o Matlab.
  • Se puede compartir y editar datos, gráficas y macros con otros usuarios.

CARTO

Aunque esta tecnología sólo permite establecer visualizaciones de datos masivos sobre mapas, se trata de un servicio open source dirigido a cualquier usuario, independientemente del nivel técnico que tenga, con una interfaz muy amigable. Carto ofrece dos aplicaciones muy completas: Carto Builder, donde los usuarios pueden administrar datos, ejecutar análisis o diseñar mapas personalizados; y Carto Engine, el cual ofrece un conjunto de bibliotecas para crear interfaces de visualización de mapas y datos personalizados.

Características:

  • Permite crear una gran variedad de mapas interactivos, lo que permite elegir entre el catálogo que el mismo servicio ofrece, incluir mapas de Google Maps, o agregar a la lista tus propios mapas personalizados.
  • Permite el acceso a los datos de Twitter.

KIBANA

Kibana es un complemento de visualización de datos de código abierto para Elasticsearch. Posee una gran variedad de gráficos interactivos: histogramas, gráficos de líneas, gráficos circulares, rayos solares, etc. Además, puedes diseñar tus propias visualizaciones y Elastic Maps para visualizar datos geoespaciales. Todos ellos aprovechan las capacidades de agregación de Elasticsearch.

Características;

  • Con Kibana se puede detectar las anomalías que se esconden en los datos de Elasticsearch y explorar las propiedades que los influencian significativamente.
  • Kibana permite visualizar los datos de Elasticsearch y navegar por Elastic Stack, de modo que puedes hacer cualquier cosa, desde saber por qué te están buscando por Internet a las 2:00 a.m. hasta comprender el impacto que la lluvia puede tener en tus números trimestrales.

kibana_web

iBOOF es el primer motor de búsqueda de acceso público y gratuito especializado en Open Data e información oficial de las administraciones estatales, autonómicas y provinciales en España

Actualmente iboof.com utiliza un sistema avanzado de indexación orientado a la extracción de grandes volúmenes de datos (Big Data) y técnicas automáticas de Procesamiento del Lenguaje Natural (PLN) desarrollado por  ITELLIGENT Information Technologies SL que permite una rápida indexación de las fuentes oficiales (Open Data) así como resultados muy precisos para un amplio abanico de búsquedas.

Como complemento al motor de búsqueda, iboof.com ofrece al usuario de forma gratuita un punto de acceso único a todos los boletines a través de la opción Base de Datos así como un sistema de alertas inteligentes por correo electrónico. Ambos servicios permiten al usuario estar informado de cualquier novedad aparecida en los boletines sobre un tema de interés.

El proyecto iboof.com se puso en marcha en el año 2006 y es fruto de la colaboración desinteresada de un grupo de ingenieros interesados en la investigación y desarrollo de sistemas avanzados de información basados en la reutilización de información del sector público (ISP) mediante técnicas automáticas de procesamiento del lenguaje natural (PLN).

Entre 2006 y 2007 se desarrolló la primera fase del proyecto con el objetivo de desarrollar una tecnología de búsqueda y crear una interfaz única que permitiera un acceso homogéneo al gran volumen de información pública (Big Data) que se recogía en los distintos boletines oficiales. Entonces, y aún en la actualidad, esta información se encuentra dispersa en un gran número de páginas webs de boletines oficiales con funcionalidades y formatos muy diferentes.

Desde 2009 en adelante, se trabajó en la segunda fase del proyecto que contemplaba la investigación y el desarrollo de nuevas herramientas que permitiesen extraer información del extraordinario volumen de datos (big data) disponibles en el sector publico (ISP) e investigar nuevas formas de presentar y distribuir esta información para conseguir mejorar su puesta en valor.

iboof 2018

Como resultado de esta segunda fase del proyecto, iboof.com se renueva y cambia su imagen corporativa con un toque más moderno e innovador. Esta nueva interfaz se caracteriza por ser más dinámica, visible y navegable. Su objetivo es mostrar una web más minimalista y sencilla. De esta forma, la experiencia en la navegación por iboof.com es más accesible y explícita, únicamente con la información más relevante para los usuarios.

Actualmente, en su afán por una evolución constante, tiene pendiente ampliar iboof.com con nuevas funcionalidades. El objetivo de esta ampliación es desarrollar tecnologías para que el proyecto de Información del Sector Publico (ISP) sea a nivel Europeo. Esto supondría un gran cambio cualitativo para este motor de búsqueda gratuito ya que abarcaría un gran abanico de búsquedas de información pública (open data) a nivel internacional.