Tag: datos abiertos

En los últimos años, Google ha apostado por múltiples iniciativas basadas en open data, desde Google Dataset Search para la localización de datos abiertos publicados en repositorios de las administraciones públicas hasta sus propios sistemas de open data con conjuntos de datos estandarizados y legibles por máquinas para ser utilizados por sistemas de Machine Learning. Todas estas iniciativa desarrolladas por Google se enmarcan dentro de un portfolio de proyectos de investigación e innovación llamado Google Research, donde no solo ha apostado por la publicación de datasets, si no que el propio Google actúa también como reutilizador de datos públicos. A continuación, os exponemos algunos ejemplos de las soluciones de Google basadas en open data.

GOOGLE DATA SEARCH: Buscador de Datos

Como antes mencionábamos, Google ha puesto a disposición de los usuarios decenas de conjuntos de datos estandarizados y legibles por máquinas para ser utilizados por sistemas de Machine Learning. Sin embargo, la apertura de datos no es suficiente si éstos no son fáciles de encontrar. Por este motivo, Google ofrece Google Dataset Search, un motor de búsqueda especializado en encontrar conjuntos de datos abiertos almacenados en cientos de repositorios asociados a instituciones públicas de todo el mundo, haciendo que sean accesibles y útiles de forma universal. El servicio está dirigido a periodistas, investigadores, estudiantes o cualquier ciudadano interesado en encontrar ciertos datos. Asimismo, Google Dataset Search complementa a Google Scholar, buscador de investigaciones, estudios e informes académicos.

google-dataset-search

Existe, además, un servicio adicional de datos abiertos enfocado al periodismo de datos: Journalist Studio. Una plataforma compuesta de 13 herramientas enfocadas al análisis de datos para facilitar la labor de investigación a periodistas de datos. En un post anterior ahondamos en este servicio, puedes consultarlo aquí.

GOOGLE EARTH: Sistema de Información Geográfica (SIG)

Google Earth es un Sistema de Información Geográfica (SIG) que muestra el globo terráqueo de forma virtual  con imágenes por satélite y en relieve en 3D.  Este SIG fue creado bajo el nombre de EarthViewer 3D por la compañía Keyhole, financiada por la CIA (EE.UU) y comprada en 2004 por Google -de ahí su actual nombre- absorbiendo la aplicación. Google Earth está compuesto por una superposición de imágenes obtenidas por fotografías aéreas, imágenes de satélites, información geográfica procedentes de modelos de datos SIG de todo el mundo y modelos creados por ordenador.

Google Earth soporta datos geoespaciales tridimensionales mediante los archivos Keyhole Markup Language (.kml). Este formato de archivo sirve para mostrar datos geográficos en un navegador terrestre, como Google Maps y Google Earth.  Asimismo, los archivos .kml se pueden crear para identificar ubicaciones, agregar superposiciones de imágenes y exponer datos enriquecidos de nuevas formas. KML se trata de un estándar internacional mantenido por OGC.

Actualmente, en la nueva actualización en 2021, Google Earth ofrece la posibilidad de ver la Tierra en una dimensión totalmente nueva bajo la función Timelapse. A partir de 24 millones de fotos satélites tomadas en los últimos 37 años, Google ofrece ver cómo ha pasado el tiempo por lugares de todo el mundo y presenciar casi cuatro décadas de cambios planetarios.

GOOGLE TRANSLATE: Sistema de Traducción Automática (NMT)

En 2016, Google anunciaba la actualización de Google Translate con el sistema de Traducción Automática Neural (NMT por sus siglas en inglés, neural machine translation), basada en el algoritmo Phrase-Based Machine Translation. Desde entonces y con los avances en Inteligencia Artificial, Google ha mejorado sus capacidades en reconocimiento de voz y reconocimiento de imágenes. Sin embargo, mejorar la traducción automática sigue siendo un objetivo desafiante ya que el sistema no se iguala al nivel de calidad que se obtiene con una traducción realizada por un ser humano experto en el campo de la traducción, sobre todo, en el caso de los idiomas más minoritarios, por lo que siguen realizando ajustes y avances.

Google no hace públicos los datos exactos que utiliza para el entrenamiento del sistema. Sin embargo, en su informe «Sistema de traducción automática neuronal de Google: superando la brecha entre la traducción humana y la automática» sí destacan que han realizado pruebas de referencia con dos corpus disponibles públicamente: WMT’14 English-to-French y WMT´14 English-German.

OTRAS INICIATIVAS DE GOOGLE RESEARCH

Google ha desarrollado otras iniciativas como la predicción del tiempo y el pronóstico de precipitación basados en modelos de computationally intensive physics (como HRRR de National Oceanic and Atmospheric Administration) para producir pronósticos a corto plazo de hasta ocho horas, con una mayor resolución temporal y espacial. Esto es, no solo conocer la predicción meteorológica en tu ciudad (ej. en Madrid) sino en un área en concreto (ej. en el Parque de El Retiro) gracias a estos modelos de Machine Learning.

Otro ejemplo, a raíz de la Covid19, ha sido la puesta en marcha la reutilización de datos centrados en la movilidad, como son los informes de movilidad local. Estos informes sirven para descubrir cómo han cambiado los desplazamientos de una comunidad debido a la pandemia actual -éstos pueden descargarse tanto en formato .pdf como .csv para su reutilización-. Asimismo, en un post anterior, mostrábamos una actualización de Google Maps (2020) en la que implementaban una nueva capa en sus mapas para conocer la incidencia de la Covid19 en un destino en concreto. Esta capa mostraba la media de casos de coronavirus de los últimos 7 días por cada 100.000 personas así como una etiqueta donde se indica si la tendencia de nuevos casos es al alza o a la baja.

googlemaps-data-covid19

El Open Data es una práctica que tiene la intención de disponer de unos tipos de datos de forma libre para todo el mundo, sin restricciones de derecho de autor, patentes u otros mecanismos. Su objetivo es que estos datos puedan ser consultados, redistribuidos y reutilizados libremente por cualquiera, respetando siempre la privacidad y seguridad de la información.

¿Qué es un dataset (conjunto de datos)?

Un Dataset es un conjunto de datos que se han agrupado de manera específica para poder ser utilizados posteriormente. Podría ser similar a una tabla de una base de datos, es decir, un conjunto de datos en bruto que se organizan en datasets para ser localizados e indexados fácilmente.

Los formatos de datos más utilizados son:

  • CSV Valores Separados por Coma.
  • XML Lenguaje Etiquetado Extensible.
  • RDF Infraestructura para Descripción de Recursos.
  • JSON JavaScript Object Notation

Además de éstos, existen muchos tipos de formatos menos generalizados. Para poder acceder a estos datos, se suele utilizar una serie de protocolos como RSS (Sindicación Realmente Sencilla), ODA (Open Data Protocol), WFS, entre otros.

¿Por qué se liberan los datos? ¿Cómo se liberan los datos? 

Liberar los datos es un gran recurso. Muchas de las personas y organizaciones reúnen una gran cantidad de variedades de diferentes tipos de datos para llevar a cabo sus tareas. Un caso importante es el Gobierno, por la cantidad y centralidad de datos que reúne, pero también porque la mayor parte de la información gubernamental es pública por ley (Ley 37/2007),  por lo tanto, es abierta y se pone a disposición de terceros. Con toda esta información libre se puede beneficiar las administraciones públicas, los usuarios y las empresas. Algunos ejemplos sería: la creación de valor con la reutilización de la información pública, facilitar la ordenación interna de los sistemas de información dentro de las Administraciones; o también fomentar la interoperabilidad entre servicios del sector público. La interoperabilidad es la capacidad que tienen diferentes sistemas y organizaciones para trabajar juntos.

La liberación de datos supone también un potencial económico, para desarrollar nuevos productos, servicios y mercados que logren un mayor desarrollo económico. Un ejemplo de cómo se liberan los datos es el World Wide Web Consortium (W3C). Es un sistema de distribución de documentos de hipertexto o hipermedios interconectados y accesibles vía Internet. Con un navegador web, un usuario puede visualizar sitios web compuestos de páginas web que pueden contener textos, imágenes, vídeos u otros contenidos multimedia y navegar a través de esas páginas utilizando hiperenlaces.

¿Qué es RISP?

RISP son las siglas de “Reutilización de la Información del Sector Público”. El Open Data tiene como objetivo principal la reutilización de la información. Por eso el sector público quiere subir la información en bruto a plataformas abiertas, facilitando su acceso y permitiendo su reutilización tanto a particulares como a empresas para fines comerciales o no. El sector público produce una gran variedad de información que es potencialmente reutilizable, como puede ser la información social, económica, geográfica, estadística, etc.

Principios del Open Data.

Para asegurar que se está hablando de Datos Abiertos es necesario que cumplan los siguientes principios:

  • Igual entre las administraciones
  • Públicos
  • Abiertos y estándares
  • Detallados
  • Actualizados
  • Accesibles
  • Automatizados
  • Sin registro
  • Libres

BENEFICIOS DEL OPEN DATA

El fin de esta iniciativa es que la información pueda ser redistribuida y reutilizada tanto por los ciudadanos como por empresas que reporten beneficios económicos y/o sociales.

BENEFICIOS EMPRESAS

Con los datos abiertos las empresas pueden crear servicios y aplicaciones a partir de datos libres de derechos generados por la Administración.

Estos datos generan un nuevo mercado y sectores basados en los contenidos digitales que ayudan a la creación de un bienestar y la posibilidad de dar servicios añadidos al ciudadano. Fomentando la competitividad entre las empresas y creando que las PYMES sean mejores.

BENEFICIOS PARA EL CIUDADANO

Una de las ventajas para los ciudadanos es el acercamiento a los principios de gobierno abierto  la transparencia. Son capaces de escuchar y entabla una conversación con sus ciudadanos.

El uso de los datos públicos puede generar diversas aplicaciones y nuevos servicios que doten de un valor social y mejoren la vida, de los ciudadanos y sus puestos de trabajos.

Supone un gran paso para la transparencia informativa. Los ciudadanos pueden tener una visión más clara de las acciones y servicios de su Administración, además de cómo se está invirtiendo su contribución y gestionando los recursos públicos.

BENEFICIOS PARA LA ADMINISTRACIÓN PÚBLICA.

Uno de los beneficios que tiene el Open Data en las administraciones Públicas es la de reducir los costes de la realización de costosas aplicaciones que ahora pueden diseñar las empresas infomediarias. Las empresas infomediarias proporcionan un control de información esto generan un valor económico de la reutilización de datos. También una reducción de costes entre administraciones por el uso del mismo tipo de datos. Es más fácil obtener nuevos usos al combinarlos.

La colaboración de los ciudadanos, ayuda a mejorar los servicios públicos con contenido generados por ellos mismo o ideas e iniciativas creadas y promovidas por ellos o nuevas aplicaciones creadas a partir de datos liberados. El intercambio de datos por las administraciones locales o regionales con otros gobiernos ayudan a tener un resultado más eficiente en su funcionamiento, comunicación,  transparencia entre los diferentes niveles, disminuyendo la carga de trabajo de los empleados, al mejorar la colaboración entre ello.

Directorio de Open Data por Comunidades Autónomas:

Andalucía Región de Murcia
Extremadura Castilla La Mancha
Comunidad de Madrid Comunitat Valenciana
Catalunya Euskadi
Aragón Navarra
La Rioja Principado de Asturias
Cantabria Galicia
Islas Canarias Illes Balears

NETOPENDATA

NetOpendata es una herramienta que facilita el acceso a datos del sector público y open data. Se trata de un servicio para acceder a la información de forma estructurada –ordenada por ITELLIGENT- a partir de datos desestructurados –desordenados-.

¿Qué tipo de datos públicos puedes obtener con NetOpendata? Boletines Oficiales, Patentes, Marcas, Ayudas, Nombres Comerciales, Contrataciones y Licitaciones. Toda esta información se estructura para puedas utilizarlo de forma fácil y sencilla en tu empresa o para que puedas montar servicios innovadores a partir de estos datos.

Por otro lado, en ITELLIGENT nos adaptamos a las necesidades de cada uno de nuestros clientes por lo que si tu empresa requiere otros datos diferentes a los que aporta NetOpendata o desea enlazar los datos de nuestro software con otras fuentes, también somos especialistas en hibridación de datos.

 NetOpendata_ITELLIGENT_OPEN DATA