Tag: periodismo de datos

google journalist studio periodismo de datos

Desde proyectos de investigación a largo plazo que exponen irregularidades hasta análisis de noticias de última hora sobre decisiones judiciales importantes, el periodismo de datos a menudo se basa en colecciones gigantes de documentos, imágenes y grabaciones de audio. Los periodistas se enfrentan con una decisión difícil: hacerlo solos y que tome semanas, reclutar a un equipo de colegas o intentar escribir un programa para extraer los datos.

¿Cómo sería si pusiéramos lo mejor de la tecnología de la búsqueda, inteligencia artificial y machine learning de Google en manos de los periodistas? Este es el resultado: Journalist Studio, un conjunto de herramientas que utiliza tecnología para ayudar a los periodistas a hacer su trabajo de manera más eficiente, segura y creativa, y un nuevo producto para periodistas de la región de Latinoamérica.

Journalist Studio se compone de 13 herramientas enfocadas al análisis  de datos y su visualización para hacer más fácil la labor de investigación a periodistas de datos. Entre estas herramientas, destacamos las siguientes:

  • Programa de Protección Avanzada. Este programa protege a los usuarios que tienen alta visibilidad e información sensible y que estén en riesgo de recibir ataques intencionados online. Se añaden protecciones nuevas automáticamente para hacer frente a la amplia gama de amenazas que hay hoy en día. Más  información.
  • The Common Knowdledge Project. Para explorar, visualizas y compartir datos sobre temas importantes en unacomunidad local, creando gráficos propios a partir de miles de millones de puntos de datos públicos. Más información.
  • Data Commons. Es un repositorio de open data que combina datos públicos utilizando entidades comunes mapeadas. Incluye herramientas para explorar y analizar fácilmente datos en diferentes conjuntos de datos sin necesidad de limpiar o unir datos. Más información.
  • Pinpoint. Subir y analizar una gran cantidad de documentos con el poder de la Búsqueda de Google, la Inteligencia Artificial y el aprendizaje automático. Más adelante nos centramos en este herramienta.
  • Fact check Explorer. Buscar resultados de verificación de hechos en la web sobre un tema o una persona. Más información.
  • Flourish. Herramienta para la visualización de los datos utilizando plantillas personalizadas. Más información.

En el listado anterior hemos citado Pinpoint. Una plataforma para ayudar a los reporteros a revisar rápidamente entre cientos de miles de documentos, identificando y organizando automáticamente a las personas, organizaciones y ubicaciones mencionadas con mayor frecuencia. En lugar de pedir a los usuarios que presionen repetidamente «Ctrl+F», la herramienta ayuda a los periodistas a utilizar la Búsqueda de Google y el gráfico de conocimiento, el reconocimiento óptico de caracteres y las tecnologías de voz a texto para buscar en archivos PDF escaneados, imágenes, notas escritas a mano, correos electrónicos y archivos de audio.

pintpoint_journalist studio_periodismo de datos
Pinpoint ya ha demostrado ser útil para proyectos de investigación como el informe de USA TODAY sobre 40.600 muertes relacionadas con COVID-19 vinculadas a hogares de ancianos y la mirada de Reveal sobre el “desastre de las pruebas” de COVID-19 en los centros de detención de ICE, así como un artículo del Washington Post sobre la crisis de los opioides. La velocidad de esta herramienta también ayudó a los reporteros con proyectos a corto plazo como el análisis de Rappler, con sede en Filipinas, de los informes de la CIA de la década de 1970, y situaciones de noticias de última hora, como la verificación rápida de hechos de Verificado MX, con sede en México, de las actualizaciones diarias del gobierno sobre la pandemia.
Pinpoint está disponible ahora y los periodistas ya pueden registrarse para solicitar acceso. La herramienta permite cargar y analizar documentos en siete idiomas: inglés, francés, alemán, italiano, polaco, portugués y español. Para impulsar la colaboración, también Google se ha asociado con The Center for Public Integrity, Document Cloud, el programa Big Local News de la Universidad de Stanford y The Washington Post para crear colecciones públicas compartidas, disponibles para todos los usuarios. El próximo jueves 23 de octubre Google a las 18.00 am (España) realizará desde Youtube un streaming para que los periodistas interesados puedan participar de un entrenamiento sobre Pinpoint:

  • Detecta y extrae metadatos de más de mil tipos de archivos de diferentes formatos con esta herramienta útil para la indexación y el análisis de contenido.
  • Además de proporcionar extracción de contenido y metadatos es capaz de identificar idioma.

apache tika

Apache Tika es un framework de análisis y detección de contenido escrito en Java y administrado por Apache Software Foundation. Se trata de un kit de herramientas que detecta y extrae metadatos y contenido de texto de más de mil tipos y formatos de archivos diferentes, tales como Word, Excel, PDF, JPG ó Mp4, por ejemplo. Además de proporcionar una biblioteca de Java, proporciona extracción de contenido, extracción de metadatos y capacidad de identificar idioma.

Mientras que Tika está escrito en Java, se usa ampliamente en otros idiomas. El servidor RESTful y la herramienta CLI permiten que los programas que no son de Java accedan a la funcionalidad de Tika.

Todos los archivos multimedia y basados ​​en texto se pueden analizar mediante una interfaz común, lo que convierte a Tika en una biblioteca potente y versátil para el análisis de contenido. Tika es utilizada tanto por instituciones financieras como FICO y Goldman Sachs, por la NASA como por investigadores académicos. Tambien, es utilizada por los principales sistemas de gestión de contenido -como Drupal- para analizar grandes cantidades de contenido y hacerlos accesibles en formatos comunes, utilizando técnicas de recuperación de información.

Tika y el periodismo de datos: los Papeles de Panamá

Ya como parte de la historia del periodismo de datos, el 4 de abril de 2016, la revista Forbes publicó un artículo donde identificaba a Tika como una de las tecnologías clave utilizadas por más de 400 periodistas para analizar millones de documentos filtrados. Este grupo de periodistas de diferentes países sacaban a la luz el escándalo internacional en el que líderes mundiales almacenaban dinero en sociedades offshore. Gracias a esta tecnología, fue posible detectar nombres entre miles de documentos y extraer información relevante para la sociedad. Estos famosos documentos filtrados, al grupo de periodistas de datos para analizarlos y el proyecto en sí, se les conoce como los Papeles de Panamá o Panamá Papers

Tal como se describe en el artículo de Forbes sobre los Papeles de Panamá:

«Todo el software utilizado fue de código abierto, ajustado para satisfacer las necesidades de los reporteros. La herramienta de búsqueda, que permite a los reporteros buscar nombres como Putin o lugares como las Islas Vírgenes Británicas, se basó en Apache Solr, utilizada por una gran cantidad de organizaciones de búsqueda intensiva, incluida DuckDuckGo, una herramienta enfocada en la privacidad. Solr se combinó con el Tika de Apache, un software de indexación que puede analizar diferentes tipos de archivos, ya sean archivos PDF o correos electrónicos como en los Papeles de Panamá, extrayendo el texto de los datos no esenciales.»

– Thomas Brewster en «From Encrypted Drives To Amazon’s Cloud — The Amazing Flight Of The Panama Papers» 05.04.2016

new-york-times_periodismo-computacional

De un tiempo a este, nuestro Blog ITelligent viene desarrollando publicaciones en torno al Periodismo Computacional, también conocido como Periodismo de Datos. La primera publicación «Nuevo Symposium COMPUTATION + JOURNALISM 2016″ en la Universidad de Standford versó sobre la celebración del mayor evento del mundo sobre ésta temática, el segundo El periodismo a muerto, viva el periodismo computacional ofrece una sinopsis sobre la situación del sector de la prensa y lo que podría ofrecer la implementación del Periodismo de Datos a los medios. Nuestro tercer post Periodismo Computacional & The Guardian. El escándalo de los gastos parlamentarios británicos analizaba un caso práctico, y de éxito, de su uso por parte de un gran tabloide.

Esta cuarta publicación sobre Periodismo de Datos nace con la intención de establecer los cuatro pilares básicos del nuevo periodismo de cara a la integración del concepto de periodismo de datos o periodismo computacional en las redacciones de los equipos periodísticos, en definitiva, los aspectos fundamentales a tener en cuenta para beneficiarse de las oportunidades para crear y ampliar contenidos que ofrecen los desarrollos tecnológicos:

No otorgar un carácter experimental o alejado de las redacciones al equipo de periodistas de datos.

Los periodistas computacionales deben de estar cerca de la redacción para potenciar la interrelación, nada ilógico teniendo en cuenta que ambos grupos están formados por periodistas con el objetivo de informar y captar la atención del público, pero que se sirven de herramientas y metodologías diferentes. Además, la retroalimentación debe ser una constante. El hecho de la cercanía física genera relaciones siempre en pro de la mejora constante y el fomento del trabajo en equipo. Estar en el eje de influencia de la redacción te convierte en parte de la redacción, de no ser así, no existes para los engranajes fundamentales del medio. El flujo de dicha presencia debe ser continuo y bidireccional, los equipos de analistas de datos son por naturaleza periodistas y no dejan de estar en su hábitat. Establecer carta de naturaleza a que la redacción y el equipo de datos puedan proponer y ejercer influencia en las noticias así como a que los periodistas de la redacción sepan en todo momento que les pueden ofrecer y en que le puede ayudar su equipo de investigadores de datos.

Sinergia interna entre el equipo de periodistas y desarrolladores de software

Si en el primer punto destacábamos la necesidad de proximidad entre las salas de redacción y el equipo de periodismo de datos, no es menos importante la sinergia interna entre el equipo de investigadores de datos y los desarrolladores de software y no sólo por la necesidad de entendimiento entre ambos para la mejora de la identificación y el análisis de datos interesantes, sino por la búsqueda de una mejora constante en los procesos de trabajo de los equipos, y la ambición de los proyectos. Experiencias de éxito dentro de equipos de investigadores de datos, se han producido a partir de no sólo la colaboración sino del aprendizaje mutuo de conocimientos de otras parcelas no propias. Potenciar la interconexión para así crear periodistas más completos. Tender a hablar un idioma común para poder exprimir todo el potencial del Periodismo Computacional.

BBC UK Datablog

Imag.1 BBC News UK, Datablog. «Fallecidos en cada calle de UK entre 1999-2010«

 

Identificar el perfil de periodista con conocimientos en mineria de datos, codificación y desarrollo.

Promover lo antes posible la adaptación dentro del departamento de Recursos Humanos, para así saber y poder identificar el perfil más conveniente de periodistas y desarrolladores que se demanda, especialistas que aúnen experiencia en periodismo convencional y a la vez en minería de datos, codificación y desarrollo. Ese capital humano será fundamental de cara a la consecución de objetivos. La carrera por la adaptación el periodismo de datos nace de la adquisición de capital humano muy específico. A todo lo anterior debe añadirse la apuesta de los «rotativos» por apostar por la formación adaptativa del mayor porcentaje posible de su plantilla, todo ello se puede llevar a cabo tanto a través de cursos formativos como también mediante el rol de formadores de los profesionales especialistas en la materia. Conjugar la contratación de especialistas con la adaptación de los propios trabajadores. La transformación digital debe ser vista como algo atractivo y necesario, superar los debates estériles que se producen ante los grandes cambios, dejar atrás la prensa en su modelo clásico y subirse a la constante  Transformación Digital. Se podría aludir a la clásica frase «Cambiar para que nada cambie» pero debido a la situación del sector periodístico con respecto a tiempos mejores es «Cambiar para volver a ser lo que fuimos».

Valor añadido al Periodismo

En último lugar, destacar la importancia de saber perfectamente transmitir que el periodismo de datos no es simplemente un nuevo camino para la elaboración de noticias, sino valor añadido para el sector, una oportunidad que no puede dejar pasar la diezmada prensa, algunos medios llevan años acumulando éxitos a través de estar a la vanguardia y conocer las potencialidades que ofrece. Tan importante es saber con qué datos debemos trabajar como transmitir al receptor de manera clara y sencilla lo que generan esos datos y su importancia. Este nuevo periodismo genera su mayor impacto  en el mundo web, hacia donde se ha movilizado la inversión en publicidad, aunque de sus métodos también se beneficia la prensa escrita (Imag. 2) a través de atractivas infografías y estadísticas en sus artículos. El ROI debe ser motivo principal para aumentar la inversión en dicho departamento, el retorno no es simplemente de carácter financiero sino que se refleja también en los lectores. Vivimos en una constante revolución y pensar que en materia de lectores eso no ocurre e intentar tratarlos como tratamos a sus antepasados es un error. El periodismo de datos entre muchos de sus atractivos posee el de hacer sentir participes del medio a sus lectores. La fidelización se obtiene a partir de ofrecer contenido de calidad que capte la atención de los lectores exigentes que pueden a su vez devolver información útil a través de sus comentarios y acciones. La creación de redes de usuarios en torno a un medio ya sea mediante comentarios, participación o el establecimiento de una comunidad en torno al grupo periodístico.

Mortalidad de la armada británica por Florence Nightingale

Imag. 2 Mortalidad de la armada británica por Florence Nightingale

Fuentes: