- Detecta y extrae metadatos de más de mil tipos de archivos de diferentes formatos con esta herramienta útil para la indexación y el análisis de contenido.
- Además de proporcionar extracción de contenido y metadatos es capaz de identificar idioma.
Apache Tika es un framework de análisis y detección de contenido escrito en Java y administrado por Apache Software Foundation. Se trata de un kit de herramientas que detecta y extrae metadatos y contenido de texto de más de mil tipos y formatos de archivos diferentes, tales como Word, Excel, PDF, JPG ó Mp4, por ejemplo. Además de proporcionar una biblioteca de Java, proporciona extracción de contenido, extracción de metadatos y capacidad de identificar idioma.
Mientras que Tika está escrito en Java, se usa ampliamente en otros idiomas. El servidor RESTful y la herramienta CLI permiten que los programas que no son de Java accedan a la funcionalidad de Tika.
[Tweet «Tika es útil para la indexación de motores de búsqueda, el análisis de contenido, la traducción, …»]
Todos los archivos multimedia y basados en texto se pueden analizar mediante una interfaz común, lo que convierte a Tika en una biblioteca potente y versátil para el análisis de contenido. Tika es utilizada tanto por instituciones financieras como FICO y Goldman Sachs, por la NASA como por investigadores académicos. Tambien, es utilizada por los principales sistemas de gestión de contenido -como Drupal- para analizar grandes cantidades de contenido y hacerlos accesibles en formatos comunes, utilizando técnicas de recuperación de información.
Tika y el periodismo de datos: los Papeles de Panamá
Ya como parte de la historia del periodismo de datos, el 4 de abril de 2016, la revista Forbes publicó un artículo donde identificaba a Tika como una de las tecnologías clave utilizadas por más de 400 periodistas para analizar millones de documentos filtrados. Este grupo de periodistas de diferentes países sacaban a la luz el escándalo internacional en el que líderes mundiales almacenaban dinero en sociedades offshore. Gracias a esta tecnología, fue posible detectar nombres entre miles de documentos y extraer información relevante para la sociedad. Estos famosos documentos filtrados, al grupo de periodistas de datos para analizarlos y el proyecto en sí, se les conoce como los Papeles de Panamá o Panamá Papers
Tal como se describe en el artículo de Forbes sobre los Papeles de Panamá:
«Todo el software utilizado fue de código abierto, ajustado para satisfacer las necesidades de los reporteros. La herramienta de búsqueda, que permite a los reporteros buscar nombres como Putin o lugares como las Islas Vírgenes Británicas, se basó en Apache Solr, utilizada por una gran cantidad de organizaciones de búsqueda intensiva, incluida DuckDuckGo, una herramienta enfocada en la privacidad. Solr se combinó con el Tika de Apache, un software de indexación que puede analizar diferentes tipos de archivos, ya sean archivos PDF o correos electrónicos como en los Papeles de Panamá, extrayendo el texto de los datos no esenciales.»
– Thomas Brewster en «From Encrypted Drives To Amazon’s Cloud — The Amazing Flight Of The Panama Papers» 05.04.2016
0 comentarios