Apache Tika, un kit de herramientas de análisis de contenido

Post sobre:

Escrito por:

Martel, Jaime

06/03/2019

Detecta y extrae metadatos de más de mil tipos de archivos de diferentes formatos con esta herramienta útil para la indexación y el análisis de contenido.
Además de proporcionar extracción de contenido y metadatos es capaz de identificar idioma.

apache tika

Apache Tika es un framework de análisis y detección de contenido escrito en Java y administrado por Apache Software Foundation. Se trata de un kit de herramientas que detecta y extrae metadatos y contenido de texto de más de mil tipos y formatos de archivos diferentes, tales como Word, Excel, PDF, JPG ó Mp4, por ejemplo. Además de proporcionar una biblioteca de Java, proporciona extracción de contenido, extracción de metadatos y capacidad de identificar idioma.

Mientras que Tika está escrito en Java, se usa ampliamente en otros idiomas. El servidor RESTful y la herramienta CLI permiten que los programas que no son de Java accedan a la funcionalidad de Tika.

[Tweet «Tika es útil para la indexación de motores de búsqueda, el análisis de contenido, la traducción, …»]

Todos los archivos multimedia y basados en texto se pueden analizar mediante una interfaz común, lo que convierte a Tika en una biblioteca potente y versátil para el análisis de contenido. Tika es utilizada tanto por instituciones financieras como FICO y Goldman Sachs, por la NASA como por investigadores académicos. Tambien, es utilizada por los principales sistemas de gestión de contenido -como Drupal- para analizar grandes cantidades de contenido y hacerlos accesibles en formatos comunes, utilizando técnicas de recuperación de información.

Tika y el periodismo de datos: los Papeles de Panamá

Ya como parte de la historia del periodismo de datos, el 4 de abril de 2016, la revista Forbes publicó un artículo donde identificaba a Tika como una de las tecnologías clave utilizadas por más de 400 periodistas para analizar millones de documentos filtrados. Este grupo de periodistas de diferentes países sacaban a la luz el escándalo internacional en el que líderes mundiales almacenaban dinero en sociedades offshore. Gracias a esta tecnología, fue posible detectar nombres entre miles de documentos y extraer información relevante para la sociedad. Estos famosos documentos filtrados, al grupo de periodistas de datos para analizarlos y el proyecto en sí, se les conoce como los Papeles de Panamá o Panamá Papers

Tal como se describe en el artículo de Forbes sobre los Papeles de Panamá:

«Todo el software utilizado fue de código abierto, ajustado para satisfacer las necesidades de los reporteros. La herramienta de búsqueda, que permite a los reporteros buscar nombres como Putin o lugares como las Islas Vírgenes Británicas, se basó en Apache Solr, utilizada por una gran cantidad de organizaciones de búsqueda intensiva, incluida DuckDuckGo, una herramienta enfocada en la privacidad. Solr se combinó con el Tika de Apache, un software de indexación que puede analizar diferentes tipos de archivos, ya sean archivos PDF o correos electrónicos como en los Papeles de Panamá, extrayendo el texto de los datos no esenciales.»

– Thomas Brewster en «From Encrypted Drives To Amazon’s Cloud — The Amazing Flight Of The Panama Papers» 05.04.2016

Otras entradas de esta categoría

Espacios de datos: qué son y por qué son necesarios

Open Data

¿Por qué son necesarios los espacios de datos? Hoy en día, hay sectores donde es requisito...

Caso de uso ChatGPT: cómo contestar preguntas sobre un repositorio documental propio.

Big Data e Inteligencia Artificial

Nuestra plataforma netITELLIGENT dispone de un potente buscador sobre aquellos repositorios...

iPredice, un ejemplo de aplicación de Inteligencia Artificial para el mantenimiento predictivo de infraestructuras energéticas

Digitalización Ciclo del Agua

ITELLIGENT, en consorcio con Grupo Energético de Puerto Real, Wattabit y Universidad de Cádiz,...

« Entradas más antiguas

ITELLIGENT

Apache Tika, un kit de herramientas de análisis de contenido

Otras entradas de esta categoría

Espacios de datos: qué son y por qué son necesarios

Caso de uso ChatGPT: cómo contestar preguntas sobre un repositorio documental propio.

iPredice, un ejemplo de aplicación de Inteligencia Artificial para el mantenimiento predictivo de infraestructuras energéticas

¿Quieres aportar nueva información o hacernos un comentario?

0 comentarios

Enviar un comentario Cancelar la respuesta

Síguenos

Contacto

TELÉFONO	(+34) 910 783 660
EMAIL	info@itelligent.es
OFICINA CENTRAL	Parque Tecnológico CEEI Calle Manantial, 13, 11500 El Puerto de Santa María Cádiz – ESPAÑA