Reclunautas
- 7 oct 2021
- 4 Min. de lectura

#EsTendencia Pandora Papers: Python, clave en una investigación mundial con datos masivos

La noticia mundial que acapara los medios por el momento, son los descubrimientos de los bautizados como Papeles de Pandora o ‘Pandora Papers‘ que han conseguido desvelar cómo políticos y personas millonarias de todo el mundo tienen empresas offshore para evitar el pago de impuestos.

Esta investigación tiene como particularidad la gran cantidad de datos que ha tenido que investigar y cómo se ha usado la tecnología de análisis de aprendizaje automático y los lenguajes de programación para conseguir descifrar la información masiva, tal y como han desvelado los propios investigadores.

Bajo el paraguas del International Consortium of Investigative Journalists o Consorcio Internacional de Periodistas de Investigación (ICIJ, que agrupa a 280 periodistas de investigación de más de 100 países) se ha podido conocer los negocios oscuros de miles de personajes en todo el mundo, con mandatarios incluidos como el ex primer ministro británico Tony Blair, el presidente chileno, Sebastián Piñera, o el ex presidente de México, Enrique Peña Nieto que les permiten ahorrarse enormes cantidades de dinero en concepto de impuestos.

Los propios investigadores han denominado este estudio como un hecho “sin precedentes” por la inmensa cantidad de información que tenían que descifrar y han explicado cómo las tecnologías de análisis de datos y el lenguaje de programación Python han sido claves en la investigación.

Casi 3 teras de datos en varios lenguajes

Los 2,94 terabytes de datos, filtrados y compartidos con medios de comunicación de todo el mundo, llegaron en varios formatos: como documentos, imágenes, correos electrónicos, hojas de cálculo y más. En total, se recolectaron 11,9 millones de registros que “estaban en su mayoría desestructurados”, como dicen los investigadores y como se puede ver en el gráfico anterior.

Por un lado, llegaron de 14 proveedores y cada una de estas firmas tiene diferentes formas de almacenar y presentar su información, por lo que a la hora de descifrar las informaciones masivas no fue fácil el uso de un patrón que fuera igual para todos los datos.

Por su parte, más de la mitad de los archivos, 6,4 millones, eran documentos de texto, incluidos más de 4 millones de PDF, algunos de los cuales tenían más de 10.000 páginas. Los documentos incluían pasaportes, extractos bancarios, declaraciones de impuestos, registros de constitución de empresas, contratos inmobiliarios y cuestionarios de diligencia debida.

También había más de 4,1 millones de imágenes y correos electrónicos en la filtración y las hojas de cálculo constituían el 4% de los documentos, es decir, más de 467.000. Los registros también incluían presentaciones de diapositivas y archivos de audio y vídeo.

Dice el informe que “los Papeles de Pandora supusieron un nuevo reto porque los 14 proveedores tenían diferentes formas de presentar y organizar la información. Algunos organizaban los documentos por cliente, otros por varias oficinas y otros no tenían ningún sistema aparente. Un solo documento contenía a veces años de correos electrónicos y archivos adjuntos. Algunos proveedores digitalizaron sus registros y los estructuraron en hojas de cálculo; otros mantuvieron archivos en papel que fueron escaneados”.

Eran datos de más de 27.000 empresas y 29.000 de los llamados beneficiarios finales (más del doble del número de beneficiarios finales identificados en los Papeles de Panamá).

Además de todo esto, los documentos llegaron en inglés, español, ruso, francés, árabe, coreano y otros idiomas.

Cómo la tecnología dio forma a estos documentos

Estas cantidades de información, implico para los investigadores un enorme reto de poder sacar conclusiones y descubrir los secretos sin pasar años y años de estudio en esta tarea. Y las tecnologías fueron clave.

Sólo el 4% de los archivos estaban estructurados, con datos organizados en tablas (hojas de cálculo, archivos csv y algunos “archivos dbf”). Para explorar y analizar la información de los Pandora Papers, el ICIJ identificó los archivos que contenían información sobre la propiedad efectiva por empresa y jurisdicción y la estructuró en consecuencia.

En los casos en los que la información venía en forma de hoja de cálculo, el ICIJ eliminó los duplicados y los combinó en una hoja de cálculo maestra. En el caso de los archivos PDF o de documentos, el ICIJ utilizó lenguajes de programación como Python para automatizar la extracción y la estructuración de los datos en la medida de lo posible.

En los casos más complejos, el ICIJ utilizó el aprendizaje automático y otras herramientas, como los programas Fonduer y Scikit-learn, para identificar y separar formularios específicos de documentos más largos. Algunos formularios de proveedores estaban escritos a mano y en estos casos hubo que extraer la información manualmente.

Una vez extraída y estructurada la información, el ICIJ generó listas que vinculaban a los beneficiarios finales con las empresas que poseían en jurisdicciones específicas, en caso de disponer de esa información.

Tras estructurar los datos, el ICIJ utilizó plataformas gráficas (Neo4J y Linkurious) para generar visualizaciones y hacerlas buscables. Esto permitió a los reporteros explorar las conexiones entre personas y empresas a través de los proveedores.

Herramientas propias para compartir información de forma segura

Para compartir la información de forma segura con los medios de comunicación, el ICIJ usó Datashare, herramienta desarrolladda por el equipo técnico de la misma organización.

“La función de búsqueda por lotes de Datashare ayudó a los reporteros a relacionar algunas figuras públicas con los datos”, explican. El ICIJ utilizó el aprendizaje automático para etiquetar estos archivos en Datashare, permitiendo a los periodistas excluirlos de sus búsquedas.

“Nuestros 150 medios de comunicación asociados compartieron consejos, pistas y otra información de interés utilizando el I-Hub global del ICIJ, una plataforma segura de medios sociales y de mensajería”, añade la información.

Si buscas empleo IT, envía tu CV: contacto@recluit.com

También puedes llamar: 55 8614 7719

#EsTendencia Pandora Papers: Python, clave en una investigación mundial con datos masivos

Casi 3 teras de datos en varios lenguajes

Cómo la tecnología dio forma a estos documentos

Herramientas propias para compartir información de forma segura

Entradas Recientes