Pandora Papers: triunfo de la ciencia de datos

A continuación se cuenta cómo incidió la ciencia de datos para desentrañar la compleja trama de los Pandora Papers. 

13 de octubre, 2021

 

Vivimos en un mundo dominado por la información. Hoy, quien más información tiene y mayor capacidad de procesarla para convertirla en conocimiento aplicable, es el que obtiene ventajas estratégicas únicas. Ello es posible gracias a las nuevas tecnologías ligadas a la ciencia de datos como el big data, la inteligencia artificial y el aprendizaje automático, entre otras.

 

De acuerdo con Wikipedia, la ciencia de datos, muy en boga en nuestros días, “es un campo interdisciplinario que involucra métodos científicos, procesos y sistemas para extraer conocimiento o un mejor entendimiento de datos en sus diferentes formas, ya sea estructurados o no estructurados”.

 

Gracias a estos avances tecnológicos se ha podido procesar y encontrar nuevo conocimiento y hallazgos entre una inmensa cantidad de datos disponibles dispersos y difíciles de procesar. Es el caso del reciente escándalo denominado Pandora Papers, la mayor colaboración de la historia de periodistas de diferentes países para denunciar el uso de paraísos fiscales por figuras públicas y potentados de diferentes lugares del mundo.

 

Este esfuerzo de investigación, coordinado por el Consorcio Internacional de Periodistas de Investigación (ICIJ por sus siglas en inglés), sumó “a más de 600 periodistas de 150 medios de comunicación en 117 países” (https://bit.ly/3v3nt7u). 

 

Esta compleja investigación aprovechó la filtración de registros confidenciales de 14 proveedores de servicios profesionales para ¨esconder¨ recursos financieros a través de compañías fantasmas, fideicomisos, fundaciones y otras entidades en jurisdicciones con impuestos bajos o nulos; que servían a sus clientes para “ocultar sus identidades al público y, a veces, a los reguladores, para abrir cuentas bancarias en países con una regulación financiera ligera”.

 

¿Cómo fue posible lograr resultados en un andamiaje tan complejo y disperso de información en diferentes entidades y países? Estamos hablando de “2.94 terabytes de datos en forma de documentos, imágenes, correos electrónicos, hojas de cálculo y más. Los más de 11.9 millones de registros no estaban estructurados en gran medida. Más de la mitad de los archivos (6.4 millones) eran documentos de texto, incluidos más de 4 millones de archivos PDF, algunos de los cuales ocupaban más de 10 000 páginas. Los documentos incluían pasaportes, extractos bancarios, declaraciones de impuestos, registros de constitución de empresas, contratos inmobiliarios y cuestionarios de diligencia debida” (https://bit.ly/3BAcQeU)

 

Las labores técnicas para procesar este mundo de información fue extraordinaria: “Primero, se tuvo que identificar los archivos que contienen información sobre el beneficiario real y estructurar esos datos. Combinaron hojas de cálculo individuales en hojas de cálculo maestras. Para archivos PDF o de documentos, ICIJ utilizó lenguajes de programación como Python para automatizar la extracción y estructuración de datos siempre que fuera posible. Para casos más complejos, el ICIJ utilizó el aprendizaje automático y otras herramientas como los software Fonduer y Scikit-learn para identificar y separar ciertos formularios de documentos más largos.

 

Después de filtrar y estructurar los datos, la plataforma de investigación Linkurious Enterprise y la base de datos gráfica Neo4j pudieron ayudar a los periodistas a buscar, explorar y visualizar fácilmente esta enorme cantidad de datos¨.

 

Un triunfo más de la tecnología, en este caso de la ciencia de datos, que nos abre el optimismo sobre las posibilidades de sacarle provecho a la inmensa cantidad de información y datos disponibles en Internet. Este ejemplo puede inspirar a muchos profesionales y expertos. Ojalá que así sea.

 

Contacto: www.marcopaz.mx, [email protected], Twitter: @marcopazpellat, www.facebook.com/MarcoPazMX, www.ForoCuatro.tv y www.ruizhealytimes.com

 

Comentarios


author avatar
Marco Antonio Paz Pellat
Se especializa en temas de planeación y evaluación de políticas públicas, diseño de estrategias de innovación gubernamental y en el diseño estratégico del uso de las tecnologías de la información y comunicaciones. Ha escrito Política 2.0: La reinvención ciudadana de la política; Redes sociales: La nueva oportunidad; 111 Ideas por un México mejor; y recientemente Política Social en México: avances recientes y retos pendientes. Fue Subsecretario de Prospectiva, Planeación y Evaluación en la SEDESOL. Sito Web: www.marcopaz.mx / www.ForoCuatro.tv /www.ruizhealytmes.com Twiter: @marcopazpellat Facebook: Marco Paz
Leer textos complejos y escribir a mano: las únicas tecnologías que garantizan el aprendizaje profundo

Leer textos complejos y escribir a mano: las únicas tecnologías que garantizan el aprendizaje profundo

La historia de la evolución humana está indisolublemente ligada a la de la tecnología. Cada nueva herramienta facilita o permite alcanzar nuevas...

mayo 5, 2026
La IA y el Programador: ¿Una Nueva Era o el Comienzo del Fin?

De los test vocacionales al análisis de datos: elegir estudios en la era de la IA

Luis Angel Tapia Aneas Profesor UVA, Universidad de Valladolid Elegir qué estudiar siempre ha sido una decisión complicada, pero hoy lo es...

abril 20, 2026




Más de categoría
ANDROID SHOW 2026: GOOGLE QUIERE QUE GEMINI PIENSE Y ACTÚE POR TI

ANDROID SHOW 2026: GOOGLE QUIERE QUE GEMINI PIENSE Y ACTÚE POR TI

Google acaba de dejar muy claro hacia dónde quiere llevar Android… y honestamente, ya no parece solamente un sistema...

mayo 15, 2026
Brown hamster highlighted in a red circle over a grayscale microscopic background of round cells.

Así escapa el hantavirus al control del sistema inmunitario: ¿cómo puede evitarse?

Narcisa Martínez Quiles | Catedrática de Inmunología (UCM) y Especialista en Inmunología (Ministerio de Sanidad), Universidad Complutense de Madrid...

mayo 13, 2026
¿Cuánto pesan las nubes? El gran problema energético de normalizar el uso de IA

¿Cuánto pesan las nubes? El gran problema energético de normalizar el uso de IA

Durante años hemos hablado de “la nube” como si los datos flotaran en un espacio limpio, abstracto y casi...

mayo 12, 2026
¿De verdad se ha descubierto el “vínculo literal” entre la mente y el cuerpo?

¿Dónde nace la atención? La neurociencia tiene la respuesta

Es tal la avalancha de estímulos sensoriales que recibimos cada día que procesarlos todos del mismo modo sería no...

mayo 11, 2026