Una empresa que gestiona big data para la CIA manejará también los datos mundiales de alimentación y pobreza

El Consorcio Internacional de Periodistas de Investigación (conocido por sus siglas en inglés ICIJ) acaba de poner a disposición de periodistas, investigadores y activistas una nueva herramienta, DataShare, que permite analizar y conectar informes largos y tediosos, así como documentos en diferentes formatos, como fotografías y PDF, con unos pocos clics. DataShare se basa en parte en la tecnología que el grupo de investigación desarrolló para analizar los Papeles de Panamá, por ejemplo. Una buena noticia.

Los periodistas estábamos pensando en sus posibles aplicaciones cuando nos cayó una losa informativa: la empresa de software financiada por la CIA e involucrada en tareas de inteligencia y contratos con el Ejército de Estados Unidos para diversas agencias de US, Palantirhabía firmado un acuerdo con el Programa Mundial de Alimentos de la ONU (conocido como WFP) para analizar datos. Estamos hablando de los datos de 90 millones de personas muy vulnerables que el WFP ayuda a sobrevivir de diversas partes del mundo azotadas por guerras, hambrunas y desastres.

Las reacciones de los activistas que trabajan en el terreno de la protección de datos y privacidad se produjeron inmediatamente. Un grupo de 62 organizaciones, iniciativas y personas relevantes enviaron una carta abierta a David Beasley, director del WFP, y a varios de sus colegas para expresar su alarma y demandar que, entre otras cosas:

– Dé a conocer los términos del acuerdo en una muestra de transparencia y se comprometa a ser transparente con los contratos que firme con empresas privadas en el futuro.

– Divulgue información tanto sobre el proceso que llevó a la decisión de comprometerse con Palantir, como sobre la evaluación que acredita que Palantir cumple con las Directrices de Negocios y Derechos Humanos de la ONU.

– Establezca un panel independiente para revisar el plan del proyecto y las salvaguardas.

– Tome todas las medidas necesarias para enmendar el acuerdo a fin de garantizar la privacidad y la seguridad de las personas a las que presta servicios el WFP.

¿Por qué la alarma? Para empezar, el WFP está dirigido por David Beasley, partidario del presidente de los Estados Unidos, Donald Trump; irónicamente, Trump ha estado reduciendo las contribuciones de los EEUU a la ONU. Las tácticas predatorias de Palantir para captar datos y código han llamado ya la atención.

En 2011, una empresa llamada I2 Inc demandó a Palantir alegando que había obtenido ilícitamente su algoritmo. Al final Palantir acordó pagar a 12 Inc unos 10 millones de dólares. También en 2011, Anonymous reveló un plan, que involucra a Palantir, para atacar a WikiLeaks. Palantir terminó disculpándose por su participación en el plan. Y en 2018, Christopher Wylie, un directivo de Cambridge Analytica (la compañía que obtuvo los datos de Facebook de 50 millones de votantes de EEUU), respondió en una investigación parlamentaria en el Reino Unido que los empleados de Palantir habían obtenido los datos en el “centro del escándalo de privacidad” que involucraba a Facebook. Palantir primero negó cualquier contacto con Cambridge Analytica, pero luego admitió que uno de sus empleados sí se había comunicado con dicha empresa. Este es el tipo de compañía con la que se asocia la agencia de la ONU.

Las 62 organizaciones que han firmado la carta a Beasley aseguran que algunos riesgos que conlleva este acuerdo incluyen:

– Desanonización. Cuando se fusionan y analizan grandes conjuntos de datos aunque sean anonimizados, que es la base del modelo de negocio de Palantir, se puede llegar a la identificación de las personas detrás de ellos. Incluso cuando los datos se almacenan por separado, el “efecto mosaico” presenta un riesgo. Una investigación de Harvard  indica que las formas tradicionales de privacidad y anonimización de datos que se centran en  eliminar información personal de los datos son “insostenibles e ineficaces”.

– Parcialidad. Otro riesgo involucra el uso de algoritmos para lanzar alarmas de “posible uso indebido”. El problema es que, para analizar los datos de WFP, seguramente Palantir usará sus propios algoritmos que (como todos los algoritmos) pueden contener sesgos. Pero es imposible saber qué sesgos pueden incorporarse a estos modelos. Se sabe que el filtrado algorítmico tiene un alto riesgo de incorporar sesgos y produce resultados de confiabilidad variable,  especialmente en el contexto de los datos relativos a poblaciones muy diversas.

– Derechos de datos. La última declaración del WFP indica que conserva el control total sobre los datos, el análisis y los resultados. Sin embargo, no explica qué significa “control” en un sentido legal, o si ese control incluye los algoritmos, datos con los que se les “entrena”, o inferencias hechas por tales modelos.

– Costos futuros: Si bien el acuerdo puede ahorrar dinero a corto plazo, también se deben evaluar los costos a largo plazo. Los costos de usar el sistema pueden aumentar con el tiempo, como lo experimentan otros clientes de Palantir, quienes se han quejado sobre la política de precios opacos de Palantir.

– Perjuicio de los principios humanitarios. El acuerdo puede socavar los principios humanitarios fundamentales del WFP. Por ejemplo, el WFP es un signatario de los Principios para el Desarrollo Digital, que establecen el uso transparente, inclusivo y equitativo de la tecnología.

– Transparencia y rendición de cuentas. Nada se ha compartido de forma transparente sobre el proceso en el que el WFP se ha comprometido con Palantir. Dada la gravedad de estas preocupaciones, la construcción de controles transparentes, tales como auditorías de terceros, adquisiciones abiertas y transparencia de contratos, parece esencial, dado el mandato que tiene el WFP de  defender la protección de los derechos humanos en todo el mundo.

Los gigantes Goliat siempre dominarán el panorama tecnológico; pero ¿tenemos que darles también acceso e información sobre las personas vulnerables que dependen de los programas de alimentos del WFP? Es verdad que las agencias de la ONU tienen enormes presiones de sus donantes para parecer y ser eficientes. Pero ¿no sería mejor que la ONU desarrollara herramientas propias, que pueda controlar, con organizaciones sin afán de lucro que compartan los valores de transparencia? No puedo dejar de preguntarme acerca de los David de este mundo que, como ICIJ, están tratando de utilizar la infraestructura de datos (es decir, el hardware, el software y los procesos necesarios para transformar los datos en valor) para aumentar la transparencia y la responsabilidad de los poderosos. El acuerdo entre Palantir y WFP suena como pedirle al despiadado Goliat que gobierne con justicia, responsabilidad y empatía.

Playing with data and its consequences

Stefania Milan and I have just published a new article at First Monday about the consequences of “playing with data” for activists. Check it out.

Abstract:

The fundamental paradigm shift brought about by datafication alters how people participate as citizens on a daily basis. “Big data” has come to constitute a new terrain of engagement, which brings organized collective action, communicative practices and data infrastructure into a fruitful dialogue. While scholarship is progressively acknowledging the emergence of bottom-up data practices, to date no research has explored the influence of these practices on the activists themselves. Leveraging the disciplines of critical data and social movement studies, this paper explores “proactive data activism”, using, producing and/or appropriating data for social change, and examines its biographical, political, tactical and epistemological consequences. Approaching engagement with data as practice, this study focuses on the social contexts in which data are produced, consumed and circulated, and analyzes how tactics, skills and emotions of individuals evolve in interplay with data. Through content and co-occurrence analysis of semi-structured practitioner interviews (N=20), the article shows how the employment of data and data infrastructure in activism fundamentally transforms the way activists go about changing the world.

Good Data are Better Data

By Miren Gutierrez

This report was originally published by the Institute of Network Cultures

Good Data ProjectAre big data better data, as Cukier argues? In light of the horror data and AI stories we witnessed in 2018, this declaration needs revisiting. The latest AI Now Institute report describes how, in 2018, ethnic cleansing in Myanmar was incited on Facebook, Cambridge Analytica sought to manipulate elections, Google built a secret [search?] engine for Chinese intelligence services and helped the US Department of Defence to analyse drone footage [with AI], anger ignited over Microsoft contracts with US’s Immigration and Customs Enforcement (ICE) use of facial recognition and internal uprisings arose over labour conditions in Amazon. These platforms’ data-mining practices are under sharp scrutiny because of their impact on not only privacy but also democracy. Big data are not necessarily better data.

However, as Anna Carlson assures, “the not-goodness” of data is not built-in either. The new book Good Data, edited by Angela Daly, Kate Devitt and Monique Mann and published by the Institute of Network Cultures in Amsterdam, is precisely an attempt to demonstrate that data can, and should, be good. Good (enough) data can be better not only regarding ethics but also regarding technical needs for a given piece of research. For example, why would you strive to work with big data when small data are enough for your particular study?

Drawing on the concept of “good enough data”, which Gabrys, Pritchard and Barratt apply to citizen data collected via sensors, my contribution to the book examines how data are generated and employed by activists, expanding and applying the concept “good enough data” beyond citizen sensing and the environment. The chapter examines Syrian Archive –an organization that curates and documents data related to the Syrian conflict for activism— as a pivotal case to look at the new standards applied to data gathering and verification in data activism, as well as their challenges, so data become “good enough” to produce evidence for social change. Data for this research were obtained through in-depth interviews.

What are good enough data, then? Beyond FAIR (findable, accessible, interoperable and reusable),  good enough data are data which meet standards of being sound enough in quantity and quality; involving citizens, not only as receivers, but as data gatherers, curators and analyzers; generating action-oriented stories; involving alternative uses of the data infrastructure and other technologies; resorting to credible data sources; incorporating verification, testing and feedback integration processes; involving collaboration; collecting data ethically; being relevant for the context and aims of the research; and being preserved for further use.

Good enough data can be the basis for robust evidence. The chapter compares two reports on the bombardments and airstrikes against civilians in the city of Aleppo, Syria in 2016; the first by the Office of the UN High Commissioner for Human Rights (OHCHR) and the second by Syrian Archive[1]. The results of the comparison show that both reports are compatible, but that the latter is more unequivocal when pointing to a Russian participation in the attacks.

Based on 1,748 videos, Syrian Archive’s report says that, although all parties have perpetrated violations, there was an “overwhelming” Russian participation in the bombardments. Meanwhile, the OHCHR issued a carefully phrased statement in which it blamed “all parties to the Syrian conflict” of perpetrating violations resulting in civilian casualties, admitting that “government and pro-government forces” (i.e. Russian) were attacking hospitals, schools and water stations. The disparity in the language of both reports can have to do more with the data that these organizations employed in their reports than with the difference between a bold non-governmental organization and a careful UN agency. While the OHCHR report was based on after-the-event interviews with people, Syrian Archive relied on video evidence from social media, which were then verified via triangulation with other data sources, including a network of about 300 reliable on-the-ground sources.

The chapter draws on the taxonomy offered in my book Data activism and social change, which groups data-mining methods into five categories:

The chapter also looks into the data practices of several activist and non-activists groups to make comparisons with the Syrian Archive’s methods. The Table below offers a comparison among different data activist organizations’ data-mining methods. It shows the variety of data methods and approaches that data activism may engage / employ.

 

Table: Comparison of Data Initiatives by Their Origins

The interest of this exercise is not the results of the investigations in Syria, but the data and methods behind them. What this shows us is that this type of data activism is able to produce both ethically and technically good enough data to generate reliable (enough) information, filling gaps, complementing and supporting other actors’ efforts and, quoting Gabrys, Pritchard and Barratt, creating actionable evidence that can “mobilize policy changes, community responses, follow-up monitoring, and improved accountability”.

[1] The report is no longer available online at the time of writing.

Manual de fake news (III): El papel del periodismo y los medios

Algunos han olvidado que el y la periodista es la persona que vive, aplica y comparte los principios del periodismo, que, como Kovach y Rosenstiel establecieron, tiene como primera obligación la verdad, debe lealtad ante todo a la ciudadanía, mantiene su independencia frente a sus fuentes, ejerce un control independiente del poder y en su trabajo aplica el método de la verificación. Todo lo demás simplemente no es periodismo.

El periodismo es un sistema que las sociedades democráticas han creado para suministrar información veraz y relevante a la gente, generar debate y controlar al poder. Por eso habría que distinguir entre periodistas y sus imitadores e imitadoras. Esto es especialmente importante hoy porque los niveles de confianza en las instituciones europeas, especialmente en las periodísticas, es muy bajo. El índice de confianza Edelman de 2018 indica que,  en España, entre el 76 y el 80% de las personas temen que las noticias falsas se usen como “armas”, el nivel más alto en el mundo. En este índice, los medios de información están entre las instituciones que inspiran más desconfianza. Pero no todos los medios deberían experimentar el mismo descrédito porque no todos son iguales.

Hay medios periodísticos que se afanan por presentar los hechos de la manera más independiente y relevante posible. Por ejemplo,  Independent desacreditó unas fotografías que circularon por redes sociales que trataban de hacer pasar a manifestantes enfrentados en una protesta anti-Islam en Alemania en 2012 como refugiados radicalizados en Gran Bretaña en 2015. Diversos medios en nuestro entorno han establecido unidades, secciones o programas de factchecking, incluidos  “El Objetivo” (La Sexta),  “La Chistera” (El Confidencial),  “Verdad o Mentira” (InfoLibre),  Maldito Bulo y  “El Cazabulos” (eldiario.es) .

En español existen más iniciativas, incluidas  La Silla Vacía  (Colombia),  Detector de Mentiras (Estados Unidos),  Con Pruebas (Guatemala),  El Sabueso (México),  El Medio (Oriente Medio) y  Ojo Público (Perú). A nivel global, existe una asociación, la International Fact Checking Netwrok (IFCN), a la que pertenecen medios como The Washington Post y Le Monde y  Politifact  (creado por Tampa Bay Times y recientemente adquirido por el Instituto Poynter).

Algunos medios convencionales han dicho que ellos no establecen unidades de factchecking porque la verificación de hechos es, en realidad, parte del método periodístico y se debe aplicar a cualquier noticia. Sin embargo, la diferencia con estas iniciativas es que estas establecen espacios especializados en los que las mentiras se desmontan explícitamente una por una.

La preocupación por la desinformación toma más formas

Un  informe de Reuters revela, por ejemplo, que el crecimiento de las redes sociales para noticias se está ralentizando en algunos mercados y que las aplicaciones de mensajería se están volviendo más populares por ser más privadas y tender a no filtrar el contenido algorítmicamente. Según este estudio, el uso de WhatsApp para noticias está comenzando a competir con Facebook en varios mercados, entre ellos Malasia (51%), Brasil (46%) y España (32%). Además, solo una cuarta parte (24%) de las personas encuestadas piensa que las redes sociales hacen un buen trabajo al separar los hechos de la ficción.

De acuerdo con un reciente artículo de Bella Palomo y Jon Sedano, adoptar WhatsApp como herramienta de comunicación permite a los medios incrementar cualitativamente las fuentes disponibles y su tráfico, e incluso involucrar a los distintos públicos en tareas de verificación. La creación de la sección “B de Bulo” en el periódico Sur, usando WhatsApp como medio de comunicación, resultó en una mejora de la relación entre la redacción y sus públicos, dicen Palomo y Sedano. Otros medios, como Madito Bulo, tienen servicios de WhatsApp.

La encuesta de Reuters da un dato preocupante: casi un tercio de la muestra (29%) dice que a menudo o a veces evita las noticias. Es decir, no solamente los algoritmos nos encierran en pequeñas burbujas de información, también hay una parte de la población que se excluye conscientemente.

Otro problema es que los desmentidos de estas iniciativas de factchecking no tienen casi nunca el mismo eco que los propios bulos. Si la información veraz no se comparte de la misma manera que la falsedad viral, su daño no se puede contrarrestar realmente por muchas unidades de factcheckers que se funden; siempre irán por detrás.

El periodismo, sin embargo, también puede instigar e inspirar un debate sobre el papel de los y las periodistas, así como el de las plataformas, la ciudadanía, la regulación y la gobernanza de Internet. El papel del periodismo nunca ha sido más relevante.

Manual de fake news (Parte 2): los algoritmos también tienen sesgo

  • Segunda parte (aquí la primera) de un análisis sobre la propagación de informaciones falsas potenciada por los algoritmos. Se ha publicado antes en eldiario.es.
  • Son numerosos los estudios que demuestran que la probabilidad de que compartamos una información crece cuando estamos de acuerdo con ella.
  • “Aunque Internet ha brindado más oportunidades para acceder a información, los algoritmos dificultan que encontremos información desde puntos de vista críticos o diversos”, afirman expertos en sesgos cognitivos.

La inteligencia artificial permite prever en qué provincias españolas habrás más corrupción en el futuro

Los algoritmos definen la información que alcanza a cada usuario o usuaria.

 

Hay tres razones por las que las noticias basura se difunden tan rápidamente en las redes sociales, de acuerdo con Samantha Bradshaw y Philip N. Howard. La razón número uno son los algoritmos que ayudan a procesar, catalogar, seleccionar y priorizar cantidades masivas de información, pero que también permiten la personalización del contenido de forma que se crean “burbujas de filtro” que limitan los flujos de información y el intercambio transparente de ideas y perpetúan los sesgos. Básicamente, debido a estas burbujas, terminamos hablando con nuestras correligionarias acerca de los asuntos en los que ya estamos de acuerdo.

La mayor parte del filtrado de información que tiene lugar en las redes sociales no es producto de la elección consciente de los y las usuarias humanas, sino de cálculos algorítmicos de aprendizaje automático. Un sistema de aprendizaje automático es un conjunto de algoritmos que toman torrentes de datos en un extremo y escupe inferencias, correlaciones, recomendaciones y, a veces, decisiones en el otro extremo. Se trata del machine learning o el uso de técnicas estadísticas para “aprender” de forma que, basándose en datos, los algoritmos mejoran progresivamente en el cumplimiento de una tarea sin haber sido programados específicamente para ello. Esta tecnología ya es ubicua: todas las interacciones que tenemos con Facebook, Google, Amazon y otras plataformas están habilitadas por sistemas de aprendizaje automático. Estos fragmentos de código toman decisiones al personalizar el contenido y adaptar los resultados de búsqueda para reflejar nuestros intereses individuales, comportamientos pasados e incluso la ubicación geográfica.

Bradshaw y Howard dicen que la curación del contenido algorítmico tiene consecuencias importantes en la forma en que se nos ofrecen noticias online. En el periodismo convencional, periodistas humanas seleccionaban las fuentes de información, verificaban los datos y elaboraban las noticias, y sus editores (en su mayoría hombres) decidían si publicarlas o no, una función que se ha llamado en inglés gatekeeping (papel de “portero”). Los públicos decidían a qué medio acudir para informarse, pero en su mayor parte desconocían qué noticias habían sido excluidas. Ahora son los algoritmos los que determinan qué información se disemina a qué personas.

La popularidad de una noticia, el grado en que esta provoca indignación, los sesgos de confirmación y el nivel de implicación de las personas con los contenidos son cada vez más importantes para impulsar su propagación. Si se conjugan estos factores, los contenidos se vuelven virales a enorme velocidad y escala, independientemente de si son veraces o no. “Aunque Internet ha brindado más oportunidades para acceder a información, los algoritmos dificultan que encontremos información desde puntos de vista críticos o diversos”, concluyen Bradshaw y Howard.

Presentes en las redes más comunes

Numerosos estudios indican que los sesgos algorítmicos están presentes en todas las plataformas. Un ejemplo: un algoritmo de inteligencia artificial aprendió a asociar a las mujeres con imágenes de cocinas basándose en decenas de miles de fotografías de internet porque hay más mujeres que aparecen fotografiadas en cocinas en la web. No es esto solo lo más grave. Al “aprender”, el algoritmo multiplicó el sesgo presente en el conjunto de datos en los que se basó inicialmente, amplificando –no simplemente replicando— la asociación sesgada. Este trabajo de la Universidad de Virginia es uno de varios estudios que recientemente muestran que los sistemas de inteligencia artificial pueden incorporar, e incluso multiplicar, sesgos si su diseño o los datos en los que se basan no se piensan y corrigen cuidadosamente.

El movimiento "Borra Facebook" suma miles de seguidores en otras redes sociales
Cuando se juntan los sesgos mentales con los algorítmicos EFE

El segundo factor según Bradshaw y Howard es la publicidad. El modelo de negocio de las plataformas se basa en la recopilación de datos de uso y su venta a las empresas que quieren comprender mejor cómo consumimos, al tiempo que ofrecen a estas empresas la capacidad de crear y enviar mensajes personalizados a esos mismos públicos. Es por esto que las cuentas de redes sociales son “gratuitas”. Digo “gratuitas” entre comillas porque pagamos en realidad de tres formas diferentes: con nuestros datos, con nuestra atención y con nuestro dinero (e.g. a los proveedores de servicios de comunicación móvil).

Este modelo contribuye a la difusión de noticias basura de dos maneras, según Bradshaw y Howard: Primero, a través de la incentivación de contenido viral, lo que ha dado lugar a los clickbaits (literalmente “clic-cebo”) o contenido diseñado para atraer la atención, a menudo estimulando la indignación, la curiosidad o ambos, para alentar a hacer clic en un enlace a una página web. Los aspectos económicos de clickbait ayudan a explicar por qué contenidos diseñados para provocar respuestas emocionales aumentan la probabilidad, la intensidad y la duración de la implicación de usuarios y usuarias con el contenido. Es decir, los clickbaits juegan con los prejuicios de las personas y su indignación.

Segundo, a través del empoderando de algunos agentes (como por ejemplo intereses extranjeros en la última campaña electoral en los Estados Unidos) que hacen de los y las votantes objetivos potenciales con poca transparencia y nula responsabilidad.

El tercer y último factor según Bradshaw y Howard es la exposición: este sistema nos ofrece una selección cada vez más sesgada y reducida de la realidad. Mientras que los algoritmos y los anuncios filtran información, los y las usuarias también seleccionan lo que quieren ver o descartar y ahí indicen los fenómenos cognitivos.

Diversos estudios demuestran que es más probable que compartamos con nuestras redes información con la que estamos de acuerdo, reforzando cada vez más la polarización de las creencias. As su vez, este filtrado influye en cómo los algoritmos funcionan. Como consecuencia de ello, no se nos expone a una selección representativa, equilibrada o precisa de la realidad.

Desmitificando los “big data”: diez cosas que hay que saber*

El término big data se escucha hasta en la sopa. Ahora resulta que todo es big data. Pero nada más lejos de la realidad; la mayor parte de las personas que manejan y analizan datos, emplean small data. Pero ¿qué los distingue? He aquí la lista de las diez que hay que saber sobre los big data.

  1. No todo son big data

La mayor parte de los/as profesionales que usan datos se basan en small data: datos que aparecen en un volumen y formato que los hacen utilizables y analizables. Los big data, en cambio, son tan enormes y complejos que no se pueden gestionar o analizar con métodos de procesamiento de datos tradicionales.  El análisis y procesamiento de los big data, sin embargo, puede producir small data. A la vez, los small datapueden hacerse más big cuando se funden, escalan e interrelacionan para crear bases de datos mayores.

  1. !Los big data son big!

Algunos definen los big data simplemente por su volumen: son tan grandes que solo se pueden extraer, gestionar, almacenar, analizar y visualizar usando infraestructuras y métodos especiales.  Vivimos en la era de los big data, que se miden, no en terabytes, sino en petabytes y exabytes (donde peta- denota un factor de 1015y exa- de 1018).

  1. Una definición de big data habla de…

una profusión de objetos digitales y contenido online generado por usuarios/as durante sus actividades digitales, interceptación masiva de interacciones y metadatos (es decir, los datos sobre los datos), así como producto de la dataficación de la actividad humana y no humana, que es tan grande, puede ser procesada con tal velocidad, es tan variada, tiene tanto potencial económico, y muestra tal nivel de exactitud y complejidad que puede ser considerada realmente grande, y por tanto solo puede ser analizada por nuevas infraestructuras y métodos.

  1. No existe el “dato crudo” u objetivo

Como ya dijo en 2013 Lisa Gitelman en su muy citado libro “Raw Data” Is an Oxymoron: afirmar que un dato está “crudo”, es decir, desprovisto de intención, parcialidad o prejuicios, es simplemente erróneo. Los datos no surgen de la nada. La recopilación de datos y metadatos es constante, subrepticia y abarcadora: cada clic  y cada “me gusta” son almacenados y analizados en alguna parte. Estos datos son de todo menos “crudos”; no debemos pensar en ellos como un recurso natural, sino como un recurso cultural que necesita ser generado, protegido e interpretado. Los datos son “cocinados” en los procesos de recolección y uso (procesos que, a la vez, son “cocinados”); y no todo puede ser, ni es, “reducido” a los datos o “dataficado”. Por tanto, los conjuntos de datos, por muy big que sean, pueden esconder errores, vacíos y arbitrariedades.

  1. Los datos no son el “nuevo petróleo”

Ya la comparación no es muy afortunada en los tiempos del cambio climático. Pero aunque el “valor” es una de las uves asociadas a los big data (junto con volumen, velocidad, variedad, veracidad y otras palabras que empiezan con uve), los datos no son valiosos en sí mismos; hay que transformarlos en utilizables, analizables y accionables para poder extraer valor de ellos. “Limpiar datos” desestructurados y desconectados (es decir, no comparables ni relacionables) es posiblemente la tarea más ardua y desagradecida en la gestión de datos. En resumidas cuentas: los datos son la base de la información, pero no son información.

  1. No se necesitan big data para hacer buenos análisis de datos

Ahora estudiosos y estudiosas, como Jennifer  Gabrys, Helen  Pritchard y Benjamin Barratt, hablan de datos “suficientemente buenos” (good enough data). Se refieren, por ejemplo, a datos generados por personas no expertas (crowdsourced data). Estos datos pueden ser la base de potentes proyectos como algunas de las aplicaciones de la plataforma Ushahidi que han servido para organizar ayuda humanitaria y asistir a víctimas en casos de conflicto armado y desastre. En estos casos, los datos proporcionados por la gente sobre una crisis se amasan, verifican y visualizan en mapas interactivos que están revolucionando la asistencia humanitaria.

  1. Todo el mundo miente…

Los big data pueden servir para hacer estudios enormemente iluminadores. Seth Stephens-Davidowitz acaba de publicar Everybody Lies. Este libro –subtitulado algo así como: “lo que internet puede decirnos acerca de quiénes somos realmente”— es una muestra de que cómo la gente miente en las encuestas y posturea en las redes sociales, mientras que se “desnuda” cuando hace búsquedas en internet. Basado en el análisis masivo de las búsquedas en Google, otras bases de datos y sitios web, Stephens-Davidowitz descubre que la gente es mucho más racista, machista e innoble de lo que piensa o admite. Y es que los chistes racistas aumentan alrededor del 30% en el Día de Martin Luther King en los Estados Unidos, y hacer promesas “es una señal segura de que alguien no hará algo”.

  1. Y no todo el mundo tiene acceso a los big data

¿Quiénes amasan big data? Sobre todo los gobiernos (desde datos macroeconómicos o demográficos hasta datos procedentes de la interceptación de comunicaciones y la vigilancia) y las grandes corporaciones. Las revelaciones de Snowden en 2013 mostraron, por ejemplo, que los servicios de inteligencia del gobierno estadounidense, con la colaboración empresas privadas y otros gobiernos, habían establecido una tupida capa de vigilancia e interceptación datos sobre las comunicaciones de millones de personas en todo el mundo. Cathy O’Neil, en su libro Weapons of Math Destruction, muestra cómo los programas basados en big data aumentan la eficiencia de “la publicidad predatoria” y socavan la democracia. Otros estudiosos, como Sandra Braman, Zeynep Tufekciy y Seeta Peña Gangadharan, hablan de cómo los gobiernos, con la connivencia de algunas empresas, hacer perfiles, discriminan a grupos vulnerables y potencian la vigilancia indiscriminada, omnipresente y preventiva.

Por otro lado, el movimiento open data hace campaña para que los datos públicos sean abiertos, accesibles y usables. Y muchos gobiernos, grandes y pequeños como por ejemplo Irekia, se han apuntado a  abrir los cofres de sus datos, y cada vez hay más presión para que este movimiento se extienda.

  1. Los datos, big o small, no son para todo el mundo

En un alarde de entusiasmo, Simon Rogers comparó en 2012 el análisis de datos con el punk: “cualquiera puede hacerlo”. Bueno…, pues no es así exactamente. No solamente los big data no están disponibles para cualquier punk, sino que, como Daniel Innerarity señala, las herramientas para convertirlos en analizables y útiles no están al alcance de cualquiera tampoco.

  1. Sin embargo, los datos tampoco son inaccesibles

Pero las barreras para acceder tanto a datos como a las herramientas para usarlos han ido cayendo en los últimos años. Forensic Architecture, con Amnistía Internacional, ha creado un modelo interactivo de la prisión más notoria de Siria utilizando los recuerdos de los sonidos de la cárcel narrados por supervivientes que habían sido retenidos en la oscuridad. El proyecto, llamado Saydnaya: Dentro de una prisión de tortura siria, tiene como objetivo mostrar las condiciones dentro de la prisión. Cuando los datos no están disponibles, hay organizaciones que los generan. WeRobotics pone en circulación “drones comunitarios” para captar datos sobre las condiciones de los glaciares en Nepal, por ejemplo, con el objeto de analizarlos y lanzar alarmas. InfoAmazonia, entre otras cosas, ha publicado un calendario que superpone el tiempo contado por los pueblos indígenas del Río Tiquié y el tiempo medido en el calendario gregoriano, en un diálogo que nunca tuvieron antes.

Más cerca, en nuestro entorno, estudiantes del Programa universitario de postgrado “Análisis, investigación y comunicación de datos” de la Universidad de Deusto publicaron este año un informe sobre basuras marinas a nivel estatal, en colaboración con la Asociación Ambiente Europeo, que tuvo repercusión en medios y generó un debate sobre los plásticos en el mar. La empresa Bunt Planet utiliza infraestructuras de datos para trazar redes eficientes e inteligentes. Y el centro de investigación DeustoTech aplica robótica y big data para diseñar la movilidad del futuro.

Cuesta adquirir las habilidades, pero programas como el nuestro están al alcance de quien quiere echarle ganas, tiene curiosidad y está abierto/a aprender.

Miren Gutiérrez

Directora del Programa universitario de postgrado “Análisis, investigación y comunicación de datos” de la Universidad de Deusto

 

*Este post es la versión completa de un artículo publicado en Noticias de Gipuzkoa.