Open Data per hackejar la societat

Quan parlem dels avantages de l’opendata acostumem a fer referència gairebé invariablement als beneficis socials i econòmics: a la generació de valor que se suposa que existirà a partir de la creació de productes i serveis associats a aquesta informació, o a la transparència que ofereix el fet que es publiqui la informació que genera el sector públic o la que gestiona.

Existeix, però un tercer valor que no s’esmenta normalment, i que trobo importantíssim: el coneixement del funcionament i el comportament de la societat en el seu conjunt per part de la mateixa societat, és a dir, la possibilitat de dotar de mitjans a la societat per al seu propi coneixement i gestió.

Ironia: el famós i temut profiling* pot servir per millorar els serveis físics i digitals que la mateixa administració ja intenta gestionar i administrar.

Obrir no només les dades dels salaris o de la contractació, o del número d’hospitals i adreces de farmàcies de les diferents poblacions, per exemple, si no també d’altres com volums de tràfic per hores en les carreteres i carrers del país, o hores de major afluència als centres mèdics o d’absentisme escolar o laboral, per citar-ne alguns, poden ajudar no només a planificar millors mitjans de transport i preveure necessitats futures o desequilibris entre territoris i poblacions, que ja és molt, o a generar noves oportunitats per empreses que ofereixin nous serveis.

Obrir aquest tipus de dades pot ajudar, sobretot, a dissenyar eines i algoritmes de previsió o d’anàlisi social que permetin aprofundir en el coneixement de la nostra mateixa societat per part de grups de ciutadans i activistes, o d’investigadors universitaris, que alhora generin nou coneixement obert que es posi a disposició dels altres, cosa que pot, de retruc, ajudar tant per aportar noves solucions per part dels ciutadans (individual o col·lectivament) a problemes socials o territorials com per disposar de mitjans per controlar l’acció tant del govern com de grups de pressió amb interessos concrets (o fins i tot les relacions entre aquests dos actors). Els algoritmes de perfilat d’individuals o de cerca i extracció de resultats concrets en grans volums de dades (big data) estan gairebé en exclusiva en mans de grans empreses privades que no els obren (és part del nucli del seu negoci) o d’agències de seguretat que per raons evidents tampoc no els obriran, el que fa que el coneixement sobre el nostre funcionament com a grup estigui fora del nostre abast!

Així, l’obertura de dades es dibuixa no només com un element necessari per a una major transparència i control del govern (i allunya la por de l’open data com nova moda política), si no com una eina que pot tant ajudar a la creació d’un govern realment obert i participatiu (més democràtic, per tant) com també a la generació (i recuperació) de nou coneixement i eines per al comú de la societat.

(*) El perfilat que fan les empreses que ofereixen serveis gratuits com a esquer i venen la nostra informació perfilada a venedors, actuant com agències de publicitat encobertes (també en diuen xarxes socials)
(**) Alberto Cottica (twitter, blog) va inspirar aquesta idea en un comentari fet durant la seva intervenció a la I Jornada OpenGovernment Terrassa.

Nou? O millor millor?

Finally, Sophos reported that Microsoft and FBI have taken down over 1400 botnets by disabling the software that creates them. Now, if they can just disable the people who write the software in the first place, the world will be a happier place.

Nata’s Corner a la newsletter d’ExpertsExchange de 19 de juny de 2013

Tot i coincidir amb la frase final, no m’acaba de quedar clar si quan parla de la gent que escriu software es refereix als que escriuen codi perquè el teu ordinador quedi zombie dins d’una botnet o als de les companyies (programadors o responsables, tant és) que permeten que això passi…

Com ella mateixa diu, perquè s’entesten en fer coses noves? Perquè no s’entesten en fer coses millors, que funcionin més bé? (i aquí podriem parlar també de l’encaparrament d’ubuntu amb Unity i una millor experiència d’usuari, si voleu).

Qualitat i conservació de les dades

És suficient el tractament i les tècniques de la ciència informàtica per garantir la qualitat i la perdurabilitat de les dades que emmagatzemem?

Històricament s’han desenvolupat teories i mecanismes per garantir la certesa i la exactitud de les dades recollides, la no repetició de les mateixes, s’han estudiat les estructures més òptimes d’emmagatzematge per cada cas i la millor manera de reflectir diferents tipus d’informació. Les formes normals de les bases de dades, els arbres B, les bases de dades relacionals o orientades a objectes o les més modernes distribuïdes, l’estudi de les relacions entre les dades, etc., ja fa molts anys que està inventat i aplicat, cada vegada més refinat i més optimitzat.

A mesura que els volums de dades han anat creixent, s’han anat desenvolupant paral·lelament noves tècniques i motors de cerca, nous índexs i millors automatismes per millorar els temps de resposta, s’han implementat mecanismes per garantir la no pèrdua de les dades (backups, redundàncies, sistemes distribuïts, replicacions de sistemes, miralls on-line) i el ràpid accés a les mateixes, s’ha guanyat en flexibilitat d’accés i ens hem tret de sobre (fins a cert punt) la tirania dels bits, ens permetem el luxe de poder dissenyar bases de dades sense haver-nos de preocupar (en excés) de com s’emmagatzemaran.

Es dissenyen sistemes que capten molta informació per la gestió de determinats processos i sistemes, i que automatitzen cada vegada més feines repetitives i faciliten la optimització de la resta de tasques.

Però és suficient tot això? Tot el tractament de les dades del que parlo dalt és eminentment sintàctic: les dades son correctes a nivell de format, i s’emmagatzema allò que el sistema necessita per als seus processos actuals, si… però es dissenyen encara els sistemes pensant de manera aïllada, des d’un punt de vista eminentment tècnic i utilitari de la informació, però no es pensa (més enllà d’algunes metadades de registre) en complimentar i enriquir la informació amb metadades que donin informació semàntica sobre l’entorn d’aquell conjunt, de manera que facilitin la conservació en un futur de la mateixes dades, o millor dit, no tant la conservació com la comprensió d’aquelles dades i per tant facilitin la integració amb d’altres, o la generació d’encara més informació a partir d’aquestes dades, ja siguin documents, estadístiques o resultats estadístics a partir de mineria de dades. Exemples podrien ser registres de modificacions, generacions d’històrics, signatura de la informació, no-repetició de les dades ja existents en altres llocs…

En resum, cal anar una mica més enllà de la gestió pura i dura de la informació actual: què fem quan una aplicació es migra? Què passa amb les dades velles? Tenen alguna validesa, més enllà del que es passa al següent aplicatiu o versió? Els documentalistes arxivers/gestors de documents ja fa temps que parlen d’aquestes qüestions i que les apliquen a la qualitat de les dades com a documents, i de la preservació i la meta-informació que els mateixos ens poden donar en un futur (la preservació dels documents a llarg termini en entorns digitals és un problema complex)

Cal preguntar-se aleshores si aquests mateixos conceptes no s’haurien d’aplicar també al disseny de les bases de dades de suport a les aplicacions, pensar des d’un primer moment ja en els resultats posteriors i les explotacions que es faran (de ben segur) d’aquelles dades, i per tant no guardar només les dades estrictament necessàries per l’aplicació en aquell moment ans també metadades, informació de registres, disposar-les de manera que es faciliti el creuament posterior amb d’altres dades o es facilitin estudis històrics evolutius i que es garanteixi també la preservació de les dades a llarg termini d’una manera no estrictament tècnica, sinó també semàntica: de què ens serviria tenir tabletes en cuneïforme si no sabem desxifrar-les? de què ens serveix saber llatí si no entenem la societat on es parlava? De la mateixa manera, de què ens serviria tenir conjunts de dades dels quals no sabríem com han evolucionat perquè guarden només una instantània de la informació, no l’evolució històrica, per exemple?

Aquest, a més, és un problema diferent del fet de cercar en quantitats ingents d’informació (la tan actual big data, abans mineria de dades): cercar dades, creuar-les i extreure’n nous resultats, generar nova informació, és important, és clar. Però per tal que la informació resultant d’aquestes operacions tingui qualitat, la informació original, la que nosaltres estem deixant en aquest moment, també ha de tenir-la, el que vol dir tenir en compte alguns dels punts esmentats dalt.

Això, a més, implica un canvi en la cultura de treball de les organitzacions que treballen amb la informació com a principal actiu o eina de gestió:

  • implica crear equips multidisciplinaris en la creació inicial de les bases de dades: informàtics, documentalistes, el propi gestor tradicional de la informació
  • implica que tothom es faci seus els projectes i entengui el que es demana i el que es vol treballar
  • implica una visió no tancada en les pròpies necessitats del moment si no en pensar a llarg termini: emmagatzematge, reserva, utilitat
  • implica conèixer altres sistemes d’informació que treballin amb informació relacionada per veure si els podem enriquir o ens poden aportar quelcom

En definitiva, pensar en les dades de manera no només sintàctica sino també semàntica i de conservació és el camí per garantir una bona qualitat de les mateixes ja en origen i facilitar enormement tasques posteriors de neteja i enriquiment, conservació de documents i/o conjunts autocontinguts i robustos, i per tant en la obertura al públic de dades de més qualitat, ara que s’obre el camí de l’open data i la transparència.

Prisma: els governs (també) espien

Estats Units espia els seus propis ciutadans i d’arreu del món mitjançant el programa PRISMA: furga en les dades que li proporcionen les xarxes socials i fins i tot en les xarxes de les operadores de comunicació, arreu, ho veu tot.

Ara ja no és doncs només un tema del perfilat que ens poden fer a les dades socials i la nostra activitat, de ser el producte i no el client, ara sembla que cada vegada més el somni del gran germà orwellià, el govern vigilant, el tenim aquí. Semblava que els dolents eren les empreses que trafiquen amb les nostres dades (de tot tipus) per aprofitar-se i collar-nos més i ara torna el gran dolent de sempre.

Potser per ser Estats Units ho tenim més present, crida més l’atenció. Potser també té a veure que estan en territori americà les seus i majoria de servidors de les grans xarxes socials d’abast mundial (la Xina a banda, com sempre), estan subjectes a la seva legislació i jurisdicció del govern americà, de ben segur que això ajuda… però també ho fan a la Xina (El gran firewall), a l’Aràbia Saudita, a Iran (no volien una substituta d’Internet?) i a alguns quants països més… Recorda algú ara què i a qui escoltava Echelon?

El que és sorprenent no és que s’espiï, això es fa des de sempre.

El que és sorprenent és que això no surti abans, donat el nivell de privatització i d’externalització d’aquestes tasques: feines d’alt secret i relacionades amb la seguretat nacional van a parar a mans d’empreses que no tenen cap més obligació que la d’un contracte mercantil i un de confidencialitat, però els treballadors de les quals no pertanyen al govern (se suposa que els elements de les forces de seguretat estaran més motivats per raons emocionals i patriòtiques). I per molt que les empreses ho venguin com vulguin, no tots els seus empleats tenen el mateix nivell de compromís, eficiència i responsabilitat.

Ningú sabia què estava passant? Els empleats de les empreses subcontractades no deien res? I els de Google, Facebook, Microsoft o Apple, entre d’altres, tampoc no ho sabien? Ara n’ha sortit un, i algú l’ha escoltat. Potser abans n’hi havia hagut més.

Això ens porta a un altre punt: idealitzem la societat civil enfront els governs, la innocent ciutadania enfront el pèrfid govern que espia. I mentre la seguretat està en mans del govern, aquesta imatge encara es pot mantenir: son els seus assalariats (policies, espies, militars) els que ens espien, els que entren a la nostra privacitat. Però a mesura que les agències d’intel·ligència i de seguretat estenen els seus tentacles a empreses de serveis (les coartin o no mitjançant lleis) i a mida que els programes de vigilància digital o física es subcontracten a empreses privades… la imatge d’ells contra nosaltres comença a desfer-se, a caure a miques.

Ara també som nosaltres espiant-nos a nosaltres. O, espera, això també ha passat sempre, no?

Cartografiant un nou món

Els usos que fem de la xarxa diuen molt de nosaltres, però també diuen molt de la pròpia xarxa.

Fa anys el correu, les pàgines web personals i algunes d’universitats, governs i centres de recerca eren les més habituals, les empreses tenien una presència testimonial amb una mica de text, un catàleg de productes i una presentació d’ells mateixos, a grosso modo, i no gaire cosa més. Els fòrums, xats, les llistes de correu i l’IRC eren el centre de la comunicació, i teoritzàvem sobre la conversa global. El comerç electrònic, la pirateria, les regulacions d’ús i d’accés, la ciberguerra i els interessos econòmics estaven lluny, molt lluny del paradís electrònic.

Avui en dia s’ha girat la truita: la xarxa és eminentment comercial i de serveis, el comerç electrònic mou milers de milions d’euros i la infraestructura pròpia de la xarxa ha envaït i canviat les regles del món físic, el que de retruc ha variat la pròpia configuració, ús i interessos de la xarxa. Els proveïdors d’accés no son ara els que es mengen el tros gros del pastís; les xarxes socials centralitzades son les que manen i l’aparent mobilització de la xarxa ho concentra tot en unes quantes mans, en pocs jugadors. Els interessos polítics i econòmics, la pirateria, l’ús i abús de les llibertats mal enteses de la xarxa, l’intent de repetir els controls del món real al món virtual han desdibuixat completament la xarxa original.

La pregunta és: realment l’han desdibuixada? Començo a pensar que no, que allò que ha passat és que el dibuix s’ha fet molt més complex: a un esbós inicial naïf i ben intencionat s’hi han afegit totes les llums i ombres del món real, tapant el que hi havia inicialment, o deixant-lo molt petit. La xarxa ha crescut, s’ha fet gran, i continua creixent.

Seguim cartografiant un nou món, explorant una terra incògnita que de ben segur té moltes sorpreses. I com en moltes exploracions de la nostra espècie, als primers aventurers, als que varen crear els primers assentaments, els han seguit les noves Companyies de les Índies Orientals, els nous magnats del ferrocarril, que intenten imposar la seva llei. En el món físic, el de l’economia de l’escassetat i els recursos finits, pot costar fer-los front, en el món digital, el de l’economia de l’abundància, els paradigmes de funcionament son diferents, i hem de seguir treballant perquè no ens imposin en aquest nou món les maneres de fer del vell.

I, alhora, hem de saber trobar la manera de construir-lo més just, de crear els nostres propis assentaments autoregulats, lliures i responsables. Cal seguir conversant.