Big data, models i cignes negres

La cerca i anàlisi de conjunts immensos de dades sembla ser el nou gran paradigma, la nova frontera a explorar, el nou Klondike on cercar or: Sabrem més de nosaltres, podrem buscar patrons de comportament i a partir d’aquí inferir no només gustos i amistats, si no trobar patrons de comportament i xarxes de contactes. Això pot ser un caramel per les agències de publicitat, i és, indubtablement, un caramel també per les agències de seguretat.

Buscar patrons de comportament de casos comprovats i relacionar-los amb d’altres de similars, cercar xarxes de contactes, correus, canvis en els contactes i en els patrons de trucades, comportaments, desplaçaments o compres, tot és possible si disposem d’un gran conjunt de dades interrelacionades (i en disposem, això està clar). Fareed Zakaria se’n fa ressò a en un article a Time, citant les possibilitats que s’obren.

In ancient times–by which I mean a decade ago–computers would sort through random samples of data or try to create an algorithm to search for a criminal. But today, data is so readily available and computers are so fast and powerful that experts can analyze entire data sets, every last piece of information, to find needles in haystacks. As a result, they have stopped trying to figure out why something–say, crime–happens. Instead they look at crimes and notice what events or behaviors seem to precede them. In other words, the tricky work of turning information into knowledge has shifted from causation to correlation.

Big Data, Meet Big Brother. Time Magazine, July 08, 2013

Si s’enfoca des del punt de vista de la seguretat, el big data pot ser una ajuda. Segur. Però no cal perdre el bosc de vista: si ens tanquem a buscar només patrons ja existents (per més comprovats que estiguin), no serem capaços de trobar sorpreses imprevistes, els cignes negres que diu Taleb.

L’aplicació de la força bruta de càlcul, aplicant cerques sobre patrons ja coneguts i no inferint models nous de comportament poden donar una falsa sensació de seguretat, de pensar que podem saber i analitzar-ho tot… però això és sempre a posteriori. El passar de causalitat a correlació de les dades té el risc de pensar que totes dues coses son el mateix, per més que s’intenti reduir tractant grans volums de dades amb moltíssimes variables diferents: la clau és l’establiment i creació dels models: tant els usats per fer cerques com els inferits a partir dels resultats de les cerques, així com l’anàlisi posterior de tot plegat.

El big data és una gran eina, és un avenç espectacular en, per exemple, la comprovació de teories de qualsevol tipus: podem passar de comprovar una teoria amb uns quants centenars o milers de casos a comprovar-ho amb milions, el que augmenta la robustesa de la mateixa. Però no podem oblidar que, ja sigui en ciència o en la vida real, una sola prova contrària invalida tota una teoria.

Ens cal, i ens caldrà durant molt temps, la possibilitat que tenim les persones d’imaginar, de crear, de trencar els motlles d’allò establert per pensar noves coses, de trobar cignes negres (positius i negatius).

Actualització 18/7/2013: Dos dies després d’escriure aquest text trobo “Blinded By Big Data: It’s The Models, Stupid“, de Matt Asay, on parla amb uns termes similars.

Qualitat i conservació de les dades

És suficient el tractament i les tècniques de la ciència informàtica per garantir la qualitat i la perdurabilitat de les dades que emmagatzemem?

Històricament s’han desenvolupat teories i mecanismes per garantir la certesa i la exactitud de les dades recollides, la no repetició de les mateixes, s’han estudiat les estructures més òptimes d’emmagatzematge per cada cas i la millor manera de reflectir diferents tipus d’informació. Les formes normals de les bases de dades, els arbres B, les bases de dades relacionals o orientades a objectes o les més modernes distribuïdes, l’estudi de les relacions entre les dades, etc., ja fa molts anys que està inventat i aplicat, cada vegada més refinat i més optimitzat.

A mesura que els volums de dades han anat creixent, s’han anat desenvolupant paral·lelament noves tècniques i motors de cerca, nous índexs i millors automatismes per millorar els temps de resposta, s’han implementat mecanismes per garantir la no pèrdua de les dades (backups, redundàncies, sistemes distribuïts, replicacions de sistemes, miralls on-line) i el ràpid accés a les mateixes, s’ha guanyat en flexibilitat d’accés i ens hem tret de sobre (fins a cert punt) la tirania dels bits, ens permetem el luxe de poder dissenyar bases de dades sense haver-nos de preocupar (en excés) de com s’emmagatzemaran.

Es dissenyen sistemes que capten molta informació per la gestió de determinats processos i sistemes, i que automatitzen cada vegada més feines repetitives i faciliten la optimització de la resta de tasques.

Però és suficient tot això? Tot el tractament de les dades del que parlo dalt és eminentment sintàctic: les dades son correctes a nivell de format, i s’emmagatzema allò que el sistema necessita per als seus processos actuals, si… però es dissenyen encara els sistemes pensant de manera aïllada, des d’un punt de vista eminentment tècnic i utilitari de la informació, però no es pensa (més enllà d’algunes metadades de registre) en complimentar i enriquir la informació amb metadades que donin informació semàntica sobre l’entorn d’aquell conjunt, de manera que facilitin la conservació en un futur de la mateixes dades, o millor dit, no tant la conservació com la comprensió d’aquelles dades i per tant facilitin la integració amb d’altres, o la generació d’encara més informació a partir d’aquestes dades, ja siguin documents, estadístiques o resultats estadístics a partir de mineria de dades. Exemples podrien ser registres de modificacions, generacions d’històrics, signatura de la informació, no-repetició de les dades ja existents en altres llocs…

En resum, cal anar una mica més enllà de la gestió pura i dura de la informació actual: què fem quan una aplicació es migra? Què passa amb les dades velles? Tenen alguna validesa, més enllà del que es passa al següent aplicatiu o versió? Els documentalistes arxivers/gestors de documents ja fa temps que parlen d’aquestes qüestions i que les apliquen a la qualitat de les dades com a documents, i de la preservació i la meta-informació que els mateixos ens poden donar en un futur (la preservació dels documents a llarg termini en entorns digitals és un problema complex)

Cal preguntar-se aleshores si aquests mateixos conceptes no s’haurien d’aplicar també al disseny de les bases de dades de suport a les aplicacions, pensar des d’un primer moment ja en els resultats posteriors i les explotacions que es faran (de ben segur) d’aquelles dades, i per tant no guardar només les dades estrictament necessàries per l’aplicació en aquell moment ans també metadades, informació de registres, disposar-les de manera que es faciliti el creuament posterior amb d’altres dades o es facilitin estudis històrics evolutius i que es garanteixi també la preservació de les dades a llarg termini d’una manera no estrictament tècnica, sinó també semàntica: de què ens serviria tenir tabletes en cuneïforme si no sabem desxifrar-les? de què ens serveix saber llatí si no entenem la societat on es parlava? De la mateixa manera, de què ens serviria tenir conjunts de dades dels quals no sabríem com han evolucionat perquè guarden només una instantània de la informació, no l’evolució històrica, per exemple?

Aquest, a més, és un problema diferent del fet de cercar en quantitats ingents d’informació (la tan actual big data, abans mineria de dades): cercar dades, creuar-les i extreure’n nous resultats, generar nova informació, és important, és clar. Però per tal que la informació resultant d’aquestes operacions tingui qualitat, la informació original, la que nosaltres estem deixant en aquest moment, també ha de tenir-la, el que vol dir tenir en compte alguns dels punts esmentats dalt.

Això, a més, implica un canvi en la cultura de treball de les organitzacions que treballen amb la informació com a principal actiu o eina de gestió:

  • implica crear equips multidisciplinaris en la creació inicial de les bases de dades: informàtics, documentalistes, el propi gestor tradicional de la informació
  • implica que tothom es faci seus els projectes i entengui el que es demana i el que es vol treballar
  • implica una visió no tancada en les pròpies necessitats del moment si no en pensar a llarg termini: emmagatzematge, reserva, utilitat
  • implica conèixer altres sistemes d’informació que treballin amb informació relacionada per veure si els podem enriquir o ens poden aportar quelcom

En definitiva, pensar en les dades de manera no només sintàctica sino també semàntica i de conservació és el camí per garantir una bona qualitat de les mateixes ja en origen i facilitar enormement tasques posteriors de neteja i enriquiment, conservació de documents i/o conjunts autocontinguts i robustos, i per tant en la obertura al públic de dades de més qualitat, ara que s’obre el camí de l’open data i la transparència.