De bases de dades a documents

Les organitzacions basades en la gestió de la informació i les dades ja fa temps que no només basen els seus sistemes d’informació en bases de dades relacionals.

La complexitat dels diferents contenidors de dades ha augmentat al mateix ritme que les demandes de gestió de nous formats, de noves maneres de cerca i de nous sistemes d’informació. Usem registres en bases de dades relacionals, però també guardem, indexem i cerquem documents (xml, pdf, doc, odt o d’altres), vídeos, imatges o plànols, cerquem la integritat de tot document o registre i la seva perdurabilitat.

La informació necessària per al dia a dia ja no es gestiona exclusivament en aplicatius tancats ni, de manera creixent, en magatzems propis: la interacció amb d’altres actors i l’ús de magatzem externs donen molta més flexibilitat i possibilitats a tot allò que es pot fer, però compliquen enormement també la gestió de les dades.

Fitxers

Habitualment la gestió ha estat molt enfocada al dia a dia: transaccions, registres, cerques, etc., però quan el dia a dia es transforma en un volum acumulat de setmanes, mesos, anys i ja dècades, el rendiment del sistema se’n ressent. Les cerques es fan feixugues, i les còpies de seguretat s’eternitzen.

Veient l’augment de la complexitat de les dades i el volum de les mateixes, cal plantejar-se una gestió integral de les dades, i unes polítiques de conservació i tractament de la informació des d’un punt de vista de gestió més documental:

  • Cal seguir fent backups de tota una base de dades?
    • Podem trossejar els fitxers i passar els registres històrics a documents xml, cercables amb data mining
    • Podem interpretar cada registre com un document íntegre i conservar-lo com a tal?
    • I com guardaríem aleshores les relacions entre ells?
  • Exportar les dades d’una base de dades a documents individuals permetria
    • Aplicar polítiques de conservació i eliminació com quadres de classificació, una gestió més documental de la informació
    • Aplicar data mining per buscar i extreure informació, alliberant el sistema diari de la càrrega antiga
    • Alhora, eliminar l’estructura rígida de les dades podria permetre trobar noves relacions entre elles, extreure conclusions
    • Estudiar històricament els documents, nivell de col·lisió o coincidència, pas a formats no propietaris i estandardització de caràcters per preservació…

Son només algunes idees (potser equivocades), però la transformació de les empreses “informacionals” i la seva gestió amb criteris documentals, i no estrictament de tractament de la informació és un camí ja en curs.

Qualitat i conservació de les dades

És suficient el tractament i les tècniques de la ciència informàtica per garantir la qualitat i la perdurabilitat de les dades que emmagatzemem?

Històricament s’han desenvolupat teories i mecanismes per garantir la certesa i la exactitud de les dades recollides, la no repetició de les mateixes, s’han estudiat les estructures més òptimes d’emmagatzematge per cada cas i la millor manera de reflectir diferents tipus d’informació. Les formes normals de les bases de dades, els arbres B, les bases de dades relacionals o orientades a objectes o les més modernes distribuïdes, l’estudi de les relacions entre les dades, etc., ja fa molts anys que està inventat i aplicat, cada vegada més refinat i més optimitzat.

A mesura que els volums de dades han anat creixent, s’han anat desenvolupant paral·lelament noves tècniques i motors de cerca, nous índexs i millors automatismes per millorar els temps de resposta, s’han implementat mecanismes per garantir la no pèrdua de les dades (backups, redundàncies, sistemes distribuïts, replicacions de sistemes, miralls on-line) i el ràpid accés a les mateixes, s’ha guanyat en flexibilitat d’accés i ens hem tret de sobre (fins a cert punt) la tirania dels bits, ens permetem el luxe de poder dissenyar bases de dades sense haver-nos de preocupar (en excés) de com s’emmagatzemaran.

Es dissenyen sistemes que capten molta informació per la gestió de determinats processos i sistemes, i que automatitzen cada vegada més feines repetitives i faciliten la optimització de la resta de tasques.

Però és suficient tot això? Tot el tractament de les dades del que parlo dalt és eminentment sintàctic: les dades son correctes a nivell de format, i s’emmagatzema allò que el sistema necessita per als seus processos actuals, si… però es dissenyen encara els sistemes pensant de manera aïllada, des d’un punt de vista eminentment tècnic i utilitari de la informació, però no es pensa (més enllà d’algunes metadades de registre) en complimentar i enriquir la informació amb metadades que donin informació semàntica sobre l’entorn d’aquell conjunt, de manera que facilitin la conservació en un futur de la mateixes dades, o millor dit, no tant la conservació com la comprensió d’aquelles dades i per tant facilitin la integració amb d’altres, o la generació d’encara més informació a partir d’aquestes dades, ja siguin documents, estadístiques o resultats estadístics a partir de mineria de dades. Exemples podrien ser registres de modificacions, generacions d’històrics, signatura de la informació, no-repetició de les dades ja existents en altres llocs…

En resum, cal anar una mica més enllà de la gestió pura i dura de la informació actual: què fem quan una aplicació es migra? Què passa amb les dades velles? Tenen alguna validesa, més enllà del que es passa al següent aplicatiu o versió? Els documentalistes arxivers/gestors de documents ja fa temps que parlen d’aquestes qüestions i que les apliquen a la qualitat de les dades com a documents, i de la preservació i la meta-informació que els mateixos ens poden donar en un futur (la preservació dels documents a llarg termini en entorns digitals és un problema complex)

Cal preguntar-se aleshores si aquests mateixos conceptes no s’haurien d’aplicar també al disseny de les bases de dades de suport a les aplicacions, pensar des d’un primer moment ja en els resultats posteriors i les explotacions que es faran (de ben segur) d’aquelles dades, i per tant no guardar només les dades estrictament necessàries per l’aplicació en aquell moment ans també metadades, informació de registres, disposar-les de manera que es faciliti el creuament posterior amb d’altres dades o es facilitin estudis històrics evolutius i que es garanteixi també la preservació de les dades a llarg termini d’una manera no estrictament tècnica, sinó també semàntica: de què ens serviria tenir tabletes en cuneïforme si no sabem desxifrar-les? de què ens serveix saber llatí si no entenem la societat on es parlava? De la mateixa manera, de què ens serviria tenir conjunts de dades dels quals no sabríem com han evolucionat perquè guarden només una instantània de la informació, no l’evolució històrica, per exemple?

Aquest, a més, és un problema diferent del fet de cercar en quantitats ingents d’informació (la tan actual big data, abans mineria de dades): cercar dades, creuar-les i extreure’n nous resultats, generar nova informació, és important, és clar. Però per tal que la informació resultant d’aquestes operacions tingui qualitat, la informació original, la que nosaltres estem deixant en aquest moment, també ha de tenir-la, el que vol dir tenir en compte alguns dels punts esmentats dalt.

Això, a més, implica un canvi en la cultura de treball de les organitzacions que treballen amb la informació com a principal actiu o eina de gestió:

  • implica crear equips multidisciplinaris en la creació inicial de les bases de dades: informàtics, documentalistes, el propi gestor tradicional de la informació
  • implica que tothom es faci seus els projectes i entengui el que es demana i el que es vol treballar
  • implica una visió no tancada en les pròpies necessitats del moment si no en pensar a llarg termini: emmagatzematge, reserva, utilitat
  • implica conèixer altres sistemes d’informació que treballin amb informació relacionada per veure si els podem enriquir o ens poden aportar quelcom

En definitiva, pensar en les dades de manera no només sintàctica sino també semàntica i de conservació és el camí per garantir una bona qualitat de les mateixes ja en origen i facilitar enormement tasques posteriors de neteja i enriquiment, conservació de documents i/o conjunts autocontinguts i robustos, i per tant en la obertura al públic de dades de més qualitat, ara que s’obre el camí de l’open data i la transparència.