Big data, models i cignes negres

La cerca i anàlisi de conjunts immensos de dades sembla ser el nou gran paradigma, la nova frontera a explorar, el nou Klondike on cercar or: Sabrem més de nosaltres, podrem buscar patrons de comportament i a partir d’aquí inferir no només gustos i amistats, si no trobar patrons de comportament i xarxes de contactes. Això pot ser un caramel per les agències de publicitat, i és, indubtablement, un caramel també per les agències de seguretat.

Buscar patrons de comportament de casos comprovats i relacionar-los amb d’altres de similars, cercar xarxes de contactes, correus, canvis en els contactes i en els patrons de trucades, comportaments, desplaçaments o compres, tot és possible si disposem d’un gran conjunt de dades interrelacionades (i en disposem, això està clar). Fareed Zakaria se’n fa ressò a en un article a Time, citant les possibilitats que s’obren.

In ancient times–by which I mean a decade ago–computers would sort through random samples of data or try to create an algorithm to search for a criminal. But today, data is so readily available and computers are so fast and powerful that experts can analyze entire data sets, every last piece of information, to find needles in haystacks. As a result, they have stopped trying to figure out why something–say, crime–happens. Instead they look at crimes and notice what events or behaviors seem to precede them. In other words, the tricky work of turning information into knowledge has shifted from causation to correlation.

Big Data, Meet Big Brother. Time Magazine, July 08, 2013

Si s’enfoca des del punt de vista de la seguretat, el big data pot ser una ajuda. Segur. Però no cal perdre el bosc de vista: si ens tanquem a buscar només patrons ja existents (per més comprovats que estiguin), no serem capaços de trobar sorpreses imprevistes, els cignes negres que diu Taleb.

L’aplicació de la força bruta de càlcul, aplicant cerques sobre patrons ja coneguts i no inferint models nous de comportament poden donar una falsa sensació de seguretat, de pensar que podem saber i analitzar-ho tot… però això és sempre a posteriori. El passar de causalitat a correlació de les dades té el risc de pensar que totes dues coses son el mateix, per més que s’intenti reduir tractant grans volums de dades amb moltíssimes variables diferents: la clau és l’establiment i creació dels models: tant els usats per fer cerques com els inferits a partir dels resultats de les cerques, així com l’anàlisi posterior de tot plegat.

El big data és una gran eina, és un avenç espectacular en, per exemple, la comprovació de teories de qualsevol tipus: podem passar de comprovar una teoria amb uns quants centenars o milers de casos a comprovar-ho amb milions, el que augmenta la robustesa de la mateixa. Però no podem oblidar que, ja sigui en ciència o en la vida real, una sola prova contrària invalida tota una teoria.

Ens cal, i ens caldrà durant molt temps, la possibilitat que tenim les persones d’imaginar, de crear, de trencar els motlles d’allò establert per pensar noves coses, de trobar cignes negres (positius i negatius).

Actualització 18/7/2013: Dos dies després d’escriure aquest text trobo “Blinded By Big Data: It’s The Models, Stupid“, de Matt Asay, on parla amb uns termes similars.

2 thoughts on “Big data, models i cignes negres”

Deixa un comentari

L'adreça electrònica no es publicarà.