Sobre el ‘big data’

28.04.2020 - 05:15

Segons alguns experts (per exemple, Anderson, 2008), el mètode científic basat en hipòtesis no té futur. Hi ha qui ha proclamat la «fi de la teoria», indicant que estem en el punt de partida d’una nova etapa en la investigació científica, una etapa basada en petabytes d’informació i en les supercomputadores. El futur pertany a una nova forma d’empirisme basada en la tecnologia i les seues potents eines, incloent-hi algorismes i tècniques estadístiques molt perfeccionats. Aquestes eines són capaces de recercar en enormes quantitats de dades i recopilar informació que es puga transformar en coneixement.

Els partidaris de les dades massives defensen que aquest enfocament és revolucionari i apunten principalment dues innovacions clau. La primera és que és possible extraure patrons significatius a partir de l’anàlisi de dades. Aquests patrons s’originen directament en les dades. A conseqüència d’això, es postula un caire ateòric segons el qual no seria necessari plantejar hipòtesis, teories ni models previs. En segon lloc, en el regne de les dades massives, «la correlació és suficient» (Anderson, 2008), i no és necessari investigar els vincles causals entre variables associades. Per tant, la correlació substitueix la causalitat.

El cert és que l’arribada de les dades massives comporta vertaderes novetats de tipus tecnològic. Aquestes no es caracteritzen només pel seu volum, velocitat i varietat, sinó també pel seu abast exhaustiu i resolució detallada, i per ser molt relacionals, a més de flexibles i escalables en producció (Kitchin, 2014). Les tècniques d’aprenentatge automàtic poden extraure dades i detectar regularitats sota el supòsit que «molt del que es genera no respon a cap pregunta en particular o és un subproducte d’una altra activitat» (Kitchin, 2014, p. 2). Utilitzant un enfocament col·lectiu, es poden aplicar diversos algorismes als conjunts de dades amb l’objectiu d’optimitzar-ne el rendiment predictiu. El que s’afirma en aquest cas és que està sorgint «un enfocament epistemològic totalment nou per a donar sentit al món». De fet, «en lloc de provar una teoria analitzant dades rellevants, les noves anàlisis de dades tracten d’obtenir informació “que naix en les dades”» (Kitchin, 2014, p. 2).

No hi ha dubte que l’enfocament de dades massives està contribuint a canviar el panorama epistèmic actual. A més, les tècniques de mineria de dades també estan creant noves oportunitats per a la investigació científica. Per exemple, existeix la possibilitat de comparar centenars de genomes del càncer i, gràcies a la seqüenciació d’ADN, establir la freqüència de moltes mutacions potencialment significatives per a diferents tipus de càncer, juntament amb les seues conseqüències funcionals: això pot fins i tot contribuir al desenvolupament de noves teràpies (Golub, 2010). En termes més generals, mitjançant aquestes tècniques és possible descobrir patrons potencialment significatius en grans volums de dades, alguns dels quals haurien passat desapercebuts anteriorment a causa de la seua complexitat.

No obstant això, suposar que les dades massives representen un vertader canvi de paradigma epistemològic (almenys en el sentit que indicàvem anteriorment) és una qüestió completament diferent. De fet, no hi ha raó per a pensar que les dades massives permeten crear una nova manera de producció de coneixement en la qual els supòsits teòrics i les hipòtesis no complisquen cap paper i es puga ignorar la idea de causalitat.

Totes dues afirmacions sobre les dades massives han despertat fortes reaccions. Per exemple, atenent tant la generació com l’anàlisi de dades, observem que difícilment podem trobar una manera de crear coneixement sense necessitat de formular hipòtesis (és a dir, una manera que depenga únicament de la manipulació estadística i la inducció).

En primer lloc, les dades no sorgeixen del no-res. La filosofia de la ciència del segle XXI ha discutit extensament el paper que representen les nocions preconcebudes, començant per Karl Popper (1959, per exemple). En la seua opinió, les hipòtesis compleixen un paper essencial en la investigació científica, ja que ens indiquen què buscar i quines dades recopilar. Un altre argument conegut és la «saturació teòrica» de les dades i l’observació, és a dir, el fet que aquestes estiguen «contaminades» per presumpcions teòriques.

En realitat, la naturalesa no s’investiga a l’atzar. El que s’arriba a inspeccionar i mesurar està influït pel coneixement de fons, els interessos i les estratègies de l’investigador. Fins i tot el disseny d’experiments depèn de limitacions teòriques, metodològiques i tècniques específiques. Per tant, les dades sempre són el resultat de la interacció entre l’investigador (que pertany a una determinada escola de pensament) i el món, sempre que es complisquen les condicions materials adequades (Leonelli, 2015; Mazzocchi, 2015).

En segon lloc, les dades o les xifres no parlen per si mateixes. S’hi poden trobar regularitats significatives mitjançant computadores, però la qüestió és trobar-los una explicació. Això pressuposa l’existència d’un «marc d’anàlisi», una lent teòrica de la qual depèn com s’interpreten les dades: és ací on el paper del coneixement específic de domini resulta crucial. Boyd i Crawford (2012, p. 667) van indicar que «tots els investigadors són intèrprets de dades […]. Un model pot ser sòlid en termes matemàtics, un experiment pot semblar vàlid, però el procés d’interpretació comença així que l’investigador intenta entendre el que significa».

Diversos científics de dades, així com molts bioinformàtics en la disciplina de la biologia, pensen que entendre les estadístiques pot ser suficient per a donar sentit a les dades. Es pressuposa que els patrons són significatius per si mateixos, és a dir, que el seu significat transcendeix el context o domini, i no és necessari buscar fora de les dades. En la seua opinió, el coneixement teòric «depèn de generalitzacions reduccionistes que s’abstrauen de la realitat de manera problemàtica» (Chandler, 2015, p. 847). Per contra, l’enfocament computacional ens permetria accedir a conjunts de dades interconnectades i aconseguir una comprensió més holística –més enllà dels obstacles disciplinaris– de fenòmens complexos. No obstant això, és una mica paradoxal esperar que les dades, que s’han produït en un context concret (per exemple, la biologia), es puguen interpretar fàcilment exemptes de qualsevol context. Permeteu-me subratllar de nou aquest concepte: els coneixements específics de domini són importants.

A més, fins i tot els algorismes d’aprenentatge automàtic estan impregnats de suposicions particulars, com per exemple, què considerem un patró regular: cada algorisme té la seua pròpia manera de desenvolupar estratègies per a trobar relacions entre els conjunts de dades, i és probable que diferents algorismes troben diferents tipus de patrons (Hales, 2013). Això ho reconeixen fins i tot alguns especialistes en dades massives.

La segona afirmació –la idea que «la correlació és suficient»– exagera el valor de les prediccions realitzades a partir de correlacions. Potser hi ha circumstàncies particulars, com la publicitat, en les quals aquesta idea podria tenir sentit. No obstant això, probablement no és cert en el cas de la investigació científica.

Llig l’article complet en la web de Mètode.

Fulvio Mazzocchi. Biòleg i filòsof. Investigador de l’Institut de Ciències del Patrimoni del CNR (Roma, Itàlia). La seua activitat d’investigació se centra en l’epistemologia (pluralisme epistèmic, perspectivisme), els problemes filosòfics de la investigació científica (com el debat reduccionisme-holisme en la biologia, la validació de models climàtics o els problemes epistemològics de les dades massives) i l’organització del coneixement.

Què és Mètode?

Consentiment de dades
Us informem que les dades de caràcter personal que ens proporcioneu seran tractades per Partal Maresma i Associats S.L. com a responsable del tractament. A Partal, Maresma i Associats, S.L. utilitzem la informació que ens faciliteu per enviar-vos els butlletins d'informació de VilaWeb i de les activitats que organitzi aquest diari, sobre la base del consentiment que ens proporcioneu marcant la casella anterior. No es preveuen cessions a tercers ni transferències a tercers països. Podreu exercir els vostres drets d'accés, rectificació i limitació i suprimir les dades a l'adreça electrònica dades@vilaweb.cat, com també el dret de presentar una reclamació davant una autoritat de control. Podeu consultar la informació addicional i detallada sobre protecció de dades a la nostra política de privadesa
We use Mailchimp as our marketing platform. By clicking below to subscribe, you acknowledge that your information will be transferred to Mailchimp for processing. Learn more about Mailchimp's privacy practices here.

Sense unitat independentista apareixen els despropòsits

Sobre el ‘big data’

Recomanem

'La tertúlia proscrita': Un any després de les eleccions, com està l'independentisme?

Què hi passa, al Tribunal d’Estrasburg, amb les causes catalanes?

Javier Martínez: “Sabem la veritat del 17-A; el problema és que no la podem demostrar”

Per què l’OPA del BBVA al Banc Sabadell és perjudicial per a les pimes i els ciutadans?

Nou ciberatac per WhatsApp: així és com els ‘hackers’ accedeixen al vostre compte sense que us n’adoneu

Mas, el pacient zero de la causa general d’Espanya contra els independentistes

“M’emprenye perquè no puc fer el que feia, no tinc vida ara”: el testimoni de Juan, que va perdre la cama per la gota freda

Sánchez esvalota l’OPA hostil del BBVA al Sabadell

Illa i les servituds de governar en minoria: el govern arriba apuntalat al parlament en el primer aniversari de les eleccions

El Pacte Nacional per la Llengua se signarà demà sense la participació de Junts ni la CUP

Zelenski i Putin podrien reunir-se el 15 de maig a Istambul

Hamàs confirma negociacions “directes i avançades” amb els EUA per a un alto-el-foc

[VÍDEO] “Encara sort”: el comentari escandalós del VAR en el gol anul·lat de Fermín

Us proposem un tracte just