Les dades massives (big data)

Font de la imatge: Wikimedia commons

En el sector de les tecnologies de la informació i la comunicació, les dades massives es refereixen al conjunt de dades que pel seu volum, la seva naturalesa i la velocitat a què han de ser processades ultrapassen la capacitat dels sistemes informàtics habituals; són dades experimentals, observacionals o generades de manera computacional.

En l’era digital la quantitat de dades que s’han de gestionar és cada vegada més gran, més heterogènia i més valuosa. Segons IBM, el 90% de les dades existents al món han estat creades durant els dos últims anys. 1). Per tant, es plantegen els reptes de la sistematització, l’emmagatzematge, la reutilització i l’obertura a la societat. A més, representen una oportunitat de negoci per a les empreses i una oportunitat de millora en la prestació de serveis per a l’Administració.

En el context de les administracions públiques és un concepte molt relacionat amb les dades obertes (Open data), ja que en els programes de transparència per posar a l'abast de la ciutadania gran quantitat d'informació són necessaris mètodes i eines d'anàlisi, de processament i de presentació de dades d'un gran volum i en constant creixement.

Per a Diego Duchowney (Schibsted) les dades massives són el cercle virtuós que es genera de tres fenòmens: l'extensió de l'ús del mòbil, la reducció del preu del gigabyte d'emmagatzematge i la connectivitat.2)

L'IDESCAT (Institut d'Estadística de Catalunya) va presentar l'octubre de 2015 el Manifest de les dades en ocasió del Dia Mundial de l'Estadística convocat per l'ONU amb la intenció de conscienciar les administracions i la societat que una utilització correcta de les dades pot fer aparèixer moltes i diverses oportunitats en diferents ordres de la vida social i econòmica del país.

Oportunitats

Una frase que es repeteix en els cercles econòmics i en les organitzacions és que "Les dades són el petroli del segle XXI". D'una banda, es contemplen com un motor de creixement i com un generador de noves oportunitats de negoci; de l'altra, com a sistema per a millorar la qualitat dels serveis i augmentar la transparència.

En àmbits com la sanitat o l'esport, l'accés al coneixement proporcionat per l'anàlisi de multitud de dades redundarà en beneficis per als ciutadans.

En aquest nou panorama calen nous perfils professionals, noves habilitats directives i, també, noves infraestructures, protocols i responsabilitats, perquè les dades són un material sensible.

Riscos

Les empreses, les institucions i els individus produeixen contínuament una gran quantitat d'informació, una informació que revela moltes coses sobre els hàbits, els moviments o les preferències de productes o d'oci. En el moment d'utilitzar la targeta de crèdit, o descarregar i fer servir una aplicació per al mòbil, o escrivint un comentari en el mur d'alguna xarxa social, quan es fa una transacció de comerç electrònic o quan es porta un dispositiu que mesura el pols mentre es fa esport.

El rastre digital que tothom que es mou per la xarxa va deixant és una quantitat enorme de dades que queden emmagatzemades en algun servidor, que poden ser processades, i que anirà creixent en el futur.

Degut a la informació que proporciona el mòbil, les companyies poden saber no ja si algú està consumint el seu producte sinó en quin moment del dia i en quin lloc ho fa (gràcies a la georeferenciació). I segons això, orientar l'estratègia de comunicació o comercial, per exemple. Per aquest motiu, alguns experts es refereixen a les dades massives com un fenomen “disruptiu”.

La captació i anàlisi de les dades planteja debats sobre la privacitat i ús correcte de la informació. En una entrevista a L'Econòmic, la directora de l'Autoritat Catalana de Protecció de les Dades, Maria Àngels Barbarà, advertia de la necessitat de garanties pel risc que el descontrol ens porti a una societat més desigual.3)

Mineria de dades

Tècnica informàtica que consisteix a analitzar un gran volum d'informació emmagatzemada en diferents bases de dades a fi de deduir patrons de coneixement que puguin generar aplicacions pràctiques.4)

La mineria de dades engloba tot un conjunt de tècniques encaminades a l'extracció de coneixement processable, implícit en les bases de dades.

Les bases de la mineria de dades es troben en la intel·ligència artificial i en l'anàlisi estadística. Mitjançant els models extrets utilitzant tècniques de mineria de dades s'aborda la solució a problemes de predicció, classificació i segmentació de memòria.

Aquestes tècniques tenen diverses aplicacions en la vida quotidiana, per exemple en la detecció de fraus en les targetes de crèdit, en l'estudi de la genètica humana, en l'anàlisi dels hàbits de compres o de les audiències televisives, o en els models de comportament a Internet, entre altres.

Les tècniques de la mineria de dades provenen d'un procés d'investigació que porta molt temps experimentant. Hi ha tres tecnologies que hi han contribuït decisivament:

  • La recol·lecció massiva de dades
  • L'existència de computadores potents amb multiprocessadors
  • La creació d'algorismes de mineria de dades

Qualsevo procés de mineria de dades passa per unes fases establertes:

  1. Filtrat de les dades
  2. Selecció de variables segons l'objectiu del projecte
  3. Extracció de coneixement, a partir de l'anàlisi i el processament de les dades.
  4. Interpretació i avaluació

Informació extreta de: