Vés al contingut

Mineria de dades

De la Viquipèdia, l'enciclopèdia lliure

La mineria de dades (data mining) és un procés no trivial d'identificació d'informació vàlida, nova, potencialment útil i entenible, de patrons comprensibles que es troben ocults en les dades.[1] Engloba tot un conjunt de tècniques encaminades a l'extracció de coneixement processable, implícit en les bases de dades. Està íntimament lligat a la supervisió de processos industrials, ja que resulta molt útil per aprofitar les dades emmagatzemades a les bases de dades. Les bases de la mineria de dades es troben en la intel·ligència artificial i en l'anàlisi estadística. Mitjançant els models extrets utilitzant tècniques de mineria de dades s'aborda la solució a problemes de predicció, classificació i segmentació de memòria.

Un procés típic de mineria de dades consta dels següents passos generals:

  1. Selecció del conjunt de dades, tant en el que es refereix a les variables objectiu (aquelles que es volen predir, calcular o inferir), com a les variables independents (les que serveixen per fer el càlcul o procés), com possiblement al mostreig dels registres disponibles.
  2. Anàlisi de les propietats de les dades, en especial els histogrames, diagrames de dispersió, presència de valors atípics i falta de dades (valors nuls).
  3. Transformació del conjunt de dades d'entrada: es realitzarà de diverses formes en funció de l'anàlisi prèvia, amb l'objectiu de preparar-ho per aplicar la tècnica de mineria de dades que millor s'adapti a les dades i al problema. A aquest pas també se'l coneix com a preprocessament de les dades.
  4. Seleccionar i aplicar la tècnica de mineria de dades: es construeix el model predictiu, de classificació o segmentació.
  5. Extracció de coneixement: mitjançant una tècnica de mineria de dades, s'obté un model de coneixement que representa patrons de comportament observats en els valors de les variables del problema o relacions d'associació entre aquestes variables. També poden usar-se diverses tècniques al mateix temps per a generar diferents models, encara que generalment cada tècnica obliga a un preprocessat diferent de les dades.
  6. Interpretació i avaluació de dades: un cop obtingut el model, s'ha de procedir a la seva validació comprovant que les conclusions que llança són vàlides i prou satisfactòries. En el cas d'haver obtingut diversos models mitjançant l'ús de diferents tècniques, s'han de comparar els models a la recerca d'aquell que correspon millor al problema. Si cap dels models assoleix els resultats esperats, cal alterar algun dels passos anteriors per generar nous models.

Si el model final no supera aquesta avaluació, el procés es podria repetir des del principi o, si un expert ho considera oportú, a partir de qualsevol dels passos anteriors. Aquesta retroalimentació es podria repetir les vegades que es considerés necessari fins a obtenir un model vàlid.

Un cop validat, el model estarà a punt per a la seva explotació.

Fonaments de la mineria de dades [cal citació]

[modifica]

Les tècniques de Data Mining són el resultat d'un llarg procés d'investigació. Aquesta evolució va començar quan les dades de negocis van ser emmagatzemades per primera vegada en computadores, i va continuar amb millores en l'accés a les dades, i més recentment amb tecnologies generades per a permetre als usuaris navegar a través de les dades en temps real. És possible aplicar la mineria de dades actualment gràcies a tres tecnologies que ja estan bastant madures:

  1. Recol·lecció massiva de dades
  2. Potents computadores amb multiprocessadors
  3. Algorismes de Data Mining

Fases d'un projecte de mineria de dades [cal citació]

[modifica]

Els passos a seguir per a la realització d'un projecte de mineria de dades són sempre els mateixos, independentment de la tècnica específica d'extracció de coneixement usada.

El procés de mineria de dades passa per les següents fases:

  • Filtrat de dades.
  • Selecció de variables.
  • Extracció de coneixement: mitjançant una tècnica de mineria de dades, s'obté un model de coneixement que presenta patrons de comportament observats en els valors de les variables del problema o relació d'associació entre les dites variables. També poden utilitzar-se diverses tècniques a la vegada per generar diferents models, encara que generalment cada tècnica obliga a fer un preprocessat diferent.
  • Interpretació i avaluació.

Protocol d'un projecte de mineria de dades[cal citació]

[modifica]

Un projecte de mineria de dades té diverses fases necessàries que són, essencialment:


- Comprensió del negoci i del problema que es vol resoldre.

- Determinació, obtenció i neteja de les dades necessàries.

- Creació de models matemàtics.

- Validació, comunicació, etc. dels resultats obtinguts.

- Integració, si escau, dels resultats en un sistema transaccional o similar.


La relació entre totes aquestes fases només és lineal sobre el paper. En realitat, és molt més complexa i amaga tota una jerarquia de subfases. A través de l'experiència acumulada en projectes de mineria de dades s'han anat desenvolupant metodologies que permeten gestionar aquesta complexitat d'una manera més o menys uniforme. Exemple d'ella és CRISP-DM, es creu que SEMMA és una metodologia SAS declara en la seva pàgina que aquesta NO és una metodologia

Tècniques de mineria de dades [cal citació]

[modifica]

Com ja s'ha comentat, les tècniques de la mineria de dades provenen de la Intel·ligència artificial i de l'estadística; aquestes tècniques, no són més que algorismes, més o menys sofisticats que s'apliquen sobre un conjunt de dades per obtenir uns resultats.

Les tècniques més representatives són:

  • Xarxes neuronals.- Són un paradigma d'aprenentatge i processament automàtic inspirat en la forma en què funciona el sistema nerviós dels animals. Es tracta d'un sistema d'interconnexió de neurones en una xarxa que col·labora per produir un estímul de sortida. Alguns exemples de xarxa neuronal són:
    • El perceptró.
    • El perceptró multicapa.
    • Els mapes autoorganitzats, també coneguts com a xarxes de Kohonen.
  • Regressió lineal.- És la més utilitzada per formar relacions entre dades. El model de mineria de dades representa les dades amb un únic node, que defineix la fórmula de regressió. Ràpida i eficaç però insuficient en espais multidimensionals on puguin relacionar-se més de dues variables.
  • Arbre de decisió.- Un arbre de decisió és un model de predicció utilitzat en l'àmbit de la intel·ligència artificial, donada una base de dades es construeixen aquests diagrames de construccions lògiques, molt similars als sistemes de predicció basats en regles, que serveixen per representar i categoritzar una sèrie de condicions que succeeixen de manera successiva, per a la resolució d'un problema. Exemples:
    • Algorisme ID3.
    • Algorisme C4.5.
  • Model estadístic.- És una expressió simbòlica en forma d'igualtat o equació que es fa servir en tots els dissenys experimentals i en la regressió, per indicar els diferents factors que modifiquen la variable de resposta.
  • Algorisme d'agrupament.- És un procediment d'agrupació d'una sèrie de vectors segons criteris habitualment de distància, i es tractarà de disposar dels vectors d'entrada de forma que estiguin més a prop aquells que tinguin característiques comunes.

Segons l'objectiu de l'anàlisi de les dades, els algorismes utilitzats es classifiquen en supervisats i no supervisats (Weiss i Indurkhya, 1998):

  • Algorismes supervisats (o predictius): prediuen una dada (o un conjunt d'elles) desconeguda a priori, a partir d'altres de conegudes.
  • Algorismes no supervisats (o del descobriment del coneixement): es descobreixen patrons i tendències en les dades.

Característiques [cal citació]

[modifica]

L'entorn de la mineria de dades sol tenir una arquitectura client-servidor. Les eines de la mineria de dades ajuden a extreure el mineral de la informació enterrat en arxius corporatius o en registres públics, arxivats; es combinen fàcilment i poden analitzar-se i processar-se ràpidament. La mineria de dades produeix cinc tipus d'informació:

  • Associacions.
  • Seqüències.
  • Classificacions.
  • Agrupaments.
  • Pronòstics.

Mineria de dades basada en teoria de la informació [cal citació]

[modifica]

Totes les eines tradicionals de mineria de dades assumeixen que les dades que s'usaran per a construir els models contenen la informació necessària a fi d'aconseguir el propòsit buscat: obtenir prou coneixement que pugui ser aplicat al negoci (o problema) per a obtenir un benefici (o solució).

L'inconvenient és que això no és necessàriament cert. A més, hi ha un altre problema més gros encara. Una vegada construït el model, no és possible conèixer si aquest ha capturat tota la informació disponible en les dades. Per aquesta raó la pràctica comuna és realitzar diversos models amb diferents paràmetres per veure si n'hi ha algun que destaca a l'hora d'aconseguir millors resultats.

Una visió relativament nova a l'anàlisi de dades soluciona aquests problemes fent que la pràctica de la mineria de dades s'assembli més a una ciència que a un art.

El 1948 Claude Shannon va publicar un treball titulat Una Teoria Matemàtica de la Comunicació. Posteriorment, aquesta va passar a anomenar-se Teoria de la Informació i va establir les bases de la comunicació i la codificació de la informació. Shannon va proposar una manera de mesurar la quantitat d'informació per expressar en bits.

El 1999 Dorian Pyle va publicar un llibre titulat Data Preparation for Data Mining, en el qual proposa una manera d'usar la Teoria de la Informació per analitzar dades. En aquest nou enfocament, una base de dades és un canal que transmet informació. D'una banda hi ha el món real que captura dades procedents del negoci. D'altra banda, hi ha totes les situacions i problemes importants del negoci. I la informació flueix des del món real i a través de les dades, fins a la problemàtica del negoci.

Amb aquesta perspectiva i utilitzant la Teoria de la Informació, és possible mesurar la quantitat d'informació disponible en les dades i quina proporció de dades es podrà utilitzar per resoldre la problemàtica del negoci. Com un exemple pràctic, podria trobar-se que les dades contenen un 65% de la informació necessària per a predir quins clients rescindiran els seus contractes. D'aquesta manera, si el model final és capaç de fer prediccions amb un 60% d'encert, es pot assegurar que l'eina que va generar el model va fer una bona feina capturant la informació disponible. Ara bé, si el model hagués tingut un percentatge d'encerts de només el 10%, per exemple, llavors intentar altres models valdria la pena.

La capacitat de mesurar informació continguda en les dades té altres avantatges importants.

Quan analitzem les dades des d'aquesta nova perspectiva es genera un mapa d'informació que fa innecessària la preparació prèvia de les dades, una tasca absolutament imprescindible si es desitgen bons resultats, però que necessita molt temps.

És possible seleccionar un grup de variables òptim que contingui la informació necessària per realitzar un model de predicció.

Un cop que les variables són processades amb la finalitat de crear el mapa d'informació i després seleccionades aquelles que aporten més informació, l'elecció de l'instrument que ens servirà per crear el model deixa de tenir importància, ja que la major part del treball ja s'ha realitzat en passos previs.

Aplicacions[cal citació]

[modifica]

Aquesta tècnica de processament de grans quantitats de dades té diverses aplicacions actualment en la vida quotidiana. Aquí se n'esmenten algunes:

Terrorisme

[modifica]

L'FBI analitza les bases de dades comercials per a detectar terroristes. A principis del mes de juliol de 2002, el director del Federal Bureau of Investigation (FBI), John Aschcroft, va anunciar que el Departament de Justícia començarà a introduir-se en la vasta quantitat de dades comercials referents als hàbits i preferències de compra dels consumidors, amb la finalitat de descobrir potencials terroristes abans que executin una acció.

Fraus

[modifica]

Detecció de fraus en les targetes de crèdit. El 2001, les institucions financeres a escala mundial van perdre més de 2.000 milions de dòlars nord-americans en fraus amb targetes de crèdit i dèbit. El Falcon Fraud Manager és un sistema intel·ligent que examina transaccions, propietaris de targetes i dades financeres per a detectar i mitigar fraus.

Genètica

[modifica]

Dins l'estudi de la genètica humana, l'objectiu principal és entendre la relació cartogràfica entre les parts i la variació individual en les seqüències d'ADN i la variabilitat en la susceptibilitat a les malalties. És a dir, es tractaria de saber com els canvis dins la seqüència d'ADN d'un individu afecten el risc de desenvolupar malalties comunes. Això és molt important per ajudar a millorar el diagnòstic, prevenció i tractament de les malalties. La tècnica de mineria de dades que s'utilitza per realitzar aquesta feina es coneix com a "reducció de dimensionalitat multifactorial".

Hàbits de compres

[modifica]

Un estudi molt citat va detectar que els divendres hi havia un nombre inusualment elevat de clients que adquirien alhora bolquers i cervesa. Es va detectar que es devia al fet que aquest dia solien acudir al supermercat pares joves, la perspectiva dels quals per al cap de setmana consistia a quedar-se a casa cuidant-se del seu fill i veient la televisió amb una cervesa a la mà. El supermercat va poder incrementar les seves vendes de cervesa col·locant-les pròximes als bolquers per a fomentar les vendes compulsives.

Audiències televisives

[modifica]

La British Broadcasting Corporation (BBC) del Regne Unit empra un sistema per a predir la grandària de les audiències televisives per a un programa proposat, així com el temps òptim d'exhibició (Brachman i altres, 1996). El sistema utilitza xarxes neuronals i arbres de decisió aplicats a dades històriques de la cadena per a determinar els criteris que participen segons el programa que cal presentar.

Ciència i enginyeria

[modifica]

En els últims anys la mineria de dades s'està utilitzant àmpliament en diverses àrees relacionades amb la ciència i l'enginyeria. Alguns exemples d'aplicació en aquests camps són:

Enginyeria elèctrica

[modifica]

En l'àmbit de l'enginyeria elèctrica, les tècniques "mineria de dades" han estat àmpliament utilitzades per a monitorar les condicions de les instal·lacions d'alta tensió. La finalitat d'aquest monitoratge és obtenir informació valuosa sobre l'estat de l'aïllament dels equips. Per a la vigilància de les vibracions o l'anàlisi dels canvis de càrrega en transformadors s'utilitzen certes tècniques per l'agrupació de dades (clustering) tals com els Mapes Autoorganizatius (SOM, Self-organizing map). Aquests mapes serveixen per detectar condicions anormals i per estimar la naturalesa de les esmenades anomalies.

Anàlisi de gasos

[modifica]

També s'han aplicat tècniques de mineria de dades per a l'anàlisi de gasos dissolts (DGA, Dissolved gas analysis) en transformadors elèctrics. L'anàlisi de gasos dissolts es coneix des de fa molt de temps com a eina per a diagnosticar transformadors.

Negocis

[modifica]

La mineria de dades pot contribuir significativament en el programari d'administració de la relació amb el client. En lloc de contactar amb el client de forma indiscriminada a través d'un centre d'atenció telefònica o enviant cartes, només es contactarà amb aquells que es percebi que tenen una major probabilitat de respondre positivament a una determinada oferta o promoció.

En lloc de crear models per a predir quins clients poden canviar, l'empresa podria construir models separats per a cada regió o per a cada mena de client. També pot voler determinar quins clients seran rendibles en quin moment i només enviar les ofertes a aquestes.

En general, les empreses que fan servir mineria de dades veuen ràpidament el retorn de la inversió, però també reconeixen que el nombre de models predictius desenvolupats pot créixer molt ràpidament.[cal citació]

Comportament d'Internet

[modifica]

L'anàlisi del comportament dels visitants d'una web és una altra eina -sobretot, quan són clients potencials- en una pàgina d'Internet. Aquesta informació sobre ells permet adaptar la propaganda al seu perfil. També pot ajudar a predir, una vegada que han comprat un determinat producte, quin altre producte té sentit oferir-los en analitzar la informació històrica disponible sobre els clients que han comprat el primer.

Anàlisis de comunicacions

[modifica]

El projecte Sofcivics permet analitzar els textos de les interaccions comunicatives entre ciutadans i ajuntaments per a determinar els temes que consulten els ciutadans i comprovar així si es corresponen amb allò publicat al portal de dades.[2]

Mineria de dades educativa [cal citació]

[modifica]

En el camp de la mineria de dades, es coneix com a mineria de dades educativa l'anàlisi de les dades existents en un escenari educatiu incloent-hi tant la interacció dels usuaris amb l'escenari com els resultats que obtenen aquests usuaris. Es relaciona amb analítiques d'aprenentatge perquè comparteixen el mateix objectiu: «millorar la pràctica educativa». N'és diferent perquè la mineria de dades educativa és un camp més ampli, inclou tant les dades de la interacció dels usuaris amb l'escenari com les dels resultats que obtenen.[3]

Tendències[cal citació]

[modifica]

La mineria de dades ha sofert transformacions en els últims anys[Quan?] d'acord amb els canvis tecnològics, d'estratègies de màrqueting, l'extensió dels models de compra en línia, etc. Els més importants són:

  • Els temps de resposta. El gran volum de dades que s'han de processar en molts casos per a obtenir un model vàlid és un inconvenient; això implica grans quantitats de temps de procés i hi ha problemes que requereixen una resposta ràpida.
  • La importància que han cobrat les dades no estructurades (text, pàgines d'Internet, etc.)
  • La necessitat d'integrar els algoritmes i resultats obtinguts en sistemes operacionals, portals d'Internet, etc.
  • L'exigència que els processos funcionin pràcticament en línia (per exemple, davant d'un frau amb una targeta de crèdit).

Eines de software

[modifica]

Existeixen moltes eines de software pel desenvolupament de models de mineria de dades, tant lliures com comercials, per exemple:[Cal actualitzar]

Vegeu també

[modifica]

Referències

[modifica]
  1. Fayyad i altres, 1996
  2. «El proyecto Sofcivics de la cátedra Govern Obert, seleccionado por el Desafio Aporta de Red.es». Valencia Extra, 20-07-2017 [Consulta: 15 desembre 2017].
  3. Tracking progress - MoodleDocs