Vés al contingut

Norma de classificació

De la Viquipèdia, l'enciclopèdia lliure
Les meitats esquerra i dreta contenen, respectivament, instàncies que de fet tenen, i no tenen, la condició. L'oval conté instàncies que es classifiquen (previstes) com a positives (que tenen la condició). El verd i el vermell contenen, respectivament, instàncies que estan classificades correctament (cert) i incorrectament (fals).

Donada una població els membres de la qual pertanyen cadascun a un d'un nombre de conjunts o classes diferents, una norma de classificació o classificador és un procediment pel qual es preveu que els elements del conjunt de població pertanyin a una de les classes.[1] Una classificació perfecta és aquella per a la qual tots els elements de la població s'assignen a la classe a la qual pertany realment. Una classificació imperfecta és aquella en què apareixen alguns errors, i després s'ha d'aplicar una anàlisi estadística per analitzar la classificació.[2]

Un tipus especial de regla de classificació és la classificació binària, per a problemes en els quals només hi ha dues classes.

Donat un conjunt de dades format per parells x i y, on x denota un element de la població i y la classe a la qual pertany, una regla de classificació h(x) és una funció que assigna cada element x a una classe predita. Una classificació binària és tal que l'etiqueta y només pot prendre un dels dos valors.[3]

Classificació binària i multiclasse

[modifica]

La classificació es pot considerar com dos problemes separats: la classificació binària i la classificació multiclasse. En la classificació binària, una tasca millor entesa, només hi intervenen dues classes, mentre que la classificació multiclasse implica assignar un objecte a una de diverses classes.[4] Com que molts mètodes de classificació s'han desenvolupat específicament per a la classificació binària, la classificació multiclasse sovint requereix l'ús combinat de múltiples classificadors binaris. Un punt important és que en molts problemes pràctics de classificació binària, els dos grups no són simètrics; més que la precisió general, és interessant la proporció relativa de diferents tipus d'errors. Per exemple, en les proves mèdiques, un fals positiu (detecció d'una malaltia quan no està present) es considera diferent d'un fals negatiu (no detectar una malaltia quan està present). En les classificacions multiclasse, les classes es poden considerar simètricament (tots els errors són equivalents), o asimètricament, que és considerablement més complicat.

Els mètodes de classificació binària inclouen la regressió probit i la regressió logística. Els mètodes de classificació multiclasse inclouen probit multinomial i logit multinomial.

Matriu de confusió i classificadors

[modifica]

Quan la funció de classificació no és perfecta, apareixeran resultats falsos. A l'exemple de la imatge de la dreta. Hi ha 20 punts al costat esquerre de la línia (costat veritable), mentre que només 8 d'aquests 20 eren realment certs. En una situació similar per al costat dret de la línia (costat fals), on hi ha 16 punts al costat dret i 4 d'aquests 16 punts es van marcar de manera incorrecta com a vertaders. Utilitzant les ubicacions de punts, podem construir una matriu de confusió per expressar els valors. Podem utilitzar 4 mètriques diferents per expressar els 4 resultats possibles diferents. Hi ha vertader positiu (TP), fals positiu (FP), fals negatiu (FN) i veritable negatiu (TN).[cal citació]

Referències

[modifica]
  1. Mathworld article for statistical test
  2. «Classification Rule - an overview | ScienceDirect Topics» (en anglès). https://www.sciencedirect.com.+[Consulta: 6 febrer 2023].
  3. «Lesson 9: Classification | STAT 897D» (en anglès). https://online.stat.psu.edu.+[Consulta: 6 febrer 2023].
  4. Har-Peled, S., Roth, D., Zimak, D. (2003) "Constraint Classification for Multiclass Classification and Ranking." In: Becker, B., Thrun, S., Obermayer, K. (Eds) Advances in Neural Information Processing Systems 15: Proceedings of the 2002 Conference, MIT Press. ISBN 0-262-02550-7