Edukira joan

Errore estandar

Wikipedia, Entziklopedia askea

Inferentzia estatistikoan, errore estandarra zenbatesle baten desbideratze estandarra da. Maiz lagin batezbestekoa eta proportzioa zenbatesletzat hartzean erabiltzen da, zenbatesle horiek populazio batezbestekoari eta populazio proportzioari buruz alboragabe edo zentratuak direnez, haien desbideratze estandarrak, errore estandarrak alegia, parametroari buruz puntu-zenbatespen bat egitean sortzen den batez besteko errorea adierazten baitu. Errore estandarra txikitu egiten da lagin-tamainua handitu ahala.

Zer da errore estandarra?

[aldatu | aldatu iturburu kodea]
Banaketa kurba normala, desbideratze estandarrak erakusten dituena. Banda bakoitzak desbideratze estandar bat du, eta etiketek azaleraren proportzioa adierazten dute gutxi gorabehera.

Inferentzia estatistikoan, errore estandarra (EE) zenbatesle baten desbideratze estandarra da[1]. Beste hitz batzuekin esanda, populazio beraren laginak behin eta berriz hartuz gero laginaren batez bestekoa zenbat alda daitekeen kalkulatzen du.

Laginaren batez bestekoa populazioaren batez bestekoaren ohiko zenbateslea da. Hala ere, populazio beraren lagin desberdinek, oro har, laginen batez bestekoen balio desberdinak ematen dituzte. Batez bestekoaren errore estandarra (hau da, populazioaren batez bestekoa laginen batez bestekoetatik kalkulatzearen ondoriozko errorea) populazio horretatik aukeratutako balizko lagin guztien (tamaina jakin batekoak) desbideratze estandarra da[2]. Gainera, batez bestekoaren errore estandarra desbideratze estandarraren zenbatespen bati buruzkoa izan daiteke, aldi berean aztertzen ari den datu-lagin batetik kalkulatuta.

Aplikazio praktikoetan, desbideratze estandarraren (edo errorearen) benetako balioa ezezaguna da. Emaitza gisa, "errore estandarra" terminoa kopuru ezezagun horren zenbatespen bati erreferentzia egiteko erabiltzen da batzuetan. Kasu horietan, garrantzitsua da argi izatea nondik datorren, errore estandarra zenbatespen bat baino ez baita. Zoritxarrez, hori ez da beti posiblea, eta hobe izan daiteke errore estandarra erabiltzen saihestea, hurbilketa bat erabiliz, adibidez, egiantz handieneko estimazioa edo konfiantza-tarteetatik eratorritako hurbilketa formalago bat erabiltzea. Kasu ezagun bat zeinetan hurbilketa bat erabiltzen den, Student banaketa da, batez besteko estimatu baterako konfiantza-tartea edo batez bestekoen arteko aldea emateko. Beste kasu batzuetan, errore estandarra ziurgabetasunaren tamaina adierazteko erabil daiteke, baina konfiantza-tarteak emateko haren erabilera formala edo erdi-formala saihestu egin behar da, laginaren tamaina gutxienez neurriz handia ez bada behintzat. “Handia" kontzeptua aztertuko diren kantitate partikularren araberakoa izango da.

Erregresio-analisian, errore estandarra edo errore tipikoa terminoa minimo karratuen zenbatespenaren eta laginean emandako balioen arteko desberdintasunen batez besteko gisa ere erabiltzen da[3].

Batez bestekoaren errore estandarraren eta desbideratze estandarraren arteko erlazioa hain handia da, ezen, laginaren tamaina jakin baterako, batez bestekoaren errore estandarra laginaren tamainaren erro karratuaz zatitutako desbideratze estandarraren berdina baita[4].

Batez bestekoaren errore estandarra

[aldatu | aldatu iturburu kodea]

Balore zehatza

[aldatu | aldatu iturburu kodea]

Batez bestekoaren errore estandarra () kalkulatzeko, populazioaren desbideratze estandarra (σ) laginaren tamainaren (n) erro karratuarekin zatitzen da. Batez bestekoaren errore estandarra kalkulatzeko formula orokorra hurrengoa da[5]:

Non,

  • σ populazioaren desbideratze estandarra den.
  • n laginaren tamaina den.

Errore estandarra funtsezkoa da inferentzia estatistikoan, laginen zenbatespenen zehaztasuna neurtzen baitu. Errore estandarra zenbat eta txikiagoa izan, orduan eta handiagoa izango da laginaren batez bestekoaren estimazioaren zehaztasuna, populazioaren batez bestekoarekin alderatuta. Hori erabakigarria da datuetan oinarritutako erabaki informatuak hartzeko eta laginaren emaitzak populazio osoari orokortzeko[6].

Populazioaren desbideratze estandarra (σ) oso gutxitan ezagutzen denez, hurbilketa bat egitean da, zeinetan, laginaren desbideratze estandarra (s) laginaren tamainaren (n) erro karratuagatik zatitzen den, batez bestekoaren errore estandarraren balore estimatua lortuz. Hau egiteko, laginaren balioen independentzia estatistikoa suposatu behar da:

Non,

  • s laginaren desbideratze estandarra den.
  • n laginaren tamaina den.

Garrantzitsua da errore estandarra eta desbideratze estandarra bereiztea. Desbideratze estandarrak lagin baten barruko datuen sakabanaketa neurtzen duen bitartean, errore estandarrak laginaren batez bestekoaren zenbatespenaren zehaztasuna neurtzen du, populazioaren batez bestekoarekin alderatuta. Laburbilduz, desbideratze estandarrak lagin baten barruko aldakortasuna deskribatzen du, eta errore estandarrak, berriz, lagin anitzen arteko aldakortasuna. Oro har, errore estandarrak lotura zuzena du laginaren tamainarekin. Laginaren tamaina handitu ahala, errore estandarrak behera egiten du, eta horrek laginaren batez bestekoaren estimazioan zehaztasun handiagoa adierazten du. Beraz, funtsezkoa da kontuan hartzea laginaren tamaina errore estandarra interpretatzean; lagin handiagoek populazioaren batez bestekoaren zenbatespen zehatzagoak emateko joera dutelako[7].

Hurbilketaren zehaztasuna

[aldatu | aldatu iturburu kodea]

Laginaren tamaina txikia denean, laginaren desbideratze estandarra (s) erabiltzeak, populazioaren desbideratze estandar errealaren (σ) ordez, populazioaren desbideratze estandarra eta, beraz, errore estandarra sistematikoki gutxiestera joko du. Adibidez, n = 2-rekin, gutxiespena % 25 ingurukoa da, baina n = 6-ren kasuan, gutxiespena % 5ekoa baino ez da.

Hau konpontzeko, Gurlandek eta Tripathik (1971) zuzenketa ekuazio bat eman zuten efektu honetarako[8]:

Non,

  • sc laginaren desbideratzen estandar zuzendua den.
  • s laginaren desbideratze estandarra den.
  • N laginaren tamaina den.

Bestalde, Sokalek eta Rohlfek (1981) n < 20-ko lagin txikietarako zuzenketa-faktorearen ekuazioa proposatu zuten[9]:

Non,

  • f zuzenketa faktorea den.
  • N laginaren tamaina den.
  • k doitutako ereduan zenbatetsitako parametro-kopurua den.

k-ren balioa aldatu daiteke ereduaren konplexutasunaren eta barne hartzen dituen aldagai kopuruaren arabera. Adibidez, erregresio lineal sinpleko eredu batean, kalkulatutako parametro-kopurua 2 izango litzateke (bat maldarako eta beste bat termino konstanterako). Hala ere, eredu konplexuago batean, hainbat aldagai dituen erregresio anitzeko eredu bat bezala, orduan k-ren balioa handiagoa izango litzateke.

Erregresioaren errore estandarra

[aldatu | aldatu iturburu kodea]

Erregresioaren errore estandarra (), estimazioaren errore estandarra bezala ere ezagutzen dena, erregresio eredu batean parametroen estimazioen zehaztasunaren neurketa bat da[10]. Erregresio-lerro doituaren inguruan mendeko aldagaiaren zenbatespena zenbat aldatzen den ebaluatzeko erabiltzen da normalean. Ereduaren hondakinen desbideratze estandarra erabiliz kalkulatzen da, hurrengo formula erabiliz[11]:

Non,

  • ŷ zenbatetsitako balioak diren.
  • y neurtutako balioak diren.
  • N laginaren tamaina den.

Erregresioaren errore estandarra erabakigarria da erregresio-ereduaren zehaztasuna ebaluatzeko eta ereduaren parametroei buruzko inferentziak egiteko[12]. Erregresio baxuko errore estandar batek parametroen zenbatespenak zehatzak eta fidagarriak direla adierazten du; errore estandar altu batek, berriz, zenbatespenak ez direla hain fidagarriak iradokitzen du. Erregresioaren errore estandarra banaketa normaletako desbideratze estandarraren antzera interpretatzen da. Zenbat eta txikiagoa izan erregresioaren errore estandarra, orduan eta zehatzagoak izango dira ereduaren parametroen zenbatespenak. Beraz, garrantzitsua da erregresioaren errore estandarra kontuan hartzea erregresio-analisi baten emaitzak interpretatzean eta eredu desberdinen arteko konparazioak egitean[13].

Erregresioaren errore estandarra hainbat aplikaziotan erabiltzen da, datu ekonomikoen analisian, merkatu-azterketan eta gizarte eta osasun zientzietan, bestak beste. Adibidez, ekonometrian, erregresioaren errore estandarra koefizienteen zenbatespenen zehaztasuna erregresio ekonomikoko ereduetan ebaluatzeko erabiltzen da.

Student hurbilketa balore ezezaguna denean

[aldatu | aldatu iturburu kodea]

Aplikazio praktiko askotan, σ-ren benetako balioa ezezaguna da. Horren ondorioz, banaketa bat erabili behar dugu, eta banaketa horrek kontuan hartu behar du gerta daitezkeen σ-ren dispertsioa. Banaketa gaussiarra denean, nahiz eta σ ezezaguna izan, orduan, ondoriozko banaketa zenbatetsiak Student t banaketa jarraitzen duela esaten da[14]. Student t banaketak eta banaketa gaussiarra zertxobait desberdinak dira eta laginaren tamainaren arabera aldatzen dira. Lagin txikiek joera handiagoa dute populazioaren desbideratze estandarra gutxiesteko eta populazioaren batez besteko errealarekin bat ez datorren batez bestekoa izateko. Kasu hauetan, Student t banaketa erabiltzen da, honek kontuan hartzen duelako cola astunagoak dituzten gertaera horien probabilitatea.

Laburbilduz, Student t banaketa lagin txikiekin lan egiten denean (n < 30) edo populazioaren desbideratze estandarra ezezaguna denean erabiltzen da. Banaketa normal estandarraren alternatiba bat da, hori lagin handiekin lan egiten denean edo populazioaren desbideratze estandarra ezaguna denean erabiltzen delako. Student t banaketa baten errore estandarra kalkulatzeko, nahikoa da "s" laginaren desbiderapen estandarra erabiltzea, eta balio hori erabil genezake konfiantza-tarteak kalkulatzeko[15]. Kasu honetan, errore estandarraren kalkulua doitu egiten da apur bat t banaketa kontuan hartzeko. Formula doitua hau da:

Diagrama bat, t balio kritikoa erakusten duena, Student t-Distribuzio batean askatasun graduekin (v) eta α konfiantza-mailarekin.

Non,

  • s laginaren desbideratze estandarra den.
  • n laginaren tamaina den.
  • t Student t banaketaren balio kritikoa da, konfiantza-maila espezifiko baterako eta askatasun-gradu kopuru jakin baterako.

t kalkulatzeko, konfiantza-maila bat eta askatasun-gradu kopurua zehaztu behar dituzu. t balio kritikoa Student t banaketaren tauletan aurki daiteke, edo estatistika-software-a erabiliz ere kalkula daiteke[16].

Kasuak eta erabilera

[aldatu | aldatu iturburu kodea]

Errore estandarra hainbat testuingurutan erabiltzen da, iritzi publikoari buruzko inkestak egitean[17], ikerketa zientifikoan[18] eta datuen azterketetan[19], besteak beste. Adibidez, azterketa klinikoetan, errore estandarra tratamenduaren estimazioen zehaztasuna ebaluatzeko eta emaitzak estatistikoki esanguratsuak diren zehazteko erabiltzen da[20].

Erabilitako datuak banaketa normala jarraitzen dutela onartzen bada, banaketa normalaren kuantilak, laginaren batez bestekoa eta errore estandarra, batez bestekorako gutxi gorabeherako konfiantza-tarteak kalkulatzeko erabil daitezke. Honako adierazpen hauek erabil daitezke % 95eko konfiantza-mugak kalkulatzeko:

  • % 95 mugatik gora:
  • % 95 mugatik behera:

Non, laginaren batez bestekoaren den, laginaren batez bestekoaren errore estandarra den, eta 1.96 balioa banaketa normal estandarraren 0.975 kuantilari dagokio, normalean % 95eko konfiantza-tarteetan erabiltzen dena.

Errore estandarrek ziurgabetasunaren neurri sinpleak ematen dituzte, eta sarritan erabiltzen dira hainbat arrazoirengatik:

  • kasu askotan, hainbat kantitate indibidualen errore estandarra ezagutuz gero, erraz kalkula daiteke kantitateen funtzio baten errore estandarra[21].
  • balioaren probabilitatearen banaketa ezagutzen denean, konfiantza-tarte zehatza kalkulatzeko erabil daiteke[22][23].
  • probabilitatearen banaketa ezagutzen ez denean, Txebixeven desberdintza edo Vysochanskiï-Petuninen desberdintza erabil daiteke konfiantza-tarte kontserbadore bat kalkulatzeko[24][25].
  • laginaren tamainak infinitura jotzen duen heinean, limitearen teorema zentralak bermatzen du batez bestekoaren lagin-banaketa asintotikoki normala dela[26].

Erreferentziak

[aldatu | aldatu iturburu kodea]
  1. (Gaztelaniaz) Navidi, W. (2014). Estadística para Ingenieros y Científicos. McGraw-Hill ISBN 970-10-5629-9..
  2. (Gaztelaniaz) Montgomery, D. C., eta Runger, G. C. (2010). Estadística aplicada y probabilidad para ingenieros. John Wiley & Sons ISBN 968-18-5915-4..
  3. (Ingelesez) Zwillinger, D. (1995). Standard Mathematical Tables and Formulae. Chapman&Hall/CRC, 626 or. ISBN 0-8493-2479-3..
  4. (Ingelesez) ltman, D. G., eta Bland, J. M. (2005). «Standard deviations and standard errors» BMJ: British Medical Journal 331: 903. ISSN 0959-8138..
  5. (Ingelesez) Harding, B., Tremblay, C., eta Cousineau, D. (2014). «Standard errors: A review and evaluation of standard error estimators using Monte Carlo simulations» The Quantitative Methods for Psychology 10: 107-123..
  6. (Ingelesez) Bland, J. M., eta Altman, D. G. (1996). «Statistics notes: Measurement error» BMJ (Clinical research ed.) 312 (7047)  doi:10.1136/bmj.312.7047.1654. ISSN 0959-8138. PMID 8664723. PMC PMC2351401..
  7. (Ingelesez) Barde, M. P., eta Barde, P. J. (2012). «What to use to express the variability of data: Standard deviation or standard error of mean?» Perspectives in clinical research 3: 113-116..
  8. (Ingelesez) Gurland, J., eta Tripathi R. C. (1971). «A simple approximation for unbiased estimation of the standard deviation» American Statistician (American Statistical Association) 25: 30-32..
  9. (Ingelesez) Sokal, R. R., eta Rohlf, F. J. (1981). Biometry: the principles and practice of statistics in biological research. San Francisco: W. H. Freeman, 53 or. ISBN 978-0-7167-1254-1..
  10. (Ingelesez) Greene, W. H. (2012). Econometric Analysis. , Pearson Education or. ISBN 978-0-13-139538-1..
  11. (Ingelesez) Montgomery, D. C., Peck, E. A., eta Vining, G. G. (2012). Introduction to linear regression analysis. (5. argitaraldia) John Wiley & Sons.
  12. (Ingelesez) Wooldridge, J. M. (2015). Introductory econometrics: a modern approach. (5. argitaraldia) Cengage Learning.
  13. (Ingelesez) Curran-Everett, D., eta Benos, D. J. (2004). «Guidelines for reporting statistics in journals published by the American Physiological Society» American Journal of Physiology-Endocrinology and Metabolism 287 (2): E189–E191.  doi:10.1152/ajpendo.00213.2004. ISSN 0193-1849..
  14. (Ingelesez) Walpole, R., Myers, R., eta Ye, K. (2002). Probability and Statistics for Engineers and Scientists. Pearson Education ISBN 9780321629111..
  15. (Ingelesez) Fisher R. A. (1925). «Applications of "Student's" Distribution» Reproduced with permission of Metron 5: 90-104..
  16. Tabla t-Student. Universidad de Buenos Aires.
  17. (Ingelesez) Groves, R. M., eta Couper, M. P. (2018). Nonresponse in household interview surveys. John Wiley & Sons.
  18. (Ingelesez) Altman, D. G., eta Bland, J. M. (2005). «Standard deviations and standard errors» BMJ: British Medical Journal 331 (7521)  doi:10.1136/bmj.331.7521.903. ISSN 0959-8138. PMID 16223828. PMC PMC1255808..
  19. (Ingelesez) Wilcox, R. R. (2017). Understanding and applying basic statistical methods using R. John Wiley & Sons.
  20. (Ingelesez) Higgins, J. P. T., eta Green, S. (2008). Cochrane Handbook for Systematic Reviews of Interventions: Cochrane Book Series. (1. argitaraldia) John Wiley & Sons  doi:10.1002/9780470712184..
  21. (Ingelesez) Johnson, N. L., Kotz, S., eta Balakrishnan, N. (1994). Continuous univariate distributions. Volume 1. (2. argitaraldia) John Wiley & Sons.
  22. (Ingelesez) Agresti, A., eta Coull, B. A. (1998). «Approximate Is Better than "Exact" for Interval Estimation of Binomial Proportions» The American Statistician 52 (2): 119–126.  doi:10.2307/2685469. ISSN 0003-1305..
  23. (Ingelesez) Brown, L. D., Cai, T. T., eta DasGupta, A. (2001). «Interval Estimation for a Binomial Proportion» Statistical Science 16 (2): 101-133.  doi:10.1214/ss/1009213286. ISSN 0883-4237..
  24. (Ingelesez) Chernick, M. R. (2007). Bootstrap methods: a guide for practitioners and researchers. (2. argitaraldia) John Wiley & Sons..
  25. (Ingelesez) Efron, B., eta Tibshirani, R. J. (1994). An Introduction to the Bootstrap. Chapman and Hall/CRC  doi:10.1201/9780429246593..
  26. (Ingelesez) Hogg, R. V., McKean, J. W., eta Craig, A. T. (2018). Introduction to Mathematical Statistics. Pearson ISBN 9780137530687..

Kanpo estekak

[aldatu | aldatu iturburu kodea]