Regressione dei quantili

La regressione dei quantili (o regressione quantile o ancora regressione quantilica) è un tipo di analisi di regressione usato in statistica e in econometria. Se il metodo dei minimi quadrati risulta nella stima della media della variabile di risposta condizionata ai valori delle variabili indipendenti, la regressione dei quantili mira a stimare mediana condizionata, o altri quantili della variabile dipendente.

La regressione mediana si ottiene minimizzando la somma degli scarti assoluti, mentre per altri quantili , la funzione di perdita è dove è il residuo e è la funzione indicatrice.

Per costruzione, la retta (o iperpiano) di regressione si trova al di sopra della proporzione delle osservazioni del campione. Perciò, nel caso della mediana () metà delle osservazioni si troverà sopra alla retta di regressione e metà sotto.

L'idea di stimare la pendenza della regressione mediana, un importante teorema a proposito della minimizzazione della somma degli scarti assoluti e un algoritmo geometrico per costruire la regressione mediana sono stati proposti nel 1760 da Ruđer Josip Bošković, un prete gesuita di Dubrovnik[1][2] e sono perciò molto più antichi del metodo dei minimi quadrati[3]. I calcoli necessari all'analisi della regressione mediana sono però particolarmente ostici per dataset più grandi, se confrontati con quelli del metodo dei minimi quadrati; per cui questo è divenuto molto più popolare di quello dei minimi scarti assoluti, fin dalla sua formulazione. La grande diffusione dei computer nell'ultima parte del ventesimo secolo ha permesso una nuova popolarità per la regressione dei quantili.

Confronto con la regressione in media

modifica

La regressione dei quantili è il metodo da utilizzare se interessa stimare l'intera distribuzione condizionata della variabile di risposta, e non solo il suo valore atteso. In questo senso, è possibile valutare simultaneamente il comportamento di diversi quantili. Il suo primo utilizzo è tuttavia quello della stima della mediana condizionata, in questo caso è alternativa alla regressione in media (metodo dei minimi quadrati).

Un vantaggio della regressione mediana è che la stima dei parametri risulta più robusta a valori estremi, esattamente come la mediana lo è rispetto alla media. Confrontare le stime della regressione mediana con quelle della regressione in media può rivelare se degli outlier influenzano i risultati[3].

Lo svantaggio principale della regressione dei quantili riguarda la soluzione del problema di minimizzazione: mentre il metodo dei minimi quadrati ha una soluzione in forma chiusa, la regressione dei quantili richiede l'impiego di un metodo di programmazione lineare. Inoltre gli stimatori degli stessi parametri hanno per la regressione in mediana una maggior varianza e una convergenza alla distribuzione normale più problematica. Non è assolutamente possibile sfruttare la distribuzione esatta degli stimatori con campioni piccoli, come invece è possibile con il metodo dei minimi quadrati se gli errori si distribuiscono normalmente.

La regressione dei quantili ha un'altra importante applicazione se il quantile di interesse è estremo, come   o  : in questa maniera si possono stimare delle bande di confidenza per la variabile dipendente senza assumere per essa una particolare distribuzione condizionata.

Proprietà asintotiche

modifica

Per  , sotto alcune condizioni di regolarità,   è asintoticamente normale:

 

dove

  e  

Stime dirette della matrice di varianza-covarianza asintotiche non sono sempre soddisfacenti. L'inferenza sui parametri può essere condotta con il metodo bootstrap[4].

Proprietà di equivarianza

modifica

Per qualsiasi   vale:

 
 

Per qualsiasi   vale:

 

Sia   una qualsiasi matrice non-singolare  , allora vale: allora vale:

 

Equivarianza rispetto a trasformazioni monotone[5]

modifica

Se   è una funzione monotona crescente in  , vale:

 

Questa proprietà non vale per la regressione media.

Metodi bayesiani per la regressione dei quantili

modifica

Poiché la regressione dei quantili non assume generalmente una distribuzione specifica per gli errori, e dunque una verosimiglianza calcolabile, metodi bayesiani, quali ad esempio i modelli gerarchici, non sono immediatamente applicabili. Per risolvere questo problema si utilizza la distribuzione asimmetrica di Laplace per la stima della verosimiglianza[6], questo perché il metodo della massima verosimiglianza risulta in questo caso nelle stesse stime della regressione dei quantili. L'inferenza a posteriori, comunque, va interpretata con attenzione, perché la distribuzione utilizzata nella stima non corrisponde, in genere, a quella degli errori. Yang e He[7] hanno dimostrato che si può aver un'inferenza a posteriori valida, ammesso però che la distribuzione utilizzata nella stima corrisponde a quella empirica.

  1. ^ Stephen M. Stigler, Studies in the history of probability and statistics XL Boscovich, Simpson and a 1760 manuscript note on fitting a linear relation, in Biometrika, vol. 71, n. 3, 1º dicembre 1984, pp. 615-620, DOI:10.1093/biomet/71.3.615. URL consultato il 9 novembre 2017.
  2. ^ Koenker, p. 4.
  3. ^ a b Fahrmeir, L., Regression : models, methods and applications, ISBN 9783642343339, OCLC 843758031.
  4. ^ Masha Kocherginsky, Xuming He e Yunming Mu, Practical Confidence Intervals for Regression Quantiles, in Journal of Computational and Graphical Statistics, vol. 14, n. 1, 1º marzo 2005, pp. 41-55, DOI:10.1198/106186005x27563. URL consultato il 9 novembre 2017.
  5. ^ Roger Koenker e Gilbert Bassett, Regression Quantiles, in Econometrica, vol. 46, n. 1, 1978-01, p. 33, DOI:10.2307/1913643. URL consultato il 23 novembre 2018.
  6. ^ Hideo Kozumi e Genya Kobayashi, Gibbs sampling methods for Bayesian quantile regression, in Journal of Statistical Computation and Simulation, vol. 81, n. 11, 1º novembre 2011, pp. 1565-1578, DOI:10.1080/00949655.2010.496117. URL consultato il 9 novembre 2017.
  7. ^ (EN) Yunwen Yang e Xuming He, Bayesian empirical likelihood for quantile regression, in The Annals of Statistics, vol. 40, n. 2, 2012-04, pp. 1102-1131, DOI:10.1214/12-aos1005. URL consultato il 9 novembre 2017.

Bibliografia

modifica
  Portale Statistica: accedi alle voci di Wikipedia che trattano di statistica