Un modello lineare generalizzato (GLM, generalized linear model) estende la regressione lineare a risposte che non sono necessariamente gaussiane e continue. L’idea è conservare una parte lineare nei predittori, ma separarla dalla distribuzione della risposta e dalla scala su cui viene modellata la media.
La regressione lineare ordinaria è adatta quando la risposta è continua, con errori circa gaussiani e varianza costante. Molti problemi ingegneristici e statistici non hanno questa forma: esiti binari, conteggi, proporzioni, tassi di guasto, tempi positivi, importi positivi asimmetrici. I GLM forniscono un quadro unico per trattare questi casi senza forzare una retta su dati che non possono essere negativi, che sono discreti o che hanno varianza dipendente dalla media.
Tre componenti del GLM
Un GLM è definito da tre elementi.
Il primo è la distribuzione condizionata della risposta Y_i dato il vettore di covariate x_i. Di solito appartiene alla famiglia esponenziale: normale, Bernoulli, binomiale, Poisson, gamma e inverse Gaussian sono esempi comuni.
Il secondo è il predittore lineare:
Il terzo è la funzione link g, che collega la media condizionata \mu_i=E(Y_i\mid x_i) al predittore lineare:
La funzione inversa g^{-1} riporta il predittore sulla scala naturale della media:
Questa struttura permette di mantenere linearità nei coefficienti, ma evita previsioni impossibili: probabilità fuori dall’intervallo [0,1], conteggi medi negativi o medie positive stimate sotto zero.
Famiglie, link e uso tipico
La scelta della famiglia dipende dalla natura della risposta, non dal gusto del modellista.
| Risposta | Famiglia | Link tipico | Esempio |
|---|---|---|---|
| continua circa normale | normale | identità | taratura, misure fisiche con rumore additivo |
| binaria | Bernoulli/binomiale | logit | regressione logistica |
| conteggio | Poisson | log | regressione di Poisson |
| conteggio sovradisperso | quasi-Poisson o binomiale negativa | log | guasti, incidenti, eventi ripetuti |
| positiva continua asimmetrica | gamma | log o inverso | costi, tempi, concentrazioni positive |
Il link canonico è il link che coincide con il parametro naturale della famiglia esponenziale. È spesso comodo perché semplifica stima e teoria inferenziale, ma non è obbligatorio. Si può scegliere un link diverso se migliora interpretabilità, vincoli di dominio o aderenza al fenomeno.
Media, varianza e dispersione
Nei GLM non si modella solo la media. La famiglia scelta impone anche una relazione tra media e varianza. In forma sintetica:
dove V(\mu_i) è la funzione di varianza e \phi è un parametro di dispersione quando previsto. Alcuni esempi:
| Famiglia | Media | Varianza |
|---|---|---|
| normale | \mu | \sigma^2 |
| Bernoulli | p | p(1-p) |
| Poisson | \mu | \mu |
| gamma | \mu | proporzionale a \mu^2 |
Questa è una differenza cruciale rispetto a un modello lineare ordinario. In un conteggio Poisson, per esempio, la variabilità cresce con la media. Se i dati mostrano varianza molto più alta della media, bisogna valutare sovradispersione, regressione quasi-Poisson o regressione binomiale negativa.
Stima dei parametri
I coefficienti dei GLM si stimano in genere per massima verosimiglianza. Per osservazioni indipendenti si massimizza la log-verosimiglianza:
Nella pratica i software usano algoritmi iterativi, spesso presentati come IRLS (iteratively reweighted least squares). L’algoritmo risolve una sequenza di problemi pesati che aggiornano i coefficienti fino alla convergenza.
L’output tipico contiene coefficienti, errori standard, statistiche z o t, intervalli di confidenza, devianza residua e devianza nulla. Questi numeri vanno letti alla luce della famiglia e del link: non hanno la stessa interpretazione in un modello logistico, Poisson o gamma.
Interpretazione dei coefficienti
Il coefficiente \beta_j è lineare sulla scala del link, non necessariamente sulla scala naturale della risposta. Nel modello logistico:
\beta_j modifica i log-odds e e^{\beta_j} è un odds ratio. Nel modello Poisson con link log:
e^{\beta_j} è un moltiplicatore della media o del tasso atteso. Nel modello gaussiano con link identità, invece, \beta_j torna a essere una variazione additiva della media.
Questa distinzione evita uno degli errori più comuni: interpretare tutti i coefficienti come se appartenessero a una regressione lineare ordinaria. Nei GLM l’effetto sulla risposta naturale può essere non lineare e dipendere dal punto in cui si valuta il modello.
Offset, esposizione e tassi
Quando una parte del predittore è nota in anticipo, si può inserirla come offset. L’offset entra con coefficiente fissato a 1:
Nei conteggi con esposizione diversa, per esempio tempi di osservazione o popolazioni a rischio diverse, si usa spesso o_i=\log t_i. In una regressione di Poisson:
In questo modo il modello confronta tassi, non conteggi grezzi. Senza offset, unità osservate per tempi diversi possono sembrare diverse solo perché hanno avuto più o meno esposizione.
Diagnostica
La diagnostica dei GLM confronta osservazioni e medie stimate tenendo conto della famiglia scelta. Gli strumenti ricorrenti sono:
| Strumento | Uso |
|---|---|
| residui di Pearson | scarti standardizzati sulla scala media-varianza |
| residui di devianza | contributi locali alla devianza |
| devianza statistica | confronto con il modello saturo |
| confronto di modelli annidati | riduzione di devianza o rapporto di verosimiglianza |
| controllo della dispersione | verifica di varianza compatibile con la famiglia |
Una devianza residua alta rispetto ai gradi di libertà può indicare link sbagliato, covariate mancanti, dispersione non modellata o osservazioni influenti. Residui con pattern sistematici suggeriscono che la struttura della media non sta catturando il fenomeno.
Errori comuni
Il primo errore è scegliere la famiglia guardando solo alla comodità computazionale. La famiglia deve riflettere il supporto e la variabilità della risposta: una probabilità richiede vincoli tra 0 e 1, un conteggio richiede medie positive e valori interi osservati, una risposta positiva asimmetrica non va trattata automaticamente come gaussiana.
Il secondo errore è confondere link e trasformazione della risposta. In un GLM con link log non si sta semplicemente facendo una regressione lineare di \log Y: si modella il logaritmo della media condizionata, con una distribuzione specifica per Y.
Il terzo errore è ignorare dispersione, zeri in eccesso, separazione perfetta, collinearità o osservazioni influenti. Un GLM è flessibile, ma non elimina la necessità di controllare dati, ipotesi e residui.
Vedi anche: famiglia esponenziale, regressione logistica, regressione di Poisson, regressione quasi-Poisson, regressione binomiale negativa, offset nei modelli lineari generalizzati, devianza statistica, residuo di Pearson, residuo di devianza e massima verosimiglianza.