Modello lineare generalizzato

Un modello lineare generalizzato (GLM, generalized linear model) estende la regressione lineare a risposte che non sono necessariamente gaussiane e continue. L’idea è conservare una parte lineare nei predittori, ma separarla dalla distribuzione della risposta e dalla scala su cui viene modellata la media.

La regressione lineare ordinaria è adatta quando la risposta è continua, con errori circa gaussiani e varianza costante. Molti problemi ingegneristici e statistici non hanno questa forma: esiti binari, conteggi, proporzioni, tassi di guasto, tempi positivi, importi positivi asimmetrici. I GLM forniscono un quadro unico per trattare questi casi senza forzare una retta su dati che non possono essere negativi, che sono discreti o che hanno varianza dipendente dalla media.

Tre componenti del GLM

Un GLM è definito da tre elementi.

Il primo è la distribuzione condizionata della risposta $Y_i$ dato il vettore di covariate $x_i$ . Di solito appartiene alla famiglia esponenziale: normale, Bernoulli, binomiale, Poisson, gamma e inverse Gaussian sono esempi comuni.

Il secondo è il predittore lineare:

\eta_i=x_i^T\beta = \beta_0+\beta_1x_{i1}+\cdots+\beta_px_{ip}.

Il terzo è la funzione link $g$ , che collega la media condizionata $\mu_i=E(Y_i\mid x_i)$ al predittore lineare:

g(\mu_i)=\eta_i=x_i^T\beta.

La funzione inversa $g^{-1}$ riporta il predittore sulla scala naturale della media:

\mu_i=g^{-1}(x_i^T\beta).

Questa struttura permette di mantenere linearità nei coefficienti, ma evita previsioni impossibili: probabilità fuori dall’intervallo $[0,1]$ , conteggi medi negativi o medie positive stimate sotto zero.

Famiglie, link e uso tipico

La scelta della famiglia dipende dalla natura della risposta, non dal gusto del modellista.

Risposta	Famiglia	Link tipico	Esempio
continua circa normale	normale	identità	taratura, misure fisiche con rumore additivo
binaria	Bernoulli/binomiale	logit	regressione logistica
conteggio	Poisson	log	regressione di Poisson
conteggio sovradisperso	quasi-Poisson o binomiale negativa	log	guasti, incidenti, eventi ripetuti
positiva continua asimmetrica	gamma	log o inverso	costi, tempi, concentrazioni positive

Il link canonico è il link che coincide con il parametro naturale della famiglia esponenziale. È spesso comodo perché semplifica stima e teoria inferenziale, ma non è obbligatorio. Si può scegliere un link diverso se migliora interpretabilità, vincoli di dominio o aderenza al fenomeno.

Media, varianza e dispersione

Nei GLM non si modella solo la media. La famiglia scelta impone anche una relazione tra media e varianza. In forma sintetica:

\operatorname{Var}(Y_i\mid x_i) = \phi\,V(\mu_i),

dove $V(\mu_i)$ è la funzione di varianza e $\phi$ è un parametro di dispersione quando previsto. Alcuni esempi:

Famiglia	Media	Varianza
normale	$\mu$	$\sigma^2$
Bernoulli	$p$	$p(1-p)$
Poisson	$\mu$	$\mu$
gamma	$\mu$	proporzionale a $\mu^2$

Questa è una differenza cruciale rispetto a un modello lineare ordinario. In un conteggio Poisson, per esempio, la variabilità cresce con la media. Se i dati mostrano varianza molto più alta della media, bisogna valutare sovradispersione, regressione quasi-Poisson o regressione binomiale negativa.

Stima dei parametri

I coefficienti dei GLM si stimano in genere per massima verosimiglianza. Per osservazioni indipendenti si massimizza la log-verosimiglianza:

\ell(\beta) = \sum_{i=1}^{n}\log f(y_i;\mu_i,\phi), \qquad \mu_i=g^{-1}(x_i^T\beta).

Nella pratica i software usano algoritmi iterativi, spesso presentati come IRLS (iteratively reweighted least squares). L’algoritmo risolve una sequenza di problemi pesati che aggiornano i coefficienti fino alla convergenza.

L’output tipico contiene coefficienti, errori standard, statistiche z o t, intervalli di confidenza, devianza residua e devianza nulla. Questi numeri vanno letti alla luce della famiglia e del link: non hanno la stessa interpretazione in un modello logistico, Poisson o gamma.

Interpretazione dei coefficienti

Il coefficiente $\beta_j$ è lineare sulla scala del link, non necessariamente sulla scala naturale della risposta. Nel modello logistico:

\log\dfrac{p_i}{1-p_i}=x_i^T\beta,

$\beta_j$ modifica i log-odds e $e^{\beta_j}$ è un odds ratio. Nel modello Poisson con link log:

\log\mu_i=x_i^T\beta,

$e^{\beta_j}$ è un moltiplicatore della media o del tasso atteso. Nel modello gaussiano con link identità, invece, $\beta_j$ torna a essere una variazione additiva della media.

Questa distinzione evita uno degli errori più comuni: interpretare tutti i coefficienti come se appartenessero a una regressione lineare ordinaria. Nei GLM l’effetto sulla risposta naturale può essere non lineare e dipendere dal punto in cui si valuta il modello.

Offset, esposizione e tassi

Quando una parte del predittore è nota in anticipo, si può inserirla come offset. L’offset entra con coefficiente fissato a $1$ :

\eta_i=x_i^T\beta+o_i.

Nei conteggi con esposizione diversa, per esempio tempi di osservazione o popolazioni a rischio diverse, si usa spesso $o_i=\log t_i$ . In una regressione di Poisson:

\log\mu_i=\log t_i+x_i^T\beta.

In questo modo il modello confronta tassi, non conteggi grezzi. Senza offset, unità osservate per tempi diversi possono sembrare diverse solo perché hanno avuto più o meno esposizione.

Diagnostica

La diagnostica dei GLM confronta osservazioni e medie stimate tenendo conto della famiglia scelta. Gli strumenti ricorrenti sono:

Strumento	Uso
residui di Pearson	scarti standardizzati sulla scala media-varianza
residui di devianza	contributi locali alla devianza
devianza statistica	confronto con il modello saturo
confronto di modelli annidati	riduzione di devianza o rapporto di verosimiglianza
controllo della dispersione	verifica di varianza compatibile con la famiglia

Una devianza residua alta rispetto ai gradi di libertà può indicare link sbagliato, covariate mancanti, dispersione non modellata o osservazioni influenti. Residui con pattern sistematici suggeriscono che la struttura della media non sta catturando il fenomeno.

Errori comuni

Il primo errore è scegliere la famiglia guardando solo alla comodità computazionale. La famiglia deve riflettere il supporto e la variabilità della risposta: una probabilità richiede vincoli tra $0$ e $1$ , un conteggio richiede medie positive e valori interi osservati, una risposta positiva asimmetrica non va trattata automaticamente come gaussiana.

Il secondo errore è confondere link e trasformazione della risposta. In un GLM con link log non si sta semplicemente facendo una regressione lineare di $\log Y$ : si modella il logaritmo della media condizionata, con una distribuzione specifica per $Y$ .

Il terzo errore è ignorare dispersione, zeri in eccesso, separazione perfetta, collinearità o osservazioni influenti. Un GLM è flessibile, ma non elimina la necessità di controllare dati, ipotesi e residui.

Vedi anche: famiglia esponenziale, regressione logistica, regressione di Poisson, regressione quasi-Poisson, regressione binomiale negativa, offset nei modelli lineari generalizzati, devianza statistica, residuo di Pearson, residuo di devianza e massima verosimiglianza.