Modello lineare generalizzato

Indice dei contenuti

    Un modello lineare generalizzato (GLM, generalized linear model) estende la regressione lineare a risposte che non sono necessariamente gaussiane e continue. L’idea è conservare una parte lineare nei predittori, ma separarla dalla distribuzione della risposta e dalla scala su cui viene modellata la media.

    La regressione lineare ordinaria è adatta quando la risposta è continua, con errori circa gaussiani e varianza costante. Molti problemi ingegneristici e statistici non hanno questa forma: esiti binari, conteggi, proporzioni, tassi di guasto, tempi positivi, importi positivi asimmetrici. I GLM forniscono un quadro unico per trattare questi casi senza forzare una retta su dati che non possono essere negativi, che sono discreti o che hanno varianza dipendente dalla media.

    Tre componenti del GLM

    Un GLM è definito da tre elementi.

    Il primo è la distribuzione condizionata della risposta Y_i dato il vettore di covariate x_i. Di solito appartiene alla famiglia esponenziale: normale, Bernoulli, binomiale, Poisson, gamma e inverse Gaussian sono esempi comuni.

    Il secondo è il predittore lineare:

    \eta_i=x_i^T\beta = \beta_0+\beta_1x_{i1}+\cdots+\beta_px_{ip}.

    Il terzo è la funzione link g, che collega la media condizionata \mu_i=E(Y_i\mid x_i) al predittore lineare:

    g(\mu_i)=\eta_i=x_i^T\beta.

    La funzione inversa g^{-1} riporta il predittore sulla scala naturale della media:

    \mu_i=g^{-1}(x_i^T\beta).

    Questa struttura permette di mantenere linearità nei coefficienti, ma evita previsioni impossibili: probabilità fuori dall’intervallo [0,1], conteggi medi negativi o medie positive stimate sotto zero.

    La scelta della famiglia dipende dalla natura della risposta, non dal gusto del modellista.

    RispostaFamigliaLink tipicoEsempio
    continua circa normalenormaleidentitàtaratura, misure fisiche con rumore additivo
    binariaBernoulli/binomialelogitregressione logistica
    conteggioPoissonlogregressione di Poisson
    conteggio sovradispersoquasi-Poisson o binomiale negativalogguasti, incidenti, eventi ripetuti
    positiva continua asimmetricagammalog o inversocosti, tempi, concentrazioni positive

    Il link canonico è il link che coincide con il parametro naturale della famiglia esponenziale. È spesso comodo perché semplifica stima e teoria inferenziale, ma non è obbligatorio. Si può scegliere un link diverso se migliora interpretabilità, vincoli di dominio o aderenza al fenomeno.

    Media, varianza e dispersione

    Nei GLM non si modella solo la media. La famiglia scelta impone anche una relazione tra media e varianza. In forma sintetica:

    \operatorname{Var}(Y_i\mid x_i) = \phi\,V(\mu_i),

    dove V(\mu_i) è la funzione di varianza e \phi è un parametro di dispersione quando previsto. Alcuni esempi:

    FamigliaMediaVarianza
    normale\mu\sigma^2
    Bernoullipp(1-p)
    Poisson\mu\mu
    gamma\muproporzionale a \mu^2

    Questa è una differenza cruciale rispetto a un modello lineare ordinario. In un conteggio Poisson, per esempio, la variabilità cresce con la media. Se i dati mostrano varianza molto più alta della media, bisogna valutare sovradispersione, regressione quasi-Poisson o regressione binomiale negativa.

    Stima dei parametri

    I coefficienti dei GLM si stimano in genere per massima verosimiglianza. Per osservazioni indipendenti si massimizza la log-verosimiglianza:

    \ell(\beta) = \sum_{i=1}^{n}\log f(y_i;\mu_i,\phi), \qquad \mu_i=g^{-1}(x_i^T\beta).

    Nella pratica i software usano algoritmi iterativi, spesso presentati come IRLS (iteratively reweighted least squares). L’algoritmo risolve una sequenza di problemi pesati che aggiornano i coefficienti fino alla convergenza.

    L’output tipico contiene coefficienti, errori standard, statistiche z o t, intervalli di confidenza, devianza residua e devianza nulla. Questi numeri vanno letti alla luce della famiglia e del link: non hanno la stessa interpretazione in un modello logistico, Poisson o gamma.

    Interpretazione dei coefficienti

    Il coefficiente \beta_j è lineare sulla scala del link, non necessariamente sulla scala naturale della risposta. Nel modello logistico:

    \log\dfrac{p_i}{1-p_i}=x_i^T\beta,

    \beta_j modifica i log-odds e e^{\beta_j} è un odds ratio. Nel modello Poisson con link log:

    \log\mu_i=x_i^T\beta,

    e^{\beta_j} è un moltiplicatore della media o del tasso atteso. Nel modello gaussiano con link identità, invece, \beta_j torna a essere una variazione additiva della media.

    Questa distinzione evita uno degli errori più comuni: interpretare tutti i coefficienti come se appartenessero a una regressione lineare ordinaria. Nei GLM l’effetto sulla risposta naturale può essere non lineare e dipendere dal punto in cui si valuta il modello.

    Offset, esposizione e tassi

    Quando una parte del predittore è nota in anticipo, si può inserirla come offset. L’offset entra con coefficiente fissato a 1:

    \eta_i=x_i^T\beta+o_i.

    Nei conteggi con esposizione diversa, per esempio tempi di osservazione o popolazioni a rischio diverse, si usa spesso o_i=\log t_i. In una regressione di Poisson:

    \log\mu_i=\log t_i+x_i^T\beta.

    In questo modo il modello confronta tassi, non conteggi grezzi. Senza offset, unità osservate per tempi diversi possono sembrare diverse solo perché hanno avuto più o meno esposizione.

    Diagnostica

    La diagnostica dei GLM confronta osservazioni e medie stimate tenendo conto della famiglia scelta. Gli strumenti ricorrenti sono:

    StrumentoUso
    residui di Pearsonscarti standardizzati sulla scala media-varianza
    residui di devianzacontributi locali alla devianza
    devianza statisticaconfronto con il modello saturo
    confronto di modelli annidatiriduzione di devianza o rapporto di verosimiglianza
    controllo della dispersioneverifica di varianza compatibile con la famiglia

    Una devianza residua alta rispetto ai gradi di libertà può indicare link sbagliato, covariate mancanti, dispersione non modellata o osservazioni influenti. Residui con pattern sistematici suggeriscono che la struttura della media non sta catturando il fenomeno.

    Errori comuni

    Il primo errore è scegliere la famiglia guardando solo alla comodità computazionale. La famiglia deve riflettere il supporto e la variabilità della risposta: una probabilità richiede vincoli tra 0 e 1, un conteggio richiede medie positive e valori interi osservati, una risposta positiva asimmetrica non va trattata automaticamente come gaussiana.

    Il secondo errore è confondere link e trasformazione della risposta. In un GLM con link log non si sta semplicemente facendo una regressione lineare di \log Y: si modella il logaritmo della media condizionata, con una distribuzione specifica per Y.

    Il terzo errore è ignorare dispersione, zeri in eccesso, separazione perfetta, collinearità o osservazioni influenti. Un GLM è flessibile, ma non elimina la necessità di controllare dati, ipotesi e residui.

    Vedi anche: famiglia esponenziale, regressione logistica, regressione di Poisson, regressione quasi-Poisson, regressione binomiale negativa, offset nei modelli lineari generalizzati, devianza statistica, residuo di Pearson, residuo di devianza e massima verosimiglianza.

    Ultimo aggiornamento: