Multicollinearità — ingegnerismo.it

La multicollinearità si verifica quando due o più regressori in un modello lineare sono fortemente correlati o quasi combinazioni lineari l’uno dell’altro. È un problema tipico della regressione lineare applicata a dati osservazionali, misure ridondanti, sensori correlati, indicatori economici o grandezze fisiche derivate dalla stessa base sperimentale.

Non impedisce necessariamente buone predizioni, ma rende instabili le stime dei singoli coefficienti: errori standard elevati, segni inattesi e forte sensibilità ai dati.

Un indicatore comune è il VIF:

VIF_j=\dfrac{1}{1-R_j^2}.

Contromisure includono rimuovere variabili ridondanti, combinare regressori, usare componenti principali o applicare regolarizzazione come ridge.

Collinearità perfetta e quasi collinearità

Nel modello dei minimi quadrati

y=X\beta+\varepsilon,

la stima ordinaria richiede, nella forma classica,

\hat\beta=(X^TX)^{-1}X^Ty.

Se una colonna di $X$ è combinazione lineare esatta delle altre, la matrice $X^TX$ è singolare e l’inversa non esiste. Questa è collinearità perfetta.

Più comune è la quasi collinearità: l’inversa esiste, ma $X^TX$ è mal condizionata. In questo caso piccole variazioni nei dati possono produrre grandi variazioni nei coefficienti stimati. Il modello può continuare a predire bene perché le combinazioni complessive dei regressori sono informative, ma l’attribuzione del contributo a una singola variabile diventa fragile.

Effetto sugli errori standard

Per il modello lineare omoschedastico classico,

\operatorname{Var}(\hat\beta) = \sigma^2(X^TX)^{-1}.

Quando i regressori sono quasi dipendenti, alcuni elementi diagonali di $(X^TX)^{-1}$ diventano grandi. Questo aumenta gli errori standard, riduce la potenza dei test sui singoli coefficienti e può rendere non significative variabili che, considerate insieme, sono rilevanti.

È per questo che si possono osservare situazioni apparentemente contraddittorie: un R quadro elevato, un test globale del modello significativo e coefficienti individuali instabili o non significativi.

VIF e interpretazione

Il variance inflation factor del regressore $x_j$ si calcola regredendo $x_j$ su tutti gli altri regressori e ottenendo $R_j^2$ . La formula

VIF_j=\dfrac{1}{1-R_j^2}

misura quanto la varianza stimata del coefficiente $\hat\beta_j$ è gonfiata dalla correlazione con gli altri regressori. Se $R_j^2$ è vicino a 1, il denominatore diventa piccolo e il VIF cresce rapidamente.

Non esiste una soglia universale. Valori come 5 o 10 sono regole pratiche, non leggi matematiche. In modelli ingegneristici con variabili derivate da bilanci, trasformazioni fisiche o misure altamente correlate, anche VIF moderati possono richiedere cautela interpretativa.

Diagnostica

Oltre al VIF, si usano matrice di correlazione, autovalori di $X^TX$ , numero di condizionamento e analisi della sensibilità. Se il modello cambia molto eliminando poche osservazioni o cambiando leggermente la selezione delle variabili, la multicollinearità può essere parte del problema.

Anche il significato fisico conta. Due variabili possono essere correlate perché descrivono lo stesso fenomeno in unità diverse, perché una è una trasformazione dell’altra o perché il piano sperimentale non ha esplorato abbastanza combinazioni indipendenti.

Rimedi

Le strategie principali sono:

eliminare variabili ridondanti quando non aggiungono informazione sostanziale;
combinare regressori in indici o variabili aggregate;
progettare nuovi esperimenti che decorrelino i fattori;
usare trasformazioni o componenti principali;
applicare regolarizzazione, per esempio ridge regression.

La ridge non elimina la collinearità nei dati, ma stabilizza la stima introducendo una penalità che rende invertibile e meglio condizionata la matrice del problema.

Errori comuni

Un errore frequente è considerare la multicollinearità un problema solo quando i coefficienti “non sono significativi”. In realtà può alterare segni, ampiezze e intervalli anche in modelli apparentemente buoni. Un altro errore è rimuovere meccanicamente variabili con VIF alto senza valutare il significato fisico del modello: se la variabile è essenziale per la domanda causale o progettuale, eliminarla può rendere il modello più stabile ma meno utile.

In sintesi, la multicollinearità non dice che il modello predittivo è inutile; dice che l’interpretazione dei coefficienti separati è delicata.