Regressione logistica — ingegnerismo.it

La regressione logistica è un modello statistico per risposte binarie, cioè variabili che assumono due esiti, come successo/fallimento, guasto/non guasto, difettoso/conforme, evento/non evento. Appartiene ai modelli lineari generalizzati e usa il link logit per collegare predittori e probabilità.

\log\dfrac{p}{1-p}=\beta_0+\beta^Tx.

La quantità $p$ è la probabilità dell’evento condizionata ai predittori $x$ . Risolvendo rispetto a $p$ si ottiene:

p(x)=\dfrac{1}{1+e^{-(\beta_0+\beta^Tx)}}.

Questa forma garantisce probabilità comprese tra $0$ e $1$ , a differenza di una regressione lineare applicata direttamente a una variabile binaria.

Interpretazione dei coefficienti

I coefficienti si interpretano in termini di log-odds; $e^{\beta_j}$ è l’odds ratio associato a un incremento unitario del predittore $x_j$ , a parità degli altri predittori.

Se $\beta_j>0$ , l’aumento di $x_j$ aumenta gli odds dell’evento; se $\beta_j<0$ , li riduce. L’effetto sulla probabilità non è costante: dipende dal punto della curva logistica e dagli altri predittori.

Per un singolo predittore:

\log\dfrac{p}{1-p}=\beta_0+\beta_1x.

L’intercetta $\beta_0$ è il log-odds quando $x=0$ , se questo valore ha senso nel dominio del problema.

Stima e classificazione

I parametri si stimano per massima verosimiglianza, non con minimi quadrati ordinari. Per osservazioni indipendenti $y_i\in\{0,1\}$ , la verosimiglianza è:

L(\beta)=\prod_i p_i^{y_i}(1-p_i)^{1-y_i}.

Dopo la stima, il modello produce probabilità. Per trasformarle in classi si sceglie una soglia, spesso $0{,}5$ , ma la soglia va adattata al costo degli errori. In ambiti ingegneristici e medici, falsi positivi e falsi negativi possono avere conseguenze molto diverse.

Diagnostica e problemi pratici

Separazione perfetta, classi sbilanciate, outlier influenti e collinearità richiedono particolare attenzione. Con separazione perfetta, alcuni coefficienti possono divergere perché una combinazione dei predittori separa completamente gli esiti. In questi casi si usano penalizzazioni, metodi bayesiani o procedure robuste.

Per la diagnostica locale si usano residui di Pearson e residui di devianza, che evidenziano osservazioni poco coerenti con la probabilità stimata. Le prestazioni classificative si valutano con matrice di confusione, sensibilità, specificità, precisione, richiamo, AUC e calibrazione delle probabilità.

Un errore comune è interpretare i coefficienti come variazioni lineari di probabilità. La regressione logistica è lineare nel logit, non nella probabilità. Un altro errore è valutare il modello solo con l’accuratezza quando le classi sono sbilanciate.

Vedi anche: Modello lineare generalizzato, Massima verosimiglianza, Odds ratio, Matrice di confusione.