La regressione logistica è un modello statistico per risposte binarie, cioè variabili che assumono due esiti, come successo/fallimento, guasto/non guasto, difettoso/conforme, evento/non evento. Appartiene ai modelli lineari generalizzati e usa il link logit per collegare predittori e probabilità.
La quantità p è la probabilità dell’evento condizionata ai predittori x. Risolvendo rispetto a p si ottiene:
Questa forma garantisce probabilità comprese tra 0 e 1, a differenza di una regressione lineare applicata direttamente a una variabile binaria.
Interpretazione dei coefficienti
I coefficienti si interpretano in termini di log-odds; e^{\beta_j} è l’odds ratio associato a un incremento unitario del predittore x_j, a parità degli altri predittori.
Se \beta_j>0, l’aumento di x_j aumenta gli odds dell’evento; se \beta_j<0, li riduce. L’effetto sulla probabilità non è costante: dipende dal punto della curva logistica e dagli altri predittori.
Per un singolo predittore:
L’intercetta \beta_0 è il log-odds quando x=0, se questo valore ha senso nel dominio del problema.
Stima e classificazione
I parametri si stimano per massima verosimiglianza, non con minimi quadrati ordinari. Per osservazioni indipendenti y_i\in\{0,1\}, la verosimiglianza è:
Dopo la stima, il modello produce probabilità. Per trasformarle in classi si sceglie una soglia, spesso 0{,}5, ma la soglia va adattata al costo degli errori. In ambiti ingegneristici e medici, falsi positivi e falsi negativi possono avere conseguenze molto diverse.
Diagnostica e problemi pratici
Separazione perfetta, classi sbilanciate, outlier influenti e collinearità richiedono particolare attenzione. Con separazione perfetta, alcuni coefficienti possono divergere perché una combinazione dei predittori separa completamente gli esiti. In questi casi si usano penalizzazioni, metodi bayesiani o procedure robuste.
Per la diagnostica locale si usano residui di Pearson e residui di devianza, che evidenziano osservazioni poco coerenti con la probabilità stimata. Le prestazioni classificative si valutano con matrice di confusione, sensibilità, specificità, precisione, richiamo, AUC e calibrazione delle probabilità.
Un errore comune è interpretare i coefficienti come variazioni lineari di probabilità. La regressione logistica è lineare nel logit, non nella probabilità. Un altro errore è valutare il modello solo con l’accuratezza quando le classi sono sbilanciate.
Vedi anche: Modello lineare generalizzato, Massima verosimiglianza, Odds ratio, Matrice di confusione.