Regressione logistica

Indice dei contenuti

    La regressione logistica è un modello statistico per risposte binarie, cioè variabili che assumono due esiti, come successo/fallimento, guasto/non guasto, difettoso/conforme, evento/non evento. Appartiene ai modelli lineari generalizzati e usa il link logit per collegare predittori e probabilità.

    \log\dfrac{p}{1-p}=\beta_0+\beta^Tx.

    La quantità p è la probabilità dell’evento condizionata ai predittori x. Risolvendo rispetto a p si ottiene:

    p(x)=\dfrac{1}{1+e^{-(\beta_0+\beta^Tx)}}.

    Questa forma garantisce probabilità comprese tra 0 e 1, a differenza di una regressione lineare applicata direttamente a una variabile binaria.

    Interpretazione dei coefficienti

    I coefficienti si interpretano in termini di log-odds; e^{\beta_j} è l’odds ratio associato a un incremento unitario del predittore x_j, a parità degli altri predittori.

    Se \beta_j>0, l’aumento di x_j aumenta gli odds dell’evento; se \beta_j<0, li riduce. L’effetto sulla probabilità non è costante: dipende dal punto della curva logistica e dagli altri predittori.

    Per un singolo predittore:

    \log\dfrac{p}{1-p}=\beta_0+\beta_1x.

    L’intercetta \beta_0 è il log-odds quando x=0, se questo valore ha senso nel dominio del problema.

    Stima e classificazione

    I parametri si stimano per massima verosimiglianza, non con minimi quadrati ordinari. Per osservazioni indipendenti y_i\in\{0,1\}, la verosimiglianza è:

    L(\beta)=\prod_i p_i^{y_i}(1-p_i)^{1-y_i}.

    Dopo la stima, il modello produce probabilità. Per trasformarle in classi si sceglie una soglia, spesso 0{,}5, ma la soglia va adattata al costo degli errori. In ambiti ingegneristici e medici, falsi positivi e falsi negativi possono avere conseguenze molto diverse.

    Diagnostica e problemi pratici

    Separazione perfetta, classi sbilanciate, outlier influenti e collinearità richiedono particolare attenzione. Con separazione perfetta, alcuni coefficienti possono divergere perché una combinazione dei predittori separa completamente gli esiti. In questi casi si usano penalizzazioni, metodi bayesiani o procedure robuste.

    Per la diagnostica locale si usano residui di Pearson e residui di devianza, che evidenziano osservazioni poco coerenti con la probabilità stimata. Le prestazioni classificative si valutano con matrice di confusione, sensibilità, specificità, precisione, richiamo, AUC e calibrazione delle probabilità.

    Un errore comune è interpretare i coefficienti come variazioni lineari di probabilità. La regressione logistica è lineare nel logit, non nella probabilità. Un altro errore è valutare il modello solo con l’accuratezza quando le classi sono sbilanciate.

    Vedi anche: Modello lineare generalizzato, Massima verosimiglianza, Odds ratio, Matrice di confusione.

    Ultimo aggiornamento: