Outlier — ingegnerismo.it

Un outlier è un’osservazione che appare anomala, estrema o poco compatibile con la struttura principale di un insieme di dati. Può essere un errore di misura, un dato registrato con unità sbagliata, un evento raro reale, un cambio di regime, un punto influente per un modello oppure il segnale che la distribuzione assunta non descrive bene il fenomeno.

Il termine non deve essere usato come sinonimo di “dato da eliminare”. Un outlier è prima di tutto un dato da capire. In ingegneria, qualità, finanza, biomedica e manutenzione predittiva, proprio i valori anomali possono contenere l’informazione più importante: guasti, difetti, frodi, condizioni operative eccezionali o transizioni di stato.

1. Definizione operativa

Non esiste una definizione universale valida per ogni dataset. Un outlier è tale rispetto a un modello, a una scala, a una popolazione di riferimento o a una regola diagnostica. La stessa osservazione può essere anomala in un contesto e normale in un altro.

Esempi:

Contesto	Possibile outlier
misure di laboratorio	lettura fuori scala o campione contaminato
controllo qualità	pezzo con dimensione oltre le tolleranze
regressione	punto con residuo grande o alta influenza
sensori industriali	picco isolato dovuto a guasto o transitorio reale
clustering	punto lontano dalle regioni dense dei dati

La domanda corretta non è soltanto “quanto è lontano?”, ma “da quale struttura è lontano e perché?“.

2. Outlier univariati

Nel caso di una sola variabile, una regola classica usa quartili e scarto interquartile. Se $Q_1$ e $Q_3$ sono il primo e il terzo quartile:

IQR=Q_3-Q_1

La regola di Tukey segnala come valori sospetti quelli fuori dall’intervallo:

\left[Q_1-1{,}5\,IQR,\ Q_3+1{,}5\,IQR\right]

cioè:

x\lt Q_1-1{,}5\,IQR \quad\text{oppure}\quad x\gt Q_3+1{,}5\,IQR

Questa regola è robusta perché usa quartili e mediana, non media e deviazione standard. È però una regola descrittiva: segnala punti da ispezionare, non decide automaticamente che siano errori.

3. Z-score e normalità

Quando una variabile è plausibilmente normale, si può usare lo scarto standardizzato:

z_i=\dfrac{x_i-\bar x}{s}

Valori con modulo elevato, per esempio oltre $3$ , sono spesso trattati come sospetti:

\lvert z_i\rvert \gt 3

Questa regola dipende però da media e deviazione standard, quindi è sensibile agli outlier stessi. Se un valore estremo gonfia $s$ , può mascherare altri valori anomali. Inoltre, in distribuzioni asimmetriche o con code pesanti, valori lontani dalla media possono essere normali per quel fenomeno.

Per questo lo z-score va interpretato insieme a grafici, distribuzione normale, conoscenza del processo e indici robusti.

4. Outlier multivariati

In più dimensioni, un punto può non essere estremo in nessuna variabile presa singolarmente e risultare comunque anomalo nella combinazione delle variabili. Per esempio, altezza e peso possono essere entrambi plausibili separatamente, ma la loro combinazione può essere insolita.

Una misura classica è la distanza di Mahalanobis:

D_M(x)= \sqrt{(x-\mu)^T\Sigma^{-1}(x-\mu)}

dove $\mu$ è il vettore medio e $\Sigma$ la matrice di covarianza. La distanza tiene conto di scala, correlazioni e orientamento della nuvola dei dati.

Anche qui il modello conta: se media e covarianza sono stimate da dati già contaminati, la diagnosi può diventare fragile. In applicazioni critiche si usano stime robuste di posizione e dispersione.

5. Outlier in regressione

In regressione bisogna distinguere tre concetti:

Concetto	Significato
outlier verticale	osservazione con residuo grande rispetto al modello
punto ad alta leva	osservazione estrema nello spazio delle covariate
punto influente	osservazione che cambia molto coefficienti o predizioni

Un punto può avere residuo grande ma leva bassa: è anomalo localmente, ma potrebbe non spostare molto la retta. Un punto può avere leva alta e residuo piccolo: è estremo nelle covariate, ma coerente con la relazione. Il caso più delicato è leva alta con residuo alto.

Strumenti utili sono residuo standardizzato, leverage score, matrice hat e distanza di Cook. La regressione robusta riduce l’influenza di osservazioni problematiche, ma non elimina la necessità di capirne l’origine.

6. Cause possibili

Le cause principali sono:

Causa	Lettura
errore di misura	sensore guasto, saturazione, calibrazione sbagliata
errore di inserimento	unità errata, cifra digitata male, duplicazione
evento raro reale	condizione estrema ma fisicamente possibile
popolazioni mescolate	dataset che combina regimi o gruppi diversi
modello incompleto	variabile omessa, non linearità, interazione
cambiamento di processo	transizione di stato, guasto, deriva temporale

Questa classificazione è essenziale. Eliminare un outlier dovuto a errore documentato è diverso da eliminare un evento raro reale solo perché disturba il modello.

7. Come trattarli

Le azioni possibili sono diverse:

Azione	Quando ha senso
correggere il dato	errore verificabile di unità, trascrizione o calibrazione
escludere il dato	osservazione fuori protocollo o misura non valida documentata
trasformare la variabile	scale positive, asimmetria forte, code pesanti
usare metodi robusti	contaminazione possibile ma non chiaramente eliminabile
modellare gruppi separati	popolazioni o regimi realmente distinti
mantenere e segnalare	evento raro ma rilevante per rischio o sicurezza

La decisione deve essere documentata. Un’analisi seria riporta spesso risultati con e senza osservazioni influenti, o confronta modello ordinario e modello robusto.

8. Outlier e anomalie operative

In analisi dati industriale, un outlier può essere un’anomalia operativa: un picco di temperatura, una vibrazione insolita, una portata fuori regime, un assorbimento elettrico inatteso. In questi casi l’obiettivo non è “pulire” il dataset, ma rilevare una condizione che richiede attenzione.

In analisi dei cluster, alcuni metodi trattano gli outlier come punti non assegnati a regioni dense; in altri, come k-means, un singolo punto estremo può spostare un centroide. La scelta dell’algoritmo e della metrica determina quindi che cosa viene considerato anomalo.

9. Errori comuni

L’errore più grave è cancellare automaticamente i punti estremi. Questo può rendere i dati più “puliti” ma meno veri, soprattutto se gli eventi rari sono proprio ciò che interessa.

Altri errori ricorrenti sono:

Errore	Correzione
Usare una soglia unica per ogni problema	Collegare la soglia a distribuzione, scala e dominio
Confondere outlier e punto influente	In regressione controllare anche leva e distanza di Cook
Usare lo z-score su distribuzioni non normali	Preferire quartili, grafici e metodi robusti
Eliminare dati senza tracciabilità	Documentare criterio, causa e impatto
Ignorare outlier reali in sicurezza o affidabilità	Trattarli come eventi informativi, non come rumore
Non rifare l’analisi di sensibilità	Confrontare risultati con e senza punti critici

Un outlier è quindi una domanda posta ai dati: può rivelare un errore, un limite del modello o un fenomeno importante. La risposta corretta dipende dalla statistica, ma anche dal processo che ha generato l’osservazione.

Vedi anche: statistica descrittiva, mediana, quantile, distanza di Mahalanobis, distanza di Cook, regressione robusta e analisi dei cluster.