Un outlier è un’osservazione che appare anomala, estrema o poco compatibile con la struttura principale di un insieme di dati. Può essere un errore di misura, un dato registrato con unità sbagliata, un evento raro reale, un cambio di regime, un punto influente per un modello oppure il segnale che la distribuzione assunta non descrive bene il fenomeno.
Il termine non deve essere usato come sinonimo di “dato da eliminare”. Un outlier è prima di tutto un dato da capire. In ingegneria, qualità, finanza, biomedica e manutenzione predittiva, proprio i valori anomali possono contenere l’informazione più importante: guasti, difetti, frodi, condizioni operative eccezionali o transizioni di stato.
1. Definizione operativa
Non esiste una definizione universale valida per ogni dataset. Un outlier è tale rispetto a un modello, a una scala, a una popolazione di riferimento o a una regola diagnostica. La stessa osservazione può essere anomala in un contesto e normale in un altro.
Esempi:
| Contesto | Possibile outlier |
|---|---|
| misure di laboratorio | lettura fuori scala o campione contaminato |
| controllo qualità | pezzo con dimensione oltre le tolleranze |
| regressione | punto con residuo grande o alta influenza |
| sensori industriali | picco isolato dovuto a guasto o transitorio reale |
| clustering | punto lontano dalle regioni dense dei dati |
La domanda corretta non è soltanto “quanto è lontano?”, ma “da quale struttura è lontano e perché?“.
2. Outlier univariati
Nel caso di una sola variabile, una regola classica usa quartili e scarto interquartile. Se Q_1 e Q_3 sono il primo e il terzo quartile:
La regola di Tukey segnala come valori sospetti quelli fuori dall’intervallo:
cioè:
Questa regola è robusta perché usa quartili e mediana, non media e deviazione standard. È però una regola descrittiva: segnala punti da ispezionare, non decide automaticamente che siano errori.
3. Z-score e normalità
Quando una variabile è plausibilmente normale, si può usare lo scarto standardizzato:
Valori con modulo elevato, per esempio oltre 3, sono spesso trattati come sospetti:
Questa regola dipende però da media e deviazione standard, quindi è sensibile agli outlier stessi. Se un valore estremo gonfia s, può mascherare altri valori anomali. Inoltre, in distribuzioni asimmetriche o con code pesanti, valori lontani dalla media possono essere normali per quel fenomeno.
Per questo lo z-score va interpretato insieme a grafici, distribuzione normale, conoscenza del processo e indici robusti.
4. Outlier multivariati
In più dimensioni, un punto può non essere estremo in nessuna variabile presa singolarmente e risultare comunque anomalo nella combinazione delle variabili. Per esempio, altezza e peso possono essere entrambi plausibili separatamente, ma la loro combinazione può essere insolita.
Una misura classica è la distanza di Mahalanobis:
dove \mu è il vettore medio e \Sigma la matrice di covarianza. La distanza tiene conto di scala, correlazioni e orientamento della nuvola dei dati.
Anche qui il modello conta: se media e covarianza sono stimate da dati già contaminati, la diagnosi può diventare fragile. In applicazioni critiche si usano stime robuste di posizione e dispersione.
5. Outlier in regressione
In regressione bisogna distinguere tre concetti:
| Concetto | Significato |
|---|---|
| outlier verticale | osservazione con residuo grande rispetto al modello |
| punto ad alta leva | osservazione estrema nello spazio delle covariate |
| punto influente | osservazione che cambia molto coefficienti o predizioni |
Un punto può avere residuo grande ma leva bassa: è anomalo localmente, ma potrebbe non spostare molto la retta. Un punto può avere leva alta e residuo piccolo: è estremo nelle covariate, ma coerente con la relazione. Il caso più delicato è leva alta con residuo alto.
Strumenti utili sono residuo standardizzato, leverage score, matrice hat e distanza di Cook. La regressione robusta riduce l’influenza di osservazioni problematiche, ma non elimina la necessità di capirne l’origine.
6. Cause possibili
Le cause principali sono:
| Causa | Lettura |
|---|---|
| errore di misura | sensore guasto, saturazione, calibrazione sbagliata |
| errore di inserimento | unità errata, cifra digitata male, duplicazione |
| evento raro reale | condizione estrema ma fisicamente possibile |
| popolazioni mescolate | dataset che combina regimi o gruppi diversi |
| modello incompleto | variabile omessa, non linearità, interazione |
| cambiamento di processo | transizione di stato, guasto, deriva temporale |
Questa classificazione è essenziale. Eliminare un outlier dovuto a errore documentato è diverso da eliminare un evento raro reale solo perché disturba il modello.
7. Come trattarli
Le azioni possibili sono diverse:
| Azione | Quando ha senso |
|---|---|
| correggere il dato | errore verificabile di unità, trascrizione o calibrazione |
| escludere il dato | osservazione fuori protocollo o misura non valida documentata |
| trasformare la variabile | scale positive, asimmetria forte, code pesanti |
| usare metodi robusti | contaminazione possibile ma non chiaramente eliminabile |
| modellare gruppi separati | popolazioni o regimi realmente distinti |
| mantenere e segnalare | evento raro ma rilevante per rischio o sicurezza |
La decisione deve essere documentata. Un’analisi seria riporta spesso risultati con e senza osservazioni influenti, o confronta modello ordinario e modello robusto.
8. Outlier e anomalie operative
In analisi dati industriale, un outlier può essere un’anomalia operativa: un picco di temperatura, una vibrazione insolita, una portata fuori regime, un assorbimento elettrico inatteso. In questi casi l’obiettivo non è “pulire” il dataset, ma rilevare una condizione che richiede attenzione.
In analisi dei cluster, alcuni metodi trattano gli outlier come punti non assegnati a regioni dense; in altri, come k-means, un singolo punto estremo può spostare un centroide. La scelta dell’algoritmo e della metrica determina quindi che cosa viene considerato anomalo.
9. Errori comuni
L’errore più grave è cancellare automaticamente i punti estremi. Questo può rendere i dati più “puliti” ma meno veri, soprattutto se gli eventi rari sono proprio ciò che interessa.
Altri errori ricorrenti sono:
| Errore | Correzione |
|---|---|
| Usare una soglia unica per ogni problema | Collegare la soglia a distribuzione, scala e dominio |
| Confondere outlier e punto influente | In regressione controllare anche leva e distanza di Cook |
| Usare lo z-score su distribuzioni non normali | Preferire quartili, grafici e metodi robusti |
| Eliminare dati senza tracciabilità | Documentare criterio, causa e impatto |
| Ignorare outlier reali in sicurezza o affidabilità | Trattarli come eventi informativi, non come rumore |
| Non rifare l’analisi di sensibilità | Confrontare risultati con e senza punti critici |
Un outlier è quindi una domanda posta ai dati: può rivelare un errore, un limite del modello o un fenomeno importante. La risposta corretta dipende dalla statistica, ma anche dal processo che ha generato l’osservazione.
Vedi anche: statistica descrittiva, mediana, quantile, distanza di Mahalanobis, distanza di Cook, regressione robusta e analisi dei cluster.