Outlier

Indice dei contenuti

    Un outlier è un’osservazione che appare anomala, estrema o poco compatibile con la struttura principale di un insieme di dati. Può essere un errore di misura, un dato registrato con unità sbagliata, un evento raro reale, un cambio di regime, un punto influente per un modello oppure il segnale che la distribuzione assunta non descrive bene il fenomeno.

    Il termine non deve essere usato come sinonimo di “dato da eliminare”. Un outlier è prima di tutto un dato da capire. In ingegneria, qualità, finanza, biomedica e manutenzione predittiva, proprio i valori anomali possono contenere l’informazione più importante: guasti, difetti, frodi, condizioni operative eccezionali o transizioni di stato.

    1. Definizione operativa

    Non esiste una definizione universale valida per ogni dataset. Un outlier è tale rispetto a un modello, a una scala, a una popolazione di riferimento o a una regola diagnostica. La stessa osservazione può essere anomala in un contesto e normale in un altro.

    Esempi:

    ContestoPossibile outlier
    misure di laboratoriolettura fuori scala o campione contaminato
    controllo qualitàpezzo con dimensione oltre le tolleranze
    regressionepunto con residuo grande o alta influenza
    sensori industrialipicco isolato dovuto a guasto o transitorio reale
    clusteringpunto lontano dalle regioni dense dei dati

    La domanda corretta non è soltanto “quanto è lontano?”, ma “da quale struttura è lontano e perché?“.

    2. Outlier univariati

    Nel caso di una sola variabile, una regola classica usa quartili e scarto interquartile. Se Q_1 e Q_3 sono il primo e il terzo quartile:

    IQR=Q_3-Q_1

    La regola di Tukey segnala come valori sospetti quelli fuori dall’intervallo:

    \left[Q_1-1{,}5\,IQR,\ Q_3+1{,}5\,IQR\right]

    cioè:

    x\lt Q_1-1{,}5\,IQR \quad\text{oppure}\quad x\gt Q_3+1{,}5\,IQR

    Questa regola è robusta perché usa quartili e mediana, non media e deviazione standard. È però una regola descrittiva: segnala punti da ispezionare, non decide automaticamente che siano errori.

    3. Z-score e normalità

    Quando una variabile è plausibilmente normale, si può usare lo scarto standardizzato:

    z_i=\dfrac{x_i-\bar x}{s}

    Valori con modulo elevato, per esempio oltre 3, sono spesso trattati come sospetti:

    \lvert z_i\rvert \gt 3

    Questa regola dipende però da media e deviazione standard, quindi è sensibile agli outlier stessi. Se un valore estremo gonfia s, può mascherare altri valori anomali. Inoltre, in distribuzioni asimmetriche o con code pesanti, valori lontani dalla media possono essere normali per quel fenomeno.

    Per questo lo z-score va interpretato insieme a grafici, distribuzione normale, conoscenza del processo e indici robusti.

    4. Outlier multivariati

    In più dimensioni, un punto può non essere estremo in nessuna variabile presa singolarmente e risultare comunque anomalo nella combinazione delle variabili. Per esempio, altezza e peso possono essere entrambi plausibili separatamente, ma la loro combinazione può essere insolita.

    Una misura classica è la distanza di Mahalanobis:

    D_M(x)= \sqrt{(x-\mu)^T\Sigma^{-1}(x-\mu)}

    dove \mu è il vettore medio e \Sigma la matrice di covarianza. La distanza tiene conto di scala, correlazioni e orientamento della nuvola dei dati.

    Anche qui il modello conta: se media e covarianza sono stimate da dati già contaminati, la diagnosi può diventare fragile. In applicazioni critiche si usano stime robuste di posizione e dispersione.

    5. Outlier in regressione

    In regressione bisogna distinguere tre concetti:

    ConcettoSignificato
    outlier verticaleosservazione con residuo grande rispetto al modello
    punto ad alta levaosservazione estrema nello spazio delle covariate
    punto influenteosservazione che cambia molto coefficienti o predizioni

    Un punto può avere residuo grande ma leva bassa: è anomalo localmente, ma potrebbe non spostare molto la retta. Un punto può avere leva alta e residuo piccolo: è estremo nelle covariate, ma coerente con la relazione. Il caso più delicato è leva alta con residuo alto.

    Strumenti utili sono residuo standardizzato, leverage score, matrice hat e distanza di Cook. La regressione robusta riduce l’influenza di osservazioni problematiche, ma non elimina la necessità di capirne l’origine.

    6. Cause possibili

    Le cause principali sono:

    CausaLettura
    errore di misurasensore guasto, saturazione, calibrazione sbagliata
    errore di inserimentounità errata, cifra digitata male, duplicazione
    evento raro realecondizione estrema ma fisicamente possibile
    popolazioni mescolatedataset che combina regimi o gruppi diversi
    modello incompletovariabile omessa, non linearità, interazione
    cambiamento di processotransizione di stato, guasto, deriva temporale

    Questa classificazione è essenziale. Eliminare un outlier dovuto a errore documentato è diverso da eliminare un evento raro reale solo perché disturba il modello.

    7. Come trattarli

    Le azioni possibili sono diverse:

    AzioneQuando ha senso
    correggere il datoerrore verificabile di unità, trascrizione o calibrazione
    escludere il datoosservazione fuori protocollo o misura non valida documentata
    trasformare la variabilescale positive, asimmetria forte, code pesanti
    usare metodi robusticontaminazione possibile ma non chiaramente eliminabile
    modellare gruppi separatipopolazioni o regimi realmente distinti
    mantenere e segnalareevento raro ma rilevante per rischio o sicurezza

    La decisione deve essere documentata. Un’analisi seria riporta spesso risultati con e senza osservazioni influenti, o confronta modello ordinario e modello robusto.

    8. Outlier e anomalie operative

    In analisi dati industriale, un outlier può essere un’anomalia operativa: un picco di temperatura, una vibrazione insolita, una portata fuori regime, un assorbimento elettrico inatteso. In questi casi l’obiettivo non è “pulire” il dataset, ma rilevare una condizione che richiede attenzione.

    In analisi dei cluster, alcuni metodi trattano gli outlier come punti non assegnati a regioni dense; in altri, come k-means, un singolo punto estremo può spostare un centroide. La scelta dell’algoritmo e della metrica determina quindi che cosa viene considerato anomalo.

    9. Errori comuni

    L’errore più grave è cancellare automaticamente i punti estremi. Questo può rendere i dati più “puliti” ma meno veri, soprattutto se gli eventi rari sono proprio ciò che interessa.

    Altri errori ricorrenti sono:

    ErroreCorrezione
    Usare una soglia unica per ogni problemaCollegare la soglia a distribuzione, scala e dominio
    Confondere outlier e punto influenteIn regressione controllare anche leva e distanza di Cook
    Usare lo z-score su distribuzioni non normaliPreferire quartili, grafici e metodi robusti
    Eliminare dati senza tracciabilitàDocumentare criterio, causa e impatto
    Ignorare outlier reali in sicurezza o affidabilitàTrattarli come eventi informativi, non come rumore
    Non rifare l’analisi di sensibilitàConfrontare risultati con e senza punti critici

    Un outlier è quindi una domanda posta ai dati: può rivelare un errore, un limite del modello o un fenomeno importante. La risposta corretta dipende dalla statistica, ma anche dal processo che ha generato l’osservazione.

    Vedi anche: statistica descrittiva, mediana, quantile, distanza di Mahalanobis, distanza di Cook, regressione robusta e analisi dei cluster.

    Pubblicato: