Matrice di covarianza

Indice dei contenuti

    La matrice di covarianza di un vettore aleatorio \mathbf X con media \boldsymbol\mu raccoglie varianze e covarianze delle sue componenti:

    \Sigma=E[(\mathbf X-\boldsymbol\mu)(\mathbf X-\boldsymbol\mu)^T].

    Se \mathbf X=(X_1,\ldots,X_n)^T, l’elemento in posizione (i,j) è:

    \Sigma_{ij}=\operatorname{Cov}(X_i,X_j) =E[(X_i-\mu_i)(X_j-\mu_j)]

    Gli elementi diagonali sono le varianze:

    \Sigma_{ii}=\operatorname{Var}(X_i)

    Gli elementi fuori diagonale sono le covarianze e misurano il legame lineare tra coppie di variabili. Una covarianza positiva indica che le variabili tendono a crescere insieme; una covarianza negativa indica che una tende a diminuire quando l’altra cresce. Il valore numerico dipende però dalle unità di misura, perciò per confronti adimensionali si usa spesso la correlazione.

    La matrice è simmetrica e semidefinita positiva:

    a^T\Sigma a=\operatorname{Var}(a^T\mathbf X)\ge 0.

    Questa proprietà significa che qualunque combinazione lineare delle componenti ha varianza non negativa. Se la matrice è definita positiva, nessuna combinazione lineare non banale ha varianza nulla; se è singolare, alcune componenti sono linearmente dipendenti o ridondanti.

    Su un campione di m osservazioni centrate, organizzate in una matrice X, la covarianza campionaria può essere scritta come:

    S=\frac{1}{m-1}X^TX

    Quindi, su dati centrati, la matrice di covarianza campionaria è una matrice di Gram normalizzata delle variabili. Questa forma spiega il legame con la PCA: gli autovettori di S individuano direzioni principali di variabilità, mentre gli autovalori misurano quanta varianza è spiegata da ciascuna direzione.

    La matrice di covarianza descrive dispersione e dipendenza lineare in normale multivariata, stima statistica, filtraggio di Kalman, propagazione dell’incertezza, assimilazione dati, finanza quantitativa e controllo qualità. In un modello gaussiano multivariato, media e covarianza determinano completamente la distribuzione.

    Un errore comune è interpretare covarianza nulla come indipendenza. In generale indica solo assenza di dipendenza lineare; l’indipendenza segue dalla covarianza nulla solo in casi particolari, come distribuzioni gaussiane congiunte. Quando la covarianza dipende da due indici continui, il vincolo analogo diventa quello di funzione positiva-definita.

    Vedi anche: covarianza, matrice di Gram, funzione positiva-definita, normale multivariata.

    Ultimo aggiornamento: