Valore atteso condizionato

Indice dei contenuti

    Il valore atteso condizionato descrive la media di una variabile aleatoria quando una parte dell’informazione è già nota. Se Y è la grandezza da prevedere e X rappresenta i dati osservati, E[Y\mid X] è la previsione media di Y aggiornata alla conoscenza di X.

    Questa nozione è centrale in probabilità, statistica, filtraggio, regressione e modelli bayesiani. In termini geometrici, può essere interpretata come una proiezione: tra tutte le funzioni di X, il valore atteso condizionato è quella che approssima meglio Y in media quadratica.

    Definizione nel caso discreto e continuo

    Se X assume valori discreti e P(X=x)>0, il valore atteso condizionato è

    E[Y\mid X=x] = \sum_y y\,P(Y=y\mid X=x).

    Nel caso continuo, quando esiste una densità condizionata f_{Y\mid X}, si scrive

    E[Y\mid X=x] = \int_{-\infty}^{+\infty} y\,f_{Y\mid X}(y\mid x)\,dy.

    L’espressione E[Y\mid X] è quindi una variabile aleatoria: cambia al variare del valore osservato di X. Invece E[Y\mid X=x] è un numero, cioè il valore assunto da quella funzione quando l’informazione osservata è X=x.

    Proprietà della torre

    La proprietà più importante è la legge dell’aspettazione iterata:

    E\!\left[E(Y\mid X)\right]=E(Y).

    Più in generale, se l’informazione contenuta in Z include quella contenuta in X, allora

    E\!\left[E(Y\mid Z)\mid X\right]=E(Y\mid X).

    Questa regola è detta anche proprietà della torre perché permette di semplificare attese condizionate annidate. È uno degli strumenti più usati nei calcoli su processi stocastici, catene di misura e modelli decisionali.

    Interpretazione come migliore previsione

    Tra tutte le funzioni misurabili g(X), il valore atteso condizionato minimizza l’errore quadratico medio:

    E\!\left[(Y-g(X))^2\right].

    La soluzione è

    g^\ast(X)=E(Y\mid X).

    Questo risultato spiega perché la regressione, il filtraggio e molte tecniche di stima cercano una media condizionata: non è solo una media aggiornata, ma la migliore previsione possibile se il criterio di errore è quadratico. Il collegamento con la probabilità condizionata è diretto, ma il valore atteso condizionato è più ricco perché restituisce una grandezza media, non solo una probabilità.

    Uso nei modelli bayesiani

    In inferenza bayesiana si calcolano spesso quantità del tipo

    E[\theta\mid dati],

    dove \theta è un parametro incerto. Questa media posteriore è una stima puntuale che usa sia le osservazioni sia l’informazione a priori. La stessa idea compare nella distribuzione predittiva, dove si media una previsione rispetto all’incertezza residua sui parametri.

    Errori comuni

    Un errore frequente è trattare E[Y\mid X] come una costante. In realtà è una funzione di X e quindi una variabile aleatoria. Diventa un numero solo dopo aver fissato X=x.

    Un secondo errore è confondere condizionamento e causalità: sapere che E[Y\mid X=x] cambia con x non significa automaticamente che X causi Y. Il condizionamento descrive informazione probabilistica; l’interpretazione causale richiede ipotesi aggiuntive sul modello.

    Infine, la formula integrale con densità non è la definizione più generale. In casi astratti il valore atteso condizionato è definito rispetto a una sigma-algebra, ma nelle applicazioni ingegneristiche le forme discrete e continue sono spesso sufficienti per eseguire calcoli corretti.

    Ultimo aggiornamento: