Convergenza in media Lp — ingegnerismo.it

La convergenza in media $L^p$ è un modo di convergenza per variabili aleatorie che misura direttamente la grandezza media dell’errore. È più forte della convergenza in probabilità e, per $p=2$ , coincide con il controllo dell’errore quadratico medio, molto usato in stima, regressione, filtraggio e simulazione Monte Carlo.

Definizione

Sia $p\ge1$ . Una successione di variabili aleatorie $X_n$ converge a $X$ in media $L^p$ se

E\!\left[|X_n-X|^p\right]\to0 \qquad \text{per }n\to\infty.

In modo equivalente,

\|X_n-X\|_p = \left(E\!\left[|X_n-X|^p\right]\right)^{1/p} \to0.

La quantità $\|X\|_p$ è la norma naturale dello spazio delle variabili aleatorie con momento $p$ -esimo finito, in analogia con gli spazi $L^p$ dell’analisi.

Interpretazione

La convergenza in media $L^p$ non chiede soltanto che $X_n$ sia vicino a $X$ con alta probabilità. Chiede che l’errore $|X_n-X|$ diventi piccolo in media, dopo essere stato elevato alla potenza $p$ .

Il parametro $p$ decide quanto vengono penalizzati gli errori grandi. Per $p=1$ si controlla l’errore assoluto medio:

E[|X_n-X|]\to0.

Per $p=2$ si controlla l’errore quadratico medio:

E[(X_n-X)^2]\to0.

Questo secondo caso è particolarmente importante perché si lega alla geometria di Hilbert, al valore atteso condizionato come migliore previsione quadratica e all’errore quadratico medio.

Relazione con altri modi di convergenza

La convergenza in $L^p$ implica la convergenza in probabilità. Infatti, per ogni $\varepsilon>0$ , dalla disuguaglianza di Markov si ottiene

P(|X_n-X|>\varepsilon) \le \dfrac{E[|X_n-X|^p]}{\varepsilon^p}.

Se il numeratore tende a zero, anche la probabilità dell’errore superiore a $\varepsilon$ tende a zero.

Inoltre, se $q<p$ e le variabili sono definite su uno spazio di probabilità, la convergenza in $L^p$ implica la convergenza in $L^q$ :

X_n\to X\ \text{in }L^p \quad\Rightarrow\quad X_n\to X\ \text{in }L^q.

L’implicazione inversa, in generale, non vale.

Uso in statistica e simulazione

La convergenza in media $L^2$ è il linguaggio naturale per stimatori che minimizzano errori quadratici. Se uno stimatore $\hat\theta_n$ converge a $\theta$ in $L^2$ , allora l’errore quadratico medio tende a zero:

E[(\hat\theta_n-\theta)^2]\to0.

Questo è più informativo della sola convergenza in probabilità, perché controlla anche la dimensione media dell’errore. Nella legge dei grandi numeri e nei processi stocastici, la convergenza in media quadratica è spesso usata quando si hanno momenti secondi finiti e si vuole lavorare con varianza, covarianza e proiezioni.

Errori comuni

Un errore frequente è pensare che convergere in probabilità implichi sempre convergere in $L^p$ . Non è vero: possono esistere eventi rari ma con errori enormi, trascurabili in probabilità ma pesanti nel momento $p$ -esimo.

Un secondo errore è ignorare l’esistenza dei momenti. La definizione richiede che $E[|X_n-X|^p]$ sia ben definito. Se le distribuzioni hanno code troppo pesanti, la convergenza in $L^p$ può non essere lo strumento adatto.

Infine, il valore di $p$ non è un dettaglio tecnico: scegliere $p=1$ , $p=2$ o valori maggiori cambia il modo in cui il modello giudica gli errori grandi. Per una cornice più ampia, vedi il formulario di probabilità.