Stima puntuale e massima verosimiglianza: esercizi svolti

La stima puntuale assegna a un parametro incognito un singolo valore calcolato dai dati. Uno stimatore è valutato per correttezza (assenza di distorsione), efficienza e consistenza. I due metodi costruttivi principali sono il metodo dei momenti e la massima verosimiglianza (MLE). Questa scheda allena entrambi e le proprietà degli stimatori.

1. Stimatore corretto

Esercizio. Verificare che la media campionaria $\bar X$ è uno stimatore corretto della media $\mu$ .

Uno stimatore è corretto se il suo valore atteso è il parametro vero:

$E[\bar X]=E\!\left[\dfrac{1}{n}\sum_i X_i\right]=\dfrac{1}{n}\sum_i E[X_i]=\dfrac{1}{n}\,n\mu=\mu.$

$E[\bar X]=\mu$ : la media campionaria è non distorta. In media colpisce il bersaglio, qualunque sia $n$ .

2. Distorsione di uno stimatore

Esercizio. Lo stimatore $\displaystyle \hat\sigma^2=\dfrac{1}{n}\sum(X_i-\bar X)^2$ è corretto per la varianza $\sigma^2$ ?

Si dimostra che $E[\hat\sigma^2]=\dfrac{n-1}{n}\sigma^2$ , quindi la distorsione è:

$\text{bias}=E[\hat\sigma^2]-\sigma^2=\dfrac{n-1}{n}\sigma^2-\sigma^2=-\dfrac{\sigma^2}{n}\ne0.$

È distorto (sottostima $\sigma^2$ ). Per correggere si divide per $n-1$ invece di $n$ : ottenendo $s^2$ , corretto. Ecco perché la varianza campionaria usa $n-1$ .

3. Errore quadratico medio

Esercizio. Definire l’MSE di uno stimatore e scomporlo.

L’errore quadratico medio misura la qualità complessiva:

$\text{MSE}(\hat\theta)=E[(\hat\theta-\theta)^2]=\operatorname{Var}(\hat\theta)+[\text{bias}(\hat\theta)]^2.$

L’MSE combina dispersione e distorsione. Uno stimatore leggermente distorto ma a varianza bassa può avere MSE minore di uno corretto ma molto variabile: è il compromesso bias-varianza.

4. Metodo dei momenti per la Poisson

Esercizio. Stimare $\lambda$ di una Poisson con il metodo dei momenti, dati con media campionaria $\bar x=3{,}2$ .

Il metodo dei momenti eguaglia il momento teorico a quello campionario. Per la Poisson $E[X]=\lambda$ :

$\hat\lambda=\bar x=3{,}2.$

Il metodo dei momenti è semplice: si risolve $E[X]=\bar x$ rispetto al parametro. Qui coincide con la MLE.

5. MLE per la Bernoulli

Esercizio. Su $n=20$ prove se ne osservano $k=13$ successi. Stimare $p$ con la massima verosimiglianza.

Passo 1 — log-verosimiglianza. Per $n$ Bernoulli, $\ell(p)=k\ln p+(n-k)\ln(1-p)$ .

Passo 2 — derivare e annullare:

$\dfrac{d\ell}{dp}=\dfrac{k}{p}-\dfrac{n-k}{1-p}=0\ \Rightarrow\ \hat p=\dfrac{k}{n}=\dfrac{13}{20}=0{,}65.$

La MLE di $p$ è la frequenza relativa dei successi: il risultato intuitivo, ma ora giustificato. La verosimiglianza misura quanto i dati osservati sono “plausibili” al variare di $p$ .

6. MLE per la media di una normale

Esercizio. Per un campione da $N(\mu,\sigma^2)$ con $\sigma$ noto, ricavare la MLE di $\mu$ .

La log-verosimiglianza è $\displaystyle \ell(\mu)=-\dfrac{1}{2\sigma^2}\sum(x_i-\mu)^2+\text{cost}$ . Derivando:

$\dfrac{d\ell}{d\mu}=\dfrac{1}{\sigma^2}\sum(x_i-\mu)=0\ \Rightarrow\ \hat\mu=\dfrac{1}{n}\sum x_i=\bar x.$

La MLE della media normale è la media campionaria. Massimizzare la verosimiglianza equivale qui a minimizzare la somma dei quadrati degli scarti: legame con i minimi quadrati.

7. Consistenza e confronto di stimatori

Esercizio. Per stimare $\mu$ di una normale, confrontare $\bar X$ (media campionaria) con $X_1$ (la sola prima osservazione). Quale preferire?

Entrambi sono corretti: $E[\bar X]=E[X_1]=\mu$ . Ma le varianze differiscono:

$\operatorname{Var}(\bar X)=\dfrac{\sigma^2}{n}\ll\operatorname{Var}(X_1)=\sigma^2\quad(\text{per }n>1).$

$\bar X$ è più efficiente (varianza minore) e consistente ( $\operatorname{Var}\to0$ per $n\to\infty$ ), mentre $X_1$ non migliora con $n$ . A parità di correttezza si sceglie lo stimatore a varianza minore.

8. MLE per il tasso esponenziale

Esercizio. Un campione $x_1,\dots,x_n$ proviene da una distribuzione esponenziale di tasso $\lambda$ , con densità $f(x)=\lambda e^{-\lambda x}$ per $x\ge0$ . Ricavare la MLE di $\lambda$ .

La verosimiglianza è:

L(\lambda)=\prod_{i=1}^n \lambda e^{-\lambda x_i} =\lambda^n e^{-\lambda\sum x_i}.

La log-verosimiglianza:

\ell(\lambda)=n\ln\lambda-\lambda\sum_{i=1}^n x_i.

Derivando:

\dfrac{d\ell}{d\lambda}=\dfrac{n}{\lambda}-\sum x_i.

Ponendo a zero:

\hat\lambda_{MLE}=\dfrac{n}{\sum x_i}=\dfrac{1}{\bar x}.

Il tasso stimato è il reciproco del tempo medio osservato.

9. Metodo dei momenti per una uniforme

Esercizio. Se $X\sim U(0,\theta)$ e la media campionaria è $\bar x$ , trovare lo stimatore dei momenti di $\theta$ .

Per una uniforme su $(0,\theta)$ :

E[X]=\dfrac{\theta}{2}.

Il metodo dei momenti impone:

\bar x=\dfrac{\theta}{2}.

Quindi:

\hat\theta_{MM}=2\bar x.

Questo stimatore usa la media, ma non forza necessariamente $\hat\theta$ a essere almeno pari al massimo osservato. La MLE per lo stesso modello è invece $\max X_i$ .

10. MLE con vincolo di supporto

Esercizio. Per $X_1,\dots,X_n\sim U(0,\theta)$ , ricavare intuitivamente la MLE di $\theta$ .

La densità congiunta è:

L(\theta)=\dfrac{1}{\theta^n}

se tutti i dati stanno in $[0,\theta]$ , cioè se:

\theta\ge x_{(n)}=\max_i x_i.

Se $\theta<x_{(n)}$ , la verosimiglianza è zero. Per $\theta\ge x_{(n)}$ , invece, $1/\theta^n$ decresce al crescere di $\theta$ . Quindi il massimo si ottiene al valore più piccolo ammesso:

\hat\theta_{MLE}=x_{(n)}.

Questo esempio mostra perché nei problemi di MLE bisogna controllare anche il supporto della distribuzione, non solo derivare la log-verosimiglianza.

Errori comuni

Confondere correttezza e consistenza. La correttezza è $E[\hat\theta]=\theta$ (per ogni $n$ ); la consistenza è la convergenza a $\theta$ per $n\to\infty$ : sono proprietà distinte.
Massimizzare la verosimiglianza invece della log. Si massimizza la log-verosimiglianza (somma anziché prodotto): più semplice e con lo stesso punto di massimo.
Dividere per $n$ stimando la varianza. Lo stimatore con $n$ è distorto; quello corretto usa $n-1$ .
Ignorare la varianza nel confronto. Due stimatori corretti non sono equivalenti: si preferisce quello a MSE/varianza minore.
Derivare senza controllare il supporto. In modelli come l’uniforme, il massimo può stare sul bordo imposto dai dati.
Confondere metodo dei momenti e MLE. Possono coincidere, ma non sempre: usano criteri diversi.