Il campionamento statistico è il processo con cui si selezionano unità da una popolazione per stimare parametri, verificare ipotesi, controllare qualità o prendere decisioni con incertezza quantificata. È il ponte tra popolazione e dati osservati: la validità dell’inferenza dipende tanto da come si campiona quanto da quali formule si applicano dopo.
Un campione grande ma distorto può essere peggiore di un campione più piccolo ma ben progettato. Per questo il disegno di campionamento è una parte sostanziale della statistica, non un dettaglio logistico.
1. Popolazione, unità e frame
La popolazione è l’insieme delle unità su cui si vuole inferire. L’unità campionaria è l’oggetto selezionato: pezzo, cliente, sensore, lotto, misura, transazione, macchina, edificio o prova.
Il frame di campionamento è la lista o procedura concreta da cui si estrae il campione. Un frame incompleto produce copertura distorta. Se si vuole stimare la difettosità di tutti i pezzi prodotti, ma il frame include solo i pezzi arrivati a fine linea e non quelli scartati prima, l’inferenza è già compromessa.
2. Campionamento casuale semplice
Nel campionamento casuale semplice ogni unità ha la stessa probabilità di essere selezionata. Se la popolazione ha N unità e si estrae un campione di dimensione n senza reinserimento, ogni campione possibile di dimensione n ha uguale probabilità.
Per una media, lo stimatore naturale è:
Quando il campione è casuale e le osservazioni sono indipendenti o quasi, la variabilità di \bar{X} può essere quantificata con l’errore standard e usata per costruire un intervallo di confidenza.
3. Campionamento stratificato
Nel campionamento stratificato la popolazione viene divisa in strati omogenei, e si campiona dentro ciascuno strato. Gli strati possono essere stabilimenti, fasce dimensionali, classi di rischio, reparti, materiali o categorie operative.
Se gli strati sono internamente omogenei e tra loro diversi, la stratificazione aumenta precisione. Inoltre garantisce rappresentanza di gruppi piccoli ma importanti.
La stima della media complessiva usa pesi proporzionali alla dimensione degli strati:
Ignorare i pesi può distorcere la stima se il campione è allocato in modo non proporzionale.
4. Campionamento a grappoli
Nel campionamento a grappoli si selezionano gruppi naturali di unità, detti cluster o grappoli: scuole, lotti, edifici, turni, reparti, aree geografiche. Poi si osservano tutte o alcune unità dentro i grappoli scelti.
È utile quando campionare singole unità disperse è costoso. Il prezzo è che le unità dentro lo stesso grappolo tendono a essere simili, quindi contengono meno informazione indipendente rispetto a unità estratte casualmente da tutta la popolazione.
La dipendenza intra-grappolo aumenta la varianza degli stimatori. Trattare un campione a grappoli come se fosse casuale semplice porta spesso a intervalli troppo stretti.
5. Campionamento sistematico
Nel campionamento sistematico si seleziona ogni k-esima unità dopo una partenza casuale. È pratico in linee produttive, liste ordinate e flussi continui.
Funziona bene se l’ordine della lista non ha periodicità collegata alla variabile di interesse. Se invece la produzione ha cicli periodici e il passo k coincide con il ciclo, il campione può essere fortemente distorto.
Per questo la partenza casuale è necessaria ma non sempre sufficiente: bisogna capire la struttura del processo.
6. Bias di selezione
Il bias di selezione nasce quando alcune unità hanno probabilità di entrare nel campione diverse da quelle previste, o quando il meccanismo di selezione è associato alla variabile studiata.
Esempi:
- ispezionare solo pezzi facilmente accessibili;
- campionare solo macchine ancora in servizio;
- usare dati registrati solo quando il sistema non è in errore;
- analizzare solo clienti che rispondono spontaneamente;
- escludere prove fallite senza documentarle.
Il bias di selezione non diminuisce automaticamente aumentando n. Se il meccanismo è distorto, un campione enorme può stimare con grande precisione la quantità sbagliata.
7. Non risposta e dati mancanti
La non risposta è una forma di selezione successiva. Se le unità che non rispondono o non vengono misurate sono diverse da quelle osservate, la stima può essere distorta.
Nei dati tecnici, i mancanti possono dipendere da guasti di sensori, saturazione degli strumenti, soglie di registrazione o esclusione automatica di valori anomali. Non sono sempre casuali.
Occorre distinguere tra dati mancanti completamente a caso, mancanti a caso condizionatamente a variabili osservate e mancanti non ignorabili. La strategia di analisi dipende da questa distinzione.
8. Dimensione campionaria
La dimensione campionaria controlla la precisione, ma non la validità del disegno. In un campione casuale semplice, l’errore standard della media diminuisce approssimativamente come:
Raddoppiare la precisione richiede circa quadruplicare la dimensione del campione. Questo rende importante progettare il campionamento in modo efficiente, usando stratificazione o blocchi quando coerenti con il problema.
9. Campionamento e randomizzazione
Il campionamento casuale riguarda la selezione delle unità dalla popolazione. La randomizzazione riguarda l’assegnazione dei trattamenti o l’ordine delle prove. Sono concetti diversi.
Uno studio può avere campionamento non rappresentativo ma trattamento randomizzato, ottenendo buona validità interna e scarsa generalizzabilità. Oppure può avere campionamento rappresentativo ma nessuna randomizzazione dei trattamenti, ottenendo buone stime descrittive ma inferenza causale debole.
10. Campionamento in qualità e affidabilità
In controllo qualità, il campionamento serve a stimare difettosità, verificare specifiche, costruire carte di controllo o decidere accettazione di lotti. In affidabilità, serve a stimare tempi di vita, tassi di guasto e quantili di durata.
Quando l’obiettivo è garantire che una frazione della popolazione rientri in certi limiti, il concetto si collega agli intervalli di tolleranza.
11. Errori comuni
Il primo errore è confondere casualità con rappresentatività automatica. Un campione casuale da un frame incompleto rappresenta solo quel frame.
Il secondo errore è ignorare pesi, stratificazione o grappoli nell’analisi. Il disegno di campionamento deve entrare anche nel calcolo dell’incertezza.
Il terzo errore è trattare dati disponibili come se fossero campionati. I dati operativi raccolti automaticamente sono spesso comodi, ma non necessariamente rappresentativi della popolazione decisionale.
12. Uso operativo
Un piano di campionamento dovrebbe dichiarare popolazione, unità, frame, metodo di selezione, dimensione, eventuali pesi, gestione della non risposta e obiettivo inferenziale. Solo dopo ha senso discutere stimatori, p-value o intervalli. La qualità statistica nasce dal disegno prima che dal calcolo.