Randomizzazione — ingegnerismo.it

La randomizzazione è l’assegnazione casuale di trattamenti, unità sperimentali, campioni o ordine di esecuzione delle prove. Nel disegno degli esperimenti è uno strumento essenziale per proteggere l’inferenza da bias sistematici e da fattori non controllati.

La sua funzione non è rendere i gruppi identici, ma rendere casuale il modo in cui differenze note e ignote si distribuiscono tra i trattamenti. Questo crea la base probabilistica per stimare errori, costruire intervalli e usare test statistici.

1. Perché serve

Senza randomizzazione, l’effetto del trattamento può essere confuso con altri fattori. Se tutte le prove del trattamento A vengono eseguite al mattino e tutte quelle del trattamento B al pomeriggio, un cambiamento di temperatura, operatore, umidità o deriva dello strumento può sembrare un effetto del trattamento.

La randomizzazione spezza, per quanto possibile, queste associazioni sistematiche. Un fattore nascosto può ancora influenzare la risposta, ma diventa meno probabile che agisca sempre nella stessa direzione rispetto ai trattamenti.

2. Randomizzazione dei trattamenti

Nel caso più semplice si hanno unità sperimentali e trattamenti. La randomizzazione assegna ogni unità a un trattamento secondo una regola casuale:

P(T_i=A)=P(T_i=B)=\dfrac{1}{2},

se i due trattamenti devono essere bilanciati in probabilità.

In molti esperimenti si usa una randomizzazione bilanciata, imponendo che ogni trattamento abbia lo stesso numero di unità. Questo migliora efficienza e semplifica l’analisi, ma mantiene l’assegnazione casuale entro il vincolo di bilanciamento.

3. Randomizzazione dell’ordine delle prove

In ingegneria è spesso importante randomizzare anche l’ordine di esecuzione. L’ordine può essere legato a:

riscaldamento di macchine;
usura utensili;
deriva degli strumenti;
affaticamento dell’operatore;
cambiamenti ambientali;
apprendimento durante l’esecuzione.

Se l’ordine non è randomizzato, il tempo può diventare un confondente. Randomizzare l’ordine non elimina la deriva temporale, ma impedisce che coincida sistematicamente con un singolo trattamento.

4. Randomizzazione e confondimento

Il confondimento nasce quando l’effetto di interesse non è separabile dall’effetto di un’altra variabile. La randomizzazione è la difesa primaria contro confondenti non misurati, perché non richiede di conoscere in anticipo tutti i fattori rilevanti.

Questo è il motivo per cui un esperimento randomizzato ha una forza causale superiore a uno studio osservazionale. Nel campionamento osservazionale si possono aggiustare covariate note; con la randomizzazione, anche variabili ignote tendono a distribuirsi tra i gruppi per effetto del caso.

5. Randomizzazione a blocchi

Quando esiste una fonte nota di variabilità, si usa spesso randomizzazione entro blocchi sperimentali. Per esempio, se le prove sono distribuite su lotti diversi, si può assegnare casualmente i trattamenti dentro ciascun lotto.

La logica è:

\text{confrontare i trattamenti dentro blocchi omogenei}.

In questo modo il blocco controlla la variabilità nota, mentre la randomizzazione protegge contro associazioni sistematiche residue.

6. Randomizzazione completa e vincolata

La randomizzazione completa assegna trattamenti senza vincoli particolari, salvo le probabilità. La randomizzazione vincolata impone condizioni aggiuntive: bilanciamento, blocchi, stratificazione, sequenze ammissibili, limiti logistici o sicurezza.

Nei processi industriali non sempre è possibile randomizzare liberamente. Cambiare temperatura, configurazione o materiale può avere costi di setup. In questi casi si usano disegni split-plot, blocchi o restrizioni dichiarate. Il punto essenziale è non nascondere il vincolo, perché modifica l’errore sperimentale e l’interpretazione del test.

7. Randomizzazione nei test di permutazione

La randomizzazione è anche alla base del test di permutazione. Se l’assegnazione dei trattamenti è casuale, sotto l’ipotesi nulla molte riassegnazioni delle etichette sono ugualmente plausibili. Confrontando la statistica osservata con le statistiche ottenute dalle permutazioni si costruisce un p-value senza richiedere forti ipotesi parametriche.

Questo collegamento è concettualmente importante: la validità del test nasce dal meccanismo di assegnazione, non solo da una formula distribuzionale.

8. Cosa non garantisce

La randomizzazione non garantisce che i gruppi siano perfettamente bilanciati in ogni campione. Per caso, un gruppo può avere più unità difficili, più valori estremi o caratteristiche iniziali diverse.

Non compensa nemmeno errori di misura, campioni troppo piccoli, trattamenti applicati male o dati mancanti non casuali. È una condizione di disegno, non una cura universale.

In campioni piccoli è utile controllare il bilanciamento delle covariate principali e, se necessario, usare blocchi o randomizzazione stratificata.

9. Randomizzazione e campionamento

Nel campionamento statistico la selezione casuale serve a rendere il campione rappresentativo rispetto alla popolazione. Negli esperimenti, invece, la randomizzazione serve soprattutto ad assegnare trattamenti in modo non distorto.

Le due idee sono collegate ma distinte. Un esperimento può randomizzare bene i trattamenti su un campione non rappresentativo; in quel caso l’effetto causale interno può essere stimato bene, ma la generalizzazione alla popolazione resta limitata.

10. Errori comuni

Il primo errore è credere che “random” significhi disordinato o improvvisato. La randomizzazione deve essere pianificata, documentata e riproducibile.

Il secondo errore è randomizzare dopo aver visto i dati. La sequenza casuale deve essere generata prima dell’esecuzione, altrimenti può essere influenzata da preferenze o aspettative.

Il terzo errore è ignorare vincoli pratici che rompono la casualità. Se un operatore cambia l’ordine perché “più comodo”, il disegno effettivo non è più quello dichiarato.

11. Uso operativo

In un report tecnico la randomizzazione dovrebbe essere descritta esplicitamente: unità randomizzate, metodo di generazione, eventuali blocchi, vincoli, ordine di prova e deviazioni dal piano. Questa trasparenza rende l’inferenza verificabile e permette di distinguere un risultato sperimentale da una semplice sequenza di prove ordinate per comodità.