Restrizione del campione

Per "restrizione" del campione si intende la definizione di un campione ottenuta selezionando le osservazioni in base a un criterio Booleano (logico), o usando un generatore di numeri casuali. Questa modalità è usata tipicamente con dati di tipo cross-section o panel.

Si supponga di avere dei dati di tipo cross-section che descrivono il genere, il reddito e altre caratteristiche di un gruppo di individui e si vogliano analizzare solo le donne presenti nel campione. Se si dispone di una variabile dummy genere, che vale 1 per gli uomini e 0 per le donne, si potrebbe ottenere questo risultato con


	smpl genere=0 --restrict
      
Oppure si supponga di voler limitare il campione di lavoro ai soli individui con un reddito superiore ai 50.000 euro. Si potrebbe usare


	smpl reddito>50000 --restrict
      

Qui sorge un problema: eseguendo in sequenza i due comandi visti sopra, cosa conterrà il sotto-campione? Tutti gli individui con reddito superiore a 50.000 euro o solo le donne con reddito superiore a 50.000 euro? La risposta corretta è la seconda: la seconda restrizione si aggiunge alla prima. Se si vuole applicare una nuova restrizione indipendentemente da quelle applicate in precedenza, occorre prima re-impostare il campione alla sua lunghezza originaria, usando


      smpl full
    

In alternativa, è possibile aggiungere l'opzione replace al comando smpl:


      smpl income>50000 --restrict --replace
    

Questa opzione ha l'effetto di re-impostare automaticamente il campione completo prima di applicare la nuova restrizione.

A differenza della semplice "impostazione" del campione, la "restrizione" del campione può produrre un insieme di osservazioni non contigue nel dataset originale e può anche modificare la struttura del dataset.

Questo fenomeno può essere osservato nel caso dei dati panel: si supponga di avere un panel di cinque imprese (indicizzate dalla variabile impresa) osservate in ognuno degli anni identificati dalla variabile anno. La restrizione


	smpl anno=1995 --restrict
      
produce un dataset che non è più di tipo panel, ma cross-section per l'anno 1995. In modo simile

	smpl impresa=3 --restrict
      
produce un dataset di serie storiche per l'impresa numero 3.

Per questi motivi (possibile non-contiguità nelle osservazioni, possibile cambiamento nella struttura dei dati) gretl si comporta in modo diverso a seconda che si operi una "restrizione" del campione o una semplice "impostazione" di esso. Nel caso dell'impostazione, il programma memorizza semplicemente le osservazioni iniziali e finali e le usa come parametri per i vari comandi di stima dei modelli, di calcolo delle statistiche ecc. Nel caso della restrizione, il programma crea una copia ridotta del dataset e la tratta come un semplice dataset di tipo cross-section non datato. Se si vuole re-imporre un'interpretazione di tipo "serie storiche" o "panel" al dataset ridotto, occorre usare il comando setobs (e panel, se appropriato).

Il fatto che una "restrizione" del campione comporti la creazione di una copia ridotta del dataset originale può creare problemi quando il dataset è molto grande (nell'ordine delle migliaia di osservazioni). Se si usano simili dataset, la creazione della copia può causare l'esaurimento della memoria del sistema durante il calcolo dei risultati delle regressioni. È possibile aggirare il problema in questo modo:

  1. Aprire il dataset completo e imporre la restrizione sul campione.

  2. Salvare una copia del dataset ridotto su disco.

  3. Chiudere il dataset completo e aprire quello ridotto.

  4. Procedere con l'analisi.