Valori mancanti nei dati

I valori mancanti vengono rappresentati internamente come DBL_MAX, il più alto numero in virgola mobile rappresentabile sul sistema (che è probabile sia almeno 10 alla trecentesima potenza, e non va interpretato come un valore legittimo dei dati). Nei file di dati in formato interno vanno rappresentati come NA, mentre se si importano dati in formato CSV gretl accetta una delle tre rappresentazioni seguenti: −999, la stringa NA, o semplicemente un valore nullo. Questi ultimi, ovviamente, vanno delimitati in modo opportuno, ad es. 120.6,,5.38 indica che il valore di mezzo è mancante.

Per quanto riguarda il trattamento dei valori mancanti durante le analisi statistiche, gretl si comporta nel modo seguente:

Se gretl trova dei valori mancanti "all'interno" dell'intervallo del campione per una regressione (che può anche essere troncato), il risultato dipende dal tipo di dataset e dallo stimatore scelto. In molti casi, il programma eseguirà le stime saltando automaticamente le osservazioni che contengono valori mancanti, emettendo un messaggio che indica quante osservazioni sono state escluse. Tuttavia, ci sono procedure che non saltano automaticamente le osservazioni mancanti: tutti gli stimatori autoregressivi, gli stimatori di sistema (come il SUR) e i minimi quadrati non lineari. Nel caso di dati panel, l'esclusione automatica delle osservazioni mancanti avviene solo se il dataset risultante costituisce un panel "bilanciato". In tutti i casi in cui l'esclusione automatica delle osservazioni mancanti non è supportata, gretl emette un messaggio di errore e non produce stime.

In tutti i casi problematici dovuti a valori mancanti all'interno di un dataset, è possibile ricorrere alla funzione misszero (da usare con cautela!) del comando genr. Eseguendo

genr pippo = misszero(pluto)

è possibile produrre la serie pippo, che è identica a pluto, tranne per il fatto che tutti i valori −999 sono stati trasformati in zeri. In seguito, costruendo opportunamente delle variabili dummy, sarà possibile eliminare dalla regressione le osservazioni che contengono valori mancanti, pur mantenendo lo stesso intervallo del campione[1].

Note

[1]

genr offre anche la funzione inversa di misszero, ossia zeromiss, che sostituisce in una serie i valori zero con il codice per i valori mancanti.