Boxplot

I grafici boxplot non vengono generati con gnuplot, ma da gretl stesso.

Questi grafici (da Tukey e Chambers) mostrano la distribuzione di una variabile. La "scatola" centrale (box) racchiude il 50 per cento centrale dei dati, ossia è delimitato dal primo e terzo quartile. I "baffi" (whiskers) si estendono fino ai valori minimo e massimo. Una linea trasversale sulla scatola indica la mediana.

Nel caso dei grafici a tacca ("notches"), una tacca indica i limiti dell'intervallo di confidenza approssimato al 90 per cento per la mediana, ottenuto col metodo bootstrap (se la serie dei dati è molto lunga, potrebbe essere necessario un po' di tempo).

Facendo clic nella finestra del boxplot si ottiene un menù che permette di salvare il grafico come file encapsulated postscript (EPS) o come file postscript a piena pagina. Se si usa il sistema X Window è anche possibile salvare il grafico come file XPM, mentre in MS Windows è possibile copiarlo negli appunti in formato bitmap. Il menù dà anche la possibilità di mostrare un riepilogo in cinque numeri (minimo, primo quartile, mediana, terzo quartile, massimo) e un intervallo di confidenza per la mediana, se il boxplot è del tipo "a tacca".

Alcuni dettagli del funzionamento dei boxplot di gretl possono essere controllati attraverso un file testuale chiamato .boxplotrc, che viene cercato, nell'ordine, nella directory di lavoro attuale, nella directory home dell'utente (che corrisponde alla variabile d'ambiente HOME) e nella directory utente di gretl (scelta attraverso il comando "File, Preferenze, Generali..."). Tra le opzioni che possono essere specificate in questo modo ci sono: il carattere da usare per l'output in postscript (deve essere un nome di font postscript valido; il valore predefinito è Helvetica), la dimensione del carattere in punti (sempre per l'output in postscript; il valore predefinito è 12), i valori minimo e massimo per l'asse y, la larghezza e l'altezza del grafico in pixel (valori predefiniti: 560 x 448), se occorre mostrare anche i valori numerici per i quartili e la mediana (l'impostazione predefinita non li mostra) e se occorre indicare separatamente gli outlier, ossia i punti che distano più di 1.5 volte il range interquartile dalla scatola centrale (l'impostazione predefinita non li mostra). Ecco un esempio:


        font = Times-Roman
        fontsize = 16
        max = 4.0
        min = 0
        width = 400
        height = 448
        numbers = %3.2f
        outliers = true
      

Sulla penultima riga, il valore associato a numbers è una stringa di formato "printf" come quelle usate nel linguaggio di programmazione C; se viene specificata, controlla il modo in cui vengono mostrati la mediana e i quartili accanto al boxplot, altrimenti questi valori non vengono mostrati. Nell'esempio, i valori verranno mostrati usando 3 cifre in totale e 2 cifre di precisione dopo il punto decimale.

Non occorre specificare tutte le opzioni, né importa l'ordine in cui vengono specificate. Le righe che non seguono la struttura "variabile = valore" vengono ignorate, così come le righe che iniziano con il carattere cancelletto, #.

Dopo ogni variabile specificata nel comando boxplot è possibile inserire un'espressione booleana tra parentesi per limitare il campione da utilizzare per la variabile in questione, avendo cura di inserire uno spazio tra il nome (o il numero) della variabile e l'espressione. Si supponga di avere una variabile salario con gli stipendi di uomini e donne, e una variabile dummy GENERE che vale 1 per gli uomini e 0 per le donne. In questo caso è possibile disegnare dei boxplot comparativi usando il seguente comando nella finestra di dialogo:


        salario (GENERE=1) salario (GENERE=0)