Clariscience: “Alla base della statistica: tabelle di dati e distribuzioni”

La statistica è la grammatica della scienza”, così si pronunciava Karl Pearson (Londra, 27 marzo 1857 – Londra, 27 aprile 1936), noto matematico e statistico britannico. In effetti, nella sua semplicità, questa affermazione racchiude un significato profondo, che può essere reso più esplicito definendo la statistica come un insieme di metodi scientifici finalizzati alla conoscenza quantitativa e qualitativa dei fenomeni collettivi mediante la raccolta, l’ordinamento, la sintesi e l’analisi dei dati. La possibilità di comprendere un fenomeno dipende allora dal grado di consapevolezza statistica dell’investigatore scientifico, la quale influenza tutte le fasi sperimentali, inclusa la pianificazione, la raccolta e l’analisi dei dati e, infine, la loro interpretazione.

La statistica si divide in due macro-categorie fondamentali, la statistica descrittiva e la statistica inferenziale, la prima finalizzata a descrivere un fenomeno osservato sull’intera popolazione (o su un suo campione) mediante mezzi matematici, la seconda finalizzata a pervenire a conclusioni valide per l’intera popolazione statistica sulla base dell’analisi dei soli campioni, entro un certo limite di errore, su base probabilistica.

La popolazione statistica si definisce come l’insieme di unità statistiche, siano esse unità semplici (ad es. una persona) o composte (ad es. una famiglia composta da più persone). Un sottoinsieme di unità statistiche analizzate in riferimento a una popolazione viene definito campione. Ciascuna unità statistica viene descritta da un carattere, che può essere di natura qualitativa o quantitativa. I caratteri qualitativi vengono distinti in nominali (ad es. nazionalità, etnia, sesso) e ordinali (ad es. la scala Likert), i quali si differenziano sulla base del fatto che i primi mancano di un preciso ordine logico, mentre i caratteri ordinali sono ordinabili, appunto, secondo un ordine logico naturale (ad es. da scarso a ottimo). I caratteri quantitativi (definiti anche variabili), invece, si esprimono attraverso dei numeri, distinguendosi in caratteri quantitativi discreti (i valori appartengono all’insieme dei numeri naturali, ad es. una scala che va da 1 a 10) e continui (in questo caso il valore misurato appartiene all’insieme di numeri reali). I valori assunti dai caratteri qualitativi sono anche definiti come la modalità del carattere, cioè il modo in cui si presenta quel carattere.

Nell’ambito della statistica descrittiva, è possibile calcolare le distribuzioni di frequenza, che si basano sulla misurazione di quante volte una determinata modalità di un carattere si esprime all’interno della popolazione o del campione. Si distinguono, in particolare, frequenze assolute, frequenze relative e frequenze cumulate. La frequenza assoluta corrisponde al numero totale di ricorrenze associate a ciascuna modalità di un carattere. Ad esempio, se si vogliono analizzare le modalità del carattere “colore degli occhi” in un gruppo di ottanta persone, le frequenze assolute corrispondono al numero di unità statistiche (persone) che presentano ciascuna modalità del carattere (ad. es. occhi verdi, marroni e azzurri). Supponendo di osservare 30 volte la modalità “verde”, 15 volte la modalità “marrone” e 35 volte la modalità “azzurro”, le frequenze assolute corrisponderanno rispettivamente a 30, 15 e 35. La frequenza assoluta può poi essere espressa in riferimento al numero totale di osservazioni che compongono la popolazione (o il campione) e in tal caso si parla di frequenza relativa. Nell’esempio proposto per il carattere “colore degli occhi”, le frequenze relative corrisponderanno a 30/80=0.375 per la modalità “verde”, 15/80=0.1875 per la modalità “marrone” e 35/80=0.4375 per la modalità “azzurro”. Le frequenze possono essere anche espresse come frequenze cumulate. In tal caso, è necessario sommare le frequenze assolute o relative osservate per le diverse modalità. Il totale delle frequenze cumulate assolute corrisponderà al totale delle osservazioni, mentre il totale delle frequenze cumulate relative sarà sempre pari a 1.

Le tabelle statistiche rappresentano un metodo efficace per sintetizzare le distribuzioni di frequenza. Le tabelle possono essere monodimensionali, quando riportano le frequenze riferite a un singolo carattere, o bidimensionali (definite anche a doppia entrata), quando includono un secondo carattere osservato. Ad esempio, al carattere nominale “colore degli occhi” se ne può associare un secondo, “sesso”, costituito dalle modalità “maschio o femmina”. Le righe della tabella a doppia entrata riporteranno le modalità del primo carattere, mentre le colonne riporteranno le modalità del secondo carattere. La somma delle osservazioni di ciascuna riga rappresenterà quindi la frequenza assoluta del carattere “colore degli occhi”, mentre la somma delle osservazioni di ogni colonna rappresenterà la frequenza assoluta del carattere “sesso”. Questi valori vengono definiti marginali.

Le distribuzioni di frequenza rientrano nel filone della statistica descrittiva e sono finalizzate a riassumere, per ciascun carattere, le modalità osservate a livello di popolazione o di campione.

Oltre a specifiche competenze tecniche, l’analisi statistica richiede una quantità di tempo sufficiente a comprendere quale sia la strategia più appropriata per l’impostazione delle analisi mediante strumenti tecnici dedicati, che possono richiedere la necessità di ricorrere all’uso di software basati su linguaggi di programmazione. Qualora se ne sentisse la necessità, quando si ritiene di non disporre di una quantità di tempo adeguata o quando gli strumenti operativi sono limitanti, ci si può rivolgere a un biostatistico, il quale supporta lo sperimentatore in tutte le fasi di investigazione (inclusa l’interpretazione dei risultati), guidandolo alla comprensione degli aspetti tecnici e scientifici implicati nelle analisi.

clariscience