Appunti statistica ricerca 2014

Le caratteristiche dei fenomeni sanitari: variabilità e multidimensionalità
Chiunque sia interessato allo studio delle problematiche legate alla salute dell’uomo
si rende conto della complessità del problema e della necessità di possedere
strumenti adeguati di conoscenza.
Quando l’oggetto di studio è l’uomo i principali problemi metodologici sono:
1. variabilità: i fenomeni biologici sono caratterizzati da un'estrema variabilità sia
entro lo stesso soggetto che tra soggetti. Se replico più volte la misura della
pressione arteriosa sistolica su uno stesso soggetto potrò trovare valori diversi e le
motivazioni di tale variabilità sono molteplici: variabilità nelle misurazioni, ritmi
circadiani, stato emozionale del soggetto, diversa posizione (coricato o seduto)
farmaci assunti, e così via (variabilità entro soggetto). Le rilevazioni della
pressione arteriosa sistolica in soggetti diversi possono avere valori variabili per
diverse motivazioni: età, sesso, razza, stato di salute per citare solo alcuni aspetti
(variabilità tra soggetti).
2. la multidimensionalità, per cui è necessario indagare su diversi aspetti del
soggetto, anche se l’interesse è una specifica malattia (es. le possibilità di cura,
riabilitazione o prevenzione della cardiopatia ischemica dipendono non solo della
gravità della malattia, ma dalla presenza o meno di altre patologie (comorbidità)
dell’età del soggetto, dal sesso, dalle attività professionali, dalle condizioni socioeconomiche, dal suo livello di educazione, dalla sua personalità, etc.). Tutto ciò
implica che gli aspetti da indagare non possono limitarsi alla rilevazione della
presenza-assenza della patologia in studio, ma anche di una serie di altre
dimensioni ad essa associate che potrebbero condizionare la corretta conoscenza
del fenomeno.
3. Il soggetto oggetto di studio è condizionato dal contesto in cui vive, per cui le
manifestazioni della malattia possono dipendere dall’ambiente fisico, sociale e
familiare in cui si trova e dalle conseguenti interazioni uomo-ambiente. Tutto
ciò complica il processo di conoscenza dei fenomeni biologici e sanitari in
particolare e rende indispensabile un metodo di approccio rigoroso.
Da quanto detto, lo scenario in cui operiamo si presenta così:
-
unità statistica complessa: l’individuo che è unico, ma deve essere analizzato
nelle sue varie dimensioni e quindi ricomposto
-
la variabilità: ogni osservazione può essere diversa da un’altra (variabilità
intra individuale, tra individui, di misura, di fluttuazioni biologiche.
Il ruolo della statistica e del metodo scientifico in sanità
La statistica medica può essere considerata il momento empirico della scienza,
fornendoci la metodologia per lo studio “del vivente”. La statistica medica è intesa
come metodologia generale per lo studio dei fenomeni collettivi e quindi della
variabilità, attraverso le seguenti modalità:
a. osservazione dei fenomeni. La statistica medica insegna come occorre osservare
la realtà, come raccogliere i dati, con quali strumenti, su chi, su quanti, etc.
b. traduzione in simboli. La statistica medica insegna come riassumere in modo
corretto i dati raccolti, cioè come esprimerli e rappresentarli in modo sintetico e
appropriato in funzione del tipo di variabile e della sua distribuzione. La media e
la deviazione standard, la moda, la mediana, la percentuale, i tassi, i rischi
relativi, gli istogrammi, etc. rappresentano alcune delle misure di sintesi di
variabili raccolte, ciascuna rispondente ad uno specifico obiettivo come vedremo
più avanti.
c. evidenza delle irregolarità. Una appropriata analisi statistica di variabili raccolte,
consente di evidenziare quei fenomeni che si scostano dalla “normalità” cioè dai
valori più frequenti in un set di dati: spesso l’approfondimento su tali irregolarità
è molto informativo e può generare nuove ipotesi.
d. verifica di ipotesi. È l’aspetto più interessante della metodologia statistica: la
possibilità di verificare se un’ipotesi posta sia o no sia confutata dalla
osservazione della realtà.
Uno dei principali contributi della statistica medica alla conoscenza dei fenomeni
biologici è quello di fornirci i metodi per analizzare la variabilità, scomponendola
nelle sue componenti di tipo:
-
sistematico ossia quella parte di variabilità che possiamo attribuire ad una
causa (età, sesso, comorbidità, etc.), detta anche variabilità spiegata o
prevedibile;
-
casuale ossia quella parte di variabilità che non riusciamo ad attribuire ad una
causa (è detta anche variabilità non spiegata, imprevedibile, e genericamente
“biologica”). Il fatto che due rilevazioni successive della pressione arteriosa
sistolica sullo stesso soggetto in tempi ravvicinati diano valori diversi, etc.
sembra logicamente inspiegabile.
In base alle sue funzioni, la statistica si può distinguere in:
a) statistica descrittiva il cui obiettivo è quello di riassumere i dati sanitari raccolti
calcolando le opportune statistiche descrittive e/o indicatori che in modo sintetico
descrivano il fenomeno studiato. La statistica descrittiva rappresenta sempre la
prima fase di qualsiasi ricerca, o può essere lo scopo di uno studio conoscitivo
esplorativo;
b) statistica inferenziale il cui obiettivo è quello di ricavare dallo studio condotto
leggi generali che si intendono estendere alla popolazione e/o ad altre situazioni
simili. I due momenti fondamentali sono:
-
la stima dei parametri. Ad esempio lo studio antropometrico di un campione
di bambini maschi dai 6 ai 14 anni può consentire di stimare gli intervalli di
altezza entro cui dovrebbero collocarsi le altezze dei bambini della stessa
fascia di età e della stessa popolazione con un certo livello di probabilità
(intervallo di confidenza attorno alla media);
-
la verifica di ipotesi. Lo scopo della statistica inferenziale è quello di stimare
la probabilità che le differenze osservate nei dati di gruppi diversi siano
interamente dovute a variabilità casuale piuttosto che a differenze della
sottostante popolazione di riferimento. Per capire la statistica inferenziale è
necessario introdurre il concetto di popolazione e campione.
Popolazione e campione
Spesso non è possibile studiare l’intera popolazione che interessa. La statistica ci
offre la possibilità di selezionare un sottoinsieme di tale popolazione (un campione),
analizzando il quale si possono trarre conclusioni sull’intera popolazione. Perché ciò
sia possibile è necessario che la metodologia adottata sia corretta e rigorosa. Lo
schema logico di tale processo è illustrato nella seguente figura:
Popolazione target o popolazione obiettivo
È l’insieme di tutti gli ipotetici elementi oggetto del nostro interesse. La popolazione
obiettivo può essere:
-
finita se è possibile produrre l’elenco di tutti gli elementi oggetto di interesse. Ad
esempio: desidero conoscere le anomalie di comportamento (droghe, alcool, etc.)
dei giovani adolescenti frequentanti le scuole medie superiori e inferiori dell’area
sanitaria di mia competenza (ASL) ai fini di organizzare un programma di
educazione sanitaria nelle scuole. In tal caso la popolazione oggetto di studio è
finita, in quanto mi interessa quella specifica popolazione di studenti residenti in
quella zona specifica in cui voglio attuare gli interventi di prevenzione.
-
Infinita quando si tratta di una popolazione ideale, di cui non è possibile produrre
un elenco, in quanto spesso deve ancora verificarsi. Se ad esempio, l’obiettivo
del mio studio è quello di valutare l’efficacia di un test di deglutizione per
pazienti colpiti da ictus, la popolazione obiettivo è costituita da tutti quei pazienti
che sono colpiti da ictus, ma anche che potranno esserlo in futuro, che risiedono
ove io conduco lo studio ma anche in altre parti del paese e del mondo. In tal
caso la popolazione di interesse e che potrà beneficiare dei risultati dello studio è
infinita.
Popolazione campionata (o base di campionamento)
Rappresenta l’aspetto operativo della popolazione obiettivo. Nel caso in cui la
popolazione sia finita (utenti di un servizio, residenti di una città, di un’ASL, etc.) è
possibile ottenere la lista dei soggetti della popolazione stessa. Se la popolazione
obiettivo è infinita non è possibile ottenere la lista di soggetti. In tal caso si sceglie
una definizione operativa della popolazione.
Ad
esempio
per
valutare
per tossicodipendenti
se
si
l’efficacia
opera
a
di
un
Roma,
intervento
psico-sociale
si
scegliere
potrà
di
effettuare la sperimentazione sugli utenti dei servizi dei SERT della provincia
di Roma, per motivi pratici e di fattibilità (si hanno buoni rapporti con i
responsabili dei servizi, sono conosciuta dalla popolazione, le distanze
sono limitate, etc.). L’assunto è che i tossicodipendenti frequentanti i SERT
di Roma non siano diversi da quelli che potrebbero frequentare altri SERT
italiani o di altre parti del mondo e che se dimostrerà l’efficacia di un
trattamento per tale gruppo di soggetti ci si aspetta che ciò sarà valido anche
per altri. Tale assunto è molto ambizioso e non sempre è verificato e la
generalizzazione alla fine dello studio dovrà essere molto prudente e verificata
con le opportune analisi.
Il campione
Non potendo per ragioni pratiche condurre uno studio su tutti i soggetti della base di
campionamento (per ragioni di costi, di tempi ed anche etici), la statistica offre
i metodi per selezionare un sottoinsieme di tale popolazione, di numerosità
limitata, ma adeguata su cui si condurrà in pratica lo studio. Il processo di selezione
si chiama campionamento. Selezionato il campione, ed effettuata la raccolta dei
dati, prima di sottoporli alla analisi occorre controllarne la qualità con gli opportuni
metodi e quindi i dati validati vengono sottoposti alle usuali elaborazioni di statistica
descrittiva.
La fase successiva di stima dei parametri ed inferenza sulla popolazione sono molto
più ambiziose in quanto dall’analisi di un gruppo limitato di soggetti si ha la
pretesa di trarre conclusioni su tutta la popolazione. Tale processo è corretto solo se
vengono rispettate in modo rigoroso le regole di campionamento che la metodologia
statistica indica, e che si basano sulle leggi della probabilità (teoria del
campionamento), la cui trattazione esula dal livello di questo corso ma di cui è
bene essere consapevoli. Il processo
risultati
trovati
alla
si
conclude
con
la
estensione
dei
popolazione campionata e da questa alla popolazione
obiettivo.
In ciascuno di questi processi inferenziali si possono condurre errori di tipo logico
(bias) e pertanto occorre procedere con estrema prudenza e senso critico.
Se ad esempio i SERT di Roma non offrissero alcune prestazioni (metadone,
etc.) alcuni tossicodipendenti potrebbero recarsi in altri servizi e quindi alcune
tipologie di soggetti
sarebbero
assenti
dal
nostro
campione
(errore
di
selezione o bias di selezione).
Tipi di campionamento
La metodologia con cui si selezionano i soggetti (o le unità statistiche) dalla
popolazione si chiama campionamento.
Distinguiamo diversi metodi di campionamento non alternativi, ma ciascuno indicato
in specifici contesti, che solo l’esperienza di ricerca in campo clinico ed
epidemiologo consente di verificare. Una prima distinzione è la seguente:
I)
campionamenti probabilistici: la scelta delle unità statistiche da sottoporre allo
studio è regolata dalle leggi della probabilità;
II) campionamenti non probabilistici: la scelta delle unità statistiche da sottoporre
allo studio non è di tipo probabilistico.
Campionamenti probabilistici A.
Casuale semplice.
Nel campionamento probabilistico è nota a priori la probabilità di selezione delle
unità statistiche presenti nella lista. Occorre quindi affidarsi a un metodo che
garantisca la casualità, così che la differenza tra popolazione e campione sia solo
di tipo numerico:
Sistematicità. Si introduce una regola fissa di selezione che sia indipendente
dalle caratteristiche che poi si vanno a misurare (esempio: 1 soggetto ogni 10
partendo da un numero a caso; il primo nato di ogni mese; il paziente che sta
nel 2° letto di ogni stanza, etc.).
Randomizzazione. Si ricorre a un criterio di generazione di numeri casuali
(lancio di dadi, tabelle dei numeri casuali, programmi per PC che generino
numeri casuali, etc.). Il campione sarà costituito da quegli elementi della base
di campionamento (opportunamente numerati) che corrispondono ai numeri
selezionati.
B. Casuale stratificato.
In campo clinico ed epidemiologico è difficile che non siano disponibili
informazioni su caratteristiche della popolazione, che potrebbero essere associate
alle variabili in studio la cui presenza potrebbe “confondere” i risultati finali
(fattori confondenti). Per tener conto di tali fattori occorre non solo che siano
raccolti, ma anche eliminati. Uno dei metodi utilizzati è quello della
stratificazione, cioè la suddivisione della base di campionamento in strati
omogenei per quelle caratteristiche. Il campione è scelto in modo casuale da
ciascuno degli strati.
Campionamento stratificato a numero proporzionale. In tal caso il campione
riproduce la stessa proporzione della popolazione generale di elementi nei
singoli strati, cioè la distribuzione dei fattori di stratificazione nel campione è
la stessa di quella della popolazione. Si
campionamento,
quando
la
popolazione
ricorre
a
tale
tipo
di
obiettivo coincide con la
popolazione campionata e quindi si è interessati a ottenere un campione che
risponda il più fedelmente possibile alla popolazione.
Se ad esempio si è interessati a studiare la prevalenza di asma nella
popolazione adulta dell'ASL RMB (20-69 anni) ai fini di dimensionare i
servizi per le patologie allergiche e respiratorie, essendo il sesso e l’età due
caratteristiche associate alla malattia, si eseguirà un campionamento
stratificato proporzionale.
Campionamento stratificato a numero fisso. In tal caso la scelta casuale dai
singoli strati sarà effettuata prelevando uno stesso numero di soggetti dagli
starti, così da ottenere un campione bilanciato per i fattori confondenti.
Ad esempio, in uno studio europeo (ECRHS) per conoscere la prevalenza
dell’asma nei vari paesi e identificare i fattori di rischio, si è deciso di
scegliere per ogni area un campione di 3000 soggetti stratificando la
popolazione generale adulta per età e sesso, ma a numero fisso (1500 maschi
e 1500 femmine, con numerosità fissa per età) non essendo la popolazione
dell’area il vero obiettivo dello studio, ma solo operazionale.
C. A grappolo.
In tal caso il campionamento è effettuato in due momenti successivi:
−
campionamento di unità aggregate;
−
campionamento di unità individuali.
Tale tecnica di campionamento è utilizzata quando la ricerca deve essere svolta in
aree ampie e dove è possibile utilizzare aggregati di soggetti.
Se ad esempio l’obiettivo dello studio è di conoscere la diffusione della carie
dentaria, tra i ragazzi in età scolare e identificarne i fattori di rischio l’approccio
più ovvio è quello di condurre un’indagine nelle scuole.
Non essendo realistico effettuare una visita odontoiatrica a tutti i ragazzi
frequentanti la scuola dell’obbligo della nostra area, si può scegliere:
− un campione di plessi scolastici distribuiti nelle varie zone geografiche o socioeconomiche dell’ASL e per tipo di scuola (unità aggregate);
− un campione di sezioni all’interno di ogni plesso (unità aggregate);
− tutti gli alunni delle sezioni così scelte.
Ciò consentirebbe di concentrare le risorse salvaguardando la necessità di
rappresentatività delle diverse tipologie di scuole e quindi di alunni, in modo
realizzabile praticamente.
D. Multistadi.
Si tratta di un campionamento che si svolge a stadi successivi con numerosità
decrescente e a progressivo livello di approfondimento. Se ad esempio si vuole
conoscere la diffusione di asma in una popolazione generale, si può procedere a
stadi successivi, come di seguito esemplificato.
I° stadio: campione casuale di 3000 soggetti sottoposto a indagine postale
mediante un questionario di sintomi standardizzato. Sulla base di tale indagine è
possibile individuare un gruppo di soggetti con sintomi riferibili ad asma,
un gruppo di soggetti senza sintomi e a un gruppo borderline.
II° stadio: da ciascuno dei gruppi precedenti vengono campionati soggetti da
sottoporre a indagine più approfondita (con esame clinico, esami strumentali ed
ematologici, etc.).
Tale procedura, se condotta in modo corretto con la numerosità necessaria,
consente di ottenere risultati di ottima qualità con bassi costi.
Tutti i tipi di campionamento, ad eccezione di quello casuale semplice, richiedono
particolari metodi di analisi per effettuare le stime dei parametri di interesse.
Campionamenti non probabilistici
Quando è possibile definire la popolazione obiettivo e non si dispone di una base di
campionamento, si ricorre a tecniche di campionamento non probabilistico.
a) Campionamento a quote.
Si decide di arruolare nel campione un certo numero di soggetti con le
caratteristiche di interesse e si esaminano (esempio volendo conoscere l’opinione
di alcuni utenti di un servizio sul comportamento degli operatori, si intervistano
20 maschi e 20 femmine tra gli utenti di 2 giorni diversi della settimana).
b) Campionamento a valanga.
Si tratta di una metodologia di campionamento che coinvolge inizialmente pochi
soggetti a cui si chiede di coinvolgerne altri (amici, conoscenti con le
caratteristiche di nostro interesse). Ad esempio, se si desidera conoscere quali
siano i problemi di accesso ai servizi degli immigrati extracomunitari di una certa
città: si inizia con l’intervistare i gruppi che stazionano agli ingressi dei
supermercati, e si chiede loro di coinvolgere amici o compaesani.
c) Campionamento a scelta ragionata (judgement).
Per alcuni studi interessa conoscere l’opinione dei personaggi chiave, che si
ritiene in grado di fornirmi informazioni interessanti sull’argomento. La scelta
del campione è allora “ragionata” nel senso che è il gruppo di ricercatori che
decide chi scegliere per lo studio. A tale approccio si ricorre spesso negli studi
valutativi e di accreditamento dei servizi.
d) Campionamento accidentale.
Per studi esplorativi si ricorre a campioni occasionali su pochi casi: l’obiettivo è
spesso quello di messa a punto di metodologie di indagine.
Va
sottolineato
generalizzazione.
che
i
campioni
non
probabilistici
non
consentono
la
I disegni degli studi quantitativi
Le indagini epidemiologiche, cioè gli studi sulle condizioni di salute della
popolazione generale, possono essere classificati in studi osservazionali o studi
sperimentali, come schematizzato in tabella 1 riporta i tipi di studio epidemiologico.
Gli studi osservazionali sono quegli studi in cui il ricercatore si limita ad osservare
ciò che accade, rilevando le caratteristiche di interesse (presenza di malattie, di
fattori
di
rischio
o
causali,
etc.)
senza
intervenire.
Gli studi sperimentali sono quegli studi in cui il ricercatore interviene
attivamente per
modificare
un
determinante
della
malattia
(come
un’esposizione o il comportamento) o il suo progredire (come un trattamento).
Gli studi sperimentali implicano quindi che il ricercatore somministri (o tolga)
il
fattore
di
cui
vuole studiare l’effetto (manipolazione della variabile
indipendente). Per ragioni etiche gli studi, sperimentali sull’uomo sono limitati a
quelli di tipo terapeutico o preventivo: se l’obiettivo è quello di trovare fattori di
rischio o causali di patologie, il tipo di studio non può essere sperimentale ma
osservazionale.
Studi osservazionali e studi sperimentali
1. Gli studi osservazionali, in base allo scopo, si dividono in:
a) studi descrittivi. L’obiettivo è quello di descrivere lo stato di salute di una
popolazione, attraverso l’uso di dati routinari: rappresentano in genere il
primo approccio alla conoscenza di un problema epidemiologico. Si tratta di
studi semplici, il livello informativo è limitato.
b) studi analitici. L’obiettivo è quello di studiare le relazioni tra malattia e altre
variabili supposte fattori di rischio o causali. La maggior parte degli studi
epidemiologici sono di tipo analitico. In base al disegno della ricerca gli studi
analitici si distinguono in:
35
-studi ecologici; l’obiettivo è quello di esplorare la plausibilità di relazioni
tra fattori di rischio (determinanti) e patologie (outcome). Le unità di
analisi sono popolazioni di soggetti e non individui: inoltre il fattore e
l’effetto non sono raccolti sullo stesso individuo.
Ad esempio, ipotizzando che esista una relazione tra fumo di sigaretta e
tumore del polmone, un primo approccio è quello di verificare se la
mortalità per tumore al polmone di diversi paesi è associata alle vendite di
tabacco in quei paesi. L’associazione così evidenziata (correlazione
ecologica) rappresenta una evidenza a favore dell’ipotesi anche se non
conclusiva, in quanto il rischio di bias in tali studi è molto elevato.
-studi trasversali o di prevalenza; l’obiettivo di tali studi è quello di
misurare la diffusione di una patologia (o stato morboso) in una
popolazione generale e in gruppi di popolazione a rischio. Si effettuano su
campioni casuali della popolazione obiettivo (studi campionari) o su intere
popolazioni (studi esaustivi). La misura di malattia prodotta è il
N° di persone con la malattia
Tasso di prevalenza =
in un momento specificato
× 1000
N° di persone nella popolazione a rischio
in un momento specificato
Se i dati sono stati raccolti in un preciso momento temporale, si ottiene il
tasso di prevalenza puntuale. Più frequentemente, il tasso è calcolato in un
periodo (mese o anno) e si chiama tasso di prevalenza periodale, inteso
come numero di persone che presentano la situazione morbosa in un
definito periodo, nella popolazione a rischio nello stesso periodo.
Indipendentemente dalla durata dello studio, il fatto importante è che lo
stato di salute del soggetto è valutato in un definito momento
contemporaneamente alla rilevazione degli eventuali fattori di rischio e
confondenti. In altre parole, tutte le rilevazioni sul soggetto vengono
effettuate una sola volta.
36
Se si valuta il tasso di prevalenza in gruppi a diversa esposizione al fattore
di rischio, si può calcolare una misura di associazione nota come Rischio
Relativo.
Ad esempio, è stato calcolato il tasso di prevalenza di asma in un’area a
basso livello di inquinamento ambientale (A) e in un’area ad alto
inquinamento ambientale (B):
Area A: tasso di prevalenza 0,3%
Area B: tasso di prevalenza 0,8%
Il Rischio Relativo è:
RR =
0,8
= 2,7
0,3
Ciò significa che chi risiede nell’area B ha 2,7 volte più rischio di essere
malato di asma rispetto a chi vive nell’area A.
-studi longitudinali o di incidenza o di coorte; l’obiettivo di tali studi è
quello di valutare l’insorgenza della patologia di interesse nella
popolazione e in gruppi a rischio. Tali studi prevedono sempre almeno due
rilevazioni successive sui soggetti: nella prima fase si sceglie un campione
di popolazione senza la malattia in studio (coorte) si raccolgono le
variabili di interesse (fattori di rischio, protettivi, etc.) e si segue nel tempo
stabilito (follow-up) tale coorte, rilevando l’insorgenza dei casi della
malattia, che ovviamente saranno “nuovi casi”
37
Le misure di malattia sono il:
a) tasso di incidenza (I):
N° di persone che si ammalano
nel periodo scelto
Somma dei tempi durante i quali
Tasso di incidenza tempo - persona =
× 1000
ogni soggetto della coorte è a rischio
Tale tasso tiene cioè conto del periodo di osservazione specifico per ogni
individuo della coorte. Va sempre specificato il periodo di follow-up
(anno, mese, etc.).
b) tasso di incidenza cumulato (IC): è una misura più semplice, che valuta
i nuovi casi di malattia sulla popolazione a rischio all’inizio dello
studio:
N° di persone che si ammalano
IC =
nel periodo
× 1000
N° di soggetti liberi dalla malattia
all' inizio dello studio
Anche questo tasso va riferito al periodo in studio. Esso rappresenta la
probabilità che un soggetto della coorte libero da malattia ha di sviluppare
la malattia nel periodo di follow-up.
Le misure di associazione.
Dagli studi longitudinali si ricava anche il Rischio Relativo:
RR =
IC negli esposti
IC nei non esposti
Esempio: si consideri una coorte di 1000 soggetti di cui 300 fumatori e
700 non fumatori. Alla fine del periodo di follow-up (di 25 anni) si
38
valutano quanti soggetti si sono ammalati di tumore al polmone nei due
gruppi e si ottengono i seguenti risultati:
FUMO
MALATTIA
Sì
No
Sì
15
285
300
No
4
696
700
20
980
1000
Le Incidenze Comulative (IC) sono pertanto:
IC totali =
IC fumatori =
20
× 1000 in 25 anni = 20%
1000
15
× 1000 in 25 anni = 50%
300
IC non fumatori =
RR =
4
× 1000 in 25 anni = 5,7%
700
IC fumatori
50
=
= 8,8
IC non fumatori 5,7
I fumatori hanno un rischio di 8,8 volte più elevato di ammalarsi in 25 anni
di tumore al polmone rispetto ai non fumatori.
Vale la pena di ricordare la diversa capacità informativa dei due tipi di
studio ed i legami tra le misure fornite.
Prevalenza e Incidenza
La prevalenza è legata all’incidenza da
P ≅ IC × d
dove P = Prevalenza, IC = Incidenza, d = durata della malattia. La
prevalenza comprende infatti sia i nuovi casi (IC) ma anche i vecchi casi di
malattia condizionatamente alla sua durata. Nel caso di patologie acute i
due tassi sono quasi coincidenti, nel caso di patologie croniche a lunga
sopravvivenza i due tassi sono molto diversi.
39
-studi caso-controllo; l’obiettivo è quello di individuare i fattori di rischio o
protettivi per una patologia. Si identificano due gruppi di soggetti da una
stessa popolazione
casi = soggetti con la patologia in esame
controlli = soggetti senza la patologia in esame
Si ricerca quindi la presenza attuale o passata dei supposti fattori di rischio
nei due gruppi come illustrato nella seguente figura
Ad esempio, è stato condotto uno studio per valutare il rischio di morire se
non si indossa il casco in gravi incidenti che coinvolgono motociclisti: si
sono scelti come casi 100 soggetti morti in incidenti e 100 soggetti
sopravvissuti.
CASCO
I risultati ottenuti sono i seguenti:
Casi
Controlli
Sì
30
80
110
No
70
20
90
100
100
200
Si nota che su 200 incidenti gravi, il 45% era senza casco, ma la
distribuzione dei soggetti senza casco è diversa tra casi e controlli. Infatti,
40
tra i casi i soggetti senza casco sono il 70% mentre tra i sopravvissuti sono
solo il 20%. La misura di associazione appropriata è l’Odds Ratio (OR)
cioè il rapporto delle probabilità di esposizione tra i casi e la probabilità di
esposizione tra i controlli. Nell’esempio considerato l’esposizione è il ‘non
usare il casco’:
OR =
70 30 70 × 80
=
= 9,3
20 80 30 × 20
cioè il rischio di morire in un grave incidente è 9,3 volte più elevato in chi
non ha il casco rispetto a chi lo porta. L’Odds Ratio è una buona stima del
Rischio Relativo, soprattutto se la patologia è rara, perché i casi ed i
controlli siano tratti dalla stessa popolazione.
2. Gli studi sperimentali. L’obiettivo di tali studi è quello di evidenziare
l’associazione tra un fattore (trattamento) e un effetto (modificazione dello stato
di malattia): si possono quindi considerare studi analitici, in cui il fattore è
somministrato, ad un certo momento, dal ricercatore.
Rispetto alla valutazione di una relazione, gli studi sperimentali consentono di
conoscere la precedenza temporale del fattore rispetto all’effetto. Inoltre, essendo
il fattore somministrato secondo criteri casuali ai soggetti selezionati, si garantisce
un’equa distribuzione dei fattori confondenti tra i gruppi in studio. Pur
rappresentando quindi un disegno di studio vantaggioso, non è sempre attuabile
quando l’oggetto di studio è l’uomo.
Per ovvi motivi etici possiamo, infatti, condurre studi sperimentali solo quando
l’intervento previsto è “positivo” per il soggetto (trattamento terapeutico o
preventivo) e non per l’identificazione di fattori casuali o supposti di rischio per lo
sviluppo della malattia.
Schematicamente distinguiamo diversi tipi di studi sperimentali sull’uomo:
- sperimentazioni cliniche controllate randomizzate.
L’obiettivo è quello di valutare l’efficacia di un intervento terapeutico o
riabilitativo e quindi riguarda pazienti affetti da malattia.
- sperimentazioni sul campo (field trials).
41
L’obiettivo è quello di valutare l’efficacia di interventi di prevenzione sui
soggetti esposti a rischio, ma non ancora malati. Rientrano in questo tipo di
studi le sperimentazioni di nuovi vaccini, le sperimentazioni di farmaci o diete
per soggetti con ipercolesterolemia o sovrappeso, e così via;
Si tratta di studi piuttosto complessi poiché implicano dapprima uno studio “sul
campo” per individuarne i soggetti a rischio, da sottoporre poi ad una
sperimentazione.
- sperimentazioni di comunità (community trial).
L’obiettivo è quello di verificare l’efficacia di interventi preventivi effettuati su
comunità, anziché sui singoli individui. È utilizzato soprattutto nel caso di
patologie che riconoscono fattori di rischio sociali e ambientali, per cui è
possibile agire direttamente su tali fattori.
42
I disegni sperimentali sono disegni di ricerca mediante i quali il ricercatore può ridurre o eliminare il rischio di
ipotesi alternative che minacciano la validità delle conclusioni della propria indagine.
Il disegno sperimentale è uno strumento fondamentale poichè rappresenta la struttura dibase di tutta la ricerca e
anche se non è in grando di incrementare tutti i tipi di validità precedentemente discussi, garantisce la validità
interna, e in misura minore quella esterna, che rappresentano le due tipologie di validità più importanti per una
ricerca.
Un disegno di ricerca dovrebbe consentire un'interpretazione non ambigua dei risultati escludendo a priori tutte le
possibili interpretazioni alternative. Questo limite ideale però non è stato mai raggiunto. Costruire un disegno
sperimentale vuol dire mettere a punto un insieme di elementi e di procedure che consentano di dire, con la più alta
sicurezza, che gli effetti riscontrati nella variabile dipendente sono causati dalla manipolazione di quella
indipendente e non dall'influenza di variabili incontrollate. Il disegno di ricerca costituisce l'ossatura stessa di
un'indagine empirica e fonda l'affidabilità dei risultati (Pedon 1995).
In genere, i piani di ricerca vengono distinti in veri esperimenti e quasi esperimenti.
I veri esperimenti consentono allo studioso di avere un controllo completo su tutte le variabili della
ricerca: sul chi, sul che cosa, sul quando, sul dove e sul come. Il controllo sul chi comporta che si possano
assegnare in modo casuale i soggetti alle varie condizioni sperimentali. Il controllo sul che cosa, quando, dove,
come, permette di padroneggiare tutte le modalità di esecuzione dell'esperimento, cioè il momento dell'esecuzione,
il luogo, la strumentazione, ecc..
Per questo alto livello di controllo, il loro grado di costrizione è molto elevato.
Negli studi quasi sperimentali può mancare la randomizzazione o il controllo.
I quasi-esperimenti non controllano tutte le condizioni e tutti i fattori di confusione.
OPZIONI PROCEDURALI PER IL DISEGNO SPERIMENTALE.
Sulla base degli scopi e delle assunzioni scientifiche, l'impostazione dei diversi disegni sperimentali
viene fatta sulla diversa combinazione delle seguenti quattro opzioni procedurali: la misura della VD; il modo di
sottoporre i gruppi al trattamento; il numero delle VI e il tipo di controllo delle variabili estranee.
La misura della VD può essere eseguita sia prima che dopo il trattamento (pre-test e post-test), oppure
solo dopo il trattamento. I modi di sottoporre a trattamento i gruppi sono:
1. Ogni gruppo è sottoposto ad un solo livello della VI, in tal caso si ha il disegno sperimentale tra i
gruppi (between groups design), chiamato anche tra i soggetti (between subjects).
2. Ogni gruppo è sottoposto a tutte le condizioni di trattamento: in questo caso il disegno è entro i
gruppi (within groups design), chiamato anche entro i soggetti (within subjects) o disegno a misure ripetute.
Il numero delle VI varia da una a più; se si hanno due o più VI avremo di fronte un disegno fattoriale.
Per quanto riguarda la quarta opzione, il tipo di controllo delle variabili estranee, come abbiamo visto,
viene eseguito mediante uno dei seguenti metodi: randomizzazione, pareggiamento e metodo dei blocchi.
Comunque oltre ai disegni di esperimenti veri o quasi sperimentali, ve ne sono altri, chiamati pre-sperimentali,
che vengono indicati per lo più nei manuali di metodologia come "disegni da evitare".
DISEGNI PRE-SPERIMENTALI
Sono disegni molto maneggevoli e proprio per questo sono utilizzati per esplorare nuovi problemi o per
mettere a punto eventuali nuove ipotesi. Proprio perchè servono per compiti esplorativi, vengono chiamati
pre-sperimentali.
Un primo tipo di disegno pre-sperimentale è quello con un solo gruppo ed una sola prova. Ad
esempio, si potrebbe sottoporre una sola classe ad un nuovo metodo per aumentare la velocità di lettura negli
alunni. Dal punto di vista del controllo questo disegno, non garantisce validità interna, poichè non vengono prese in
considerazione altre variabili (come la maturazione degli studenti stessi), nè i risultati del post-test possono essere
confrontati con dati precedenti il trattamento non essendoci stato nè il pre-test nè un gruppo di controllo. Però data la
sua semplicità, si riconosce a questo disegno l'utilità nel compito di esplorare nuovi problemi di ricerca o di
sviluppare nuove ipotesi. E' utile quindi come fonte di suggerimenti.
Un secondo tipo di disegno pre-sperimetnale è quello con un solo gruppo ma con due prove, cioè con
pre-test e post-test. In questo caso si avrebbe come paragone il risultato della prova del pre-test da confrontare
con quello del post-test, per vedere se il trattamento ha modificato o meno, nel nostro esempio, la velocità di
lettura. Ma dal punto di vista del controllo, anche se è più sicuro, presenta gli stessi limiti del disegno precedente.
Un altro disegno pre-sperimentale è quello con due gruppi non equivalenti ed una sola prova, cioè il
post-test. Questo piano si presenta come un tentativo di rimediare ai limiti dei due disegni precedenti includendo un
gruppo di confronto, ma che non è un vero gruppo di controllo perchè non è randomizzato. In questo disegno, un
gruppo di soggetti viene sottoposto al trattamento mentre l'altro no. Il limite maggiore di questo disegno sta nella
non equivalenza dei gruppi; infatti un' eventuale differenza significativa nei risultati dei due gruppi non può essere
attribuita con certezza al trattamento, perchè altre variabili differenti nei due gruppi possono essere la causa dei dati
diversi, ad esempio, un gruppo potrebbe avere un Q.I. medio superiore all'altro, ed ottenere risultati migliori per
questo motivo.
VERI ESPERIMENTI
Disegni con una sola variabile indipendente
Abbiamo detto che i disegni con una sola VI si suddividono in piani tra i gruppi (o tra soggetti) e piani
entro i gruppi (o entro i soggetti). La distinzione si basa congiuntamente sulle modalità di scegliere i soggetti dalla
popolazione e su quelle di assegnarli alle varie condizioni sperimentali. I disegni tra i gruppi comportano che i
soggetti siano scelti in modo casuale dalla popolazione e siano assegnati pure casualmente alle condizioni del
trattamento; ogni soggetto (o gruppo) deve essere sottoposto ad una sola condizione sperimentale, per cui si avrà
una sola prestazione ed un solo punteggio per ogni soggetto. I piani entro i gruppi richiedono che i soggetti siano
sottoposti a tutte le condizioni sperimentali.
Piani tra gruppi con una sola VI
Dato che i soggetti vengono scelti casualmente dalla popolazione, sono assegnati ai gruppi e sottoposti
ai trattamenti diversi pure casulmente, si ottengono misure indipendenti. Questi piani comportano la formazione
di tanti gruppi di soggetti quanti sono i livelli della VI o trattamento. Nella forma più semplice si ha quindi la
presenza di due gruppi randomizzati, due prove e il trattamento per un solo gruppo, cioè:
Pre-test Trattamento Post-test
Gruppo Sperimentale R SI SI SI
Gruppo di Controllo R SI NO SI
Questo piano esclude gli effetti della regressione statistica, della selezione della mortalità, e il gruppo di
controllo consente di analizzare statisticamente gli effetti dovuti a storia, maturazione, interazione tra mortalità e
trattamento. Non è evidenziabile però un'eventuale interazione tra pre-test e trattamento, pertanto se la prova
preliminare influisce in qualche misura sui soggetti, allora la validità esterna è compromessa.
Molti autori preferiscono a questo il piano in cui anche il gruppo di controllo randomizzato è sottoposto
a trattamento, purchè il livello sia differente da quello del gruppo sperimentale. Nel caso si adoperassero 3 gruppi
invece di due, il terzo dei quali fa da gruppo di controllo e non viene sottoposto a trattamento, il disegno diventa
ancora più affidabile. Anche in questo caso, la verifica dell'effetto del trattamento si ha dal confronto delle prove
finali. Si avrà quindi:
Pre-test Trattamento Post-test
1° Gruppo S. SI Xa SI
2° Gruppo S. SI Xb SI CONFRONTO
3° Gruppo di controllo SI NO SI
Rispetto al precedente, la validità interna di questo disegno risulta rafforzata perchè sono controllati
contemporaneamente per i due gruppi, gli eventuali fattori di disturbo tra le due sessioni. Ma per quanto
riguarda la validità esterna, valgono le stesse osservazioni del disegno precedente.
Il disegno che garantisce la validità in misura maggiore è invece il cosiddetto disegno a quattro
gruppi randomizzati di Salomon. Esso richiede quattro gruppi di soggetti che sono sottoposti alle condizioni
sperimentali secondo lo schema seguente:
Pre-test Trattamento Post-test
1° Gruppo Randomizzato T1 SI T2
2° Gruppo Randomizzato T3 NO T4
3° Gruppo Randomizzato NO SI T5
4° Gruppo Randomizzato NO NO T6
Mentre nè il primo nè il secondo disegno consentono di isolare gli effetti di disturbo dovuti alla prova
preliminare, all'interazione tra pre-test e trattamento gli effetti combinati della maturazione e della storia, il disegno
di Salomon offre invece questa possibilità. Questo disegno però è molto difficile da attuare sia perchè è molto
articolato sia perchè richiede la disponibilità di un grande numero di soggetti. Il procedimento di secuzione è il
seguente: il primo gruppo viene sottoposto ad ambedue le prove e al trattamento, il secondo gruppo esegue ambedue
le prove ma non la condizione sperimentale, il terzo gruppo viene sottoposto al trattamento e alla seconda prova, il
quarto gruppo esegue solo il post-test. Tutti i gruppi devono essere randomizzati. Il piano di Salomon consente tre
importanti tipi di controllo:
1. Permette la verifica dell'omogeneità del rendimento del gruppo sperimentale (1° G) con quello di
controllo (2° G), dato che ambedue i gruppi sono sottoposti al medesimo pre-test. Tale verifica si esegue
calcolando la significatività della seguente differenza:
questa è chiamata anche effetto principale del fattore sperimentale.
2. Permette di verificare se la presenza della prova preliminare produce qualche effetto sul rendimento
dei soggetti
3. Consente di controllare se esiste una interazione tra prova preliminare e trattamento:
Questo disegno permette anche il controllo e la misura sia degli effetti del pre-test, sia degli effetti di interazione
tra pre-test e trattamento. In realtà, questo disegno comporta un doppio esperimento: uno eseguito con il pre-test e
uno senza. Da questo disegno si ricavano due piani uno corrispondente alla prima parte del disegno di Salomon e
l'altro corrispondente alla seconda parte.
Piani entro i gruppi con una sola VI
Come si è detto, i disegni entro i gruppi comportano che tutti i soggetti siano sottopostia tutte le
condizioni sperimentali, si tratta, quindi, di disegni a misure ripetute e pertanto ogni soggetto serve da controllo a
se stesso.
Nel disegno a misure ripetute semplici, ogni soggetto è sottoposto a tutti i livelli della VI; perciò i
punteggi di ogni condizione sono correlati tra loro. Ogni soggetto viene valutato più di una volta sulla VD e il
confronto critico consiste nel calcolare la differenza dei punteggi ottenuti nelle diverse condizioni sperimentali. Lo
schema è il seguente:
Pre-test Trattamento Post-test
Condizione 1 (sperimentale) SI SI SI
Condizione 2 (controllo) SI Controllo SI
I disegni entro i soggetti non solo controllano, ma eliminano del tutto la varianza dovuta alle differenze
dei soggetti, perciò riducono la varianza dell'errore. Inoltre necessitano di un numero ridotto di soggetti, ma
poichè tutti i soggetti sono sottoposti a tutte le condizioni, è possibile che si verifichi sia l'effetto dell'ordine che
della sequenza.
Disegni con più VI o disegni fattoriali
Nella ricerca psicologica molto spesso è necessario analizzare l'effetto combinato di due o più variabili
indipendenti per poter spiegare un fenomeno. In tal caso ci si trova di fronte ai cosiddetti disegni fattoriali.
I disegni fattoriali si differenziano dagli altri piani di ricerca per la presenza di due o più VI, che
tecnicamente sono chiamate fattori; per la presenza dell'effetto proprio di ciascuna VI sulla VD; questo effetto è
chiamato effetto principale di ciascun fattore; per la presenza dell'effetto dovuto alla reciproca relazione tra le due o
più VI: si tratta del cosiddetto effetto di interazione dei fattori. Una volta stabilito se la VD è misurabile e qual'è il
tipo di misura più adatta al caso, il ricercatore manipola le due VI, considerando i diversi livelli, delle due VI e
combinandoli insieme. Ad esempio, nel caso di un disegno con due VI di due livelli ciascuna si avrà una matrice a
celle con quattro combinazioni. Il risultato sarà perciò un disegno fattoriale 2x2:
VI A
A1
A2
VI B1
B
A1B1
A2B1
Media B1
B2
B2A1
Media
A1
A2B2
Media
A2
Media B2
effetto
principale di
B
effetto principale di A
Il ricercatore deve selezionare in modo casuale dalla popolazione considerata, un campione e
assegnarlo in modo randomizzato nelle quattro combinazioni del trattamento.
Le notazioni 2x2, 2x3, 3x3x2 e così via, stanno ad indicare la presenza di più VI con più livelli per
ciascuna di esse. Ogni numero della notazione indica una VI e ognuno precisa il numero di livelli di ogni
variabile. Così la notazione 3x3x2 indica che il disegno ha 3 variabili rispettivamente di 3, 3, 2 livelli.
Teoricamente i disegni fattoriali possono avere qualsiasi numero di fattori e di livelli, ma è naturale che un'
esagerata complessità di un disegno comporterebbe una difficile interpretazione dei dati.
In metodologia si parla di interazione tra variabili quando l'effetto di una VI risulta diverso ai differenti
livelli dell'altra VI, cioè quando l'effetto combinato delle due variabili indipendenti è diverso dalla somma
degli effetti singoli delle due variabili.
Inoltre non sempre gli effetti principali delle VI di un piano fattoriale influiscono significativamente
sulla VD, come non sempre si ha l'effetto di interazione tra i fattori. Gli effetti principali delle VI sono presenti se
tra le medie dei due o più livelli del fattore esiste una differenza significativa. Come esempio riportiamo un recente
esperimento di J. Fetterman, Leon Dreyfus e Alan Stubbs (1996), sulla durata relativa a due stimoli diversi. Gli
studiosi hanno utilizzato un disegno fattoriale 3x2x2 misto con due fattori tra i soggetti e uno entro i soggetti. Il
primo fattore "Durata" presentava 3 livelli per cui:
a) un gruppo valutava quale fra due durate di presentazione di due stimoli diversi fosse più lunga
(Longer)
b) un altro gruppo giudicava se il rapporto della prima con la seconda durata fosse minore o maggiore
di 3:1 (Ratio)
c) un terzo gruppo giudicava se le due durate fossero uguali o diverse (SD).
Il secondo fattore tra i soggetti riguardava le istruzioni fornite ai partecipanti all'inizio dell'esperimento;
ad un primo gruppo veniva fornita una spiegazione verbale della regola temporale per effettuare scelte giuste (le
possibilità di scelta venivano mostrate sul monitor di un computer in ogni prova); ad un secondo gruppo non veniva
detto nulla sulla regola, ma veniva data solo una spiegazione molto generale del compito da svolgere. Tutti i
soggetti sono stati sottoposti alle prove in due sessioni distanziate l'una dall'altra da una settimana. La sessione (Ia e
IIa) costituiva il terzo fattore entro i soggetti. I due stimoli erano rappresentati da un quadrato rosso e uno bianco
che apparivano sul monitor del computer posto davanti ad ogni soggetto. Anche le risposte possibili apparivano sul
monitor e il soggetto sceglieva la risposta tramite la tastiera del computer. Ogni risposta esatta riceveva
un feedback visivo.
I risultati di questo studio hanno mostrato che la discriminazione che riguarda la scelta della durata più lunga è più
facile rispetto ad una discriminazione che richiede un giudizio basato sul rapporto dei due intervalli, o una che
richiede ai partecipanti di distinguere se le due durate sono le stesse o diverse.
L'informazione, quindi la preconoscenza di una regola per confrontare due durate, aumenta la
precisione di scelta rispetto al gruppo che non era stato informato.
Tutte e tre gli effetti principali risultano significativi. L'interazione più importante è risultata essere
quella tra la variabile istruzionale (informazione) e la precisione per stabilire il rapporto (Ratio), mentre
l'interazione tra Longer e informazione e SD e informazione non è risultata significativa. In generale però si è
avuto un miglioramento nella seconda sessione dell'esperimento.
Alcuni disegni fattoriali
Si parla di disegno fattoriale completamente randomizzato (o tra i soggetti) quando sono presenti
contemporaneamente:
a) due o più VI manipolate con due o più livelli per ciascuna di esse;
b) quando ogni VI è completamente incrociata con ogni altra VI, cosa che comporta che ogni livello di
un fattore sia combinato con ogni livello dell'altro fattore;
c) quando i soggetti sono assegnati in modo randomizzato ad ogni gruppo;
d) quando ogni gruppo è sottoposto solamente ad una combinazione delle VI. E' il piano di base già
illustrato nella matrice 2x2 presentata nelle pagine precedenti.
Oltre ai piani tra i soggetti, però troviamo i disegni fattoriali entro i soggetti chiamati anche disegni
fattoriali a misure ripetute, dove i gruppi sono sottoposti a tutte le combinazioni dei fattori invece, che ad una sola
di esse. Se si tengono sotto controllo gli effetti dell'ordine e della sequenza, questi ultimi disegni offrono una
maggiore sensibilità agli effetti della VI, l'esigenza di un minor numero di soggetti e una maggiore efficienza.
Alle volte, le due o più VI che costituiscono un disegno fattoriale possono essere di tipo diverso: ad
esempio, una tra i soggetti e l'altra entro i soggetti, oppure una manipolabile e l'altra no. Questi piani vengono
chiamati "disegni misti". Un disegno misto quindi può includere una VI tra i soggetti ed una entro i soggetti; oppure
può invece indicare un disegno fattoriale che comprende un fattore manipolato ed uno non manipolato. Nel primo
caso, un fattore richiede tanti gruppi di soggetti quanti sono i suoi livelli di variazione e l'altro fattore comporta che
tutti i soggetti siano sottoposti a tutti i livelli.
Il secondo tipo di disegni misti, cioè quello composto da fattori manipolati e non manipolati, assegna i
soggetti in modo randomizzato alle condizioni della variabile manipolata, mentre ai livelli del fattore non
manipolato vengono assegnati sulla base di caratteristiche preesistenti: come maschio e femmina, volontari e non
volontari, ecc..
Il problema presentato da questo disegno riguarda l'interpretazione dei risultati, perchè le variabili non
manipolate comportano sempre degli effetti di confusione, per cui è difficile fare inferenze causali basate
sull'analisi degli effetti principali delle variabili indipendenti.
I QUASI-ESPERIMENTI
I disegni quasi-sperimentali assomigliano ai veri esperimenti, infatti, ne possiedono gli aspetti
essenziali e cioè: un'ipotesi di tipo causale da verificare; la possibilità di manipolazione della VI cosa che consente
dei confronti tra due o più condizioni sperimentali.
Poichè non controllano tutte le variabili di disturbo, le inferenze basate sui loro dati meno affidabili degli studi
sperimentali. Ciò accade perchè può mancare la randomizzazione (assegnazione ai gruppi in modo randomizzato) o
il controllo.
Fanno parte dei disegni quasi-sperimentali i disegni che presentano un gruppo di controllo non
equivalente; i disegni a serie temporali interrotte e i disegni simulati prima e dopo.
I disegni con gruppo di controllo non equivalente costituiscono la soluzione migliore quando i gruppi
formano delle entità naturali, che devono essere mantenute intatte per studiarne le caratteristiche. La mancanza
di equivalenza dei gruppi viene in genere limitata componendo un gruppo di controllo quanto più possibile simile
a quello sperimentale. Si sottopongono infatti i gruppi al pre-test per individuarne il grado di equivalenza. Un
esempio di questo tipo di disegno può essere così schematizzato:
Pre-test Trattamento Post-test
Gruppo A SI SI SI
Gruppo B SI NO SI
L'eventuale differenza significativa tra i dati del pre-test con quelli del post-test può indicare la misura
del cambiamento attribuibile al trattamento. Questo disegno, mentre per l'assenza di randomizzazione presenta
maggiori pecche per quanto riguarda la validità interna rispetto ai disegni sperimentali veri, ha però il vantaggio di
rispettare l'integrità naturale dei gruppi e di non toglierli dal contesto della vita quotidiana. Così la validità esterna, e
in particolare quella ecologica, sono meglio salvaguardate.
Disegni a serie temporali interrotte
Nella loro forma generale, i disegni a serie temporali interrotte assomigliano a un disegno con un solo
gruppo e due prove, ma, invece di una singola misura prima del trattamento e una dopo, richiedono diverse
misurazioni della VD, a scadenze ben definite, sia prima della condizione sperimentali che dopo.
Così, prima del trattamento e per un certo periodo di tempo, si effettuerà la prima serie di misurazioni;
poi si darà luogo alla fase della manipolazione, infine quando questa verrà interrotta, si riprenderanno le
misurazioni per un altro periodo di tempo. Questi piani sono sostanzialmente una variazione dei disegni entro i
soggetti, perchè ogni elemento del gruppo è sottoposto a tutte le condizioni di trattamento.
In questo tipo di disegni, la molteplicità delle misurazioni protratta nel tempo ha un ruolo molto
importante. Consente, infatti, di evidenziare la tendenza dei dati prima della condizione sperimentale
chiamata linea di base (baseline), che viene utilizzata come punto di paragone fisso per l'andamento dei dati
raccolti dopo il trattamento. I disegni a serie temporali interrotte, a causa della molteplicità delle misure prima e
dopo il trattamento, controllano gli effetti dovuti alla regressione verso la media; non controllano invece gli effetti
della storia. Sostanzialmente la molteplicità delle misure sostituisce il gruppo di controllo.
Questi piani possono essere usati ad esempio in una ricerca clinica, o in quegli studi che prima
osservano i soggetti tramite misurazioni per un certo periodo di tempo, come può essere uno studio sul
comportamento di bambini con problemi comportamentali, che vengono osservati per un anno intero prima del
trattamento. Una volta ottenuti dati sufficienti, viene applicato il trattamento, e una volta terminato questo stadio si
riprendono le misure dei soggetti per lo stesso tempo di osservazione precedente l'applicazione del trattamento.
E' quindi un disegno utile per condurre ricerche sui fenomeni naturali o clinici. Tuttavia in questo tipo
di disegno vi sono due potenziali fattori di confusione: la storia e la strumentazione, infatti, il disegno per essere
espletato richiede sempre un certo periodo di tempo, durante il quale possono accadere degli eventi capaci di influire
sulla VD (come la storia), e quando vengono riprese le misurazioni dopo l'interruzione del trattamento, può accadere
di introdurre qualche cambiamento nel modo di raccogliere e di codificare i dati (strumentazione).
Un interessante sviluppo del disegno a serie temporali interrotte semplici è quello a serie temporali
interrotte multiple. Questo piano è del tutto simile al precedente, ad eccezione del fatto che utilizza un secondo
gruppo di soggetti (il gruppo di controllo) che non è sottoposto al trattamento. Rispetto al disegno a serie temporali
interrotte semplici, questo piano ha il pregio di permettere il controllo degli effetti di confusione dovuti alla storia.
Teoricamente infatti, qualsiasi avvenimento esterno al trattamento dovrebbe influire in ugual misura sia sul gruppo
sperimentale sia su quello di controllo. Ma come nel caso del piano con un gruppo di controllo non equivalente,
anche in questo disegno l'interazione tra selezione e storia è tanto più probabile quanto più i gruppi sono differenti.
Disegni simulati prima e dopo
Quando le ricerche sono condotte sul campo, non si può sempre assegnare casualmente i soggetti ai
differenti livelli di trattamento. In molte circostanze, però, è possibile esercitare un sufficiente controllo sui
momenti di registrazione delle prove preliminari e del post-test, come pure sui campioni. Ad esempio, negli studi su
grandi popolazioni, è possibile rilevare l'impatto esercitato da un intervento qualunque sull'insieme della
popolazione se si possono raccogliere e misurare i dati della variabile che interessa sia prima che accada l'evento
che modifica tale variabile sia dopo.
Ad esempio, se si suppone che un'università voglia promuovere una campagna pubblicitaria per una
corretta utilizzazione della biblioteca su 10.000 iscritti, si potrebbero formare due gruppi di soggetti
(sperimentale e di controllo), quindi misurare le abitudini di consultazione del gruppo di controllo prima
dell'inizio della campagna pubblicitaria e dopo che questa è terminata, misurare le abitudini di consultazione del
gruppo sperimentale. A questo punto si confrontano i dati ottenuti nella prova preliminare del gruppo di controllo
con quelli ottenuti nel post-test dal gruppo sperimentale. Questo disegno viene denominato a campioni differenti
nel pre-test e nel post-test.
Questo disegno è utile quando il trattamento riguarda tutta la popolazione. Qualora il gruppo di
controllo non potesse essere sottoposto alla condizione sperimentale, il disegno più opportuno è quello a campioni
differenti nel pre-test e nel post-test, con o senza trattamento. Questo disegno richiede che il gruppo sperimentale e
quello di controllo siano a loro volta suddivisi in due sottogruppi. I due sottogruppi del gruppo sperimentale
corrispondono al gruppo sperimentale e di controllo del disegno
visto precedentemente; i due sottogruppi del gruppo di controllo sono sottoposti al pre-test e al post-test
rispettivamente. Per cui si avrà:
Sottogruppi Pre-test Trattamento Post-test
1 SI NO NO
Gruppo Sperimentale
2 NO SI SI
3 SI NO NO
Gruppo di Controllo
4 NO NO SI
L'efficacia del trattamento viene verificata confrontando la differenza osservata tra i risultati dei
sottogruppi 1 e 2 e quella osservata tra i sottogruppi 3 e 4. Questo disegno potrebbe essere utile quando si volesse
confrontare, ad esempio, le abitudini alimentari di una popolazione sottoposta ad una campagna pubblicitaria su una
sana nutrizione (sottogruppi sperimentali) e quella di una popolazione non toccata dalla campagna (sottogruppi di
controllo). Grazie al gruppo di controllo, di cui una parte è sottoposta al pre-test ed una al post-test, il ricercatore
può controllare gli effetti dovuti alla storia e alla maturazione. E' possibile però che i risultati siano influenzati da
certe variabili esterne che intervengono solo nel gruppo sperimentale. Infine il disegno può risentire dell'effetto della
mortalità. Questi sono solo alcuni dei disegni sperimentali possibili, ma rappresentano i tipi di disegni più usati
nella ricerca sperimentale in psicologica.
Modelli di sperimentazione
La sperimentazione clinica nell’uomo può essere condotta seguendo tre distinti modelli
sperimentali.
Sperimentazione non controllata
L'intervento sperimentale viene assegnato a tutti i soggetti eliggibili consecutivamente
osservati. Non c'è un confronto diretto con un gruppo di controllo costituito da soggetti che
ricevono un intervento alternativo. Gli effetti dell'intervento sperimentale sono valutati in base al
confronto con il decorso della malattia trattata con terapia standard che si ritiene ben noto.
Possono avere un ruolo nella ricerca di trattamenti per malattie molto rare che non
consentono quindi un trial controllato e randomizzato, neppure multicentrico, oppure se sussistono
tutte le seguenti condizioni:
- malattia a decorso prevedibile ed esito invariabilmente fatale
- efficacia terapeutica del nuovo trattamento esplicitamente evidente
- assenza di trattamenti alternativi utilizzabili per il confronto in una sperimentazione
controllata
- presupposti fisopatologici e farmacologici sufficientemente forti, tali da rendere credibili i
risultati favorevoli alla sperimentazione.
Sperimentazione controllata, non randomizzata
Il trattamento sperimentale viene assegnato a tutti o a una parte dei pazienti
eliggibili consecutivamente osservati. Esiste un gruppo di pazienti trattati in altro modo, che
servono come controlli, arruolati con procedure diverse:
controlli paralleli: esiste un gruppo trattato in modo alternativo ma l'attribuzione dei
pazienti al gruppo non avviene in modo casuale;
controlli storici;
controlli da banche dati.
La perfetta comparabilità tra i pazienti cui viene somministrato l'intervento sperimentale e i
controlli non può mai essere del tutto accertata.
Un esempio noto di studio non randomizzato è quello relativo ai possibili benefici di supplementi di
vitamine nel momento del concepimento in donne ad alto rischio di avere un bambino con difetti
alle tube neurali (Smithells et al., 1980); i ricercatori trovarono che il gruppo che aveva assunto
vitamine ha avuto meno bambini con difetti neurali rispetto al gruppo di controllo con placebo. Il
gruppo di controllo includeva sia donne non eleggibili per il trial sia donne che avevano rifiutato la
partecipazione.
Sperimentazione controllata e randomizzata (RCT)
Si tratta della sperimentazione più frequentemente utilizzata e che fornisce le massime garanzie di
oggettività ed attendibilità. Dopo aver individuato i pazienti eligibili si procede all'assegnazione ai gruppi in
modo randomizzato. Un gruppo, definito gruppo trattato, viene sottoposto al trattamento sperimentale; l'altro
gruppo, detto di controllo, viene trattato con metodi alternativi (trattamento già noto o placebo). Al termine
di un periodo prestabilito si osserva il decorso clinico di entrambi i gruppi e si testano statisticamente i
risultati ottenuti.
L’adozione di un farmaco di confronto già noto o di una sostanza farmacologicamente inerte
(placebo) dipende dalla natura della patologia studiata; l’adozione di un placebo, in particolare, consente di
controllare gli effetti positivi dovuti al semplice fatto di effettuare un trattamento, il cosiddetto effetto
placebo, e “di osservare, in condizioni di studio parallelo, le variazioni spontanee di un fenomeno
morboso” (Favilli, 1988).
Il fatto che un gruppo di soggetti malati possa, a causa dell’attribuzione casuale ad uno dei gruppi,
subire un trattamento con una sostanza inerte, o, comunque, non il migliore trattamento possibile, comporta
alcuni evidenti problemi etici. Viene infatti palesemente contraddetto il principio giuridico e deontologico
del neminem ledere, secondo il quale il medico non può in alcun modo ledere l’integrità psicofisica del suo
paziente o consentire, con il suo mancato intervento, che ciò possa accadere. D’altro canto, la
sperimentazione clinica trova origine dall’esigenza etica del medico di acquisire nuove conoscienze
terapeutiche tali da consentirgli di curare in modo migliore i sui pazienti futuri.
La contrapposizione di questi due principi raggiunge una forma di equilibrio privilegiando,
nell’ambito della sperimentazione, una etica collettiva, cioè un comportamento tale da consentirgli di
apportare notevoli miglioramenti al trattamento dei malati futuri, e, per quanto riguarda i pazienti trattati con
placebo, una etica individuale, consistente nell’interrompere il trattamento il più tempestivamente possibile,
ovvero non appena appropriate analisi intermedie facciano comprendere la validità del nuovo trattamento
oppure la sua tossicità o non efficacia. Inoltre, nel caso le condizioni cliniche del paziente lo richiedano, il
medico sperimentatore è in grado, in ogni momento, di venire a conoscienza del tipo di trattamento
somministrato e quindi di comportarsi di conseguenza.
Naturalmente il paziente deve essere informato di essere entrato a far parte di una sperimentazione
clinica; sarà perciò indispensabile che preventivamente il medico lo renda edotto del tipo di patologia di cui è
affetto, della sua probabilità di guarigione, del tipo di sperimentazione cui dovrà partecipare e quindi di tutti i
problemi ed i rischi che questa comporta. Il paziente dovrà inoltre essere informato che ha la facoltà di
interrompere in qualunque momento la sua partecipazione alla sperimentazione avviata. Solo a questo punto
il paziente potrà, se vorrà, firmare il modulo relativo al consenso informato.
La non conoscenza del tipo di trattamento che è somministrato a ciascun paziente viene indicata con
il termine di cecità. Può essere singola, ovvero il paziente ignora il trattamento che gli viene somministrato,
doppia, lo ignorano il paziente ed il medico o tripla, lo ignorano paziente, medico e statistico. La cecità è
utilizzata per eliminare i bias psicologici dovuti alla conoscenza del trattamento e della sua assegnazione ed è
uno degli indicatori utilizzati per valutare la qualità di un trial. La cecità è indispensabile quando gli end-
point implicano un certo margine di soggettività, come nel caso di interpretazione di imaging, oppure
l'intensità o la presenza di sintomi come il dolore.
In fase di progettazione della ricerca, un aspetto importante è costituito dalla definizione a priori
della numerosità campionaria, stabilita sulla base degli errori di primo e secondo tipo, della risposta che ci
si attende e della variabilità. Tale numerosità deve essere stimata tenedo anche conto della necessità di
compensare le eventuali perdite al follow-up (drop-out).
La registrazione e la comunicazione delle sospensioni del trattamento e dei drop-out forniscono
informazioni essenziali sulla tollerabilità del trattamento stesso e sulla capacità degli sperimentatori di
mantenere la compliance dei pazienti.
La frequenza dei drop-out è un problema importante, perché questi non si distribuiscono casualmente
all’interno dei gruppi considerati, ma, al contrario, si concentrano fra i soggetti che trovano meno
giovamento dal trattamento ricevuto; la valutazione finale perciò, per essere corretta ed oggettiva, è
opportuno che sia basata su tutti i soggetti che all’inizio dello studio ci si era riproposto di trattare (intention
to treat principle), eventualmente considerando i drop-out come soggetti con risposta negativa.
L’esigenza di effettuare la randomizzazione deriva dalla necessità di prevenire bias di selezione dei
pazienti. Inoltre questa procedura consente di utilizzare le tecniche proprie dell’inferenza statistica per
valutare, a fine follow-up, se le differenze osservate fra i risultati ottenuti con i vari trattamenti siano
attribuibili al caso o ad una reale diversa efficacia terapeutica.
Il termine random non significa "per caso" ma indica una precisa tecnica. Per allocazione casuale si
intende che ogni paziente ha una probabilità conosciuta, in genere costante ed uguale, di essere assegnato ad
un trattamento; ciò può avvenire secondo varie procedure già in passato sommariamente trattate in questa
rubrica (v. NOFRONI 2000).
Randomizzazione casuale semplice
Si determina il trattamento per ogni paziente casualmente senza nessun vincolo (uguale allocazione
tra i gruppi). Se i gruppi sono due, tale procedura equivale ad assegnare i soggetti sulla base del lancio di una
moneta. E’ una procedura raramente applicabile, perché presuppone una estrema omogeneità del collettivo
campionato.
Randomizzazione in blocchi
Un blocco consiste in un numero specificato a priori di pazienti, tutti arruolati nello stesso tempo e
assegnati ai vari trattamenti in studio in modo da soddisfare il rapporto di allocazione prestabilito. Si utilizza
quando si vuole assicurare il bilanciamento nel numero di allocazioni fatte per i vari gruppi di trattamenti.
Per esempio, se consideriamo i soggetti in blocchi di 4, ci sono solo 6 modi in cui due soggetti potranno
venire assegnati al trattamento A e due al trattamento B:
AABB
ABAB
ABBA
BBAA
BABA
BAAB
Si scelgono i blocchi random per creare la sequenza delle allocazioni.
Il numero nei due gruppi in ogni tempo non può differire di oltre la metà della lunghezza del blocco.
La dimensione del blocco in genere è un multiplo del numero dei trattamenti. Grandi blocchi dovrebbero
essere evitati, in quanto si controlla meno il bilanciamento
Randomizzazione stratificata
I fattori prognostici che verosimilmente condizionano l'esito terapeutico, possono essere bilanciati tra
i vari gruppi. Il metodo è di produrre una lista randomizzata separata in blocchi per ogni sottogruppo (strato).
Per esempio in uno studio per comparare due trattamenti alternativi per il tumore della mammella potrebbe
essere importante stratificare secondo lo stato di menopausa.
Si devono costruire due liste separate di numeri casuali per le donne in premenopausa e
postmenopausa. E’ essenziale che l'allocazione stratificata del trattamento sia basata sulla randomizzazione
in blocchi all'interno di ogni strato piuttosto che la randomizzazione semplice, altrimenti non c'è controllo del
bilanciamento.
Nell’ambito degli studi RCT, si possono individuare due grandi categorie di disegni sperimentali.
Entro pazienti
Negli studi entro pazienti (o cross-over) i soggetti trattati fanno parte di un unico gruppo
sperimentale e ad ogni paziente vengono somministrati alternativamente tutti i trattamenti. In questo caso è
randomizzata la sequenza con cui ciascun trattamento viene somministrato a ciascun paziente.
Questo disegno in genere è utilizzato quando la malattia è cronica e relativamente stabile, ad
esempio asma, ipertensione, disturbi del sonno, angina, diabete, epilessia. Il vantaggio principale di questo
disegno di studio è la sua efficienza, poichè elimina la maggior parte degli errori dipendenti dalla variabilità
biologica individuale, infatti ogni soggetto è il controllo di sè stesso. Conseguenza diretta di questa
efficienza, è la possibilità di poter utilizzare una numerosità campionaria ridotta rispetto al disegno tra
pazienti. Un altro potenziale vantaggio è la possibilità di studiare le reazioni individuali al trattamento.
Le limitazioni di questi studi riguardano l’impossibilità di essere utilizzati per processi patologici che
evolvono in tempi brevi e la possibile sommazione degli effetti farmacologici (carry-over); a tal fine è
opportuno prevedere un periodo in cui verosimilmente l'effetto residuo del trattamento viene eliminato, detto
periodo di wash – out (letteralmente: lavaggio).
Come conseguenza di tali vantaggi e svantaggi i disegni cross-over vengono usati prevalentemente
per studi di fase I e fase II, oppure per studi di bioequivalenza.
Tra pazienti
Il numero di gruppi sperimentali è pari al numero dei trattamenti somministrati e ad ogni paziente
viene somministrato un solo trattamento.
Una particolare importanza riveste la definizione degli obiettivi dello studio (end-point) e la scelta
della variabile risposta. L’identificazione della variabile risposta deve essere motivata in funzione delle
caratteristiche della patologia studiata, indicando il tipo di variabile, qualitativa o quantitativa, e la pertinente
legge di distribuzione.
Per trattamenti in pazienti con malattia clinicamente misurabile, possono scegliersi come end-point
primari alcune manifestazioni oggettive quali, ad esempio, frequenza delle risposte documentate, loro durata
ed entità, tempo intercorso tra inizio trattamento ed eventuale decesso, tempo libero da malattia, ecc.
Per malattie a decorso cronico l'efficacia del trattamento si misurata generalmente su end-point
secondari (tossicità, effetti collaterali, qualità della vita, valutazione dello stato di malattia).
PROTOCOLLO DELLO STUDIO
La pianificazione di una sperimentazione clinica comporta la stesura di un documento, detto
Protocollo dello studio, nel quale devono essere riportati, in dettaglio, tutti gli aspetti caratterizzanti la
ricerca che ci si ripropone di intraprendere, al fine di poter comunicare le caratteristiche della stessa ai vari
ricercatori e standardizzarne le procedure sperimentali.
Per sperimentazioni particolarmente complesse è anche consigliabile la stesura di un manuale
operativo e la sintesi dell’intero processo sperimentale in un diagramma di flusso (flow-chart).
Esemplificando, i punti che dovrebbero essere trattati in un protocollo completo e corretto, sono i
seguenti:
-
Introduzione
Valutazione dei risultati ottenuti sugli animali
Motivazione clinica
Obiettivi primari e secondari
Criteri di arruolamento dei pazienti
Eticità
Consenso informato
Durata del trattamento
Stima del numero di drop-out
Calcolo a priori della numerosità campionaria
Procedura di randomizzazione
Descrizione del trattamento
Definizione del disegno sperimentale
Definizione dei criteri di valutazione
Cecità
Schede di rilevazione
Gestione dei dati
Esami al tempo basale
Analisi intermedie
Analisi finali
Elaborazioni statistiche
Conclusioni finali
-
Bibliografia
VALUTAZIONE DELLA QUALITÀ
La qualità di un trial è di ovvia rilevanza sia per lo studio in esame che per le revisioni sistematiche
(o metanalisi). Se i dati di base e il razionale scientifico della ricerca non sono consistenti, ne consegue che
anche l’interpretazione dei risultati risulterà distorta. La validità dei risultati generati di uno studio è una
dimensione importante della qualità.
La qualità è un concetto multidimensionale che può riguardare il disegno, la conduzione e l'analisi di
un trial oppure la qualità del reporting. Spesso queste fasi non vengono descritte accuratamente dagli Autori
dello studio, a tal fine un gruppo internazionale di studiosi ha sviluppato, intorno agli anni ’90, una
procedura, lo schema CONSORT (Consolidated Standards of Reporting Trial); tale schema comprende una
lista di controllo e un diagramma di flusso al quale dovrebbero adattarsi tutti i trial clinici. Questo strumento
è in evoluzione poiché viene sottoposto a continue revisioni, l’ultima è apparsa nel 2001 (MOHER et al.). In
sintesi si dovrebbero controllare i seguenti items al fine di poter valutare se lo studio è stato condotto in
modo adeguato oppure no:
- buon disegno dello studio con background scientifico e spiegazione del razionale;
- determinazione della numerosità campionaria;
- schema di randomizzazione;
- metodi statisticici;
- compliance dei soggetti;
- dati basali;
- outcome primari e secondari;
- eventi avversi;
- interpretazione e generalizzazione dei risultati;
- interpretazione generale in base alle evidenze correnti:
- per malattie a decorso cronico l'efficacia del trattamento misurata su end-point surrogati.
Campbell (1957) e Campbell & Stanley (1963) proposero una distinzione tra validità interna ed
esterna.
La validità interna è riferita alla minimizzazione dei possibili bias di conduzione del trial,
individuabili nelle quattro seguenti categorie:
- bias di selezione: allocazione distorta dei soggetti in fase di randomizzazione;
- bias di performance: fruizione di cure non omogenee;
- bias di individuazione: valutazione errata dell'outcome;
- bias di attrito: deviazioni dal protocollo e perdite al follow-up.
La validità esterna è basata sulla possibilità di generalizzare i risultati di un trial clinico ad altri
collettivi diversi da quello in studio. Le caratteristiche da considerare riguardano:
- i pazienti: età, sesso, gravità della malattia, fattori di rischio, comorbidità;
- il regime di trattamento: dosaggio, tempi e modi di somministrazione, tipo di trattamento all'interno
di una classe di trattamento, trattamenti concomitanti;
- il setting: livello delle cure, esperienza e specializzazione medica;
- la valutazione del
risultato: tipo di definizione dei risultati e durata del follow-up.
LA VERIFICA DELLE IPOTESI
Concettualmente il processo di verifica delle ipotesi consiste nello stabilire se una assunzione fatta
possa essere considerata accettabile o meno, sulla base delle informazioni raccolte su una campione, ovvero
solo su una parte delle unità statistiche della popolazione oggetto di studio. Essa trova nel test statistico lo
strumento basilare intorno al quale ruota tutta la logica di questo tipo di studi.
Può essere utile, schematicamente, individuare quattro distinte fasi operative:
1) DEFINIZIONE DELLE IPOTESI
2) DEFINIZIONE DEL RISCHIO DI ERRORE
3) SCELTA DEL TEST
4) DECISIONE FINALE
Analizziamole in dettaglio.
1) DEFINIZIONE DELLE IPOTESI
Lo studioso che vuole applicare i test statistici per prima cosa deve formulare l’ipotesi di partenza su
cui lavorare. Ma occorre precisare che tale ipotesi statistica è, in genere, ben diversa dall’ipotesi sperimentale
che è alla base della ricerca. L’ipotesi statistica infatti è basata sul presupposto che non ci sia alcuna
differenza fra i gruppi messi a confronto per il carattere oggetto di studio; per questo motivo viene appunto
indicata come Ipotesi nulla (H0). Se sussisteranno motivi per ritenere tale ipotesi non attendibile, si dovrà
adottare una seconda ipotesi, alternativa alla prima, che viene appunto definita Ipotesi alternativa (H1),
secondo la quale i gruppi messi a confronto sono diversi tra loro per il carattere preso in esame.
Se, ad esempio, si volesse valutare quale fra due diverse diete possa dare migliori risultati a livello di
accrescimento ponderale, si potrebbero costituire due campioni omogenei cui somministrare le due diete, con
il presupposto di valutare, dopo un adeguato periodo di tempo, quale avrà avuto migliore esito. L’ipotesi
nulla di partenza sarà che le due diete portano alle stesse variazioni ponderali medie (a meno di differenze
dovute a fattori casuali); se ci sarà motivo per rifiutare tale ipotesi, si accetterà l’ipotesi alternativa secondo
la quale le due variazioni medie sono diverse e quindi una dieta è migliore dell’altra.
2) SCELTA DEL RISCHIO DI ERRORE
Poiché in statistica inferenziale non potranno esserci conclusioni certe, ma solo probabilistiche, sarà
necessario fissare a priori il rischio di errore che lo studioso è disposto ad accettare nel respingere l’ipotesi
nulla quando questa in realtà è vera. Tale rischio di errore (detto errore di prima specie) viene
convenzionalmente indicato con α e classicamente posto uguale a 0.05 (o un valore inferiore, come 0.025,
0.01...). In pratica lo studioso è disposto a giungere ad una conclusione errata una volta su venti.
Definito l’errore di prima specie, in alcune ricerche può essere necessario definire anche l’errore di
seconda specie (β) cioè la probabilità di accettare l’ipotesi nulla quando questa è errata; il valore di β
generalmente è fissato fra 0.10 e 0.20.
In realtà, essendo gli errori α e β inversamente proporzionali tra loro, appare evidente che, fissato
l’uno, è immediatamente determinato anche l’altro. Entrambi però sono funzione della numerosità
campionaria e pertanto, laddove opportuno e possibile, si fissano a priori α e β ed in funzione di questi
rischi di errore e di altre informazioni a priori, si calcola con un processo inverso la numerosità
campionaria ideale, in grado cioè di rendere significativa (v. fase 4) la differenza fra i gruppi che si sono
presi in considerazione.
3) SCELTA DEL TEST
I test statistici sono molteplici (v. Tab. 1) e al profano che legge una pubblicazione scientifica può a
volte sembrare che lo statistico faccia una specie di slalon fra i test alla ricerca di quelli che meglio
supportino le teorie che vuole dimostrare. In realtà non è così: la scelta del test è basata su una molteplicità di
fattori e conoscenze a priori.
1) Tipo di verifica da effettuare: sulla dipendenza tra variabili, sul confronto tra medie, sul confronto tra
varianze, sulla simmetria della distribuzione dei dati, ecc.
E' necessario inoltre distinguere il caso di confronti tra campioni indipendenti (confronto tra gruppi
diversi, come nel caso di studi tra pazienti), e tra campioni dipendenti (quando cioè un gruppo di soggetti
viene seguito e studiato in tempi diversi, come negli studi entro pazienti o crossover). In quest'ultima
situazione la variabile oggetto di studio è generalmente data dalla differenza fra il valore che si riscontra al
tempo basale ed il corrispondente valore al tempo 1, al tempo 2, ecc. (test per dati appaiati).
2) Conoscenza, o meno, delle caratteristiche della distribuzione che la variabile oggetto di studio
presenta nella popolazione. Sono principalmente due le informazioni richieste: la conoscenza della forma
della distribuzione, se segue cioè la distribuzione normale o meno, e la conoscenza della variabilità della
popolazione, calcolata con un opportuno indice detto standard deviation (σ).
Disponendo delle informazioni su queste caratteristiche della variabile oggetto di studio si potrà
decidere quale tipo di test sia opportuno applicare:
se tali caratteristiche saranno conformi a determinati
assunti, si potranno applicare i cosiddetti test parametrici; in mancanza delle conoscenze a priori, o nel
caso queste non soddisfino i suddetti assunti, si potranno applicare i test non parametrici (anche detti
distribution free), meno potenti dei precedenti, ma che hanno il pregio di poter essere applicati facilmente e
senza il timore di basarsi su ipotesi non sufficientemente verificate.
3) Numerosità del campione.
A tutti è noto che quanto più il campione è grande tanto più il test fornisce risultati attendibili,
nondimeno esistono dei test particolarmente adatti a piccoli campioni come il test esatto di Fisher, il test t di
Student ecc. E’ opportuno precisare che vengono classicamente definiti piccoli campioni quelli che hanno
una numerosità inferiore alle 30 unità, ma la numerosità ideale dipende comunque dagli scopi della ricerca e
dalle caratteristiche delle tecniche statistiche utilizzate; ad es. applicando metodi statistici multivariati è
necessaria come minimo una numerosità campionaria di alcune centinaia di unità statistiche.
4) Tipo di scala con cui è espressa la variabile oggetto di studio.
Le scale più comunemente utilizzate sono le tre seguenti:
a) scala nominale: il carattere qualitativo oggetto di studio si presenta secondo qualità diverse per le quali
non è previsto un ordine di successione precostituito. Appartengono a questo gruppo ad esempio la
nazionalità (può essere italiana, francese, spagnola…), la professione (medico, avvocato, architetto ecc.), il
sesso (maschio o femmina), l'esito di un trattamento (guarito e non guarito) e così via. Utilizzando tale scala
l’unica relazione che può essere instaurata tra le unità statistiche è di uguaglianza o di diseguaglianza, senza
poter precisare né la grandezza né la direzione di tale diseguaglianza. E’ opportuno precisare che eventuali
codici numerici attribuiti convenzionalmente a tali qualità (come ad es. i codici attribuiti dall’Istat alle varie
forme morbose) hanno solo la funzione di etichette e non possono in alcun modo essere elaborati
matematicamente.
Per questo tipo di variabili si possono utilizzare solo test che si basano sulle frequenze come ad
esempio confronto tra conteggi, confronto tra proporzioni, test chi quadro, test di Mc Nemar ecc.
b) scala ordinale: il carattere qualitativo oggetto di studio si presenta secondo modalità per le quali esiste
un ordine di successione precostituito; ne sono esempio i mesi dell’anno (gennaio, febbraio, marzo…), il
livello di scolarità (analfabeta, elementari, media inferiore, media superiore, laurea), una graduatoria (primo,
secondo, terzo …), il livello sociale (basso, medio, alto). Si possono avere anche caratteri quantitativi che
però, per comodità, vengono sintetizzati su scala ordinale: ad es. l’età, comunemente espressa in anni, può
anche essere espressa come carattere qualitativo: neonato, adolescente, giovane, anziano ecc. Utilizzando
tale scala è possibile classificare le unità statistiche con concetti di uguale, maggiore o minore, ma anche in
questo caso senza poter quantizzare l’entità della diversità, infatti due posizioni successive non sono
necessariamente equidistanti tra loro; ad es. in una corsa ciclistica il secondo arrivato potrà avere il distacco
di un minuto dal primo, ma il terzo potrebbe giungere a cinque minuti dal secondo.
Con variabili di questo tipo si possono utilizzare sia test che si basano sulle frequenze che sui ranghi
(posizione assunta in una graduatoria).
c) scala a intervalli: la variabile considerata si presenta con diversi valori numerici; ne sono esempi l’età, il
peso, il reddito, il volume toracico ecc. Tali valori per comodità vengono frequentemente raggruppati in
classi (60 – 70 kg.; 70 – 80 kg. ecc). Le scale ad intervalli godono di due proprietà: esiste un ordinamento
naturale delle modalità in quanto queste sono espresse da valori numerici; esiste una unità di misura ed è
quindi sempre possibile calcolare la distanza tra le unità statistiche, rispetto al carattere considerato,
semplicemente effettuando la differenza fra i valori assunti da tali unità.
Si tratta in questo caso di variabili che forniscono le maggiori informazioni sui fenomeni oggetto di
studio e più gestibili dal punto di vista matematico formale; su queste può essere applicato qualunque tipo di
test statistico.
4) DECISIONE FINALE
L’elaborazione del test statistico porterà come risultato un valore del test stesso che a sua volta
individuerà una probabilità (p): la probabilità che il risultato ottenuto si sia verificato per solo effetto del
caso; appare quindi logico pensare che se tale probabilità è grande si possa attribuire appunto al caso la
diversità che si è osservata fra i gruppi messi a confronto (plausibilmente a quanto affermato nell'ipotesi
nulla), mentre se è molto piccola si possa ritenere che non sia stato il caso a determinare il risultato, ma
questo sia stato determinato da qualche altro fattore (come riportato nell'ipotesi alternativa).
Emerge quindi la necessità di un criterio oggettivo ed univoco per stabilire quando una probabilità
possa definirsi piccola o grande; il problema si risolve con il confronto del valore p trovato con la
probabilità dell’errore di prima specie α; se risulterà p > α, dove, come detto, generalmente α= 0.05, si sarà
ottenuto un risultato che è probabile si sia verificato per effetto del caso ed è quindi plausibile considerare
valida l’ipotesi nulla di eguaglianza. Al contrario, se risulterà p < α, si sarà ottenuto un risultato che appare
poco probabile essere dovuto al caso e quindi non coerente con l’ipotesi nulla prefissata. L'ipotesi nulla verrà
quindi rifiutata, lo studioso adotterà l’ipotesi alternativa (secondo la quale la diversità tra i gruppi è reale) ed
il risultato verrà definito significativo.
Operativamente sarà sufficiente, ricorrendo alle tavole relative al test utilizzato, confrontare il il
valore del test con il valore che, sulle tavole, individua la probabilità prefissata α (valore soglia); se il
valore del test sarà maggiore del valore soglia individuerà una p inferiore ad α per cui si respingerà l’ipotesi
nulla.
Nel caso contrario, ovverosia quando il valore desunto dal test risulterà inferiore al valore soglia, la
probabilità p sarà superiore ad α, quindi si sarà ottenuto un risultato che è probabile sia dovuto al caso, per
cui si accetterà l’ipotesi nulla.
E' opportuno precisare che il valore del test è inversamente proporzionale alla probabilità che il
valore stesso individua, ovvero quando il test fornirà un valore grande individuerà una p piccola e viceversa.
APPLICAZIONI
Esempio 1
Si vuol valutare se ci sia una diversa propensione al tabagismo nei due sessi; a tale scopo si sono
costituiti due gruppi (campioni in linguaggio statistico) di maschi (nM = 44) e di femmine (nF = 38),
omogenei tra di loro (se ci fossero rilevanti diversità di età, cultura, livello sociale ecc., l’eventuale diversa
propensione al tabagismo potrebbe essere attribuita a tali fattori).
L’ipotesi nulla di partenza è di indipendenza (la propensione al tabagismo non dipende dal sesso)
contro una ipotesi alternativa di dipendenza (la propensione al tabagismo dipende dal sesso). Il rischio di
errore è fissato come di consueto al 5 % (α= 0.05).
Volendo valutare la dipendenza tra due caratteri qualitativi, il test da adottare è il Chi quadro; se la
casistica fosse stata poco numerosa (n < 40) o fossero risultate frequenze teoriche molto piccole (< 5),
sarebbe stato preferibile il test esatto di Fisher.
Il valore del Chi quadro calcolato risulta pari a 4.6; utilizzando le relative tavole si osserva che per
α= 0.05 e gradi di libertà = 1, il Chi quadro teorico è pari a 3.841. Il nostro valore supera il valore soglia e di
conseguenza individua un risultato che presenta una probabilità di verificarsi inferiore ad α. L'ipotesi nulla di
partenza non appare plausibile, quindi la respingiamo e adottiamo in sua vece l'ipotesi alternativa: i due sessi
sembrano avere una diversa propensione nei confronti del tabagismo; tale affermazione ha una probabilità
dello 0.05 di essere errata.
Esempio 2
Si vuole valutare se il quoziente di intelligenza (QI) degli studenti con maturità scientifica sia diverso
da quello degli studenti con maturità classica. A tale scopo si costituiscono due campioni omogenei, ciascuno
di 21 individui, estratti casualmente fra gli studenti che hanno conseguito la maturità nel 1998 nei due tipi di
scuola.
Viene misurata con un opportuno metodo il QI dei due campioni, ottenendo i seguenti risultati:
Maturità scientifica
Maturità classica
Media (QI)
108
114
Varianza (QI)
70
86
E' noto che il QI si distribuisce in modo approssimativamente normale. Il campione è piccolo e
pertanto il test da adottare per il confronto delle due medie è il test t di Student per campioni indipendenti.
Per poterlo utilizzare è però necessario preliminarmente testare l'omogeneità delle varianze (verificare cioè
che le varianze non siano significativamente diverse) tramite il test F di Fisher.
H0: le varianze sono uguali
H1: la varianza degli studenti provenienti dal classico è maggiore di quella dei provenienti dallo
scientifico
Si pone inoltre α= 0.05
Si ottiene
86
F = ---------- = 1.22
70
Essendo 1.22 < F α = 2.12 (rispettivamente con 20 e 20 gradi di libertà), si evince che il nostro
risultato cade nell'area di accettazione dell'ipotesi nulla e pertanto si può concludere che le due varianze sono
omogenee tra loro: è corretto l'uso del test t. Se così non fosse stato sarebbe stato necessario effettuare una
trasformata della variabile o utilizzare un test non parametrico.
Si passa quindi al test t di Student per campioni indipendenti.
H0: le due medie sono uguali
H1: le due medie sono diverse
α= 0.05
Si ottiene t = 2.201. Poiché il valore del t teorico (per 40 gradi di libertà) è pari a 2.02, il valore da
noi trovato supera il valore soglia e ci induce a respingere l'ipotesi nulla. Il QI degli studenti con maturità
scientifica sembra essere diverso da quello degli studenti con maturità classica. Naturalmente da questi dati
non è possibile stabilire se sia il tipo di liceo a determinare una modificazione del QI, o ci sia una
autoselezione all'origine, per cui i ragazzi con il QI maggiore optano con maggiore frequenza per il liceo
classico.
Esempio 3
Il questionario Faces II fu realizzato da Olson, Portner e Bell al fine di studiare le dinamiche
familiari; è costituito da trenta domande, ciascuna delle quali prevede come risposta un punteggio da 1 a 5
che esprime la frequenza con cui, secondo l'intervistato, accade l'evento enunciato nella domanda (dove 1 =
quasi mai, …, 5 = quasi sempre).
Selezionato nell'ambito di una ricerca infermieristica un campione di 200 famiglie, il Faces II fu
somministrato comparativamente a due membri di ciascuna famiglia, uno giovane (25 < età < 50) ed uno
anziano (> 65), al fine di evidenziare eventuali differenze di giudizio.
Considerata una singola domanda (ad es. la n. 7: "Nella nostra famiglia si fanno le cose insieme") si
pone il problema di come valutare statisticamente le risposte.
Un primo approccio può consistere nel calcolare rispettivamente il punteggio medio fornito dai
giovani e dagli anziani e di testarne la relativa differenza:
Media (giovani) = 4.6
Media (anziani) = 5.3
Per la scelta del test occorre tener conto che:
1) le risposte ottenuti si presentano secondo una distribuzione non conforme alla distribuzione normale (o di
Gauss), ma sono anzi vistosamente asimmetriche; il campione è comunque molto ampio, il che tende a
rendere normale la distribuzione campionaria delle medie.
2) i punteggi forniti non individuano una variabile quantitativa, ma soltanto una scala ordinale;
3) membri della stessa famiglia si può presumere che forniscano risposte fondamentalmente simili, quindi si
sia di fronte a dati dipendenti (detti anche dati appaiati).
Alla luce di quanto sopra, si ritiene che il corretto test da adottare per confrontare le due medie sia il
test non parametrico di Wilcoxon che utilizza i ranghi (posizione assunta in una graduatoria).
H0: la media dei punteggi forniti dai giovani non è diversa da quella dei punteggi forniti dagli
anziani.
H1: la media dei punteggi forniti dai giovani è diversa da quella dei punteggi forniti dagli anziani.
α= 0.05.
Poiché il test di Wilcoxon fornisce un valore che non supera il valore soglia, si decide di accettare
l'ipotesi nulla e di affermare quindi che la media dei punteggi non sembra essere diversa fra giovani ed
anziani.
In alternativa si può calcolare la Statistica K che calcola il livello di concordanza fra le risposte
fornite dai giovani e dagli anziani, con K compreso fra 0 (minimo) e 100 (massimo). Nel nostro caso si è
trovato un valore pari al 47 % che sta ad indicare un discreto livello di concordanza. Tale risultato può essere
testato utilizzando il test Z.
H0: K = 0
H1: K > 0
α= 0.05.
Poiché Z = 2.25 > Z α = 1.65 si può respingere l'ipotesi nulla, accettare l'ipotesi alternativa ed
affermare che il valore della concordanza espressa dalla statistica K non sembra dovuto al caso.
LA STIMA DEI PARAMETRI
Dopo la verifica di ipotesi, un'importante area dell'inferenza statistica è quella relativa alla stima dei
parametri ignoti della popolazione. Lo studioso infatti si pone l'obiettivo di ottenere, con i dati parziali
ottenuti dal campione, informazioni attendibili in merito alla popolazione da cui il campione stesso è stato
estratto; il valore che un certo fenomeno assume nella popolazione viene detto parametro e il
corrispondente risultato desunto dai dati campionari si può considerare una sua stima.
Definita la variabile di interesse (ad esempio X = pressione arteriosa sistolica) e prendendo in
considerazione, a puro scopo esemplificativo, il parametro media aritmetica della popolazione,
convenzionalmente indicata con la lettera greca μ, la corrispondente stima sarà fornita dalla media aritmetica
campionaria. Questa tipo di stima viene detta stima puntuale, in quanto rappresenta un valore preciso,
graficamente identificabile in un punto collocato sull'asse delle ascisse all'interno del range di dispersione dei
valori campionari.
Questa stima ha però il limite che lo studioso non ha alcun modo di valutarne l'attendibilità: potrebbe
infatti trattarsi di una stima molto vicina al valore ignoto μ, e quindi del tutto attendibile, oppure molto
lontana da esso, risultando quindi fuorviante.
Per superare questo problema, viene utilizzato un altro tipo di stima, detta stima intervallare (o
intervallo di confidenza); questo metodo consente di affermare che la media ignota μ è compresa in un
intervallo noto con una probabilità prefissata.
Fissata infatti a priori la probabilità di errore α, la stessa cha abbiamo visto nell'ambito della verifica
di ipotesi essere identificata come probabilità dell'errore di primo tipo, è immediatamente definita la
probabilità che l'intervallo definito comprenda μ, pari ad 1 - α. Pertanto se α = 0.05 sarà 1 - α = 0.95.
Sarà quindi
Prob { M - θ ES < μ < M + θ ES} = 0.95
Dove
M = media campionaria
ES = errore standard (errore medio che si commette stimando μ con la media
campionaria) dato dalla deviazione standard campionaria o della popolazione, se nota)
diviso radice di n (n = numerosità campionaria)
θ = valore della distribuzione Z o della distribuzione t (dipende dalle caratteristiche dello
studio) che delimita nelle due code della distribuzione un'area totale pari ad α
Mi accorgo con orrore che ho bruscamente tradito il mio proposito, fin qui rispettato, di divulgare la
metodologia statistica senza appesantirla, per quanto possibile, con simboli e formule; credo però di dover
fare una eccezione in questo caso, perché la suddetta formula, peraltro non terribile, se ben compresa
consente importanti riflessioni.
Se ad esempio a seguito di uno studio risultasse che i soggetti trattati con un determinato farmaco
presentano, con la probabilità del 95 %, una pressione sistolica compresa tra un minimo 120 ed un massimo
di 160 mm di mercurio, lo studioso sarebbe giunto ad una conclusione del tutto ovvia e per nulla conclusiva.
Potrebbe riproporsi perciò di modificare le caratteristiche dello studio per ottenere un intervallo meno ampio.
Un intervento potrebbe consistere nell'aumentare α, perché così facendo θ sarebbe minore (sia che si
utilizzi la distribuzione Z che la t) e quindi l'intervallo più piccolo; questo comporterebbe però un aumento
del rischio di errore, appunto identificato da α, e quindi si otterrebbe una maggiore precisione a scapito di
una minore sicurezza.
Altra soluzione potrebbe consistere nell'aumentare la numerosità campionaria n: infatti nella formula
dell'errore standard aumenterebbe il denominatore con conseguente diminuzione dell'errore standard stesso e
quindi della variabilità. E' questa naturalmente la soluzione ottimale, ma è opportuno ricordare che un
aumento della dimensione del campione comporta quasi sempre costi e/o tempi maggiori. Inoltre nella
formula dell'errore standard n si trova sotto radice, quindi ad un eventuale raddoppio della numerosità
campionaria non corrisponde un dimezzamento dell'errore standard: se, ad esempio, con un campione di 25
unità si fosse ottenuto un ES = 20, raddoppiando il campione si otterrebbe un ES = 14.14 con una
diminuzione quindi di poco superiore al 25 %.
Non ritengo opportuno, in questa sede, precisare i passaggi logici e formali che consentono di
arrivare alla definizione dell'intervallo di confidenza, gioverà però ricordare che questa metodica, come
anche quella relativa alla verifica di ipotesi, è basata sulla conoscenza della distribuzione normale (o di
Gauss) che svolge un ruolo fondamentale in gran parte delle tecniche relative all'inferenza statistica.
CALCOLO DELLA NUMEROSITA’ CAMPIONARIA
Posto che in uno studio clinico tendente a valutare dell'efficacia di un certo trattamento la risposta
terapeutica possa essere individuata nella variazione media (ad esempio: prima e dopo la cura) di una certa
variabile presa in esame, per poter stabilire a priori la numerosità campionaria necessaria per portare a
termine la ricerca in modo soddisfaciente, cioè dimostrando la validità del trattamento, è necessario disporre
di quattro informazioni:
•
•
•
•
errore α (o errore di primo tipo): probabilità di ritenere efficace il trattamento mentre in realtà la
variazione osservata è solo casuale;
errore β (o errore di secondo tipo): probabilità di ritenere la variazione dovuta al caso mentre in realtà
è conseguenza del trattamento;
differenza media clinicamente rilevante (δ);
deviazione standard (σ) delle differenze prima/dopo.
Le prime due informazioni sono facilmente disponibili, in quanto le determina, a priori, il
ricercatore: l'errore α classicamente viene posto pari a 0.05, mentre l'errore β oscilla, in genere, tra 0.10 e
0.20.
Le ultime due informazioni creano qualche problema in più perché sarebbero dati desumibili solo
dall'esperienza, cioè dopo aver portato a termine la ricerca. Nella pratica viene preliminarmente condotto uno
studio pilota (cioè su un numero limitato di soggetti) e sulla base dei risultati ottenuti vengono stimate le
due informazioni mancanti. E' inoltre possibile, in corso di sperimentazione, ritarare la numerosità
campionaria sulla base dei dati raccolti in itinere.
E' opportuno precisare che la differenza media individuata deve necessariamente essere
clinicamente rilevante, cioè tale da costituire un risultato valido e soddisfacente dal punto di vista clinico,
sia in assoluto che in confronto di pratiche terapeutiche similari. Avrebbe poco senso, infatti, proporre una
terapia poco efficace o comunque meno valida di altre terapie note, a meno che in essa non si individuino
rilevanti vantaggi a livello di tempi e/o costi di produzione, nonché di controindicazioni ed effetti collaterali.
Vogliamo infine ricordare, dal punto di vista statistico, che quanto più la variazione media ottenuta è
modesta, tanto più il campione tendente a dimostrare la validità del trattamento deve essere numeroso; la
necessità di dover disporre di una casistica particolarmente ampia può peraltro comportare ulteriori problemi,
sia pratici che economici, per chi conduce la ricerca.
INTRODUZIONE ALLA META-ANALISI
Le revisioni sistematiche delle migliori evidenze disponibili concernenti i rischi e i benefici degli
interventi medici possono essere utili per prendere decisioni nella pratica clinica e nella sanità pubblica. Tali
revisioni sono, quando possibile, basate sulle meta-analisi. La meta-analisi è una tecnica statistica per
combinare, o integrare, e quindi valutare complessivamente i risultati di più studi indipendenti aventi un
oggetto comune.
Il termine “meta” indica qualcosa che “avviene dopo” e spesso viene utilizzato come suffisso per una
nuova disciplina collegata con una precedente per poterla trattare criticamente.
La meta-analisi potrebbe essere vista come uno studio osservazionale dell’evidenza. Le fasi sono analoghe a
quelle di ogni ricerca statistica: formulazione del problema, raccolta dei dati, analisi, interpretazione e
pubblicazione dei risultati. I ricercatori dovrebbero predisporre prioritariamente un protocollo dettagliato di
ricerca che formuli chiaramente gli obiettivi, le ipotesi da saggiare, i sottogruppi di interesse, i metodi
proposti e i criteri per identificare e selezionare gli studi più rilevanti (ad esempio si può decidere di
includere, o meno, studi non pubblicati) e per estrarre ed analizzare le informazioni.
In alcuni settori clinici, in modo particolare nella valutazione dell’efficacia di farmaci e trattamenti
antitumorali e delle malattie cardiache, consultando la letteratura è possibile imbattersi in numerosi trials che
cercano di fornire risposte circa l’efficacia di determinati trattamenti terapeutici.
La difficoltà per i clinici consiste nell’interpretare una molteplicità di studi che alle volte forniscono
risultati discordanti. Accade spesso, ad esempio, che trial clinici forniscano risultati incerti a causa della loro
scarsa numerosità campionaria oppure ci siano studi in conflitto tra loro nella stima del beneficio netto,
anche perché alcuni studi mostrano i rischi ed altri illustrano i benefici.
In tale contesto si inseriscono le meta-analisi; queste forniscono una sintesi razionale della ricerca di
base valutando la qualità del disegno sperimentale e della sua esecuzione di tutti gli studi considerati,
combinando i risultati in modo non distorto. In tal modo si presentano le evidenze esistenti e viene
individuata una stima quantitativa del beneficio netto aggregato relativo a tutti gli studi.
La meta-analisi non consiste solo nella combinazione dei dati ma include l’esplorazione
epidemiologica e la valutazione dei risultati (epidemiologia dei risultati) sostituendo questi ultimi
all’individuo come unità di analisi. Nelle meta-analisi, inoltre, si possono saggiare nuove ipotesi.
Limitazioni di uno studio singolo
Uno studio singolo spesso non riesce ad individuare (o ad escludere) una modesta differenza,
sebbene clinicamente rilevante, esistente tra due trattamenti. Un trial può quindi mostrare assenza di effetto
anche quando in realtà l’effetto esiste, cioè può produrre un risultato falso negativo. In questo caso ci si
trova di fronte ad un errore di II tipo (accettazione dell’ipotesi nulla quando questa è falsa), la cui
probabilità di verificarsi può essere calcolata per una data differenza nell’effetto del trattamento, una
determinata dimensione campionaria e un prefissato livello di significatività.
In genere, negli studi clinici, si fa riferimento solo all’errore di I tipo per valutare differenze
statisticamente significative, la cui probabilità di verificarsi corrisponde al P value. Un esame dei clinical
trials che riportano differenze statisticamente non significative fra trattamento sperimentale e controllo ha
però mostrato che l’errore di II tipo è molto comune nella ricerca clinica: per una differenza clinicamente
rilevante nell’esito la probabilità a priori di mancare questo effetto a causa della modesta dimensione del
trial, è più grande del 20 % in 115 dei 136 trials esaminati (Freiman 1992).
Il numero dei pazienti è spesso inadeguato in quanto, in alcuni casi, la dimensione campionaria ottimale è
difficile da raggiungere. Un farmaco che riduca del 10 % il rischio di morte per infarto del miocardio
potrebbe, ad esempio, cancellare migliaia di morti ogni anno nella sola Inghilterra. Ma per rilevare un tale
effetto, con il 90 % di probabilità, cioè con errore del II tipo non superiore al 10 %, ci sarebbe bisogno di più
di 10.000 pazienti in ogni gruppo di trattamento (Collins 1992).
L’approccio meta-analitico sembra fornire una interessante alternativa a tali studi troppo estesi,
estremamente costosi e logisticamente problematici.
La meta-analisi può inoltre contribuire alla generalizzazione dei risultati: i risultati di un particolare
studio possono essere validi solo per una popolazione di pazienti con le stesse caratteristiche di quelli
indagati nel trial. Se invece esistono molti trials in differenti gruppi di pazienti, con risultati simili nei vari
trials, si è portati a concludere che l’effetto dell’intervento sotto studio possa essere generalizzato.
Requisiti fondamentali della meta-analisi
Le meta-analisi dovrebbero essere pianificate attentamente così come ogni altro progetto di ricerca,
con un protocollo dettagliato predisposto in anticipo. Una definizione a priori dei criteri di eligibilità degli
studi da prendere in considerazione, una ricerca attenta di tali studi, per valutarne il livello di qualità e
l’utilizzo di dati non distorti, e una revisione sistematica ben eseguita, sono requisiti fondamentali per
un’alta qualità della meta-analisi.
Vantaggi
1. Fornisce un quadro di riferimento più chiaro di quanto possano studi di piccole dimensioni e quindi di
scarsa potenza.
2. Superamento di bias dovuti a revisioni descrittive (non sistematiche) che tendano ad includere solo studi
con risultati che mostrano benefici.
3. Maggiore precisione, in quanto la dimensione dell’effetto stimato dipende dal numero di pazienti
studiati.
4. Trasparenza delle scelte effettuate, in quanto una buona meta-analisi consente di determinare la
decisione più idonea.
Limiti
Come tutte le tecniche di ricerca ci possono essere distorsioni nella conduzione e nell’interpretazioni delle
meta-analisi. Anche se i dati provengono da studi randomizzati, le meta-analisi sono essenzialmente studi
osservazionali di evidenza, per cui sono soggette a diversi bias che possono indebolire i risultati trovati.
Bias di localizzazione e selezione degli studi
Al fine di evitare i bias di pubblicazione (si pubblicano maggiormente gli studi che raggiungono
risultati positivi) si devono utilizzare criteri univoci di inclusione o rifiuto degli studi da considerare.
Un modo semplice per valutare il bias di selezione è quello di costruire un funnel-plot (vedi oltre)
che visualizzi la dimensione dell’effetto stimato vs la dimensione campionaria degli studi inclusi nella metaanalisi. Il funnel plot è basato sul fatto che la precisione nello stimare l’effetto del trattamento sottostante si
incrementerà all’aumentare della dimensione campionaria.
I risultati provenienti da studi di piccole dimensioni si disperderanno ampiamente verso il basso del
grafico, con una diffusione limitata tra gli studi più grandi. In assenza di bias il plot assomiglierà ad un
funnel simmetrico. Al contrario, se ci sono errori, il funnel plot sarà spesso asimmetrico.
Bias di eterogeneità
La casistica considerata si può presentare disomogenea nei vari studi per alcune caratteristiche. Queste
possono riguardare:
Il gruppo di pazienti studiato in relazione a differenti stadi di gravità o diverse caratteristiche della
patologia.
Gli interventi applicati; una meta-analisi potrebbe includere lo studio di più trattamenti piuttosto che di
un singolo trattamento (ad es. magnesio o streptochinasi oppure agenti anti-colesterolo).
L’obiettivo primario: questo può differire tra gli studi e quindi una buona meta-analisi dovrebbe cercare
di aggregare studi con end-point comuni.
Luogo geografico diverso; spesso le meta-analisi combinano studi di differenti paesi, all’interno di
queste realtà vi possono essere altri fattori (ad esempio cure concomitanti, caratteristiche genetiche, ecc.)
che contribuiscono al successo o al fallimento dell’intervento terapeutico oggetto di studio.
L’eterogeneità degli studi è però inevitabile per la meta-analisi. La questione non è se essa sia
presente o meno, ma se risulti così estesa da minare le conclusioni che potrebbero essere tratte.
Se i risultati degli studi differiscono molto tra loro non è appropriato combinare i risultati. In questa
situazione, come valutare le differenze?
Un approccio consiste nell’esaminare statisticamente il grado di similarità nei risultati degli studi,
cioè saggiarne l’eterogeneità. Con tali procedure si valuta se i risultati riflettono un singolo effetto oppure
una distribuzione di effetti. Se il test mostra omogeneità ne segue che le differenze possono essere assunte
come conseguenze di variazioni campionarie ed è appropriato il modello ad effetti fissi. In caso contrario è
più idoneo il modello ad effetti casuali (vedi oltre).
Anche se esistono test statistici per valutare l’eterogeneità, di fatto hanno scarsa capacità di
individuare differenze sostanziali. Uno dei limiti principali di tali metodi è la mancanza di potenza statistica:
infatti comunemente si accetta l’ipotesi nulla (H0) anche quando esistono differenze sostanziali.
Per esempio alcune meta-analisi hanno esaminato il ruolo dell’eparina con basso peso molecolare
(LMWHs) come agente tromboprofilattico post-intervento e nel trattamento delle trombosi venose profonde.
Mentre alcune grandi reviews hanno dimostrato l’utilità di questa classe di farmaci, altre meta-analisi basate
su dati individuali sono state meno conclusive. Una possibilità interpretativa è che non tutte le LMWHs
abbiano le stesse caratteristiche, e che gli effetti benefici dei maggiori componenti efficaci siano diluiti in
aggregazioni eterogenee inappropriate. In questo caso le differenti LMHWs dovrebbero essere considerate
come entità chimiche distinte e di conseguenza analizzate separatamente con la conduzione di meta-analisi
appropriate.
Ulteriori bias
Perdita di informazioni su obiettivi importanti. In genere le meta-analisi riguardano variabili dicotomiche
(es vivo/morto, guarito/malato, recidiva/non recidiva) e viene spesso trascurato l’approccio quantitativo
al problema.
Analisi dei sottogruppi non appropriate. L’esplorazione di risultati su sottogruppi è spesso un obiettivo
della meta-analisi, talvolta per poter spiegare un insuccesso del trattamento. Si può esaminare un subsets
di studi isolati (probabilmente quelli con metodologia migliore) oppure, se sono stati utilizzati i dati
individuali per condurre la meta-analisi, sottogruppi di pazienti (ad es. anziani oppure quelli con
patologie più gravi). Questo approccio può offrire nuove prospettive da testare in futuri studi ma è
opportuno procedere con cautela nelle interpretazioni. Anche se gli studi sotto esame sono randomizzati,
questa randomizzazione e il conseguente bilanciamento tra gruppo trattato e gruppo di controllo
potrebbero non estendersi ai sottogruppi definiti successivamente. Tutto ciò è fonte di potenziali
confondenti e di interpretazioni errate, quindi indagare sugli effetti per sottogruppi dovrebbe essere visto
per ciò che è: esplorazione e non spiegazione.
Analisi di sensitività non adeguate. Poiché si possono prendere diverse decisioni circa la selezione,
l’inclusione e l’aggregazione dei dati e questo può condizionare i risultati principali, in genere per le
meta-analisi vengono condotte analisi di sensitività. L’analisi di sensitività esplora i modi in cui i
principali risultati possono cambiare variando l’approccio di aggregazione. Una buona analisi di
sensitività sarà in grado di valutare, tra le altre cose, l’effetto dell’esclusione di varie categorie di studi,
ad esempio trial non pubblicati o di scarsa qualità. Può inoltre esaminare la consistenza dei risultati tra i
vari sottogruppi.
Conflitto con nuovi dati sperimentali. Le meta-analisi cercano nuove conoscenze partendo da dati
esistenti; un modo per saggiare la validità di queste nuove conoscenze è quello di comparare i risultati
delle meta-analisi con i risultati dei cosiddetti mega-trials, studi randomizzati controllati condotti su larga
scala. Tali confronti in genere hanno un buon grado di accordo ma in alcuni casi vi possono essere
notevoli discrepanze. Ad esempio un tale esercizio ha condotto alla pubblicazione di un paper dal titolo
“Lezioni da un intervento efficace, sicuro e semplice che non è stato eseguito” (Egger & Davey-Smith
1995) riferito al mancato uso del magnesio intravenoso dopo un attacco di cuore.
Metodi statistici per calcolare l’effetto globale
Una semplice media aritmetica dei risultati di tutti i trials potrebbe dare risultati errati, infatti i
risultati che provengono da piccoli studi sono più soggetti a variazioni casuali. Il principale metodo utilizzato
per compensare tale distorsione consiste nel ponderare i risultati in modo da assegnare un peso maggiore ai
trials più grandi.
Le tecniche statistiche per la meta-analisi possono essere classificate secondo due distinti modelli, la
cui differenza consiste nel modo in cui è trattata la variabilità dei risultati.
Modello ad effetti fissi: considera che la variabilità sia dovuta esclusivamente a variazione random;
quindi, teoricamente, se tutti gli studi fossero infinitamente grandi dovrebbero fornire risultati identici.
Modello ad effetti random: assume l’esistenza di una componente della variabilità sottostante ai
dati e differente per ogni studio; considera tale componente come una fonte di variazione aggiuntiva che
conduce, talvolta, ad intervalli di confidenza più ampi rispetto al modello ad effetti fissi. Gli effetti si
assumono distribuiti in modo random e il punto centrale di questa distribuzione è il nucleo della stima
dell’effetto combinato.
Sebbene nessuno dei due modelli possa definirsi corretto, si evidenzia una sostanziale differenza se gli studi
sono marcatamente eterogenei.
Interpretare i risultati principali
Per confrontare i risoltati ottenuti sono comunemente usate diverse misure di associazione tra
trattamento e risultato dello stesso, definite, come negli studi epidemiologici, misure di effetto. Queste
possono essere assolute e relative.
La più utilizzata è l’Odds ratio (OR) che, come è noto, si interpreta come un rischio relativo.
L’Odds relativo ad un determinato evento patologico è dato dal numero dei pazienti che sperimentano un
determinato end-point diviso il numero di pazienti che non lo sperimentano. Per esempio l’odds di disturbi
gastrointestinale durante un trattamento antibiotico in un gruppo di 10 pazienti esposti, dei quali 4 con
disturbi e 6 senza disturbi, si ottiene con il rapporto 4 diviso 6 (0.66); nel gruppo di controllo l’odds può
essere 1 a 9 (0.11). L’odds ratio del trattamento rispetto al controllo sarà quindi 6 (0.66/0.11).
In alternativa si può utilizzare il Rischio relativo (RR). Conoscendo il rischio assoluto, dato dal
numero di pazienti che sperimentano un determinato end-point diviso il numero totale di pazienti, è agevole
il calcolo del rischio relativo. Nell’esempio precedente il rischio dovrebbe essere 4/10 nel gruppo trattato e
1/10 nel gruppo di controllo fornendo un rischio relativo di 4 (0.4/0.1).
L’odds ratio numericamente sarà vicino al rischio relativo se l’end-point si verifica non di frequente,
meno del 20%; se invece l’outcome è più comune, l’odds ratio sovrastima il rischio relativo.
Misure standardizzate
I risultati individuali devono essere espressi in forma standardizzata per consentire la comparazione
tra gli studi.
Se l’end-point è espresso da una variabile continua (ad es. livello di colesterolo, pressione arteriosa,
ecc.) si usa la differenza media tra il gruppo cui è stato assegnato il trattamento ed il gruppo di controllo. Le
differenze vengono presentate in unità di deviazione standard.
E’ opportuno precisare che la dimensione della differenza è influenzata dalla popolazione
sottostante. Ad esempio, un farmaco antiipertensivo avrà probabilmente un effetto assoluto maggiore se
riferito ad una popolazione di pazienti ipertesi rispetto a soggetti borderline. Quando gli outcomes sono
molto differenti tra i gruppi a diversi livelli di rischio non è appropriato condurre una meta-analisi in cui è
calcolata la stima complessiva dell’effetto del trattamento. Meglio effettuare una stratificazione in funzione
dei diversi livelli di rischio.
Se l’end-point è dicotomico (malato vs non malato, sintomo presente/assente...) si calcolano l’odds ratio o il
rischio relativo. L’odds ratio ha proprietà matematiche convenienti che consentono di combinare facilmente i
dati e saggiare l’effetto globale.
Quando si applicano i risultati nella pratica clinica, si usano misure come la riduzione assoluta del
rischio o l’NNT, numero minimo di pazienti da trattare per prevenire un singolo evento.
Rappresentazione grafica
I risultati dei trial valutati con la meta-analisi possono essere utilmente rappresentati graficamente insieme ai
loro intervalli di confidenza.
Generalmente si utilizza un grafico detto funnel plot; questo visualizza graficamente i risultati di
ciascuno studio individuale come una bolla o quadrato (l’effetto misurato) con un segmento orizzontale
corrispondente agli estremi dell’intervallo di confidenza (al 95 %) dell’odds ratio intorno al risultato
principale. La dimensione delle bolla può variare per riflettere l’ammontare dell’informazione nello studio
individuale; la lunghezza della linea orizzontale rappresenta l’incertezza della stima dell’effetto del
trattamento per quello studio.
Per rappresentare gli odds ratio si utilizza in genere una scala logaritmica ove la linea tratteggiata
verticale corrisponde ad un OR =1. Ci sono più motivi per rappresentare le misure di rapporto su scala
logaritmica: la più importante è che il valore di un odds ratio e del suo reciproco, per esempio 0.5 e 2,
rappresentano odds di stessa grandezza ma di direzione opposta, e saranno equidistanti da 1.
Il rombo rappresenta l’odds ratio combinato calcolato secondo il modello scelto (ad effetti fissi o ad effetti
random) della meta-analisi. Si può anche mostrare sulla stessa figura la dimensione dell’effetto aggregato per
alcuni sottogruppi. Questa tecnica consente peraltro soltanto una verifica visiva.
Conclusioni
Le meta-analisi offrono un approccio sistematico e quantitativo per la revisione di importanti
problemi terapeutici. Ciò nonostante vi possono essere errori nell’esecuzione delle meta-analisi che sono
dovuti fondamentalmente alla qualità degli studi sottostanti. Si ritiene che per i clinici e per i managers
sanitari un’attenta revisione delle meta-analisi pubblicate, bilanciata da una valutazione delle loro mancanze,
possa contribuire a risolvere alcuni problemi relativi alle incertezze terapeutiche.
Tabella 1 – Tipi di studio epidemiologico
Denominazione
Unità
epidemiologica
Misure di malattia
Misure di associazione
Possibili applicazioni
Rischio di bias
Capacità di evidenziare
relazioni causali
altissimo
nessuna
(talora generazione
di ipotesi)
alto
generazione di ipotesi
medio
bassa
medio-basso
(rischio di
perdite al
follow-up)
media
1) Osservazionali
a) descrittivi
soggetti
comunità
statistiche descrittive indici
mortalità
correlazioni
morbosità
etc.
- studi pilota
- studi esplorativi
b) analitici
b1) ecologici
popolazioni
gruppi
b2) trasversali
soggetti
b3) coorte o
longitudinali
soggetti
correlazione ecologica
- patologie rare
- rend
prevalenza
~ RR
- diffusione patologie
- fattori di rischio
incidenza
RR
- comparsa di nuovi casi di
malattia
- fattori di rischio
- effetto di interventi
b4) caso-controllo
soggetti
OR
- fattori di rischio
medio
media
2) Sperimentali
1) RCT (sperimentazioni
cliniche controllate)
2) Trial sul campo
soggetti
trattamento-esito
- valutazione efficacia trattamenti
basso
buona
soggetti
buona
comunità
- valutazione efficacia interventi
preventivi
- valutazione efficacia interventi
preventivi
basso
3) Trial in comunità
intervento-comparsa di
malattia
intervento-comparsa di
malattia
medio
medio
69
Metodi di analisi dei dati e loro interpretazione
Prima di vedere i metodi di analisi dei dati e la loro interpretazione, è opportuno
introdurre alcuni termini fondamentali. Un esempio pratico consentirà di
comprendere meglio i concetti che saranno esposti. Il direttore generale di una certa
ASL vorrebbe sapere qual è il grado di diffusione delle patologie cronicodegenerative nella popolazione residente sul territorio dell’Azienda Sanitaria da lui
diretta, al fine di meglio orientare le risorse disponibili. Pertanto è condotto uno
studio su un campione di 500 persone dai 20 ai 59 anni di età estratte in modo
casuale dalle liste dei medici di famiglia. Ogni individuo costituisce la minima unità
da cui si raccolgono le informazioni ed è detta unità statistica.
Le informazioni su ogni soggetto sono raccolte mediante un’intervista effettuata a
domicilio da personale opportunamente addestrato utilizzando un questionario semistrutturato, contenente oltre che le caratteristiche anagrafiche (sesso, età, stato civile,
scolarità) diverse domande indaganti lo stato di salute di ogni rispondente rispetto
alla presenza e assenza di cardiopatia ischemica, vasculopatie periferiche o cerebrali,
ipertensione, diabete, oltre che valori di pressione (sistolica o PAS e diastolica o
PAD), la concentrazione all’eventuale ultimo prelievo effettuato negli ultimi 12 mesi
di colesterolo, HDL, LDL, glicemia. Ciascuna informazione raccolta con il
questionario è detta variabile. La natura delle variabili è varia entro uno studio, nel
senso che alcune ‘misurano’ la presenza di determinati stati con cui la caratteristica si
può presentare (basti pensare al colore dei capelli, che può essere nero, marrone,
rosso, biondo), altre ‘misurano’ in termini quantitativi come una determinata
caratteristica si presenta e la esprimono per mezzo di un numero (si pensi alla
pressione sistolica). Come precisato in precedenza le variabili si dicono:
1) qualitative e si suddividono in nominali e ordinali. Una variabile si dice
nominale dicotomica o politomica quando assume rispettivamente due o più stati
tra loro non ordinabili. A titolo di esempio si ricordino per le variabili nominali
dicotomiche
il
sesso
(maschio/femmina)
e
la
cardiopatia
ischemica
(assente/presente); per quelle nominali politomiche il gruppo sanguigno (A, B,
AB, 0). Quando è possibile individuare un ordine tra gli stati assumibili, la
variabile si dice ordinale: e il grado di istruzione (analfabeta, licenza elementare,
licenza media inferiore, diploma superiore, laurea) o la gravità di un sintomo
(lieve, medio, forte) ne sono un esempio;
2) quantitative o numeriche quando specificano il valore assumibile mediante un
conteggio (come può essere il numero di attacchi anginosi e di gravidanze) o una
misurazione (il peso, l’altezza, il livello di colesterolo). Nel primo caso la
variabile si dice discreta perché può assumere solo valori interi, nel secondo
continua perché potrebbe assumere qualsiasi valore compreso in un intervallo se
il grado di precisione dello strumento di misurazione impiegato fosse
sufficientemente elevato.
L’informazione contenuta in ogni questionario è stato utilmente informatizzata (in un
foglio elettronico Excel) così da ottenere una matrice dei dati, costituita da tante
righe quanti erano i soggetti intervistati (500) e da tante colonne quante erano le
informazioni o variabili raccolte con il questionario. In generale, leggendo una riga
della matrice si ha l’informazione di un soggetto per tutte le variabili, leggendo una
colonna si ha per una stessa variabile l’informazione su tutti i soggetti. Dopo un
accurato controllo di qualità è iniziata la descrizione dei dati.
La statistica descrittiva
La statistica descrittiva comprende (come già detto) quelle tecniche che consentono
di sintetizzare i dati o variabili raccolte in una ricerca. Secondo la natura delle
variabili indagate sarà corretto l’impiego di una o diverse misure di sintesi.
Le frequenze e i grafici
Per poter rispondere alla domanda: quanti sono gli ipertesi e quanti i normotesi, è
necessario scegliere la colonna della matrice nella quale l’informazione sulla
ipertensione è stata inserita, e andare a contare quante volte compare la parola
‘presente’ e quante volte quella ‘assente’. Ovviamente la somma dei due conteggi
sarà uguale al totale delle osservazioni effettuate.
Così facendo altro non si determina che la distribuzione di frequenza assoluta di una
variabile, da cui si può ricavare quella relativa rapportando il conteggio di ogni
modalità al totale delle osservazioni fatte, e moltiplicando quest’ultima per 100 si
ottiene quella percentuale:
IPERTENSIONE
Presente
Assente
Totale
Frequenza
assoluta
201
299
500
Frequenza
Relativa
201/500=0,40
299/500=0,60
500/500=1,00
Frequenza
percentuale
40%
60%
100%
Leggendo la colonna relativa alla distribuzione di frequenza percentuale (Frequenza
percentuale) si sa che per la variabile ipertensione la frequenza percentuale della
modalità ‘presente’ è del 40 % ossia che l’ipertensione è presente nel 40% dei
soggetti campionati.
Le distribuzioni di frequenza sono
o istogramma a canne d’organo del tipo:
il primo modo con cui vanno
PRESSIONE SISTOLICA
sintetizzate le informazioni, siano
esse variabili qualitative come il
sesso oppure quantitative come la
40%
30%
sarebbe
20%
auspicabile prima raggruppare in
10%
PAS.
classi
In
i
calcolarne
tal
caso
valori
la
osservati
e
distribuzione
di
0%
[110120)
[120130)
[130140)
[140150)
[150160)
[170180)
intervallo di classe di 10 mmHg
frequenza. Poi sulla base di questa
distribuzione, costruire un grafico
Dalla tabella riportata a lato, si deduce
che la frequenza percentuale per la
classe [160-180) mg/100 ml è 11%, ossia
si
ricava
che
l’11%
dei
soggetti
campionati presentano un valore di
colesterolo compreso tra 160 e 180
mg/100ml.
Colesterolo
(mg/100ml)
[140-160)
[160-180)
[180-200)
[200-220)
[220-240)
[240-260)
[260-280)
[280-300)
Frequenza
%
4
11
22
24
19
10
7
3
100
Per le variabili quantitative è possibile determinare la distribuzione di frequenza
cumulata partendo da quella assoluta, oppure relativa o percentuale, come
esemplificato nella tabella sottostante per la distribuzione di frequenza percentuale
del colesterolo raggruppato in classi:
Colesterolo
(mg/100ml)
[140-160)
[160-180)
[180-200)
[200-220)
[220-240)
[240-260)
[260-280)
[280-300)
Frequenza
%
4
11
22
24
19
10
7
3
100
Freq. Cumulata
%
4
4+11=15
4+11+22=37
4+11+22+24=61
4+11+22+24+19=80
4+11+22+24+19+10=90
4+11+22+24+19+10+7=97
4+11+22+24+19+10+7+3=100
La frequenza cumulata percentuale alla classe [160-180) è pari al 15% e ci dice qual
è la percentuale di soggetti che presentano un valore di colesterolo ematico ‘fino a
180 mg/100ml’: infatti, si determina sommando la frequenza percentuale per la
classe [140-160) con la frequenza percentuale per la classe [160-180).
Le misure di sintesi
Nel caso di variabili quantitative sono però calcolabili altre importanti misure di
sintesi che vanno sotto il nome di misure o statistiche descrittive: la media, la
mediana, i percentili, la moda, sono tra le misure di posizione; il range, la varianza, la
deviazione standard, sono alcune misure di dispersione o variabilità. Tali misure
sintetizzano in un unico valore numerico l’informazione raccolta e ciò è
particolarmente vantaggioso nel caso di campioni numerosi, dove è possibile trovare
differenti e svariati valori assunti dalla variabile quantitativa esaminata.
La media aritmetica è la somma dei valori che una variabile assume per ogni unità
statistica osservata divisa per il numero di unità statistiche e si indica con x (si legge
ics sopra segnato) o M quando si tratta di un campione:
n
x=
∑x
i =1
n
i
e con la lettera greca µ (si legge mi) quando si tratta di una popolazione e in tal caso
si parla di parametro.
La mediana è il valore della variabile che divide esattamente a metà la serie ordinata
(in senso crescente o decrescente) delle osservazioni.
I percentili dividono la serie ordinata delle osservazioni in 100 parti, contenenti
ciascuna l’1% delle osservazioni. I più noti sono: il 25° percentile che lascia prima di
sé il 25% delle osservazioni e il 75% dopo, il 50° percentile che lascia il 50% prima e
il 50% dopo, il 75° percentile che lascia il 75% prima e il 25% dopo. Come si può
facilmente dedurre da quanto sopra detto il 50° percentile coincide con la mediana.
La moda è il valore che la variabile assume con maggior frequenza. Può esserci più
di una moda.
Il range è la differenza tra il valori massimo e il valore minimo osservati per una
certa variabile. Tale misura di variabilità tende però a diventare più grande
aumentando il numero di osservazioni e comunque non ci dice quanto siano
‘dispersi’ tra il massimo e il minimo i valori della variabile esaminata. Più utile
sarebbe allora determinare la distanza o scarto di ogni (i-esima) osservazione dalla
media e poi fare la media di queste distanze, così da determinare la distanza media:
∑ (x
i
− x)
n
Purtroppo però il numeratore di questo rapporto, cioè la somma degli scarti delle
osservazioni dalla media, è 0. Per ovviare a questo problema una delle possibilità è
l’elevamento a quadrato di ogni scarto, che porta sempre a valori positivi. La somma
di tali scarti elevati al quadrato è detta anche devianza. A questo punto sarà possibile
calcolare la media dei quadrati degli scarti intorno alla media che è la misura di
sintesi nota come
Varianza =
∑ (x
i
− x)
2
(n − 1)
indicata solitamente con s2, nel caso di un campione, o con σ2 (si legge sigma), se si
tratta di popolazione. Al denominatore anziché n si può mettere (n − 1) ossia i gradi
libertà, ricordando così un solo modo per calcolare la varianza. I gradi di libertà è “il
numero di quantità indipendenti tra tutte quelle osservate, dove per quantità si
intendono gli scarti dalla media di tutte le n osservazioni”: tenuto conto il vincolo
che la somma degli scarti delle osservazioni dalla media è uguale a zero, noti (n − 1)
scarti si trova per differenza l’nsimo valore.
Come si deduce dalla stessa definizione, la varianza esprime i valori della
dispersione elevati al quadrato. Il modo per ritornare ad esprimere la dispersione
nella stessa unità di misura della media è estrarre la radice quadrata della varianza,
ossia:
s =
2
∑ (x
i
− x)
2
(n − 1)
Così facendo si determina la cosiddetta deviazione standard, indicata con s o DS per
un campione, o σ se si tratta di popolazione.
Per meglio capire quanto sopra spiegato, consideriamo il seguente esempio: si
supponga avere un campione di 8 studenti di medicina da cui è raccolta
l’informazione sull’altezza 171, 168, 174, 172, 180, 175, 176, 177 (in cm). La media
dell’altezza è pari a 174,125 cm. Calcolando gli scarti di ogni osservazione dalla
media e sommandoli (seconda colonna), si otterrebbe zero.
xi
( xi − x )
x
168 − 174,125 =
171 − 174,125 =
172 − 174,125 =
174 − 174,125 =
175 − 174,125 =
176 − 174,125 =
177 − 174,125 =
180 − 174,125 =
−6,125
−3,125
−2,125
−0,125
+0,875
+1,875
+2,875
+5,875
0,000
( xi − x ) 2
37,516
9,766
4,516
0,016
0,766
3,516
8,266
34,516
98,878
Elevando al quadrato gli scarti tale problema si elimina (terza colonna), quindi la
varianza è
∑ (x
i
− x)
2
n −1
=
98,878
= 14,125429 cm2
7
e la deviazione standard sarà la sua radice quadrata pari a 3,76 cm.
Tornando al caso dell’esempio iniziale, nel campione esaminato di 500 individui per
la variabile colesterolo si avrebbe:
x = 203,56 µg/100ml;
mediana=175 µg/100ml;
min=145 µg/100ml;
max=390 µg/100ml;
s=80,66 µg/100ml;
R=245 µg/100ml
Nel caso di variabili quantitative i cui valori sono osservati più di una volta, ossia
con frequenza ripetuta, o riclassificati in classi, allora sarà necessario ‘pesare’ per
tale frequenza tanto nella stima della media quanto in quella della varianza e della
deviazione standard. Precisamente il numeratore della media, della varianza e della
deviazione standard va moltiplicato per la frequenza fi (o fk) con cui il valore xi (o xk)
si osserva:
Media
Variabile con frequenza
ripetuta
Variabile con dati in
classi
∑x
i
fi
Varianza
∑ [( x
k
∑ [( x
i
n −1
n
∑x
− x) 2 ⋅ fi ]
i
Deviazione Standard
fk
∑ [( x
n
k
− x)2 ⋅ fk ]
n −1
− x)2 ⋅ fi ]
n −1
∑ [( x
k
− x)2 ⋅ f k ]
n −1
dove xk è il valore centrale della classe, ottenuto facendo la media aritmetica
dell’estremo superiore e inferiore di ogni classe ([estremo inferiore+estremo
superiore]/2).
Immaginiamo di aver selezionato in modo casuale dalla popolazione delle matricole
della classe delle Professioni Sanitarie tecniche di una data Università Italiana un
campione di 57 studenti, e di averne misurata la statura. Poiché i valori di tale
variabile erano molto diversi tra loro, sono stati riclassificati in classi, ottenendo la
seguente distribuzione di frequenza:
Statura
cm
[170.5-175.5)
[175.5-180.5)
[180.5-185.5)
[185.5-190.5)
[190.5-195.5)
fk
10
12
19
10
6
57
Volendo determinare la statura media e la deviazione standard, si dovrà procedere
prima a calcolare il valore centrale di ciascuna classe (xk) (a titolo esemplificativo
riportiamo
il
calcolo
del
valore
centrale
della
prima
classe:
xk=1=(170.5+175.5)/2=173) e quindi alla stima delle misure di sintesi pesando per la
frequenza:
[xj − xj+1)
fk
xk
xk fk
( xk − x )
[170.5-175.5)
[175.5-180.5)
[180.5-185.5)
[185.5-190.5)
[190.5-195.5)
Σ
10
12
19
10
6
57
173
178
183
188
193
173×10
178×12
183×19
188×10
193×6
− 9.12
− 4.12
0.88
5.88
10.88
x=
( xk − x ) 2
83.1744
16.9744
0.7744
35.5744
118.3744
( xk − x ) 2 f k
831.7440
203.6928
14.7136
345.7440
710.2464
2106.1408
173 ⋅10 + 178 ⋅12 + 183 ⋅19 + 188 ⋅10 + 193 ⋅ 6 10381
=
= 182.12 cm
57
57
s2 =
∑ [( x
k
− x )2 ⋅ f k ]
n −1
s=
∑ [( x
k
=
2106.1408
= 37.6097 cm 2
56
− x)2 ⋅ fk ]
n −1
= 6.1327 cm
Risulta quindi una statura media di 182.12 cm, con una variabilità di 6.13 cm.
La distribuzione di frequenza di una variabile quantitativa è spesso una distribuzione
normale, che graficamente si presenta come una curva a campana simmetrica. Tale
distribuzione normale gode di alcune proprietà: la mediana e la moda coincidono con
la media. Inoltre, tra il valore medio e una deviazione standard è contenuto il 68%
circa delle osservazioni, tra il valore medio e due volte la deviazione standard è
contenuto (circa) il 95% delle osservazioni e tra il valore medio e tre volte la
deviazione standard è contenuto il 99,7% delle osservazioni:
µ ± σ = 68%
µ ± 2σ = 95% µ ± 3σ = 99,7%
Ciò significa che se in una ricerca si sono raccolti 100 valori di peso per un gruppo di
soggetti maschi di 18 anni di età, e la media è 71 Kg con una deviazione standard di
6 Kg, ho l’informazione che circa il 68% dei soggetti del campione ha un peso
compreso tra 65 e 77 chilogrammi, il 95% circa ha un peso compreso tra 59 e 83
chilogrammi, dato che la variabile peso è distribuita normalmente quando raccolta su
gruppi omogenei.
In Appendice A sono riportate le tavole della distribuzione o Curva Normale
Standardizzata.
La statistica inferenziale
La statistica inferenziale è quella parte della statistica con cui, si cerca di trarre delle
conclusioni sulla popolazione basandosi sulle informazioni osservate in un
campione. Precisamente, la statistica inferenziale è un insieme di tecniche con le
quali si cerca:
di verificare se i risultati ottenuti in una certa indagine sono conformi o meno con
le congetture o le supposizioni (il quesito scientifico) che hanno motivato la
ricerca stessa;
di stimare un parametro della popolazione, partendo dai dati relativi ad un
campione che si suppone appartenere ad essa.
La verifica d’ipotesi e il test statistico
La verifica dell’ipotesi è un metodo per valutare se le differenze osservate tra gruppi
diversi siano dovute alla variabilità biologica e quindi al caso o a differenze delle
sottostanti popolazioni di riferimento.
Per verificare l’ipotesi si ricorre ad una statistica: la statistica test, che è diversa
secondo il tipo di variabili e del problema in esame. Il test statistico è costruito per
verificare l’ipotesi di uguaglianza (o nulla) H0 tra i gruppi, ovvero che le differenze
osservate sono solo dovute al caso. Per ogni statistica test è stata formulata una
distribuzione che rappresenta le probabilità di trovare i diversi valori della statistica
test quando l’ipotesi zero o nulla è vera, cioè quando le differenze sono casuali, sotto
H0 vera. Di seguito è riportata la distribuzione per la statistica test χ2 (caso specifico
per 1 grado di libertà).
5%
95%
3,84
Dalla figura sopra riportata si evince che, sotto l’ipotesi nulla vera, la statistica χ2
può assumere tutti i valori da 0 a +∞, ma la probabilità di trovare valori elevati è più
piccola che quella di trovarne di piccoli. È necessaria allora una regola di decisione,
che consenta di rendere operativo l’uso del test.
La comunità scientifica è d’accordo nel ritenere che valori del χ2 che hanno
complessivamente una probabilità di verificarsi di almeno il 95%, sono più
compatibili con H0 vera e quindi portano ad accettare H0. Valori del test che hanno
solo una probabilità di verificarsi del 5% o inferiore sono considerati troppo rari e
quindi meno compatibili con H0 vera: tali valori porteranno a rifiutare H0. È chiaro
che la decisione di rifiutare H0 non è scevra di rischi di errore, ma si è in grado di
quantificarlo in un p-value o P<0,05: pertanto la probabilità di errore che noi
commettiamo rifiutando H0 è inferiore al 5%. L’errore commesso quando si rifiuta
H0 è comunemente chiamato errore α o di I tipo. Ed ora qualche esempio.
Esempio di applicazione del test χ2 (chi quadro)
È stato condotto un trial clinico controllato randomizzato per valutare se il nuovo
farmaco potesse essere efficacemente utilizzato per ridurre il rischio di morte nei
pazienti affetti da HIV. Ventidue soggetti sottoposti a terapia con il nuovo farmaco e
22 trattati con placebo furono seguiti per 15 anni. Al termine del periodo di
osservazione si trovò che 11 soggetti erano morti nel gruppo trattato con il nuovo
farmaco e 16 in quello trattato con placebo. Apparentemente sembrerebbe che il
nuovo farmaco sia efficace, data la minor frequenza di morti nel gruppo di soggetti
trattati (11/22) rispetto a quella del gruppo di coloro che ricevettero placebo (16/22):
Nuovo farmaco
11
11
22
Vivo
Morto
Placebo
6
16
22
17
27
44
Supposto corretto il metodo di campionamento si deve oggettivamente verificare se
quanto osservato su un campione di pazienti affetti da HIV sia generalizzabile a tutta
la popolazione (campionata) di pazienti interessati dalla stessa patologia.
Pertanto si formula l’ipotesi statistica:
H0
non esiste associazione tra trattamento ed esito
Quindi si individua il test statistico da utilizzare. Essendo l’outcome di interesse
(morte) una variabile di tipo binario (sì/no), utilizziamo allora il test χ2 (chi quadro)
per le tavole di contingenza 2×2
χ2 = ∑
(O − E ) 2
E
dove O sono le frequenze osservate ed E quelle attese sotto H0 vera. Queste ultime si
ottengono semplicemente moltiplicando il totale di riga per quello di colonna e
dividendo per il totale generale. La frequenza dei pazienti vivi in trattamento sarà:
E1 =
22 × 17
= 8,5
44
per differenza si possono facilmente ricavare tutte le altre frequenze attese e si
costruisce la tabella degli attesi:
Nuovo farmaco
8,5
13,5
22
Vivo
Morto
Placebo
8,5
13,5
22
17
27
44
Con i dati rilevati nel campione esaminato, risulterebbe:
2
2
2
2
11 − 8,5)
6 − 8,5)
11 − 13,5)
16 − 13,5)
(
(
(
(
χ =
+
+
+
2
8,5
8,5
13,5
13,5
=
= 0,74 + 0,74 + 0,46 + 0,46 = 2,4
Controllando sulla tavola della distribuzione χ2 (in Appendice B) in corrispondenza
della riga 1 grado di libertà (essendo una tabella 2×2) il valore ‘calcolato’ non cade
nella colonna 0,05, dove si trova 3,84: ciò significa che il valore ‘calcolato’ è minore
di quello tabulato (ossia cade nella regione di non rifiuto dell’ipotesi nulla) quindi
non si deve rifiutare l’ipotesi nulla di uguaglianza, e concludere che la differenza
riscontrata tra la frequenza di morte dei pazienti trattati con il nuovo farmaco e quella
dei pazienti trattati con placebo potrebbe essere casuale, e non dovuta all’efficacia
del nuovo terapico.
Esempio di applicazione del test t di Student per confrontare due campioni (test
t per dati indipendenti)
Alcuni ricercatori sono interessati a conoscere se il livello medio di acido urico
serico di soggetti con Sindrome di Prader-Willi (gruppo 1) sia diverso da quello di
individui normali. Sono stati esaminati 12 soggetti con la sindrome e 15 senza
ottenendo i seguenti dati:
Gruppo 1
Gruppo 2
n
x
s
12
15
4,5 mg/100 ml
3,4 mg/100 ml
1 mg/100 ml
1,22 mg/100 ml
I due valori medi suggerirebbero che livelli di acido urico serico sono diversi tra i
soggetti con e senza Sindrome di Prader-Willi. Come visto per il caso precedente,
l’interesse è rivolto non solo ai 27 soggetti con la Sindrome, ma a tutti quelli che
presentano la stessa Sindrome (popolazione campionata). Di conseguenza, si deve
oggettivamente verificare se quanto osservato su un campione di individui sia
generalizzabile a tutta la popolazione (campionata) da cui esso è stato estratto.
Pertanto si formula l’ipotesi statistica:
H0
il livello medio di acido urico serico è uguale nei soggetti con e senza
Sindrome di Prader-Willi
e si individua il test statistico da utilizzare. Essendo l’outcome di interesse (livello di
acido urico serico) una variabile di tipo quantitativo, utilizziamo il test t di Student
per dati indipendenti (supponendo che le varianze siano uguali):
t=
(x1 − x2 )
1
1
s 2p  +
 n1 n 2



dove
(n1 − 1) s12 + (n2 − 1) s 22
s =
n1 + n 2 − 2
2
p
è la varianza pooled, ossia una stima congiunta delle varianze nei due campioni.
Con i dati rilevati nel campione esaminato, risulterebbe:
t=
(4,5 − 3,4)
1 1
1,273504 + 
 12 15 
= 2,52
Controllando sulle tavole della distribuzione t (Appendice C) nella colonna relativa a
α=0,05 per numero di gradi di libertà pari a n1+n2−2=25 si trova un valore pari a
2,06.
Ecco che il valore ‘calcolato’ è in
termini assoluti maggiore di quello
tabulato (ossia cade nella regione di
rifiuto dell’ipotesi nulla) quindi si deve
2,5%
rifiutare l’ipotesi nulla di uguaglianza, e
2,5%
concludere che la differenza riscontrata
95%
tra i livelli di acido urico serico dei
soggetti con Sindrome di Prader-Willi
sono significativamente diversi da quelli
senza la Sindrome. L’errore di tale
conclusione è P<0,05.
4.3.4 Errori di I e II tipo
Come abbiamo visto, il test statistico non porta a conclusioni certe (vero o falso) ma ci
consente di prendere decisioni in termini probabilistici: non si dimostra che una ipotesi
è vera o falsa, ma che è accettabile o rifiutabile con un errore quantificabile.
Gli errori che possiamo commettere prendendo tale decisione sono:
1)
errore di I tipo (o errore α ) che rappresenta l’errore che noi commettiamo
rifiutando l’ipotesi nulla (H0) quando in realtà questa potrebbe essere vera: è quindi
legato alla funzione di distribuzione del test costruito sotto H0 vera. Rappresenta
anche il livello di significatività del test (P ≤ α).
2)
errore di II tipo (o errore β ): è un errore di tipo logico, che si può verificare
quando accettiamo H0, cioè la non differenza tra i due gruppi, mentre in realtà è
falsa. Il complemento dell’errore β si chiama potenza (1−β) del test e rappresenta la
probabilità di rifiutare H0 quando è falsa.
Ad esempio, in una sperimentazione clinica si vuole valutare l’efficacia del trattamento
A rispetto al trattamento B:
H0
A=B
Il test applicato mi porta a concludere che A è diverso da B quando P< 0,05, perchè la
probabilità di trovare quel valore del test come scostamento casuale da H0 è basso:
l’errore α <0,05. Se invece il test mi porta ad accettare H0 in quanto P>0,05, allora
concluderò che non c’è differenza d’efficacia. In realtà ciò potrebbe essere dovuto ad
una scorretta pianificazione della ricerca, con troppi pochi casi in rapporto alla
variabilità della variabile in studio, al tipo di scelta dell’errore α, etc.
Pertanto, quando si programma uno studio occorre tener conto di entrambi i rischi di
errore, che sono raffigurabili come nella tabella di seguito riportata, nella quale
l’ombreggiatura indica conclusione corretta del test.
Associazione tra variabili
È possibile descrivere anziché una variabile la volta, 2 variabili, utilizzando ogni volta
una misura opportuna della statistica bivariata (cosiddetta proprio perché si esaminano
contemporaneamente 2 variabili).
Per descrivere 2 variabili qualitative si costruisce una tabella a doppia entrata, sulle
righe si pongono le modalità di una variabile e sulle colonne quelle della seconda
variabile. Entro ogni cella della tabella si ha la frequenza congiunta, ossia il conteggio
di quanti individui presentano contemporaneamente le 2 caratteristiche esaminate,
mentre i totali di riga o di colonna coincidono con la distribuzione di frequenza della
variabile che si trova rispettivamente sulle righe o sulle colonne.
Per indagare la relazione tra 2 variabili qualitative, detta connessione, si fa un χ2 che
può assumero un valore minimo pari a 0 ed uno massimo pari a [n×min(C-1)(R-1)] dove
n è il numero totale di osservazioni e min(C-1)(R-1) è il minore tra il numero delle righe
e il numero delle colonne della tabella a doppia entrata o di contingenza.
Per descrivere la relazione tra 2 variabili quantitative si calcola:
A. il coefficiente di correlazione, nel caso di una relazione simmetrica ossia quando le
due variabili variano congiuntamente, e la loro associazione è spiegata da
qualcos’altro;
B. la retta di regressione semplice, se si tratta di una relazione asimmetrica ossia
quando la variazione di una delle due variabili dipende dall’altra.
Quando si vuole indagare una relazione tra due variabili quantitative è sempre buona
regola esaminare dapprima il diagramma di dispersione delle stesse due variabili,
meglio noto con il termine inglese di scatter plot. Supponiamo di avere l’informazione
sui valori di pressione sistolica (PAS) e diastolica (PAD) di 65 pazienti ambulatoriali,
che sono tipiche variabili quantitative.
Volendo indagare se esiste una relazione tra queste due variabili plottiamo, dapprima su
un grafico i dati e otteniamo il seguente diagramma di dispersione:
Sembrerebbe che non esista una buona associazione tra le due variabili dal momento
che la nuvola dei punti non si dispone idealmente come lungo una retta, ma tende a
disperdersi nel piano in modo disordinato. Infatti, calcolando il coefficiente di
correlazione con la seguente formula:
r=
∑ ( x − x )( y − y )
∑ (x − x) ∑ ( y − y)
i
i
2
i
2
i
si ottiene un valore pari a 0,13 che indica una debole associazione diretta, essendo di
segno positivo. Il coefficiente di correlazione può assumere valore compreso tra –1 e
+1: valori negativi indicano associazione inversa o indiretta, ossia al crescere dei valori
della variabile sull’asse delle ascisse diminuiscono quelli della variabile sull’asse delle
ordinate. Quanto più il valore del coefficiente è prossimo allo zero, tanto più debole o
inesistente (=0) è la relazione, mentre più il valore del coefficiente è vicino a 1 (in
termine assoluto) maggiore sarà la relazione.
Qualora
si
volesse
indagare
una
dipendenza si dovrebbe calcolare la
regressione
semplice
usando
l’equazione:
Y = a + bx
dove a dicesi intercetta e b pendenza
della retta. Quindi si costruisce la
cosiddetta
tendenza:
interpolata
o
linea
di