Recent Changes - Search:

Pagine di servizio

Gruppi

Pagine in allestimento

Strumenti

Domini correlati

PmWiki

pmwiki.org

edit SideBar

♕ Statistica descrittiva

La Sapienza Università di Roma

Temperature esterne a una casa, misurate durante un anno da quattro termometri ogni tre minuti (n ≈ 750'000): frequenza (ordinate y) in funzione di temperatura °C (ascisse x).

a cura di P. Forster & D. Rüegg
Statistica descrittiva
La statistica descrittiva ha come scopo quello di sintetizzare i dati attraverso i suoi strumenti grafici (diagrammi a barre, a torta, istogrammi, boxplot) e indici (indicatori statistici, indicatori di posizione come la media, di variazione come la varianza e la concentrazione, di correlazione, ecc.) che descrivono gli aspetti salienti dei dati osservati, formando così il contenuto statistico.

1.  Dati statistici fondamentali

Sono trattati i seguenti argomenti:
Media, moda e mediana Deviazione standard

1.1  Media, moda e mediana

I principali indicatori della statistica descrittiva sono:

  • media: è la somma di tutte le N osservazioni divisa per N. Per es., per i valori [1, 2, 4, 4, 5, 7, 9, 11], la media è 43/8
  • moda: è il numero di osservazioni che compare con maggior frequenza. Per es., per i valori [1, 2, 4, 4, 5, 7, 9, 11], la moda è 4. In alcune distribuzioni, la moda può mancare, oppure essere presente per più di un valore; in questo caso, si hanno distribuzioni bimodali (due mode), trimodali (tre mode), plurimoldali
  • mediana: è il numero che compare al centro dei valori osservati, se questi sono dispari; se sono pari, è la media fra i due valori centrali. Per es., per i valori [1, 2, 4, 4, 5, 7, 9, 11], la mediana è (4 + 5)/2

Il poeta romano Carlo Alberto Salustri (1871 - 1950), noto con lo pseudonimo - anagramma del proprio cognome - di Trilussa, è spesso ricordato per l'aforisma del pollo: Dalli conti che se fanno, risulta che ce tocca 'n pollo a testa. Ma si nun centra nelle spese tue, c'entra nella statistica lo stesso perché c'è 'nartro che ne magna due.

Effettivamente, se abbiamo due misurazioni, [0, 2], per esempio riferite proprio a due persone, una sola delle quali mangia due polli, la media fornisce il valore 1, e quindi risulta un pollo a testa
Questa situazione "imbarazzante", però è superabile mediante la stima fornita dalla deviazione standard e degli indicatori statistici che esamineremo nella prossima pagina.

◦⦆─────⦅◦

1.2  Deviazione standard

Supponiamo di aver ricavato N misure della stessa grandezza x. Con queste abbiamo poi calcolato la media. La media sembra indicare qual è, grosso modo, il valore che possiamo aspettarci scegliendo un dato a caso; in probabilità, si chiama valore atteso. Questo non è necessariamente vero in quanto, calcolata la media, i valori dei dati possono essere molto lontani da questa.

Sono trattati i seguenti argomenti:
Scarto o deviazione Deviazione standard Dati statistici fondamentali

Scarto o deviazione

Per dare una valutazione dell'incertezza da associare a tale stima, iniziamo col considerare una prima quantità chiamata scarto o deviazione. Tale grandezza è così definita:

d = x - ø
scarto (deviazione) = valore x - media valori x (ø)

Questa differenza fornisce una indicazione di quanto una qualsiasi misura differisce dalla media. In generale, se tutti gli scarti sono molto piccoli, le nostre misure saranno tutte vicine e quindi, presumibilmente, molto precise.
Oltre al valore numerico degli scarti, indice di precisione nelle misure, è interessante notarne il segno: le deviazioni possono essere infatti sia positive che negative a seconda che una qualsiasi delle N misure cada a destra o a sinistra della media.

Questo fatto complica un pò la situazione. Infatti, se volessimo provare a valutare l'incertezza attraverso una media dei singoli scarti, ci accorgeremmo subito che la media degli scarti è uguale a zero.

Possiamo rapidamente verificare questo fatto nel caso semplice di due misure: x1, x2;
la loro media è : ø = (x1 + x2)/2
I singoli scarti sono: d1 = x1 - ø; d2 = x2 - ø
la somma degli scarti é: d1 + d2 = (x1 - ø) + (x2 - ø)
reggruppando: d1 + d2 = (x1 + x2) - 2ø. Essendo nullo il secondo membro, risulta d1 + d2 = 0

Non dovremmo però rimanere sorpresi per questo risultato valido in generale: la media, per definizione, è tale per cui i dati si distribuiscono sia alla sua sinistra che alla sua destra, facendo sì che la somma tra gli scarti negativi e quelli positivi sia appunto nulla.


Deviazione standard

Poiché gli scarti costituiscano un buon punto di partenza per lo studio dell'incertezza da associare alla media, per ovviare all'inconveniente legato alla loro somma, eleviamo al quadrato le singole deviazioni ottenendo tutte quantità positive e quindi in grado di essere sommate tra loro senza produrre in un risultato nullo.
Dopodiché si può passare a calcolare la media degli scarti estraendone la radice quadrata, in modo da ottenere una grandezza compatibile, a livello di unità di misura, con quella di partenza. La grandezza così ottenuta è detta deviazione standard.


(1)deviazione standard N>20

(2)deviazione standard N<20



Approssimazione di una Gaussiana
mediante un istogramma

i = numero
x = valore; xi = singoli valori
N = numero (quantità) di valori

oppure ø = valore medio
∑ = somma
√ = radice quadrata
σ = (sigma) oppure s: deviazione standard
(...)2 = valore al quadrato



La deviazione standard fornisce un'indicazione numerica di quanto i dati siano vicini o lontani dalla media. L'eq.2 si applica quando N < 20; per valori superiori, il termine sottrattivo a denominatore diventa trascurabile ed i risultati ottenuti sono coincidenti con quelli forniti dall'eq.1

Quando i dati sperimentali sono molti, raccogliendoli in un istogramma (diagramma a barre), viene approssimano per difetto il profilo di una curva detta Gaussiana, dal nome del matematico Carl F. Gauss (1777-1855). Per una Gaussiana, è possibile dimostrare che nell'intervallo:

  • (ø-σ < ø < ø+σ) cade il 68.7% delle misure rilevate;
  • (ø-2σ < ø < ø+2σ) cade il 95.45% delle misure rilevate;
  • (ø-3σ < ø < ø+3σ) cade il 99.73% delle misure rilevate.

gaussiana 1

gaussiana 2



Dati statistici fondamentali

esempio: Disegnare l'istogramma delle frequenze (v. fig. a sotto) e calcolare le stime campionarie per un paziente del quale è stati registrato il seguente numero di battiti cardiaci al minuto in un periodo di 10 giorni: [73, 72, 73, 74, 70, 76, 72, 74, 74, 73]


istogramma battiti cardiaci

Le stime campionarie sono:

  • la media è: ∑xi / N = (73 + 72 + 73 + 74 + 70 + 76 + 72 + 74 + 74 + 73)/10 = 73,1
  • la mediana, trattandosi di un insieme costituito da osservazioni in numero pari, è data dalla media dei valori centrali: 70, 72, 72, 73, 73, 73, 74, 74, 74, 76 (73 + 73)/2 = 73
  • la moda è bimodale, ed è costituita dai due valori più frequenti: 73 e 74
  • la deviazione standard (eq.2) è: σ = s = 1.39
    questo significa che il 68% delle misure deve rientrare nell'intervallo (73,1 - 1,4) e (73,1 + 1,4), cioè tra + 71,7 e + 74,5. Le misure che cadono in questo intervallo sono: 72, 72, 73, 73, 73, 74, 74, 74; cioé 7 su 10.

Conclusione: Media, mediana e moda sono molto vicini: si tratta di una distribuzione quasi normale (di Gauss). La deviazione standard è stretta con ca. 2% del valore medio.

2.  Indicatori per alcune distribuzioni

→ studio degli indicatori per alcune distribuzioni statistiche.

La caratteristica dei valori misurati per un certa osservazione a distribuirsi attorno ad un valore medio è chiamato dispersione. Per misurare la dispersione o variabilità dei valori, si utilizzano indicatori statistici detti di dispersione.

Sono trattati i seguenti argomenti:
Campo di variazione Distribuzione di dati Coefficiente di variazione Esempi applicativi

2.1  Campo di variazione

prescrizioni max min media
ø
Var.
Vc
medici zona A 190 60 100 130
medici zona B 310 70 80 240

Il campo di variazione di una raccolta di dati è la differenza tra il più grande ed il più piccolo dei valori osservati.

Per esempio, tra i 10 medici di una zona A, il numero medio di prescrizioni giornaliere è 100; mentre per i 10 medici di una zona B, la media è 80.

Il numero medio delle prescrizioni giornaliere è maggiore per i medici della zona A, ma il confronto dei campi di variazione delle due distribuzioni (130 = 190 - 60 per i medici della zona A e 240 = 310 - 70 per i medici della zona B), segnala che la variabilità nel primo caso è minore che nel secondo, e quindi non è attendibile il valore fornito dalla media che, essendo influenzata dai valori estremi, porterebbe a concludere che i medici della zona A fanno mediamente più visite di quelli della zona B. Più verosimilmente, nella zona B c'è un medico con un notevole numero di pazienti (max 310 prescrizioni/die).

A parità di altre condizioni, quanto più alta è la variabilità di un fenomeno rilevata con gli indici di dispersione, tanto meno significativo è l'uso della media aritmetica per definire sinteticamente una distribuzione.

◦⦆─────⦅◦

2.2  Distribuzione di dati


Distribuzione gaussiana

Abbiamo visto come, per una curva Gaussiana, la deviazione standard permetta di conoscere l'intervallo, centrato sulla media, attorno al quale cade un determinato numero di ossservazioni:

  • nell'intervallo (ø-s < ø < ø+s) cade il 68.7% delle misure effettuate;
  • nell'intervallo (ø-2s < ø < ø+2s) cade il 95.45% delle misure rilevate;
  • nell'intervallo (ø-3s < ø < ø+3s) cade il 99.73% delle misure rilevate.

Nel caso la serie di valori rilevata non sia tale da costituire l'inviluppo di una Gaussiana, cosa che accade per le misurazioni che comunemente riguardano le sperimentazioni cliniche, allora i suddetti limiti sono da ritenersi un'indicazione del numero massimo di dati che cadono all'interno di ogni intervallo. P.es., su dieci dati, nel primo intervallo possono caderne solo quattro, piuttosto che sei.

◦⦆─────⦅◦

2.3  Coefficiente di variazione

Il coefficiente di variazione, definito dal rapporto fra deviazione standard e media, V=s/ø fornisce una indicazione della variabilità delle osservazioni rilevate.


 
In particolare, se:

  • V = 1 (100%), allora s=ø e la media non è un indice corretto;
  • V = 0 (0%), allora s=0 e la media è un indice perfetto;
  • V > 0.5 (>50%), la media non è un indice corretto;
  • V ≤ 0.5 (<50%), la media è un indice corretto.

Per una variabilità da 0.5 ... 1 (50 ... 100%) la media aritmetica non rappresenta un valore statisticamente rilevante e si usano meglio la moda o la mediana o altri valori per l'interpretazione.

esempio: per rendere più evidente il paradosso statistico del "pollo di Trilussa", immaginiamo, senza stravolgerne il senso, che le osservazioni sul numero di polli consumati si riferiscano all'arco di due giorni, e siano [0, 2], cioè nessun pollo il primo giorno e due polli il secondo giorno.

  • il campo di variazione è 2 - 0 = 2;
  • la media è ø = 1;
  • la mediana è = 1
  • la deviazione standard è s = 1;
  • il coefficiente di variazione è V = 1.

Poiché la deviazione standard si allontana dalla media solo per l'estremo positivo (ø-s = 0), (ø+s = 2), e questo coincide con il maggior numero di dati osservati, è evidente che la media perde il significato di indice statistico corretto (come risulta anche dal coefficiente di variazione) : è necessario ricorrere alla moda.

◦⦆─────⦅◦

2.4  Esempi applicativi

La seguente reccolta di esempi, ha lo scopo di esercitarsi ad interpretare in maniera sintetica le caratteristiche principali di una distribuzione di dati, individuandone gli indici di posizione più adatti a descriverla. Tutte le distibuzioni sono caratterizzate da 10 valori, la cui somma è 1000 e la cui media è 100. Gli altri indicatori di posizione, variano caso per caso.

I dati sono presentati nel formato [a1, a2, a3, ... an] e la loro rappresentazione grafica è ottenuta portando in ascisse le coordinate alle quali corrispondono le singole osservazioni, an, ed in ordinate la frequenza con cui compaiono le osservazioni.

Per esempio, [73, 72, 73, 74, 70, 76, 72, 74, 74, 73] sono dati che si riferiscono al numero di battiti cardiaci al minuto registrati nell'arco di 10 giorni ad un paziente.

Allora, in ascisse riporteremo i battiti registrati, ed in ordinate la frequenza con cui compaiono (tre volte 73, due volte 72, ecc.). In questo modo, si ottiene il grafico discusso alla pagina precedente.

esempio 1: studiare la curva di distribuzione i cui valori sono: 95, 96, 97, 98, 99, 101, 102, 103, 104, 105 | n=10 | ∑=1000 | ø100

  • il campo di variazione è: 105 - 95 = 10
  • la media è: 100 e non corrisponde ad alcun valore realmente osservato;
  • la mediana è: 100 ed è uguale alla media; ciò indica una distribuzione simmetrica
  • la moda è mancante
  • la deviazione standard è: 3.3 ed indica che la media fornisce una stima adeguata delle misure osservate. Infatti, nell'intervallo (100 - 3.3); (100 + 3.3) cadono 6 valori su 10
  • il coefficiente di variazione è: 3,3/ 100 = 0.033, un valore molto basso e quindi la media è un indicatore corretto.

esempio 2: studiare la curva di distribuzione i cui valori sono: 95, 95, 95, 95, 95, 105, 105, 105, 105, 105 | n=10 | ∑=1000 | ø100


  • il campo di variazione è: 105 - 95 = 10
  • la media ø è: 100 e non corrisponde ad alcun valore realmente osservato;
  • la mediana è: 100 ed è uguale alla media; ciò indica una distribuzione simmetrica
  • la moda è: bimodale, con i valori 95 e 100. Questo è l'indicatore più appropriato per la distribuzione in oggetto.
  • la deviazione standard è: 5 ed indica che la media fornisce una stima adeguata delle misure osservate. Infatti, nell'intervallo (100 - 5); (100 + 5) cadono 10 valori su 10
  • il coefficiente di variazione è: 5/ 100 = 0.05, un valore basso. Inoltre, poiché l'intervallo (s ± ø) corrisponde al campo di variazione, anche senza osservare il grafico, si può intuire che i valori osservati sono concentrati agli estremi. La media, in questo caso, è un indice corretto.

esempio 3: studiare la curva di distribuzione i cui valori sono: 0, 0, 50, 50, 100, 100, 150, 150, 200, 200 | n=10 | ∑=1000 | ø100

  • il campo di variazione è: 200 - 0 = 200
  • la media ø è: 100 corrisponde a due valori realmente osservati;
  • la mediana è: 100 ed è uguale alla media; ciò indica una distribuzione simmetrica
  • la moda è: plurimodale
  • la deviazione standard è: 70,7 ed indica che la media fornisce una stima adeguata delle misure osservate. Nell'intervallo (100 - 70,7); (100 + 70,7) cadono 6 valori su 10 e l'intervallo in cui cadono i dati è coperto al 50%
  • il coefficiente di variazione è: 70.7/ 100 = 0.7 un valore alto, e quindi l'indicatore più adatto è la moda in quanto la distribuzione è multimodale.

esempio 4: studiare la curva di distribuzione i cui valori sono: 20, 40, 50, 60, 70, 80, 90, 90, 100, 200, 200, 200 | n=10 | ∑=1000 | ø100


  • il campo di variazione è: 200 - 20 = 180
  • la media ø è: 100 e corrisponde ad un valore realmente osservato;
  • la mediana è: 85 ed è differente dalla media; ciò indica una distribuzione asimmetrica
  • la moda è 200. Questo è l'indicatore più appropriato per la distribuzione in oggetto.
  • la deviazione standard è: 61.6 e la media fornisce una stima adeguata delle misure osservate.
  • il coefficiente di variazione è: 61.6/ 100 = 0.62 un valore elevato, infatti i valori osservati sono piuttosto distribuiti.

La presenza di un valore estremo (200) provoca una distorsione sugli indici di variabilità e toglie significato rappresentativo alla media. Questo è un caso piuttosto frequente in campo medico (per es., i valori degli esami del sangue) ed in altri settori applicativi.
In questo caso, il valore della media è troppo spostato a destra rispetto alla maggior parte dei valori della distribuzione di frequenza. L'indicatore migliore è pertanto la mediana, che risente meno dei valori estremi.

esempio 5: studiare la curva di distribuzione i cui valori sono: 10, 20, 30, 40, 100, 130, 140, 160, 170, 200 | n=10 | ∑=1000 | ø100

  • il campo di variazione è: 200 - 10 = 190
  • la media ø è: 100 e corrisponde ad un valore realmente osservato;
  • la mediana è: 115 ed è differente dalla media; ciò indica una distribuzione asimmetrica
  • la moda è mancante.
  • la deviazione standard è: 66.3 ed indica che la media non fornisce una stima adeguata delle misure osservate, infatti, in questo caso, 5 valori su 10 rientrano nell'intervallo (100 - 66.3) e (100 + 66.3)
  • il coefficiente di variazione è:69.9/ 100 = 0.69 un valore molto elevato, infatti la distribuzione dei dati è estesa.

3.  Dati e interpretazione

Dati oggettivi, interpretazione soggettiva

Se ripetuta con sufficiente frequenza, una menzogna diventa la nuova verità.
Paul Joseph Goebbels, ministro della propaganda della Germania nazista

Nella parte dedicata alla statistica descrittiva, abbiamo riportato una serie di statistiche costruite su campioni non correttamente raccolti e su dati interpretati in modo errato, spesso confondendo una connessione apparente con il reale responsabile di un'osservazione. Accanto a queste bizzarre conclusioni frutto di statistiche mal eseguite, vi sono statistiche corrette "spiegate" in modo bizzarro.

Con il termine anglosassone spin doctor, si indica una persona esperta nel cosigliare altre persone (politici, manager, economisti, opinionisti) su come distorcere la verità, o se si preferisce, individuare all'interno di una raccolta di dati oggettivi un modo per renderli soggettivi... cioè presentarli secondo un certo punto di vista.

La funzione dello spin doctor è di far apparire le notizie migliori (o peggiori) di quanto siano in realtà. In questo caso, non si tratta delle insidie intrinseche ad alcune statistiche, ma di evidenti forzature, agevolate dalla scarsa dimestichezza e volontà di controllo del fruitore.

3.1  La legge di Lavoisier


Antoine Lavoisier
1743 - 1794

In natura nulla si crea e nulla si distrugge, ma si trasforma solamente.
Non sono le parole esatte con cui Lavoisier enunciò il risultato dei suoi studi, ma certamente ne racchiudono il senso. Ebbene, questa legge può essere elusa...

Consideriamo, per esempio, dati di vendita dell'azienda Socometicuro SpA che produce un medicinale OTC per il disturbo X. I resoconti relativi al fatturato forniscono 2 milioni di euro per il 2005 e 2 e 60.000 euro per il 2006. Certo, non è un granché, ma comunque indica un fatturato incrementato del 3 per cento. Non male in un periodo di modesto andamento dell'economia. I giornali, se l'azienda è di interesse rilevante, possono indicarla come un esempio di gestione efficace.

In realtà, i responsabili dell'immagine aziendale hanno tralasciato un piccolo dettaglio: l'inflazione tra il 2005 e il 2006 è stata del 3 per cento, corrispondente proprio all'aumento dei prezzi di vendita. In pratica, se i prezzi aumentano in misura uguale all'inflazione, il numero di pezzi venduti rimane invariato.

Ignorare il tasso di inflazione o i rapporti di cambio (in caso di confronti con valute diverse) è il primo trucco per fornire informazioni distorte.

◦⦆─────⦅◦

3.2  È la somma che fa il totale

(Totò Fabrizi e i giovani d'oggi)
Per contrastare l'aumento della spese per la tutela dell'ambiente, il comune X ha disposto una tassa locale che prevede un incremento di 15 euro sui rifiuti urbani per ognuno dei successivi 3 anni.

bolletta annua
odierna
2 anno 3 anno 4 anno
150 euro 165 euro 180 euro 195 euro

In termini percentuali, l'aumento complessivo di 45 euro rapportato alla bolletta media di 150 euro fornisce un valore del 30% (45/150 = 0,3). Un incremento certamente considerevole ma spaventoso, ben 90 euro, quando riferito dal nuovo candidato sindaco: per distorcere il dato è sufficiente considerare i singoli incrementi annuali... il secondo anno si pagheranno 15 euro in più dell'anno precedente; il terzo 30; il quarto 45. In totale 90 euro!

◦⦆─────⦅◦

3.3  Medie mobili

distribuzioni statistiche a confronto

Consideriamo le seguenti distribuzioni di dati i cui elementi si riferiscono, per esempio, a pezzi prodotti (in decine di migliaia) da un'azienda A che produce elettrodomestici di varia tipologia (per esempio, macchinetta per popcorn 40 mila, tostapane 40 mila, ..., microonde 60 mila, ... , frigoriferi 120 mila)

4, 4, 4, 4, 6, 6, 8, 10, 10, 12 | media = 6.8 | moda = 4 | mediana = 6



Supponiamo che sul mercato esista l'azienda B, che produce un'analoga linea di prodotti concorrente, riassunta dai seguenti dati statistici:

2, 2, 2, 2, 4, 6, 6, 6, 8, 10 | media = 4.8 | moda = 2 | mediana = 5


 
Ora supponiamo che l'azienza A, dopo aver acquisito il controllo azionario dell'azienda B, trasferisca la produzione di frullatori (40 mila pezzi) nell'azienda B. In questo modo i nuovi dati statistici dell'azienda A sono così modificati:

4, 4, 4, 6, 6, 8, 10, 10, 12 | media = 7,1 | moda = 4 | mediana = 6



Dopo il trasferimento della produzione di frullatori, i nuovi dati statistici dell'azienda B sono così modificati:

2, 2, 2, 2, 4, 4, 6, 6, 6, 8, 10 | media = 4.7 | moda = 2 | mediana = 4



E' facile vedere che in questo modo l'azienda A potrà comunicare stringatamente che dopo l'acquisizione del controllo dell'azienda B, una riorganizzazione delle linee produttive ha prodotto sinergismi con una variazione delle medie produttive che sono passate da 6.8 a 7.1 per la controllante (A) a fronte di una diminuzione da 4.8 a 4.7 per la controllata (B). D'altra parte, l'incremento netto (aumento della media produttiva controllante - controllata) = 4.4% - 2% = 2.4%

In realtà, i dati di quello che è/sembra un gioco di prestigio si riferiscono solo ad un dato statistico e non c'è alcuna informazione su quello che sarà il prossimo reale andamento economico delle due aziende. Comunque, un esame delle tabelle, evidenzia come la mediana dell'azienda B si sia spostata verso sinistra: un aumento dei dati che sono nella parte sinistra della media. In altre parole, la ricchezza totale delle due aziende è rimasta invariata; è unicamente cambiata la sua distribuzione.

◦⦆─────⦅◦

3.4  Ovvietà... o no?

Il direttore marketing di un'azienda farmaceutica, riferendo un comunicato aziendale, coglie l'occasione per uno sprone:
Sono abbastanza soddifatto di comunicare che quest'anno la metà dei nostri informatori ha raggiunto obiettivi superiori alla media; d'altra parte, questo significa che la metà degli informatori dovrà aumentare la sua efficienza.

Nella definizione statistica della media, quanto affermato dal comunicato aziendale non fornisce alcuna informazione: essendo la media un indicatore intermedio, ci sarà necessariamente la metà di elementi che otterrà valori superiori e l'altra metà inferiori alla media, a prescindere dalla qualità dei loro risultati.

◦⦆─────⦅◦

3.5  Il paradosso di Simpson

Nel 1934 due ricercatori statunitensi esaminando dati del 1910, relativi a decessi per tubercolosi nelle città di New York e Richmond, osservarono questo singolare paradosso:

  • mortalità del ceppo afroamericano a Richmond < mortalità del ceppo afroamericano a New York;
  • mortalità del ceppo caucasico a Richmond < mortalità del ceppo caucasico a New York.

Aggregando i dati, il risultato si invertiva: la mortalità complessiva dei due ceppi era maggiore a Richmond rispetto a New York...

Questo paradosso di inversione statistica è noto come paradosso di Simpson che lo descrisse nell'articolo The interpretation of interaction in contingency tables nel Journal of the Royal Statistical Society (1951). Ed una sua breve disamina permette di chiarire l'importanza di applicare test statistici prima di formulare conclusioni.

Supponiamo, per esempio, che due studi indipendenti per provare l'efficacia di un farmaco A rispetto ad un farmaco B abbiano dato i risultati riassunti nelle due tabelle che seguono.

studio 1 guariti non guariti n g/n
Farmaco A 60 15 75 80%
Farmaco B 45 20 65 69%
105 35 140
studio 2 guariti non guariti n g/n
farmaco A 95 90 185 51%
farmaco B 5 10 15 33%
100 100 200

Ora, calcoliamo le percentuali di guariti riportate dal primo studio:
farmaco A = 60/75 = 0,8 ; farmaco B = 45/65 = 0,69
le percentuali di guariti riporate dal secondo studio danno:
farmaco A = 95/185 = 0,51 ; farmaco B = 5/15 = 0,33
E' ovvio concludere che il farmaco A è più efficace del farmaco B. Ovvio?

1 & 2 guariti non guariti n g/n
farmaco A 155 105 260 60%
farmaco B 50 30 80 62%
205 135 340

Ora, calcoliamo le percentuali dei guariti con il farmaco A sommando i risultati dei due studi: (60 + 95)/(75 + 185)= 0,60; calcoliamo le percentuali dei guariti con il farmaco B sommando i risultati dei due studi: (45 + 5)/(65 + 15) = 0,62; Il farmaco B è più efficace del farmaco A, o comunque la differenza di efficacia sembra irrilevante.


Paradosso di Simpson

Questo risultato paradossale, che illustra un errore che può facilmente presentarsi nella statistica medica, trova una spiegazione nel fatto che aggregando dati ottenuti da sperimentazioni diverse, non si considerano elementi che, se esplicitati, avrebbero evidenziato differenze tra i due campionamenti (per es. differente percentuale di uomini e donne, differenze di peso, ecc.).

Come vedremo nella parte dedicata alla statistica inferenziale, con l'applicazione di tecniche di campionamento corrette, unitamente all'uso di test statistici può ridursi la possibilità d'interpretazioni "fantasiose".

◦⦆─────⦅◦

3.6  Il fattore d'inganno

I grafici si basano sulla nostra capacità di visualizzare i numeri associandoli alle dimensioni di alcune immagini. La rappresentazione dei numeri, come misure fisiche, sulla superficie di un grafico, dovrebbe essere direttamente proporzionale alla quantità geometriche rappresentate. La violazione di questo criterio è misurata dal "fattore d'inganno", definito come il rapporto della misura di un effetto mostrato su un grafico e le misura dello stesso effetto in forma numerica.
Il fatto che i grafici o le immagini siano comunque accompagnati dai corretti dati numerici, è irrilivante in quanto il fruitore di un testo tende a ricordare le immagini piuttosto che i dati.

Questo grafico, pubblicato sul New York Times, ha lo scopo di mostrare il mandato dell'economia dei carburanti secondo gli standard del Dipartimento dei Trasporti. Gli standard richiedono un incremento nelle percorrenze da 18 a 27.5 miglia per gallone (3.78l L) (da 7.6 a 11,5 km/l), con un incremento del 53%. La grandezza dell'incremento mostrata nel grafico è il 783% per un fattore d'inganno colossale = (783/53)=14.8!

Un altro elemento chiave nel produrre grafici informativi è evitare di confondere le variazioni negli elementi del disegno con le variazioni dei dati.

Ciò comporta che i cambiamenti nella scala dei grafici dovrebbero sempre corrispondere ai cambiamenti dei dati da rappresentare.

Questo grafico vìola questo principio usando le dimensioni dei medici per mostrare dati mono-dimensionali, dando un fattore di inganno (2.8) più contenuto rispetto al caso precedente.

Una variante del fattore di scala è si ottiene modificando la scala delle ordinate in modo da ottenere una pendenza differente.
I due istogrammi riportano i fatturati e quindi la penetrazione commerciale delle aziende XXX e YYY. Scegliendo opportunamente la scala delle ordinate, si può suggerire che l'azienda YYY abbia un incremento di fatturato maggiore.

Un'altra possibilità si presenta con i diagrammi a torta:

Il diagramma a torta a sinistra, mostra una ripartizione A = 30; B = 25; C = 45; anche quello a destra mostra la stessa ripartizione; tuttavia, la "fetta" C è stata portata in primo piano... sebbene A sia maggiore di B, l'occhio percepirà B come maggiore e la forza dell'immagine si sovrapporrà al dato numerico: B sembrerà realmente maggiore di A e forse anche di C!
Mettendo al posto di A, B, C un nome e lasciando i dati numerici nel corpo del testo, si avrà un'informazione corretta, ma sarà evidenziata la fetta B.

◦⦆─────⦅◦

3.7  Contesto: riferito a cosa?

La correttezza dell'informazione richiede che un grafico non debba mostrare dati fuori contesto, e significativi confronti, visivamente evidenziati, dovrebbero essere fatti su basi uguali - ceteris paribus - in modo che tutte cose rimangano uguali.
Quando lo scopo di un grafico è permettere il confronto, o mostrare differenze tra i casi, la questione da chiedere è: "confrontato con cosa?"

E' facile evitare l'importante, utile o rilevante confronto separandoli visivamente, o fabbricando banali relazioni più promettenti.

Questo grafico, proveniente da Social Indicators III, si propone di confrontare le tendenze nei redditi mediani di uomini e donne per livello d'istruzione. Ma impilando i grafici degli uomini e delle donne verticalmente, si nasconde la maggior redditività. Lo stiramento della scala orizzontale aiuta anche a nascondere qualsiasi tendenza futura.

4.  Allegati

4.1  Nota dell'autore

Dott. Marcello Guidotti La Sapienza Università di Roma.

Marcello Guidotti, copyright 2003-2006-2010 - ultimo aggiornamento 13 settembre 2010
questa pagina può essere riprodotta su qualsiasi supporto o rivista purché sia citata la fonte e l'indirizzo di questo sito (ai sensi degli artt. 2575 e 2576 cc. Legislazione sul diritto d'autore). Le fotografie sono tratte da siti web e sono, o possono ritenersi, di pubblico dominio purché utilizzate senza fini di lucro. Le immagini di prodotti presenti nel sito hanno unicamente valenza esemplificativa oltre che, eventualmente, illustrare messaggi fuorvianti e non vi è alcun richiamo diretto o indiretto alla loro qualità e/o efficacia il cui controllo è affidato alle autorità regolamentatorie.

Alcuni esempi discussi sono stati tratti dal sito: http://www.datavis.ca/gallery/

◦⦆─────⦅◦

4.2  Sitografia

MedPop

description: Biometria, Statistica, epidemiologica, descrittiva, inferenziale, Indici di peso corporeo, Rischio peso, Colesterolemia, Lipidemie, MedPop, Medicina popolare
description: Insidie, statistiche, Visualizzazione grafica, Standardizzazione, Statistiche strane, Statistica descrittiva, Statistica inferenziale, MedPop, Medicina popolare
description: Epidemiologia, statistica, Correlazione, causalità, ipotesi, Implicazioni, confusione, Analisi di regressione, Statistiche di paragone, MedPop, medicina popolare
description: campionamento, sondaggi, probabilistico, randomizzazione, Errori, caso, Variabilità, stima, Errore standard, limiti fiduciali, significatività, chi-quadro, Yates, Fisher, Meta-analisi, Eterogeneità, MedPop, Medicina popolare
description: Formula di Broca, Body mass index, BMI, IMC, giovani, Indice di massa corporea, mortalità
description: biometria, antropometria, medicina popolare, profana, laica, complementare, rischio peso, aspettativa vita, corporeo, Indici, IMC, indice di massa corporea, BMI, body mass index, Valutazione, biologiche, biologica, Implicazioni, mediche, sanitarie, Determinanti, peso, Valutazione peso, Misure, pazienti, sottopeso, sovrapeso, magrezza, obesità, Peter Forster, Daniela Rüegg
description: Medicina popolare, MedPop, biometria, colesterolo, lipidi, Lipidemie, lipoproteine, popolazioni, nazioni, sessi, età, referenza, prevenzione, rischi, colesterolemia, statistiche, misurazione, mortalità, riferimento, sanitario, chimico, Col, HDL, diagnosi, alimentazione, Medicamenti, economia, socioeconomia, statine, infarto, occlusioni, arterie, Aterosclerosi, Peter Forster, Daniela Rüegg
description: Medicina popolare, MedPop, biometria, colesterolo, lipidi, Lipidemie, lipoproteine, popolazioni, nazioni, sessi, età, referenza, prevenzione, rischi, colesterolemia, statistiche, misurazione, mortalità, riferimento, sanitario, chimico, Col, HDL, diagnosi, alimentazione, Medicamenti, economia, socioeconomia, statine, infarto, occlusioni, arterie, Aterosclerosi, Peter Forster, Daniela Rüegg

Wikipedia

Vari

  • galenotech: FACOLTA' di FARMACIA e MEDICINA corso di laurea in SCIENZE FARMACEUTICHE APPLICATE: La Sapienza Università di Roma
  • EPIDEMIOLOGIA STATISTICA: : FACOLTA' di FARMACIA e MEDICINA corso di laurea in SCIENZE FARMACEUTICHE APPLICATE: La Sapienza Università di Roma
  • Tubes: filmini didattici KHANacademy
  • Statistics Tubes: filmini didattici KHANacademy

4.3  Commenti

alla pagina Biometria / ♕ Statistica descrittiva: ev. cliccare sul titolo per accedere.

Commento 
Autore 
Enter code 306


Edit - History - Print - Recent Changes - Search
Page last modified on December 31, 2011, at 09:06 AM