Recent Changes - Search:

Pagine di servizio

Gruppi

Pagine in allestimento

Strumenti

Domini correlati

PmWiki

pmwiki.org

edit SideBar

♕ Correlazioni statistiche e causalità

Autore: Peter Forster


clic per accedere

MedPop Medicina popolare
a cura di D. Rüegg

Dei dati statistici possono per definizione illuminare solo delle correlazioni e mai delle dipendenze causali. C'è "senso unico logico" tra causale e correlato (una causalità definisce sempre anche una correlazione, mentre una correlazione non definisce mai una causalità).

  • causale: significa una dipendenza di uno o più fatti ← da uno o più altri (qualcosa implica qualcosa d'altro).
  • correlato: significa la coincidenza (per intanto ignoti motivi) di due ⊱⊰ fatti (due cose hanno una qualche relazione, probabilmente casuale, tra di loro).

È un insegnamento sin' dai tempi degli antichi filosofi greci, che il "cum hoc ergo propter hoc" (assieme quindi dipendente) è un grave errore di induzione logica (→ fallacia di presupposizione: non seguitur).
Malgrado sia banale questa differenza terminologica, si incontrano numerosissime "statistiche" che cortocircuitano correlato e causale tirando così molto spesso delle conclusioni completamente errate - non solo dei giornalisti, politici e responsabili di marketing, ma anche dei ricercatori stessi che si squalificano da brutto con simili mosse (forse perché non è più di moda l'insegnamento di logica formale).

Personalmente smetto a leggere un tale elaborato appena me ne accorgo, → cestino. Se mi capita più volte nella stessa rivista, in futuro non la guardo più e mi dedico a qualcosa di meno futile o più divertente. Così in una lunga vita sono arrivato a sfogliare ancora solo poche riviste (e di studiare ancora meno testi) e nel tempo risparmiato posso dedicarmi a riflettere sulle sfumature della vita materiale. 8>)__ .

1.  Correlazione verso causalità

Correlazione (statistica) it.Wikipedia Causalità it.Wikipedia Sincronicità it.Wikipedia Cum hoc ergo propter hoc de.Wikipedia Correlation does not imply causation en.Wikipedia

cum hoc ergo propter hoc (lat. ca. „assieme quindi dipendente“) indica un'errore logico con il quale due eventi coincidenti vengono dichiarati come causa ed effetto. Chi commette questo duplice errore:

  • pretende in primo luogo (senza esame e/o motivazione), un nesso tra due qualsiasi eventi (probabilmente casuali),
  • dichiara in secondo luogo, aleatoriamente un'evento come causa e l'altro evento quindi come effetto.

Si tratta di uno dei più divulgati errori logici dei nostri tempi (e forse anche di tempi passati), riportati ad infinitum dai mass media.

Esempio (secondo Bobby Henderson): La stima di pirati sui mari del globo, che ancora nel 1820 era di 35'000 si è ridotto fino al 2000 su 17. Nel medesimo lasso di tempo, la temperatura aerea globale è salita da 14.2°C a 15.8°C. Conoscendo i due "eventi":

  • un giornalista scrive: La diminuzione della pirateria fa aumentare il riscaldamento climatico!
  • un altro scrive: L'aumento della temperatura globale fa diminuire gli atti di pirateria!
  • un terzo scrive: Secondo affidabili fonti scientifiche: sospettato nesso tra pirateria e riscaldamento climatico!

Un quarto non scrive niente in merito (perché lo ritiene una coincidenza completamente casuale) e viene poi seriamente chiamato all'ordine dal suo capo redattore, perché non prende posizione incirca l'esistenziale discorso pubblico in merito alla pirateria e il riscaldamento globale.

Approfondimenti vedi → Classificazione delle fallacie: Fallacie di presupposizione it.Wikipedia.

1.1  Correlazione ≠ causalità

(Una correlazione rappresentata come causalità)
Di seguito un esempio di apparenza scientifica pubblicato di associazione di pediatri Statunitensi, commentato poi da Salman Khan dalla KHANacademy


cliccare per accedere

Collazione combatte l'obesità di adolescenti
In questo studio, pubblicato in Pediatrics dei ricercatori analizzarono i dati di 2'216 adolescenti durante un periodo di 5 anni dalle scuole pubbliche a Minneapolis-St.Paul, Minnesota.

I ricercatori scrivono, che gli adolescenti che fanno regolarmente collazione consumano meno grassi saturi ma più fibre vegetali e carboidrati che i loro compagni che saltano questo pasto. In più quelli che fanno regolarmente collazione sembrano più attivi fisicamente che i loro compagni saltapasti.

Nel tempo, costatarono i ricercatori, gli adolescenti che fanno regolarmente collazione aumentano meno di peso e hanno un'indice di peso corporeo inferiore che quelli "salta-collazione".

Salman Khan commenta questo peccato mortale (anti)scientifico (suberbia & acedia) ca. al seguente:


clic per accedere

Pirati e riscaldamento climatico


◦⦆─────⦅◦

1.2  Dalla correlazione alle ipotetiche causalità

Dai dati statistici, rilevati o misurati ed elaborati regola d'arte (come descritto nel capitolo sulla statistica descrittiva) si possono dedurre delle coincidenze (correlazioni) più o meno strette e con vari indicatori sulla distribuzione e l'affidibilità del campione. Ulteriori elaborazioni inferenziali riescono poi a chiarire variabilità e significatività correlativa.

Non si riesce a dimostrare delle causalità con dei strumenti statistici.

Non si riesce p.es. a decifrare, se la correlazione tra colazione ↔ obesità dimostrata è dovuto al fatto:

  • che l'obesità è un'effetto ← di mancante colazione (causa) ?,
  • che la "salta-colazione" è un effetto ← dell'obesita (causa) ? oppure
  • che c'è un terzo o vari altri fattori determinativi ? (p.es. attività fisica, sonno, genetica, televisione, ...) → causante sia la colazione → che l'obesità.

A partire da questo punto non sono più richieste delle conoscenze statistiche bensì di creatività mentale, professionalità nel tema trattato, una dose di scetticismo, abitudine di formulare delle ipotesi e di falsificarli. Alla fine rimangono (forse) poche supposizioni plausibili.
Bisogna poi formularli, giustificarli e commentarli; cioè mettersi in discussione (che non è cosa di tutti).

Chi non si sente a fare tutto questo lavoro speculativo e di ragionamento pubblico per arrivare a una ipotesi (plausibile e stringente), meglio che ponga delle domande sugli punti non evidenti e non chiari. Partecipa meglio così alla progressione di sapere che sparando un'altro giudizio o un'ulteriore credenza (che non tiene) alla pattumiera esistente in merito.

◦⦆─────⦅◦

1.3  Implicazioni della confusione

Per evitare delle brutte figure (come nell'esempio cui sopra), le riviste scientifiche serie usano il metodo del "Peer Review" (revisione paritaria): sottopongono un'articolo del genere (anonimizzato) a degli collaudati esperti scientifici, sia del tema trattato che di statistica, chiedendo una valutazione formalizzata. Certo che queste procedure sono impegnative, ma una rivista scientifica rinomata si mantiene la ficucia dei lettori solo in questo modo.

I politici, giornalisti e manager del marketing coinvolti usano comunque questi testi per i loro scopi, anche se raramente sono interessati (o capaci) di interpretare le "sfumature" ragionevoli (che sarebbero le causalità).

Gli effetti sociali possiamo poi ammirare nella pubblicità televisiva per i musli a colazione che si servono spudoratamente di queste oscenità "scientifiche".

2.  Analisi di regressione

Regressione it.Wikipedia Regression analysis en.Wikipedia

Delle ipotesi formulate (come descritto sopra) sono al solito controllate con la "curva intercetta dei minimi quadrati". Il metodo più divulgato è chiamata regressione lineare, con la quale si tenta di stimare la "bontà di adattamento" della ipotesi e la significatività statistica dei parametri stimati. Si riesce a farsi un'idea, se un'ipotesi può essere plausibile o se è da scartare.

Visto che il metodo richiede specifiche conoscenze statistiche (e non solo) non intendo di approfondire il tema. Di seguito le spiegazioni di it.Wikipedia.

L'analisi della regressione è una tecnica usata per modellare ed analizzare una serie di dati che consistono in una variabile dipendente e una o più variabili indipendenti. La variabile dipendente nella equazione di regressione è modellata come una funzione delle variabili indipendenti più un termine d'errore. Quest'ultimo è una variabile casuale e rappresenta una variazione non controllabile e imprevedibile nella variabile dipendente. I parametri sono stimati in modo da descrivere al meglio i dati. Il metodo più comunemente utilizzato per ottenere le migliori stime è il metodo dei "minimi quadrati" (OLS), ma sono utilizzati anche altri metodi.

L'analisi della regressione può essere usata per effettuare previsioni (ad esempio per prevedere dati futuri di una serie temporale), inferenza statistica, per testare ipotesi o per modellare delle relazioni di dipendenza. Questi usi della regressione dipendono fortemente dal fatto che le assunzioni di partenza siano verificate. L'uso dell'analisi della regressione è stato criticato in diversi casi in cui le ipotesi di partenza non possono essere verificate. Un fattore che contribuisce all'uso improprio della regressione è che richiede più competenze per criticare un modello che per adattarlo. it.Wikipedia

3.  Statistiche di paragone

Placebo it.Wikipedia Nocebo it.Wikipedia Trattato su placebo e nocebo MmP

Il gratticapo di correlazione ➙ causalità non si pone in delle statistiche di paragone (confrontative): si paragonano direttamente i correlati di due statistiche (p.es. due medicamenti per la stessa malattia o di un medicamento e un placebo).

La difficoltà in questo caso è di garantire delle condizioni paragonabili (più simili possibile) per le "due statistiche". Questo richiede una meticolosa pianificazione del progetto e la garanzia, che i partecipanti ai test siano all'ignoto (p.es. della somministrazione di medicamento o placebo in un indagine a doppio cieco).

Arrivando al dunque, si trae la differenza tra le due correlazioni per poter giudicare l'effetto delle due misure.

Nell'esempio (finto) cui sopra, i medici seri parleranno di un successo del medicamento del ca. 20%, mentre i responsabili del commercio parlerebbero probabilmente di un un successo del ca. 50% (dimenticandosi che l'effetto placebico è del ca. 30%).

N.B. In gergo medico si chiamano "placebo" e "nocebo" questo che statisticamente sono delle variabili casuali e parametri ignoti, che creano degli effetti al di là del medicamento. Un classico esempio di arroganza medica per non dover studiare degli effetti oltre farmacologici che influiscono evidentemente anche il percorso di una malattia.

Statisticamente sarebbe desiderabile di fare non solo un paragone tra medicamento e placebo ma anche con "far nulla". Certo che in medicina questo non è sempre fattibile per motivi etici, ma ci sono anche delle malattie con le quali si potrebbe: mia nonna curatrice disse, che un'influenza trattato dal medico dura quindici giorni, curato in proprio due settimane.

4.  Rappresentazioni di statistiche


Speadsheet

Lo strumento abituale per l'elaborazione e la rappresentazione di dati statistici oggigiorno sono i fogli elettronici (foglio di calcolo, spreadsheet).

Un foglio elettronico (chiamato anche foglio di calcolo, in inglese spreadsheet) è un software di produttività personale. È un programma che permette di effettuare calcoli, elaborare dati e tracciare efficaci rappresentazioni grafiche.

Dei dati statistici sono inizialmente delle liste con dei dati misurati o rilevati più o meno ordinati secondo un qualche criterio. Ai tempi era un grande impegno l'elaborazione e la sintetizzazione dei dati. Fortunatamente ai nostri giorni è diventato più facile questa parte come anche la seguente rappresentazione grafica grazie ai programmi e programmini disponibili su ogni pur piccolo ordinatore.

La procedura per questo lavoro è ca. la seguente:

  1. rilevare, misurare o consegnarsi i dati statistici grezzi che interessano
  2. elaborazioni di questi dati nelle caratteristiche statistiche
  3. stabilire il tipo di rappresentazione grafica
  4. se si tratta di istogramma, diagramma circolare o cartesiano:
    1. raggruppamento dei dati in ordine crescente o decrescente
    2. stabilire degli ambiti caratteristici
    3. determinare quanti valori sono contenuti in ogni ambito → frequenze
  5. stilare la rappresentazione

L'applicazione elettronica a portata di mano di tutti sono i "fogli elettronici" → spreadsheet (p.es. Excell) dotato di funzioni statistiche e possibilità grafiche:

  • si digitano i dati rilevati o misurati in una tabella excell
  • si definiscono le funzioni statistiche desiderate come somma S, media ø, mediana mn, moda md, numero di campioni n, quartile q1, quartile q3, deviazione standard sd, ... che sono poi calcolati automaticamente in un'attimo.
  • si sceglie un campo di dati da rappresentare e un sottoprogramma per il tipo grafico desiderato di rappresentazione e si aggiustano scale, titoli, colori a piacere e l'elaborazione e la rappresentazione è fatta.

Di seguito un esempio che è anche usabile come palestra su GoogleDocs (la formattazione e gli immagini non corrispondono esattamente) o scaricabile come originale .xls:


Esempio di elaborazione e rappresentazioni di 20 dati statistici finti in Excell




Normal distribution → http://davidmlane.com/hyperstat/z_table.html



Sono trattati i seguenti argomenti:
Diagrammi cartesiani Istogrammi Box Plot

4.1  Istogrammi (Diagrammi a colonne)

it.Wikipedia: Istogramma Diagramma a colonne

Il diagramma a colonne (istogramma) è un grafico che si ottiene costruendo tanti rettangoli quante sono le modalità da rappresentare. Tali rettangoli sono paralleli all'asse delle ordinate; la loro base è fissa e scelta liberamente dal disegnatore, mentre l'altezza è proporzionale alla frequenza o intensità che rappresentano. it.Wikipedia

Con dei diagrammi a colonne si rappresentano al solito delle quantità in funzione a degli ambiti di valori (p.es. la quantità di scolari con determinate altezze corporee).
Con questa rappresentazione si riesce a visualizzare bene delle distribuzioni statistiche di campioni.
Spesso questa rappresentazione richiede un riordinare dei valori rilevatiin quanto:

  • si esamina per quante volte si ripete un determinato valore
  • aggiungendo dei valori mancanti marcandoli con zero

Aggiungendo le tabelle di misurazione, di elaborazione delle quantità, caratteristiche statistiche ed altre informazioni rilevanti si riesce a sintetizzare abbastanza bene delle caratteristiche della correlazione.

Inoltre si può cominciare a costruirsi delle ipotesi più o meno plausibili su delle distribuzioni "causali" se si ritengono probabili.

4.2  Diagrammi circolari (grafico a torta)

Diagramma circolare it.Wikipedia


Spese militari mondiali

Il diagramma circolare (comunemente indicato con grafico a torta o diagramma a torta) è un metodo utilizzato in statistica descrittiva per rappresentazioni grafiche di variabili quantitative misurate su classi di categorie (valori nominali), al fine di evitare di stabilire, anche involontariamente, un ordine che non esiste nelle categoria (cosa che accadrebbe utilizzando un istogramma).

Un diagramma circolare viene costruito dividendo un cerchio in spicchi le cui ampiezze angolari sono proporzionali alle classi di frequenza. Come per l'istogramma, le aree sono proporzionali alle frequenze.

Nel caso di frequenze relative la somma delle aree è 1 (ovvero 100%).

◦⦆─────⦅◦

4.3  Box Plot

Box Plot it.Wikipedia Istruzione per Excell uniroma

In statistica il box-plot, detto anche box and whiskers plot (diagramma a scatola e baffi) o semplicemente boxplot, è una rappresentazione grafica utilizzata per descrivere la distribuzione di un campione tramite semplici indici di dispersione e di posizione. it.Wikipedia

È un metodo molto sintetico e chiaro che in uno specifico raggruppamento di dati elaborati illustra la distribuzione in quattro quarti equilibrati. Si parte dalla determinazione di:

  • minimo e massimo della campionatura
  • il quartile inferiore Q25 e superiore Q75
  • il valore mediano

(tutto con funzioni regolari di uno spreadsheet) e si rapresenta in un "grafico blocco" (fattibile con gli attrezzi grafici dello stesso spreadsheet).

Si nota a colpo d'occhio

  • il punto della mediana che suddivide
  • in due quarti (asimmetrici) la metà centrale della distribuzione e
  • in due "baffi" le restanti due quarti (inferiore e superiore).

Sono molto illustrativi questi grafici specialmente per paragoni statistici di diverse condizioni (esempio finto di fianco: Crescita dei denti di porcelli della Guinea con diverse forme e dosaggi di vitamina C nel mangime).

4.4  Diagrammi cartesiani

Il diagramma cartesiano è un grafico individuato da coppie di valori poste su due semirette orientate e generalmente perpendicolari tra loro dette assi del piano cartesiano. Sebbene egli non ne sia stato l'inventore, a Cartesio è attribuita, per la diffusione che egli ne fece, la scoperta di questo diagramma il cui uso in realtà risale ad epoche antiche.[1]

Definito il piano cartesiano, lungo gli assi orientati vengono individuate coppie di numeri (es. a, b), dette coordinate. Ad ogni coppia di coordinate corrisponde un punto all'interno del diagramma (es. P (a, b)). Si consideri che la prima coordinata rappresenta un valore sull'asse delle x, e la seconda un valore sull'asse delle y.

Prolungando gli assi del piano cartesiano oltre il punto d'origine, il diagramma può essere esteso a quattro diversi quadranti: il primo presenta solo valori positivi (in alto a destra), il secondo presenta positivi i valori delle y e negativi quelli delle x (in alto a sinistra), il terzo solo valori negativi di x ed y (in basso a sinistra), il quarto, infine, valori delle y negativi e delle x positivi (in basso a destra). it.Wikipedia

Rappresentano di solito un valore scalare come funzione di un'altro (p.es. la temperatura in funzione del tempo).
Si rappresentano molte correlazioni statistiche in questo modo, aggiungendo le tabelle di misurazione, caratteristiche statistiche ed altre informazioni rilevanti.

In molti spreadsheets è anche possibile di calcolare e rappresentare delle tendenze (trends) incluso la loro affidibilità (p.es. R2).

I diagrammi cartesiani suggeriscono delle funzioni del tipo:

  • valore dell'ordinate dipende dal valore dell'ascisse o
  • valore dell'ascisse dipende dal valore dell'ordinate

anche se una causalità non è data (e quindi anche in casi di semplici correlazioni come per esempio riscaldamento climatico dipende di numero di pirati sugli oceani oppure numero di pirati sugli oceani dipendono del riscaldamento climatico).

4.5  Ipotesi di distribuzione

5.  Allegati

5.1  Sitografia

MedPop

description: Biometria, Statistica, epidemiologica, descrittiva, inferenziale, Indici di peso corporeo, Rischio peso, Colesterolemia, Lipidemie, MedPop, Medicina popolare
description: Insidie, statistiche, Visualizzazione grafica, Standardizzazione, Statistiche strane, Statistica descrittiva, Statistica inferenziale, MedPop, Medicina popolare
description: Dati, statistici, fondamentali, Media, moda, mediana, Deviazione standard, Indicatori, distribuzioni, Campo di variazione, Coefficiente di variazione, interpretazione, Lavoisier, somma, totale, Medie, mobili, Ovvietà, paradosso di Simpson, fattore d'inganno, Contesto, MedPop, Medicina popolare
description: campionamento, sondaggi, probabilistico, randomizzazione, Errori, caso, Variabilità, stima, Errore standard, limiti fiduciali, significatività, chi-quadro, Yates, Fisher, Meta-analisi, Eterogeneità, MedPop, Medicina popolare
description: Formula di Broca, Body mass index, BMI, IMC, giovani, Indice di massa corporea, mortalità
description: biometria, antropometria, medicina popolare, profana, laica, complementare, rischio peso, aspettativa vita, corporeo, Indici, IMC, indice di massa corporea, BMI, body mass index, Valutazione, biologiche, biologica, Implicazioni, mediche, sanitarie, Determinanti, peso, Valutazione peso, Misure, pazienti, sottopeso, sovrapeso, magrezza, obesità, Peter Forster, Daniela Rüegg
description: Medicina popolare, MedPop, biometria, colesterolo, lipidi, Lipidemie, lipoproteine, popolazioni, nazioni, sessi, età, referenza, prevenzione, rischi, colesterolemia, statistiche, misurazione, mortalità, riferimento, sanitario, chimico, Col, HDL, diagnosi, alimentazione, Medicamenti, economia, socioeconomia, statine, infarto, occlusioni, arterie, Aterosclerosi, Peter Forster, Daniela Rüegg
description: Medicina popolare, MedPop, biometria, colesterolo, lipidi, Lipidemie, lipoproteine, popolazioni, nazioni, sessi, età, referenza, prevenzione, rischi, colesterolemia, statistiche, misurazione, mortalità, riferimento, sanitario, chimico, Col, HDL, diagnosi, alimentazione, Medicamenti, economia, socioeconomia, statine, infarto, occlusioni, arterie, Aterosclerosi, Peter Forster, Daniela Rüegg

Wikipedia

Vari

  • galenotech: FACOLTA' di FARMACIA e MEDICINA corso di laurea in SCIENZE FARMACEUTICHE APPLICATE: La Sapienza Università di Roma
  • EPIDEMIOLOGIA STATISTICA: : FACOLTA' di FARMACIA e MEDICINA corso di laurea in SCIENZE FARMACEUTICHE APPLICATE: La Sapienza Università di Roma
  • Tubes: filmini didattici KHANacademy
  • Statistics Tubes: filmini didattici KHANacademy

5.2  Immagini

5.3  Commenti

alla pagina Biometria / ♕ Correlazioni statistiche e causalità: ev. cliccare sul titolo per accedere.

Peter29 December 2011, 11:21

Test

Commento 
Autore 
Enter code 445


Edit - History - Print - Recent Changes - Search
Page last modified on January 09, 2012, at 08:13 PM