|
Docente/i:
Paolo Magni
Denominazione del corso: Elaborazione di dati biomedici
Codice del corso: 062059
Corso di laurea: Ingegneria Biomedica
Settore scientifico disciplinare: ING-INF/06
L'insegnamento è caratterizzante per: Ingegneria Biomedica
Crediti formativi: CFU 5
Sito web del corso: http://aimed11.unipv.it/iscrizioni/main.htm
Obiettivi formativi specifici
Il corso aiuta lo studente a padroneggiare i metodi di analisi statistica e probabilistica più usati nella letteratura medico scientifica. Tali metodi giocano un ruolo importante in settori di ricerca quali la bioinformatica, lo studio del genoma e delle reti metaboliche cellulari, la messa a punto di nuovi farmaci e la valutazione del loro effetto, l’individuazione di geni responsabili di malattie, lo studio della diffusione di epidemie, la medicina predittiva, lo studio del funzionamento del cervello, e così via. Il corso si propone di fornire gli strumenti di base di probabilita' e statistica. Gli esempi che verranno illustrati durante il corso e gli esercizi proposti saranno prevalentemente di carattere biomedico.
E' opportuno sottolineare che la competenza nell'analisi statistica dei dati e' un requisito sempre piu' importante in numerosi tipi di cariera, non solo in ambito biomedico, ma anche in altre aree del settore industriale e finaniziario.
Programma del corso
Introduzione alla biostatistica: cos'e'?
Statistica descrittiva
Vengono illustrate le principali tecniche con cui si possono estrarre informazioni di sintesi a partire da dati sperimentali.
- Tipi di dati: variabili qualitative/quantitative. Tipi di scale di misura: nominale/ordinale/ad intervalli/di rapporti. Matrice dei dati.
- Strumenti di sintesi: distribuzione (tabelle) di frequenza per dati raggruppati e creazione delle classi.
- Sintesi quantitativa: misure di tendenze centrale (media aritmetica/pesata/geometrica/armonica/quadratica, mediana, moda, intervallo medio, media interquartile), quantili (quartili/decili/percentili,frattile), misure di dispersione o variabilità (campo o intervallo di variazione/differenza interquartile/scarti della media/scarto medio assoluto/devianza o somma dei quadrati/varianza o quadrato medio/deviazione standard o scarto quadratico medio/coefficiente di variazione), Disuguaglianza di Markov, di Chebychev e di Cramer, momenti di ordine superiore, indici di forma (simmetria: skewness di Pearson, Gamma1 di Fisher, Beta1 di Pearson; curtosi: mesocurtica/leptocurtica/platicurtica, Gamma2 di Fisher, Beta2 di Pearson).
- Sintesi qualitativa (grafici): istogrammi o poligoni/distribuzioni cumulate, diagrammi a rettangoli, ortogrammi, aerogrammi, pittogrammi, diagrammi polari, dotplot, boxplot, diagrammi di dispersione a due variabili, diagrammi cartesiani a due variabili).
Gli studi statistici
Vengono illustrate le principali caratteristiche degli studi condotti in ambito biomedico.
- Scopo di uno studio.
- Progetto di uno studio. Campionamento: metodi probabilistici e non; campione di convenienza, a valanga, casuale semplice, pesato, sistematico, stratificato, a grappolo. Campioni a due o più stadi.
- Epidemiologia: misure e indici specifici (prevalenza, incidenza, morbidità, morbosità, morbilità, letalità, mortalità, rischio relativo, riduzione del rischio assoluto, riduzione del rischio relativo), tassi grezzi, specifici e standardizzazione, rapporto tra proporzioni, rapporto tra odds.
- Tipi di studi: osservazionali (descrittivi/analitici - ecologici, trasversali, retrospettivi, prospettici longitudinali), sperimentali (trial clinici, sul campo, di popolazione). Studi clinici nelle diverse fasi di sviluppo di un farmaco.
- Accuratezza, precisione e numero di cifre significative nella raccolta dati.
Statistica matematica: elementi di probabilità
Vengono introdotti i concetti elementari della teoria della probabilita', il teorema di Bayes, e le piu' importanti classi di distribuzioni di probabilità.
- Eventi e spazio campionario, combinazione di eventi, calcolo combinatorio di raggruppamenti semplici (permutazioni, disposizioni, combinazioni).
- Definzione di probabilità matematica o classica, frequentista e soggettiva, vari tipi di convergenza di succesioni di variabili aleatorie, assiomi della probabilità, probabilità condizionate e indipendenza condizionale, teorema della probabilità totale e teorma di Bayes e sua applicazione ai test di screening (veri/falsi positivi, veri/falsi negativi, sensibilità, specificità, efficienza, valore predittivo positivo/negativo, curva ROC, calcolo prevalenza con test di screening).
- Variabili casuali (discrete/continue), funzione di distribuzione cumulativa, funzione di densità, funzione di probabilità di massa, momenti di variabili casuali.
- Variabili casuali congiunte, funzione di distribuzione cumulativa congiunta e di densità congiunta, distribuzione e densità marginale, probabilita' di massa congiunte e marginali, distribuzioni condizionate, variabili casuali indipendenti, covarianza, correlazione, funzioni di variabili casuali (distribuzione, media, varianza e progagazione dell'incertezza).
- Variabili casuali vettoriali.
- Distribuzioni di probabilita' di variabili discrete: uniforme, bernoulli, binomiale/multinomiale, Poisson, geometrica e Pascal, binomale negativa, ipergeometrica.
- Distribuzioni di probabilita' di variabili continue: rettangolare, normale o gaussiana (approssimazione alla normale e teorema del limite centrale, lognormale, esponenziale (Erlang), gamma, gamma inversa, weibull, beta, dirichlet, chi2, t-student, F-fisher.
- Quale distribuzione seguono i dati? I grafici di probabilità (qqplot).
- Simulazione come strumento per l'investigazione dei dati.
Statistica inferenziale: teoria della stima
Vengono introdotti i concetti basi della teoria della stima.
- L’inferenza statistica e le distribuzioni campionarie.
- Teoria della stima: stima puntuale e per intervallo, stima alla Fisher, stima bayesiana, stima parametrica e stima non parametrica (es. momenti campionari), stimatore e sue proprietà (polarizzazione, consistenza, efficienza), stimatori lineari, limite di Cramer-Rao e informazione di Fisher anche nel caso vettoriale (matrice di covarianza della stima), metodi per la costruzione di stimatori (metodo dei momenti, stima a massima verosimiglianza e sue proprietà, stima bayesiana, stimatori puntuali e distribuzioni coniugate), intervalli di confidenza.
- Stima dei parametri di distribuzioni note: binomiale e proporzioni, Poisson e tassi, normale, esponenziale. Proprietà di questi stimatori.
- Distribuzione campionarie e intervalli di confidenza dei conteggi di frequenza (proporzioni), della media, di differenza di medie, varianza e del rapporto di varianza.
- Intervalli di confidenza, numerosità del campione e livello fiduciario.
- Valutazione delle distribuzioni campionarie e degli intervalli di confidenza attraverso la simulazione.
Statistica inferenziale: i test statistici
Vengono presentati i concetti alla base dei test statistici e presentati i principali test parametrici e non parametrici.
- Definizione di un test (statistica del test e distribuzione della statistica del test) e relazione con gli intervalli di confidenza, ipotesi nulla (bilaterale/unilaterale) e ipotesi alternativa e regola di rifiuto (alfa), p-value, test parametrici e non parametrici, errore di tipo I e tipo II e protezione, potenza e significatività, fattori che incidono sulla potenze (alfa, delta, sigma2, n) e loro relazioni nella distribuzione z, potenza a priori (n) e a posteriori (beta).
- Criteri che guidano nella scelta del test (tipo dati, scala di misura, simmetria/normalità della distribuzione, omoschedasticità dei diversi campioni. Confronto tra test: il rapporto potenza-efficienza.
- Variabile effetto misurata almeno su scala intervallare:
1 campione: ipotesi sulla media per popolazione normale o numerosa (test t e z) e calcolo della potenza a priori e a posteriori, ipotesi sulla varianza per popolazione normale (test chi2).
2 campioni indipendenti: ipotest sulla differenza tra due medie per popolazioni normali o numerose (test t e z) e calcolo della potenza a priori e a posteriori, ipotest sulla varianza di due popolazioni normali (test F).
2 campioni appaiati: ipotesi sulla differenza tra due medie per popolazioni normali o numerose (test t).
Ipotesi sull'appartenenza di un osservazione a un campione normale (test t).
Più campioni indipendenti: ipotesi sulla varianza di più popolazioni normali (test Hartley, Cochran, Bartlett, Levene), ipotesi sulle medie di più popolazioni normali (test ANOVA una via), confronti multipli pianificati ortogonali e metodo dei polinomi ortogonali o post-hoc e correzione per confronti multipli (Bonferroni, Scheffé, LSD, HSD, Dunnett).
Più campioni dipendenti: ipotesi sul confronto tra le medie (test ANOVA per misure ripetute).
Più campioni indipendenti classificati secondo due fattori senza interazione (test ANOVA a due vie e quadrati latini), classificati secondo più fattori senza interazione (test ANOVA a più vie, quadrati greco-latini), classificati secondo più fattori con interazione (test ANOVA per esperimenti fattoriali).
Quanti fattori considerare? L’efficienza relativa. Valutazione dell’effetto del trattamento tramite R2 e eta.
- Variabile effetto misurata su scala nominale:
1 campione: ipotesi su una proporzione (test z, binomiale), ipotesi sulla distribuzione e test di bontà di adattamento (test chi2, test G, test T2 di Freeman-Tukey).
2 campioni indipendenti: studio di fattori di rischio e tabelle di contingenza, test sulla differenza di due proporzioni (test z) e tabelle 2x2 (test chi2, test G), test esatto di Fisher, potenza a priori e posteriori, rischio relativo (test z e formula di Miettinen), odds ratio (test z e formula di Miettinen, test chi2 di Mantel-Haenszel), rapporto di tassi (test z e formula di Miettinen).
Test di indipendenza e di omogeneità e associazione tra variabili (coefficiente di contingenza di Pearson e phic di Cramer).
2 campioni dipendenti: test McNemar (variabili dicotomiche), estensione test McNemar o test di Bowker (variabili politomiche).
Più campioni indipendenti: tabelle 2xN e MxN (test chi2, test G, metodo esatto).
Più campioni dipendenti: test Q di Cochran.
- Variabile effetto misurata su scala ordinale:
1 campione: ipotesi sulla casualità di un campione temporale o spaziale (test delle successioni), ipotesi sulla tendenza centrale (test del segno, test di Wilcoxon o dei ranghi con segno, test di casualizzazione), ipotesi sull'omogeneità di conteggi (test di Poisson e indice di dispersione), bontà di adattamento (test di Kolmogorov-Smirnov).
2 campioni dipendenti: ipotesi sulla tendenza centrale (test dei segni, test di Wilcoxon, test di casualizzazione).
2 campioni indipendenti: ipotesi sull'effetto ordine (test di Gart), ipotesi sulla tendenza centrale (test della mediana, test di Wilcoxon-Mann-Whitney, test U Mann-Whitney, test S di Kendall, test di casualizzazione), aderenza di due distribuzioni (test successioni o test di Wald-Wolfowitz, test di Kolmogorov-Smironv), ipotesi sulle varianze (test di Siegel-Tukey).
Più campioni: ipotesi sulla tendenza centrale (test della mediana, Kruskal-Wallis), ipotesi sulla varianza.
Più campioni indipendenti classificati secondo due fattori (analisi della varianza per ranghi a due vie di Friedman), confronti multipli.
Correlazione e regressione lineare
Regressione semplice e multipla. (Questo argomento non sempre viene trattato).
Eventuale analisi statistica di lavori medico-scientifici
Prerequisiti
Il linguaggio usato in statistica è prevalentemente matematico. Occorono alcune delle nozioni dei corsi di Analisi Matematica e Geometria e Algebra. In particolare saranno utili le nozioni di limite, di integrale e di derivata, di serie, di funzione di piu' variabili e di funzioni vettoriali, di massimizzazione/minimizzazione di funzione di una o piu' variabili oltre che la teoria degli insiemi ed elementi di logica.
Tipologia delle attività formative
Lezioni (ore/anno in aula): 23
Esercitazioni (ore/anno in aula): 29
Laboratori (ore/anno in aula): 0
Progetti (ore/anno in aula): 0
Materiale didattico consigliato
Materiale distribuito dal docente agli iscritti alla mailing list del corso
W. Navidi. Probabilita' e statistica per l'ingegneria e le scienze . McGraw-Hill, E. 39,00. Libro di riferimento del corso.
W. W. Daniel. Biostatistica. EdiSES, E. 46,00. Testo di approfondimento.
L. Soliani. Manuale di statistica per la ricerca e la professione. http://www.dsa.unipr.it/soliani. I capitoli 1,2,3,4,5,6,7,8,9,10,11,12,15 sono alcuni degli argomenti del corso.
Laboratorio virtuale di probabilita' e statistica. http://www.ds.unifi.it/VL/VL_IT/index.html. Sito con risorse interattive per studenti e docenti di probabilità e statistica. Contiene anche alcuni esercizi da svolgere.
Modalità di verifica dell'apprendimento
L'esame consiste in una prova scritta e in una prova orale in cui vengono valutate sia la conoscenza dei fondamenti teorici sia la capacità di risolvere esercizi. Durante il corso verranno svolte due prove in itinere (scritte), che, se sostenute entrambe con esito favorevole, sostituiscono la prova scritta dell'esame.
|