FACOLTA' DI INGEGNERIA       Universita' di Pavia
Home
  Didattica > Insegnamenti0809 > Basi di dati II e data mining (mn)
Organizzazione e Sedi
Immatricolarsi ai C.d.L.
Immatricolarsi ai C.d.L.M.
Orientamento
Didattica
Prenotazione Aule
Master
Esami: Iscrizioni online
Ricerca Scientifica
Servizi
Rapporti con Imprese
Tirocini didattici
Eventi e Iniziative
Bandi e Offerte lavoro
Esami di Stato
Mobilità/Erasmus
Rapporti di riesame
Assicurazione Qualità
Guida dello Studente
Scorciatoie
Cerca nel sito
Basi di dati II e data mining (mn)

Insegnamento Anno Accademico 08-09

Docente/i: Francesco Civardi  

Denominazione del corso: Basi di dati II e data mining (mn)
Codice del corso: 064204
Corso di laurea: Ingegneria per l'Ambiente e il Territorio, Ingegneria Informatica
Settore scientifico disciplinare: ING-INF/05
L'insegnamento è caratterizzante per: Ingegneria Informatica
Crediti formativi: CFU 6
Sito web del corso: n.d.

Obiettivi formativi specifici

Il corso di Basi di Dati II e Data Mining è un'introduzione alla progettazione di basi di dati finalizzate all’analisi, i cosiddetti Data Warehouse, e al loro impiego a fini analitici e previsivi (KDD, Knowledge Discovery from Database) . Lo studente acquisirà le capacità necessarie a progettare schemi dimensionali a partire da specifiche funzionali di alto livello, e ad implementare tali schemi su tecnologia relazionale (DBMS) e multidimensionale (OLAP). Al termine del corso, lo studente sarà inoltre in grado di applicare algoritmi di Data Mining a fini di classificazione, predizione, clustering e analisi di associazioni.

Programma del corso

La gestione di un'azienda, così come la gestione del territorio e dell’ambiente, richiedono decisioni basate su fatti, e il cui impatto è valutato tramite metriche quantitative. L’attuale armamentario di stumenti a supporto delle decisioni (data warehouse, "cubi", data mining, sistemi avanzati di reporting) si presta a fornire la base metodologica e tecnologica ad una "evidence based politics" (politica basata sulle "evidence", ossia sulle prove, sui fatti). Bilancio di sostenibilità e reporting ambientale costituiscono esempi di applicazioni significative degli argomenti trattati nel corso.

Parte I: Introduzione al Data Warehousing e alla modellazione dimensionale
Il processo di Knowledge Discovery from Database (KDD). Definizione di Data Warehouse. I componenti di un processo di Data Warehousing (Data Sources, ETL, Staging Area, Star Schema). Il modello dimensionale secondo la metodologia di Kimball: Fatti e Dimensioni, Star e Snowflake schema. Strumenti per la progettazione dimensionale.

Parte II. Il progetto multidimensionale (OLAP)
I DB multidimensionali (OLAP) o "iper-cubi". Strumenti per la progettazione multi-dimensionale. La metodologia LC di Thomsen. L’ambiente multidimensionale di MS Analysis Services.

Parte III Il linguaggio di interrogazione di basi dati multidimensionali (MDX)
Introduzione al linguaggio MDX, "standard de-facto" per i DB multidimensionali (introdotto da Microsoft e adottato da SAS, SAP, Hyperion, Pentaho, IBM DB2 Alphablox e altri). L’MDX come strumento di interrogazione (Query) e di manipolazione (DML). La definizione di indicatori (KPI). Strumenti di visualizzazione (Excel) e Reporting (e.g. Reporting Services).

Parte IV Il Data Mining
Analisi esplorativa dei dati (pivot table, cross tabulazioni). Lo standard CRISP-DM. Algoritmi di Data Mining per la Classificazione e la Previsione (Alberi Decisionali, Naive Bayes, Reti Neuronali, Regressione Logistica), per il Raggruppamento (Clustering), per l'Analisi delle Associazioni e delle Sequenze, per l'analisi delle Serie Temporali. Data Mining con MS Analysis Services ed Excel 2007. Open source data mining: Weka, RapidMiner.

Prerequisiti

Capacità di formulare algoritmi. Nozioni introdotte nei corsi di Basi di Dati I, Fondamenti di Informatica e Calcolatori elettronici.

Tipologia delle attività formative

Lezioni (ore/anno in aula): 45
Esercitazioni (ore/anno in aula): 0
Laboratori (ore/anno in aula): 0
Progetti (ore/anno in aula): 0

Materiale didattico consigliato

Durante il corso verranno fornite slide sugli argomenti trattati. I testi riportati in bibliografia sono indicativi e non vincolanti.

R. Kimball, R. Margy. The Data Warehouse Toolkit, 2nd edition. Wiley, 2002. (tradotto in Italiano da Hoepli, "Data Warehouse: La guida completa").

Erik Thomsen. Olap Solutions, 2nd edition. Wiley, 2002.

G. Spofford, S.Harinath, C.Webb, D.H. Huang, F. Civardi. MDX Solutions, 2nd edition. Wiley, 2006.

P.N. Tan, M. Steinbach, V. Kumar. Introduction to Data Mining. Pearson International Edition /Addison Wesley, 2005.

Paolo Giudici. Data mining. Modelli informatici, statistici e applicazioni, 2/ed. McGraw-Hill, 2005.

C.Vercellis. Business intelligence.Modelli matematici e sistemi per le decisioni. McGraw-Hill, 2006.

J.Han and M. Chamber. Data Mining - Concepts and Techniques. Morgan Kaufmann.

Modalità di verifica dell'apprendimento

L'esame verterà su una prova scritta. Le iscrizioni agli appelli si fanno on-line, sul sito del corso.

Copyright © Facoltà di Ingegneria - Università di Pavia