- Oggetto:
- Oggetto:
Statistica e bioinformatica
- Oggetto:
Anno accademico 2012/2013
- Codice dell'attività didattica
- INT0524
- Docente
- Dott. Alberto ACQUADRO (Affidamento interno)
- Corso di studi
- [f056-c502] LM - Biotecnologie vegetali
- Anno
- 2° anno
- Tipologia
- B - Caratterizzante
- Crediti/Valenza
- 6
- SSD dell'attività didattica
- SECS-S/02 - statistica per la ricerca sperimentale e tecnologica
- Oggetto:
Sommario insegnamento
- Oggetto:
Obiettivi formativi
-conoscere i principali database bioinformatici sede di informazione biologica
-padroneggiare gli strumenti di "Sequence Retrieval" e gli strumenti di base per ricercare informazioni biologiche nei principali database.
-acquisire autonomia nell'utilizzo di algoritmi di ricerca e analisi (genomica, trascrittomica e proteomica) dell'informazione biologica sia utilizzando strumenti on-line che programmi in locale.
- Oggetto:
Risultati dell'apprendimento attesi
Al termine del corso lo studente sarà in grado di utilizzare il sistema operativo Linux, analizzare una sequenza genica (“single gene”) e insiemi di sequenze (“whole genome”). Di seguito sono descritti i risultati nello specifico:
Risultati inerenti l'uso del sistema operativo Linux
-Utilizzare il sistema operativo Linux e i comandi base di Linux da shell (cd, ls, cp, rm, rmd cat, grep, pipe, wc, etc)
-Eseguire il download file, leggere e modificare i permessi di un file
-Installare i piu comuni programmi di bioinformatica (file binari, .sh, .deb)
-Eseguire delle analisi con i software MIRA, BWA, SamTools, Cufflinks
-Lanciare script Perl (.pl)
Risultati inerenti l'analisi “Single gene”
-Analizzare database primari e secondarie (archival, curated)
-Utilizzare gli operatori Booleiani (AND, OR, NOT) per il sistema genBank
-effettuare una ricerca bibliografica utilizzando le piattaforme: "Web of Science" (WoS), e NCBI (Entrez)
-Analizzare sequenze di DNA e proteiche dal punto di vista strutturale (primario e secondario);
-utilizzare algoritmi di pattern recognition per il riconoscimento di introni/esoni, promotori/terminatori
-isolare "in silico" sequenze ripetute (SSR); riconoscere e mascherare elementi ripetuti (CENSOR)
-analizzare/predire le modificazioni post-traduzionali presenti in una proteina
-allineare (LOCALE E GLOBALE) sequenze proteiche e nucleotidiche
-Disegnare primer per analisi PCR (specifici e degenerati)
Risultati inerenti l'analisi “Whole genome”
-Eseguire una analisi semplificata di assembly di sequenze (genoma/trascrittoma)
-Eseguire una analisi semplificata di SNP mining
-Eseguire una analisi semplificata di dati RNAseq
-Eseguire una analisi semplificata di dati microarray
-Eseguire una analisi dei dati di spettrometria di massa derivati da un analisi proteomica 2-DE
-Eseguire una analisi semplificata di annotazione mediante Blast2Go
- Oggetto:
Programma
- Introduzione alla bioinformatica.
- Introduzione al sistema operativo Linux (Ubuntu GUI e shell di comando)
- Comandi di base (cd, ls, cp, rm, rmd cat, grep, pipe, wc, etc), gestione permessi di un file
- Installazione pacchetti e programmi di bioinformatica
- Database primari, secondarie, archival, curated. Confrontro tra Refseq e Genbank, database proteici.
- Uso degli operatori Booleiani (AND, OR, NOT); Sistemi di RETRIEVAL (Entrez, SRS). Rudimenti di ricerca bibliografica in Web of Science e “Trova unito”
- Formati sequenze (descrizione e costruzione di file fasta e GBFF); Costruzione manuale di un file multi fasta; Visualizzazione e manipolazione cromatogrammi (sequence scanner e Bioedit); Sottomissione di sequenze (BANKIT); Formati sequenze NGS (illumina, 454 e Solid)
- Analisi delle sequenze di DNA; Traduzione concettuale e caratterizzazione degli elementi di una sequenza di DNA genomico e di cDNA; Utilizzo del pattern recognition per il riconoscimento di introni, esoni, di promotori e terminatori; Riconoscimento e mascheramento di elementi ripetuti (CENSOR); SSR mining (Sputnik, misa)
- Analisi delle sequenze proteiche; Identificazione di una proteina da elementi di sequenza; Analisi della sequenza; Modificazioni post-traduzionali; Predizione della struttura secondaria; strutture proteiche (PDB)
- Disegno di oligo per mezzo del software Primer3 (single gene, in batch)
- Ricerche per similarità. Allineamento locale (BLAST e le sue varianti). Allineamento globale (ClustalW di acidi nucleici e proteine).
- Manipolazione di SRA (Sequence Reads Archival) – SRA tools
- Assembly genomico e trascrittomico mediante MIRA3
- SNP mining con dati Sanger e formati NGS (454 e Illumina)
- Allineamenti di sequenza mediante BWA (Burrel wheeler aligner); Transcodifica di formati (Samtools)
- Analisi dati RNAseq mediante la suite Cufflinks; Analisi microarray (Genesis): clustering gerarchico e K-means;
- Analisi Proteomica (2DE) e spettrometria di massa; Analisi dei dati massa mediante Mascot
- Gene Ontology e arricchimenti nelle funzioni geniche: Blast2Go
- Silenziamento Genico (RNAi ): rilevamento di siRNA e di MiRNA Progettazione di costrutti siRNA
- Brevi richiami di statistica descrittiva. Brevi richiami sull’introduzione del calcolo delle probabilità. Stime puntuali, stime intervallari, intervalli di fiducia (confidence intervals)
- Popolazioni gaussiane (normali) e loro proprietà. Quantili. Problemi ed esempi di tipo biologico per popolazioni normali, uso dei relativi comandi Excel. Cenni su altre v.a. continue (t-Student, χ2)
- I test statistici: ipotesi nulla, significatività, potenza; il p-value. I test t-Student. Esempi e uso dei relativi comandi Excel.
Testi consigliati e bibliografia
- Oggetto:
:: INTRODUZIONE alla BIOINFORMATICA di Giorgio Valle, Manuela Helmer Citterich Marcella Attimonelli, Graziano Pesole (Zanichelli).
:: Per approfondimenti e integrazioni è fortemente consigliato l’utilizzo del materiale messo a disposizione dal docente durante il corso.
- Oggetto: