Statistica e bioinformatica

Oggetto:

Statistica e bioinformatica

Oggetto:

Anno accademico 2012/2013

Codice dell'attività didattica

INT0524

Docente

Dott. Alberto ACQUADRO (Affidamento interno)

Corso di studi

[f056-c502] LM - Biotecnologie vegetali

Anno

2° anno

Tipologia

B - Caratterizzante

Crediti/Valenza

SSD dell'attività didattica

SECS-S/02 - statistica per la ricerca sperimentale e tecnologica

Oggetto:

Obiettivi formativi

-conoscere i principali database bioinformatici sede di informazione biologica

-padroneggiare gli strumenti di "Sequence Retrieval" e gli strumenti di base per ricercare informazioni biologiche nei principali database.

-acquisire autonomia nell'utilizzo di algoritmi di ricerca e analisi (genomica, trascrittomica e proteomica) dell'informazione biologica sia utilizzando strumenti on-line che programmi in locale.

Oggetto:

Risultati dell'apprendimento attesi

Al termine del corso lo studente sarà in grado di utilizzare il sistema operativo Linux, analizzare una sequenza genica (“single gene”) e insiemi di sequenze (“whole genome”). Di seguito sono descritti i risultati nello specifico:

Risultati inerenti l'uso del sistema operativo Linux

-Utilizzare il sistema operativo Linux e i comandi base di Linux da shell (cd, ls, cp, rm, rmd cat, grep, pipe, wc, etc)

-Eseguire il download file, leggere e modificare i permessi di un file

-Installare i piu comuni programmi di bioinformatica (file binari, .sh, .deb)

-Eseguire delle analisi con i software MIRA, BWA, SamTools, Cufflinks

-Lanciare script Perl (.pl)

Risultati inerenti l'analisi “Single gene”

-Analizzare database primari e secondarie (archival, curated)

-Utilizzare gli operatori Booleiani (AND, OR, NOT) per il sistema genBank

-effettuare una ricerca bibliografica utilizzando le piattaforme: "Web of Science" (WoS), e NCBI (Entrez)

-Analizzare sequenze di DNA e proteiche dal punto di vista strutturale (primario e secondario);

-utilizzare algoritmi di pattern recognition per il riconoscimento di introni/esoni, promotori/terminatori

-isolare "in silico" sequenze ripetute (SSR); riconoscere e mascherare elementi ripetuti (CENSOR)

-analizzare/predire le modificazioni post-traduzionali presenti in una proteina

-allineare (LOCALE E GLOBALE) sequenze proteiche e nucleotidiche

-Disegnare primer per analisi PCR (specifici e degenerati)

Risultati inerenti l'analisi “Whole genome”

-Eseguire una analisi semplificata di assembly di sequenze (genoma/trascrittoma)

-Eseguire una analisi semplificata di SNP mining

-Eseguire una analisi semplificata di dati RNAseq

-Eseguire una analisi semplificata di dati microarray

-Eseguire una analisi dei dati di spettrometria di massa derivati da un analisi proteomica 2-DE

-Eseguire una analisi semplificata di annotazione mediante Blast2Go

Oggetto:

Programma

- Introduzione alla bioinformatica.

- Introduzione al sistema operativo Linux (Ubuntu GUI e shell di comando)

- Comandi di base (cd, ls, cp, rm, rmd cat, grep, pipe, wc, etc), gestione permessi di un file

- Installazione pacchetti e programmi di bioinformatica

- Database primari, secondarie, archival, curated. Confrontro tra Refseq e Genbank, database proteici.

- Uso degli operatori Booleiani (AND, OR, NOT); Sistemi di RETRIEVAL (Entrez, SRS). Rudimenti di ricerca bibliografica in Web of Science e “Trova unito”

- Formati sequenze (descrizione e costruzione di file fasta e GBFF); Costruzione manuale di un file multi fasta; Visualizzazione e manipolazione cromatogrammi (sequence scanner e Bioedit); Sottomissione di sequenze (BANKIT); Formati sequenze NGS (illumina, 454 e Solid)

- Analisi delle sequenze di DNA; Traduzione concettuale e caratterizzazione degli elementi di una sequenza di DNA genomico e di cDNA; Utilizzo del pattern recognition per il riconoscimento di introni, esoni, di promotori e terminatori; Riconoscimento e mascheramento di elementi ripetuti (CENSOR); SSR mining (Sputnik, misa)

- Analisi delle sequenze proteiche; Identificazione di una proteina da elementi di sequenza; Analisi della sequenza; Modificazioni post-traduzionali; Predizione della struttura secondaria; strutture proteiche (PDB)

- Disegno di oligo per mezzo del software Primer3 (single gene, in batch)

- Ricerche per similarità. Allineamento locale (BLAST e le sue varianti). Allineamento globale (ClustalW di acidi nucleici e proteine).

- Manipolazione di SRA (Sequence Reads Archival) – SRA tools

- Assembly genomico e trascrittomico mediante MIRA3

- SNP mining con dati Sanger e formati NGS (454 e Illumina)

- Allineamenti di sequenza mediante BWA (Burrel wheeler aligner); Transcodifica di formati (Samtools)

- Analisi dati RNAseq mediante la suite Cufflinks; Analisi microarray (Genesis): clustering gerarchico e K-means;

- Analisi Proteomica (2DE) e spettrometria di massa; Analisi dei dati massa mediante Mascot

- Gene Ontology e arricchimenti nelle funzioni geniche: Blast2Go

- Silenziamento Genico (RNAi ): rilevamento di siRNA e di MiRNA Progettazione di costrutti siRNA

- Brevi richiami di statistica descrittiva. Brevi richiami sull’introduzione del calcolo delle probabilità. Stime puntuali, stime intervallari, intervalli di fiducia (confidence intervals)

- Popolazioni gaussiane (normali) e loro proprietà. Quantili. Problemi ed esempi di tipo biologico per popolazioni normali, uso dei relativi comandi Excel. Cenni su altre v.a. continue (t-Student, χ2)

- I test statistici: ipotesi nulla, significatività, potenza; il p-value. I test t-Student. Esempi e uso dei relativi comandi Excel.

Descrizione

Testi consigliati e bibliografia

Oggetto:

:: INTRODUZIONE alla BIOINFORMATICA di Giorgio Valle, Manuela Helmer Citterich Marcella Attimonelli, Graziano Pesole (Zanichelli).

:: Per approfondimenti e integrazioni è fortemente consigliato l’utilizzo del materiale messo a disposizione dal docente durante il corso.

Oggetto: