Bio informatica Eline van Overbeeke 2011-2012



Vergelijkbare documenten
2019 SUNEXCHANGE USER GUIDE LAST UPDATED

Firewall van de Speedtouch 789wl volledig uitschakelen?

Het beheren van mijn Tungsten Network Portal account NL 1 Manage my Tungsten Network Portal account EN 14

Find Neighbor Polygons in a Layer

Standard Parts Installatie Solid Edge ST3

Settings for the C100BRS4 MAC Address Spoofing with cable Internet.

Veel gestelde vragen nieuwe webloginpagina

Activant Prophet 21. Prophet 21 Version 12.0 Upgrade Information

DAR Approximate string matching Casus: biological sequence alignment

Genetic code. Assignment

SAMPLE 11 = + 11 = + + Exploring Combinations of Ten + + = = + + = + = = + = = 11. Step Up. Step Ahead

Zo kan je linken maken tussen je verschillende groepen van gegevens.

CBSOData Documentation

ICARUS Illumina E653BK on Windows 8 (upgraded) how to install USB drivers

LDAP Server on Yeastar MyPBX & tiptel 31xx/32xx series

Hoe te verbinden met NDI Remote Office (NDIRO): Apple OS X How to connect to NDI Remote Office (NDIRO): Apple OS X

How to install and use dictionaries on the ICARUS Illumina HD (E652BK)

Hoe met Windows 8 te verbinden met NDI Remote Office (NDIRO) How to connect With Windows 8 to NDI Remote Office (NDIRO

FOR DUTCH STUDENTS! ENGLISH VERSION NEXT PAGE. Toets Inleiding Kansrekening 1 8 februari 2010

open standaard hypertext markup language internetprotocol transmission control protocol internet relay chat office open xml

Blackboard Toetsvragen maken in Word

Introductie in flowcharts

L.Net s88sd16-n aansluitingen en programmering.

Selenium IDE Webdriver. Introductie

Introduction to Compgenomics Part II. Lee Katz January 13, 2010

Om de toegang te krijgen tot de. download het programma.

Shipment Centre EU Quick Print Client handleiding [NL]

Demultiplexing reads FASTA format genome sequencing reads run

Intermax backup exclusion files

Beknopte handleiding voor de concordancer WordSmith en WConcord

EmbroideryDesign Store

Handleiding Zuludesk Parent

Handleiding Installatie ADS

ATOS Viewer for Dental Frameworks User Manual

L.Net s88sd16-n aansluitingen en programmering.

Y.S. Lubbers en W. Witvoet

EM7680 Firmware Update by OTA

6.8 Lijsten: oefeningen

DBMS. DataBase Management System. Op dit moment gebruiken bijna alle DBMS'en het relationele model. Deze worden RDBMS'en genoemd.

SPSS VOOR DUMMIES+ Werken met de NSE: enkele handige basisbeginselen. Gebaseerd op SPSS21.0 & Benchmarkbestand NSE 2014

Denit Backup instellen op een Linux server

EM6250 Firmware update V030507

Installatie instructies

Databases - Inleiding

Databank - Basis 1. Inhoud. Computervaardigheden en Programmatie. Hoofdstuk 4 Databank - Basis. Terminologie. Navigeren door een Venster

EM4594 Firmware update

Technische nota AbiFire5 Rapporten maken via ODBC

Deel 2: Endnote bibliografische software gebruiken als databasemanager en editor

1. Document Management

Bioinformatica tentamen D1 voor 2MNW, 3I, 3PHAR op vrijdag 31 maart 2006 van uur in zaal Q105

Gebruikers handleiding. Lizard Configuration Manager ToolTip. Installatie. Instellen. Initieel instellen

MyDHL+ Van Non-Corporate naar Corporate

FOR DUTCH STUDENTS! ENGLISH VERSION NEXT PAGE

Technische nota AbiFire Rapporten maken via ODBC

ANGSTSTOORNISSEN EN HYPOCHONDRIE: DIAGNOSTIEK EN BEHANDELING (DUTCH EDITION) FROM BOHN STAFLEU VAN LOGHUM

Stap 1: Registreer via de link op de G-schijf beschikbaar na inloggen met de teken-account, verzend via Submit. Nadien krijg je een bevestiging op

Inhoudsopgave: Whisper380-computerhulp

Hoe kan ik referenties uit een bibliografische database in Reference Manager importeren?

CBSOData Documentation

Handout bij de cursus RefWorks

Bitrix Site Manager gebruikershandleiding BureauZuid

Badge it. Inhoudsopgave. 1. Installatie... 3

CENTEXBEL CLIENTS WEB

Installatie SQL Server 2014

PubMed MyNCBI attendering en andere functies

ContentSearch. Deep dive

ARCHIEFBEHEER. Basis gebruikersgids. > RS-Web

Hoe te werken met Word en SmarTeam?

2.9 Tabellen: oefeningen

Auteur boek: Vera Lukassen Titel boek: Excel Gevorderden 2010 Engels

/ /

TaskCentre Web Service Connector: Creëren van requests in Synergy Enterprise

Solcon Online Backup. Aan de slag handleiding voor Linux

Programmeren. Cursus Python

Calculator spelling. Assignment

Handleiding Kaltura via Blackboard

FAAC DRIVER. Driver install procedure for FAAC boards. Installatieprocedure voor driver voor FAAC-kaarten.

NCTS - INFORMATIE INZAKE NIEUWIGHEDEN VOOR 2010

DALISOFT. 33. Configuring DALI ballasts with the TDS20620V2 DALI Tool. Connect the TDS20620V2. Start DALISOFT

MA!N Rapportages en Analyses

SQL is opgebouwd rond een basisinstructie waaraan één of meerdere componenten worden toegevoegd.

1. Voor het installeren wordt geadviseerd een backup te maken van uw database en bestanden.

Git & RobotLib. Contents. De source is: ( )

FOR DUTCH STUDENTS! ENGLISH VERSION NEXT PAGE. Toets Inleiding Kansrekening 1 22 februari 2013

Installatie SQL: Server 2008R2

Datum 15 juni 2006 Versie Exchange Online. Handleiding voor gebruiker Release 1.0

Bij het maken van deze opgave worden de volgende vragen beantwoord:

MyDHL+ ProView activeren in MyDHL+

Automating Complex Workflows using Processing Modeler

Engels op Niveau A2 Workshops Woordkennis 1

Documentatie Nederlands v1

Handleiding Kaltura via Blackboard

Uitleg site maken. Stap 2) Nu kiezen we de lay-out. Je kunt het aantal kolommen kiezen. Je kiest nu de eerste. Maar dit kun je later veranderen

Add the standing fingers to get the tens and multiply the closed fingers to get the units.

FOR DUTCH STUDENTS! ENGLISH VERSION NEXT PAGE

Tools voor itemanalyse

CENTEXBEL CLIENT WEB

Wat is nieuw in Enterprise Guide

Transcriptie:

Bio informatica Eline van Overbeeke 2011-2012 Biologische databanken = archieven met consistente data die worden opgeslagen op uniforme en efficiënte manier 2 soorten: Primaire / archiefdatabank Bevatten informatie en annotatie van DNA en proteïnesequenties, DNA en proteïnestructuren en DNA en proteïne expressieprofielen Secundaire / afgeleide databanken Bevatten resultaten van analyses op primaire bronnen, inclusief informatie over sequentiepatronen of motieven, polymorfismen en mutaties, en evolutionaire verwantschappen Data analyse = extraheren van betekenisvolle informatie uit massa gegevens Databanken Nucleotide sequence databases Nucleotide sequence databases = collectie van alle publiek beschikbare nucleotidesequenties Vb: EMBL, NCBI Flatfile Flatfile = tekstbestand met karakters zonder opmaak Genbank formaat 3 componenten: Header: algemene informatie Features: hoofdkenmerken CDS / Coding Sequence: join ( X Y ) geeft aantal exonen X = base waar exon start Y = base waar exon eindigt Sequentie Bevat ook vaak een tabel/grafiek 1

FASTA formaat 3 componenten: > : duidt aan waar nieuwe sequentie begint Sequence identifier: unieke code Sequentie NCBI NCBI = National Center for Biotechnology Information Exercise 1 NCBI-notepad-artemis Find publication in PubMed with ID 8663200 Ga naar pubmed, laat database op pubmed staan en geef 8663200 in. Geeft: Alternatively spliced transcripts from the Drosophila eif4e gene produce two different Cap-binding proteins. Go to nucleotide via links Klik rechts onderaan op nucleotide Geeft: Drosophila melanogaster eukaryotic initiation factor 4E (eif4e) gene, alternative splice products, complete cds GenBank: U54469.1 Display Fasta, GenBank, and Graphics Te veranderen links boven aan bij siplay settings Download GenBank formatted flatfile Klik op send complete record, file, Genbank opslaanals txt file.. door bij computer dit file te selecteren en bij organize: change name Open NotePad++ (computers ghb: notepad) Open de file Visualize/edit/analyze a GenBank-formatted sequence file locally: Example: open the GenBank file with the Artemis software - launch Artemis using Java Web Start Google: artemis sanger eerste link Klik op download Artemis for windows Open nu de file door naar file manager te gaan en op all files te klikken, hierna kan je de file zoeken in je bastanden en openen. - Select CDS for product 4E-II and Create->Exon Features Nu boven aan: Select al CDS features Create exon features Artemis has some basic sequence analysis features - example: plot the GC Content (%) along the sequence Bovenaan: graph GC Content % 2

In Artemis you can also create new features and edit features Aanmaak nieuw exon feature van kleinste exon Create: New Feature Key: exon Location: 201.. 224 EMBL EMBL = European Molecular Biology Laboratory Verschil met GenBank: indeling EMBL ook bruikbaar in Artemis Exercise 2 Find the corresponding record in the EMBL nucleotide sequence database Download in EMBL format Ga naar EMBL via google.. typ in de bovenste balk bij EMBL 8663200 Klik op Nucleotides Sequences Klik op in EMBL format Weer opslaan als txt, kan weer openen in artemis What are the differences between GenBank and EMBL format? GENBANK EMBL 3

RefSeq RefSeq = gecureerde secundaire database met als doel een begrijpbare, geïntegreerde, non redundante set van sequenties aan te bieden Doel: referentiesequentie voor elk molecule in centraal dogma DNA, RNA en proteïnen Nucleotide en proteïnesequenties zijn expliciet gelinked Distinct accession number: 2 letters _ 6 cijfers 2 types: - NT / NM / NP: genomic contigs - XM / XP: voorspellingen http://www.ncbi.nlm.nih.gov/refseq/key.html#query = site van refseq, geeft ook informative over het gebruik. Exercise 3 Restrict Entrez query to RefSeq collection http://www.ncbi.nlm.nih.gov/refseq/key.html#query Use Limit in Entrez How many alternative transcripts are known today for Drosophila melanogaster eif-4e? Ga naar NCBI, database: gene. Geef in: eif-4e Ga naar limits: - include: enkel refseqs - D. Melanogaster search klik op eerste link - i.e., how many different RefSeqs? 7, helemaal onderaan te zien bij refseqs Go back to original publication of exercise 1 and use thelink RefSeq Pubmed: 8663200 Klik onderaan op nucleotides(refseq) Ook 7 resultaten 4

Protein sequence databases Kunnen vertaald worden uit nucleotidesequenties Worden bekomen door translatie van nucleotidesequenties. Daarom zijn secundaire databanken. Er zijn 2 types : -sequence repositories ( sequentie opslagplaats) ; data ligt opgeslagen met weinig of geen manuele tussenkomst vb. GenPept -curated databases ; experts beheren de originele data door toevoegen van nieuwe informatie vb. RefSeq, Uniprot Uniprot Uniprot = eiwit - referentie Uniprot heeft 2 onderdelen: -Swiss-Prot: handmatig becommentarieerde verslagen, gebaseerd op informatie van de literatuur of beheerste, geëvalueerde computeranalyse. -TrEMBL: Computer analyse verslagen die nog handmatig becommentarieerd moeten worden. (info in verband met een proteïne in de databank bij dat proteïne zetten.) Exercise 4a Find the human hemoglobin alpha protein in Uniprot what is the entry name? Google: uniprot Laat UniProtKB staan query: human hemoglobin alpha protein Geeft lijst met overeenkomstige proteïnen Zoeken naar de juiste geeft: HBA_HUMAN Look at the different sections of information in Swiss-Prot Klik op de entry P69905 Names General annotation (comments) Ontologies Interactions Sequence annotation (Features) References Cross-references (e.g., to 3D structure, etc) Look at the flatfile ( Text ) Rechtsbovenaan staan de files: txt What other formats are available? Naast txt: xml, rdf/xml, gff en fasta 5

GFF format Vb. van GFF format Een GFF format telt 10 kolommen FASTA en GFF horen samen GFF = general feature format, gene-finding format en generic feature format GFF is een file formaat die wordt gebruikt voor het beschrijven van genen en andere kenmerken van DNA, RNA en eiwitsequenties. Men herkent deze documenten aan.gff. Exercise 4b Save FASTA sequence of human hemoglobin alpha protein from UniProt Zoek human hemoglobin alpha protein van UniProt en open in FASTA file, opslaan als.txt Save GFF formatted list of features Openen als GFF, opslaan als.txt Load FASTA into Artemis and add GFF features Use File->Read an entry.. Open de fasta file weer via file manager, all files Via read an entry de GFF file toevoegen Exercise 4c The DCC gene has a role in cellular differentiation and colorectal tumorigenesis (Hedrick et al. 1994) find the paper in PubMed Kopieren en plakken in pubmed based on the Swiss-Prot entry for the DCC precursor,which residues comprise the signal sequence? Klik op protein (refseq), hier staan nu onderaan overeenkomende eiwitten, Eiwitten met een P zijn swissprot eitwitten RecName: Full=Netrin receptor DCC; AltName: Full=Colorectal cancer suppressor; AltName: Full=Immunoglobulin superfamily DCC subclass member 1; AltName: Full=Tumor suppressor protein DCC; Flags: Precursor UniProtKB/Swiss-Prot: P43146.2 6

Specialized databases Entrez Gene Entrez Gene = centrale gendatabank waarin kenmerken van genen van verschillende organismen zijn opgeslagen Organismen: mens, muis, rat, fruitvlieg, zebravis Opbouw: Summary Beknopte informatie gen Grafische weergave Genomic context Genomic regions, transcripts, and products Bibliography GeneRIF / Gene Reference Into Functions: geeft zinnen weer die informatie bevatten over gen Interactions Interacties met andere genen General gene information Gene Ontology: - Function: moleculaire functie gen - Process: proces waarin gen betrokken is - Component: locatie gen 7

NCBI Reference Sequences (RefSeq) Aantal RefSeqs Model organism databases Model organism databases = specifieke databanken voor welbepaalde organismen Soorten: MGI / Mouse Genome Informatics RGD / Rat Genome Database FlyBase (Drosophila melanogaster) WormBase (C. Elegans) SGD / Saccharomyces Genome Database (Gist) Ecogene (E. coli) Gene Ontology Gene Ontology = beschrijving genproducten in termen van hun geassocieerde biologische processen, cellulaire componenten en moleculaire functies op een soort onafhankelijke manier annotation of genes and proteins in genomic and protein databases Gene Ontology: geen vlakke lijst biologische termen Termen zijn gerelateerd binnen hiërarchie DAG: Directed Acyclic Graph Termen kunnen meer dan 1 ouder hebben Termen kunnen 0, 1 of meer kinderen hebben Structuur: Cellular component Waar genproduct werkt Enzymcomplexen refereren naar plaatsen Niet naar activiteiten Molecular function Activiteiten genproduct Mogelijk meerdere functies Set van functies: biologisch proces Biological process Algemeen herkenbare serie van gebeurtenissen Annotatie = categorisatie genproducten 8

GO databases: - FlyBase (Drosophila) - MGI (Mouse) - SGD (S. cerevisae) - TAIR (Arabadopsis) - TIGR (microbes including prokaryotes) - SWISS-PROT (several thousand species inc. human) - PSU (P. falciparum) - ZFIN (zebrafish) - PAMGO (plant pathogens) GO is a member of OBO: An umbrella project for grouping different ontologies in biological/medical field - a repository for ontologies with defined set of standards - Available from a single source: http://obo.sourceforge.net/ To be part of OBO, ontologies must: - Be open, can be used by all without any constraint - Be in a common shared syntax - Not overlap with other ontologies in OBO - Share a unique identifier space - Include text definitions of their terms 9

GO exercise Find the GO annotation of the human PAX6 in UniProtKB, mouse Pax6 in MGI, and fly ey in Flybase. What is the function of PAX6/Pax6/ey? Is it conserved? Uniprot PAX6: Klik op het humane protein en ga helemaal onder aan naar GO Klik op Complete GO annotation... MGI mouse pax6: Ga naar MGI, zoek pax6 en klik op dit eerste, ga nu naar Gene Ontology(GO) classifications Flybase fly ey: ga naar flybase geef ey in en klik op genen.. klik op de eerste: Zoek nu Gene Ontology: Function, Process & Cellular Component ( 22 unique terms ) In which developmental process is PAX6/Pax6/ey involved? Is that also conserved? What is the cellular localization of PAX6/Pax6/ey? Search for PAX6 at www.geneontology.org which organism has the most associations? Via gene or protein name Rattus norvegicus Search for cardiac development at www.geneontology.org - What is the correct GO term and identifier? -zoek cardiac development op GO -correcte GO term (hier: heart development) en identifier zoeken (hier: 0007507). -klik op view in tree en zet filters op homo sapiens voor mens en mus musculus voor muis - How many human gene products are known to be involved in cardiac development? And how many mouse gene products? 1. Filter lineage gene product counts: species H. sapiens: 238 gene products M. musculus: 295 gene products - How many GO terms are direct child terms of cardiac development? - Download all associations in a tab delimited text file 3119 gene product associations tab delimited file OMIM Exercise How many genes are associated with Huntington Disease (HD), with Alzheimer Disease (AD) and with Parkinson Disease (PD)? OMIM via pubmed MIM ID #104300 ALZHEIMER DISEASE; AD 16 #143100. HUNTINGTON DISEASE; HD 1 #168600. PARKINSON DISEASE, LATE-ONSET; PD 4 10

Genomic databases UCSC UCSC Genome Browser: genomische annotatie in de vorm van tracks Elke track geeft ander kenmerk weer Vb: SNP s, genen, Sommige tracks: aanwezig voor alle species Vaak ook soort specifieke tracks Opzoekingen: Genome Browser / Genome Belangrijke eigenschappen: Breedste banden = exonen Dunste banden = intronen Kleurcodes: - Zwart: corresponderende PDB / Protein Data Bank entry - Donkerblauw: corresponderende gevalideerde sequentie - Lichtblauw: niet RefSeq sequentie Annotation track menu: opties Hide: verwijdert track uit beeld Dense: alle items worden op 1 regel geplaatst 11

Squish: elk item op een aparte regel, maar efficiënt gestapeld op 50 % van de grootte Pack: elk item op een aparte regel, maar efficiënt gestapeld op 100 % van de grootte Full: elk item op een aparte regel DNA sequentie: Genome Browser: DNA Bevat Extended Case / Color Options Genome Browser: track Description and Page Index: Sequence and Links Sequence and Links to Tools and Databases: Genomic Sequence Exercises UCSC Genomes Search for TP53, and download genomic sequence of longest transcript, including 5 UTR, CDS exons, 3 UTR, and introns (using DNA ) (UCSC tutorial) Zoek TP53 in UCSC.. klik op langste transcript, nu staat hier onder Sequence and Links to Tools and Databases: Genomic Sequence (chr17:7,571,720-7,590,863) Klik hierop, 5 UTR, CDS exons, 3 UTR, and introns laten staan. Selecteer all uppercase (alles in hoofdletters) Download nu Obtain 10kb upstream sequence of ADAM10 (Baxevanis) Doe hetzlefde als bij TP53, nu alleen upstream en downstream laten staan met 10000. Weer all upercase.. download goto location on chromosome 3 around 120,564,000-120,610,000 (Human Mar 2006 assembly) - which gene is located there? Begin op begin pagina van ucsc genomes.. typ daar chr3-120,564,000-120,610,000 en selecteer Mar 2006 CDGAP ligt hier 12

- which genes are upstream and downstream of this gene? Zoom out: TMEM39A en B4GALT4 Find Drosophila eif-4e from the previous class Insect, D.melanogaster, eif-4e - Can you find back the 7 RefSeqs? Ja bij refseq genes in tabel.. zijn er 7 - Are there UCSC genes annotated in the Drosophila genome? Nee More exercises Genome Browsing Find a coding exon of TP53 that is more than 250 bp long TP53, inzoomen op langste exon How many non-synonymous coding SNPs are known in this exon? 13

Retrieve the DNA sequence of this exon Klik op DNA, get DNA CCGTGCAAGTCACAGACTTGGCTGTCCCAGAATGCAAGAAGCCCAGACGG AAACCGTAGCTGCCCTGGTAGGTTTTCTGGGAAGGGACAGAAGATGACAG GGGCCAGGAGGGGGCTGGTGCAGGGGCCGCCGGTGTAGGAGCTGCTGGTG CAGGGGCCACGGGGGGAGCAGCCTCTGGCATTCTGGGAGCTTCATCTGGA CCTGGGTCTTCAGTGAACCATTGTTCAATATCGTCCGGGGACAGCATCAA ATCATCCATTGCTTGGGACGGCAAGGGGGACTGTA Design primers to amplify this exon using Primer3 Ga een stapje terug, klik op extended DNA Case/Color Options Ga naar primer3plus en plak sequentie hierin Klik rechtsbovenaan op pickprimers 14

Test whether these primers generate a unique amplicon, using in silico PCR ga naar UCSC en klik op PCR. Sequentie van forward en reverse primer er naar kopiëren En submit 15

More exercises Genome Browsing human PCNA how many different transcripts? 2 how many proteins? 9 any regulatory elements annotated? - use ORegAnno track (use hg18 assembly) ORegAnno track onder regulqtion op dense zetten Er zijn er 3 16

More exercises Genome Browsing Find the signal peptide sequence of human DCC and use BLAT to locate this sequence in the human genome Ga naar uniprot: zoek DCC, zoek human: P43146DCC_HUMAN how many hits does BLAT give? scroll naar beneden tot sequence annotation signal peptide (op 1-25 klikken) Ga nu naar UCSC kopieer de sequentie van uniprot naar BLAT van ucsc en klik op submit 1 hit Als je nu op browser klikt krijg je genome browser If you BLAT the same sequence against the mouse genome, do you also find a hit? Ga 1 klik terug vanaf je BLAT results, geef nu mouse in ipv human Ook 1 hit. 17

Ensembl Ensembl: onafhankelijke genannotatie Ensembl exercise Ensembl does independent gene annotation Ensembl genes (e.g., ENSG... for human) How many transcripts does Ensembl predict for the human gene ACHE? Ga naar ensemble, geef ACHe en human in 15 transcripts Ensembl is good for orthologue predictions (reciprocal BLAST, see later) Exercise: Find the mouse orthologue of the human SSBP4 Ensembl All species: SSBP4 By Feature Type Gene: Homo sapiens (1) Artikel: SSBP4 Zijbalk: Comparative Genomics Orthologues Zoeken naar Mouse: Ssbp4 Does this gene have paralogues? 2 18

Database structures 3 grote structuren: Flatfile indexing system Geïndexeerde opslag in directories Vb: GenBank Relational database SQL / Structured Query Language Vb: GO, UCSC GUI / Graphical User Interface Web based (HTML) en meer geavanceerde dynamische programmering Flatfile database Flatfile database = geordende verzameling van gelijkaardige files, meestal geconformeerd naar een standaardformaat voor hun inhoud Doel indexering: optimale snelheid en kwaliteit in zoeken Extraheren specifiek attribuut uit file Koppeling aan naam en locatie Voorbeeld Voorbeeld flatfile database: Probleem: enkel informatie in welk document woord voorkomt Geen informatie over frequentie / positie woord Boolean index Relational database Relational database = opslag informatie in verzameling tabellen (relations), waarbij reeksen overeenkomen met individuele records (tuples) en de kolommen met attributen Software: MySQL SQL / Structured Query Language = database computertaal ontworpen voor het ophalen en beheer data in relationele database managementsystemen, aanmaak en modificatie databaseschema s en database object access control management 19

3 tier architectuur 3 niveau s in architectuur: Client / Presentation tier Eigen computer / software Business Logic tier Presentation tier: informatie verkrijgen Data tier: informatie toevoegen / wijzigen Data tier UCSC Table Browser Table Browser: In the Human genome, search for simple repeats on a chromosome 4 location with copy number more than 10 and download the sequence. (UCSC tutorial) 1. UCSC Genome Browser Tables: Table Browser Eigenschappen: - Genome: Human - Group: Variation and Repeats - Track: Simple Repeats - Table: simplerepeat - Region Position: chr4 20

2. Filter: Create Filter on Fields from hg19.simplerepeat CopyNum: > 10 Submit 3. Output format: Sequence Get output: Simple Repeats Genomic Sequence Get sequence 21

Find simple repeats (copy number > 10) within known genes and download the sequence (UCSC tutorial) Intersection: Create Intersect with Simple Repeats All Simple Repeats records that have any overlap with UCSC genes Submit 22

Output format: Sequence Get output: Simple Repeats Genomic Sequence Get sequence 23

How many genes are located between the STS markers SWXD113 anddxs52? UCSC Genome Browser: SWXD113 Submit SWXD113: STS Marker SWXD113 Coördinaten opschrijven: chrx:138,543,949-138,744,169 24

UCSC Genome Browser: DXS52 Submit DXS52: STS Marker DXS7083 Coördinaten opschrijven: chrx:151,897,379-152,097,452 UCSC Genome Browser Tables: Table Browser Eigenschappen: - Group: Genes and Gene Prediction Tracks - Table: knowngene - Region Position: chrx:138643949-151997542 Summary / Statistics: UCSC Genes (knowngene) Summary Statistics Item count: 247 25

Table Browser Download FASTA file containing all human 3 UTR sequences UCSC Genome Browser Tables: Table Browser Eigenschappen: - Group: Genes and Gene Prediction Tracks - Table: knowngene - Region: genome - Output format: sequence Get output: Select sequence type for UCSC Genes Genomic: Submit UCSC Genes Genomic Sequence 3 UTR Exons: Get sequence Download FASTA file containing all human 1kb proximal promoters UCSC Genome Browser Tables: Table Browser Eigenschappen: - Group: Genes and Gene Prediction Tracks - Table: knowngene - Region: genome - Output format: sequence Get output: Select sequence type for UCSC Genes Genomic: Submit UCSC Genes Genomic Sequence Promot/upstream by 1000: Get sequence 26

Data analyse Classificaties Biologische classificatie Analysis at nucleotide level: Predictive methods using DNA sequences Predictive methods using RNA sequences SNP / Single Nucleotide Polymorphism Analysis at protein level: Predictive methods using protein sequences Analysis of biological networks Interfering relationships: Pairwise sequence similarity Multiple sequence alignment Phylogenetic analysis Comparative genomics DNA microarrays to assay gene expression Proteomics and protein identification Technische classificatie Web based tools Draaien op server en beschikbaar via HTML interface Stand alone tools 2 opties: - Lokaal downloaden en installeren - Direct starten vanaf webpagina door Java Web Start Vb: Artemis Command line scripts en programma s in Linux Bediening via CLI / Command Line Interface in Linux Vb: Emboss Spreadsheet software Vb: Microsoft Excel, OpenOffice Calc 27

OS / Operating System OS / Operating System: behandelt low level processen die hardware doen samenwerken Functies: Voorziet omgeving waarin programma s kunnen worden ontwikkeld / gebruikt Voorziet makkelijke toegang tot files en programma s Unix Unix = OS van het World Wide Web Multi user system: networking, multitasking, security Linux Linux = open source versie van Unix Principe: CLI / Command Line Interface Interactie met OS of software door typen commando s Functies CLI: Uitvoeren Command Line Programs / Scripts Ontleding tekstfiles Sorteren en knippen van informatie Programma s in batch runnen SSH / Secure Shell: verbonden aan Unix machine F Secure SSH Client (LUDIT) Inloggen: - IP adres: 10.33.126.50 - Username: user179 - Paswoord: user179 Thuis: inloggen op netwerk Link: http://extranet.kuleuven.be Na login: connectie maken met Linux server 28

Belangrijke commando s Commando ls ls l ls lt cd Output Weergave inhoud directory Inhoud directory met informatie over naam, grootte, auteur Inhoud directory gesorteerd op datum van aanmaak Home directory van huidige directory cd.. Parent directory van huidige directory mkdir Creëert subdirectory in huidige directory cat Commando more head Weergave inhoud file Output Weergave inhoud file met pauze op einde vol scherm en vraag om op toets te drukken Weergave eerste aantal regels in file tail grep sort Weergave laatste aantal regels in file Selectie alle regels in file die zoekterm bevatten Alfabetische rangschikking sort n cut f man Numerieke rangschikking Knippen geselecteerde velden uit elke regel van file Linux manual Creatie complexere commando s q Quit clear Schoonvegen scherm wc l Telt woorden in file 29

1. F Secure SSH Client: man who ( q ) Output: manual entry voor who 2. F Secure SSH Client: clear Output: leeg scherm 3. F Secure SSH Client: echo 5+4 bc Output: oplossing berekening 30

Exercise linux Download a tab delimited file containing all annotated genes involved in the regulation of the cell cycle (using Gene Ontology), across species. Copy this file to your home account on the linux server: Use file transfer window (yellow button in F-Secure SSH client software) Note:from a terminal under linux or Mac OS use secure copy scp cellcyclegenes.txt 10.33.126.50: try in your home dir: cat cellcyclegenes.txt wc -l less cellcyclegenes.txt cat cellcyclegenes.txt grep MGI cat cellcyclegenes.txt grep Ccnd cat cellcyclegenes.txt grep -i Ccnd cat cellcyclegenes.txt grep MGI grep Ccnd > ccnd_mouse.txt cat cellcyclegenes.txt sort -k3 cat cellcyclegenes.txt cut -f7 sort -u cat cellcyclegenes.txt grep IDA grep MGI grep cyclin Gene Ontology GO term or ID: cell cycle Term Search Results GO:0007049 Artikel: cell cycle 31

Term Neighborhood for cell cycle GO:0007049 Filter lineage gene product counts Species: M. musculus Gene products Gene Product Associations to cell cycle: Gene Association Format Opslaan als.txt file F Secure SSH Client: New File Transfer Window Sleep bestand naar Linux F Secure SSH Client: cat cellcycle.txt wc l 32

F Secure SSH Client: less cellcycle.txt F Secure SSH Client: cat cellcycle.txt grep MGI F Secure SSH Client: cat cellcycle.txt grep Ccnd F Secure SSH Client: cat cellcycle.txt grep -i Ccnd Output: case insensitive zoekopdracht 33

F Secure SSH Client: cat cellcycle.txt grep MGI grep Ccnd > ccnd_mouse.txt Aanmaak file in directory F Secure SSH Client: cat cellcycle.txt sort k3 F Secure SSH Client: cat cellcycle.txt grep MGI cut f3 sort u wc l 34

Emboss EMBOSS = European Molecular Biology Open Software Suite Inloggen: F Secure SSH Client Web interface Link: http://10.33.126.50/emboss Emboss exercise 1 accession L07770 download EMBL or GB formatted file, and name it xlrhodop.embl man seqret seqret (type seq then press tab key for tab completion) seqret xlrhodop.embl -outseq l07770.fasta -feature cat l07770.gff showfeat xlrhodop.embl: how many CDS features? infoseq xlrhodop.embl: how long, what is GC content? download EMBL or GB formatted file for accession number U23808 extract FASTA and GFF using seqret EMBL Nucleotide Sequence Database: accession number L07770 View in EMBL format Opslaan als.embl file 35

1 e manier: F Secure SSH Client F Secure SSH Client: seqret sequence L07770.embl outseq l07770.fasta feature F Secure SSH Client: cat l07770.gff F Secure SSH Client: cat l07770.fasta F Secure SSH Client: showfeat sequence L07770.embl outfile L07770_showfeat.txt F Secure SSH Client: cat L07770_showfeat.txt Aantal CDS features: 1684 F Secure SSH Client: infoseq sequence L07770.embl outfile L07770_infoseq.txt F Secure SSH Client: cat L07770_infoseq.txt GC content: 45, 72 % 36

2 e manier: EMBOSS Web Interface : google: emboss explorer EMBOSS Web Interface Edit: Seqret Upload L07770.embl Run Seqret EMBOSS Web Interface Display: Showfeat Upload L07770.embl Run Showfeat 37

EMBOSS Web Interface Information: Infoseq Upload L07770.embl Run Infoseq 38

Exercise emboss 2 retrieve the sequence of the last coding exon of C.elegans gene mec-8 translate this sequence using transeq (Emboss) how many nucleotides (use cat, pipe and wc) reverse complement this sequence (revseq) UCSC Genome Browser: mec 8 Clade: Nematode Genome: C. elegans Submit RefSeq Genes: mec 8 Inzoomen op laatste coderende exon DNA: Get DNA Opslaan als.txt file 39

Zorg ervoor dat je in notepad alles rond de sequentie weghaalt 1 e manier: F Secure SSH Client F Secure SSH Client: transeq sequence Mec8.txt outseq Mec8_transeq.pep F Secure SSH Client: cat Mec8_transeq.pep user179@teach-srv-01:~$ cat mec8_transeq.pep wc 3 3 109 Dus 109 nucleotides F Secure SSH Client: revseq sequence mec8.txt outseq Mec8_revseq.txt F Secure SSH Client: cat Mec8_revseq.txt 40

1. 2 e manier: EMBOSS Web Interface EMBOSS Web Interface Nucleic Translation: Transeq Upload Mec8.txt Run Transeq 2. EMBOSS Web Interface Edit: Revseq Upload Mec8.txt Run Revseq 41

Predictive methods using DNA sequences Genoom sequenced en geassembleerd: lokaliseren proteïnecoderende genen Moeilijker in eukaryoten: Grotere afstanden tussen naburige genen Exon intronstructuur is moeilijk te voorspellen Huidige computermethodes: niet sterk genoeg Geen precieze voorspelling genstructuur grote sequentie Gevolg: terugvallen op compositional bias Indien geen bijkomende informatie: hypothetische voorspellingen Methodes Gene prediction = voorspellen locatie genen in genoomsequentie door combinatie 1 / meer methodes Methodes: Zoeken op signaal Zoeken op inhoud Homology based gene prediction Intrinsieke methoden Ab initio methoden: intrinsiek Zoeken op signaal en inhoud Geen vergelijking met andere sequenties Dynamic programming = veel exonvoorspellingen samenvoegen tot genstructuur Vb: GeneID HMM / Hidden Markov Model: hulpmiddel voor genpredictie Definiëring complexe patronen Extrinsieke methoden Homology based methoden: extrinsiek Soorten: BLASTX Vertaling nucleotiden vergelijken met proteïnedatabanken EST / Expressed Sequence Tags BLAT / BLASTN Comparative gene prediction Twee genomen vergelijken Geconserveerde domeinen zijn exonen Exon bepalende signalen Detectie: PMW / Position Weight Matrix Signalen: - Translation start site - 5 donor splice site - 3 acceptor splice site - Translation stop codon Voorspelling en score exonen 3 types: Initiële exonen Aanduiding ORF door startcodon en 5 donorsite Interne exonen Aanduiding ORF door 3 acceptorsite en 5 donorsite Terminale exonen Aanduiding ORF door 3 acceptorsite en stopcodon Coderende statistieken: gebruik andere codons in exonen en intronen 42

Exercise Retrieve sequence of the first megabase of human chromosome 20 (use hg18) in linux download chr20 from http://hgdownload.cse.ucsc.edu/ goldenpath/hg19/chromosomes/ - copy link of chr20 and use wget on linux (then gunzip to unzip the.gz file) or use /home/saerts/chr20/chr20.fa use extractseq EMBOSS program to extract the first 1Mb how to get the fasta sequence for this region using the UCSC Genome Browser, the UCSC Table Browser, or the Ensembl database? 1. Internet Explorer: http://hgdownload.cse.ucsc.edu/goldenpath/hg19/chromosomes/ File: chr20.fa.gz 2. F Secure SSH Client: gunzip chr20.fa.gz 3. F Secure SSH Client: extractseq sequence chr20.fa regions 1:1000000 outseq chr20_firstmb.fa 4. UCSC Genome Browser: chr20:1-1000000 Submit 43

5. DNA: Get DNA 6. UCSC Genome Browser Tables: Table Browser Region Position: chr20:1-1000000 Get output 44

ORF exercise getorf (Emboss) [what are the default settings for minsize and maxsize?] - for example, the complete chr21 has 2006698 predicted ORFs - chr20:1-1000000: how many ORFs? use grep and wc -l try plotorf (Emboss) - graphtype = png 1. F Secure SSH Client: getorf sequence chr20_firstmb.fa outseq ORFs.fa minsize 100 2. F Secure SSH Client: cat ORFs.fa grep > wc l 3. F Secure SSH Client: plotorf sequence chr20_firstmb.fa graph png Openen door plotorf.1.png in gele mapje naar boven te slepen, hierna kan je het openen door naar mijn computer te gaan en dubbel te klikken. 45

Exercise coding statistics (1) use the same 1 exon gene use Emboss syco to calculate codon usage codon usage file for human: Ehum.cut (ls -l /usr/share/emboss/data/codons/*.cut ) 1. UCSC Genome Browser Tables: Table Browser Eigenschappen: - Track: RefSeq Genes - Table: refgene - Region Position: chr4 - Output format: hyperlinks to Genome Browser 2. Filter: Create Filter on Fields from hg19.refgene ExonCount = 1 3. Hyperlinks to Genome Browser: NM 005172 at chr4:94750078-94751142 46

4. DNA: Get DNA Opslaan als.txt file 5. F Secure SSH Client: syco sequence ATOH1.txt cfile Ehum.cut graph png outfile ATOH1_syco.out 47

Exercise coding statistics (2) tcode combines codon usage with periodicity scores tcode -plot -graph cps tcode -sequence myseq.fasta -outfile tcode.out -window 200 -plot -graph png 1. F Secure SSH Client: tcode sequence ATOH1.txt window 200 outfile ATOH1.tcode graph png plot 48

GeneID GeneID = voorspelling genen in genomische sequenties see http://genome.imim.es/software/geneid/ Hiërarchie: Splice sites / startcodon / stopcodons Building exons Scoring exons Finaal: samenstelling genstructuur GeneID see http://genome.imim.es/software/geneid/docs/ geneid -P human3iso.param chr20_firstmb.fa -G > chr20_firstmb_geneid.gff -G for GFF format -v verbose = display info messages -P parameter file - located in /home/saerts/software/geneid/param directory F Secure SSH Client: geneid P home/saerts/software/geneid/param/human3iso.param chr20_firstmb.fa G 49

a second geneid exercise Download 1Mb sequence around the human URO-D gene Genome browser: UROD Get DNA 500000 upstream en 500000 downstream -> 1 miljoen + gen Save als UROD.txt Use a gene prediction program (Geneid, or Genscan) to predict genes in this region Make a custom track file in BED or GFF format, from the gene prediction output, containing genomic coordinates of the gene predictions (e.g., using Excel) Upload this file to create a custom track, and visualize your predictions in relation with UCSC and RefSeq gene annotations, in this region 1. UCSC Genome Browser: chr1:44,977,830-45,977,829 2. DNA: Get DNA Opslaan als.txt file Bovenste regel Notepad ++ : chr1 50

3. F Secure SSH Client: File Transfer Window File uploaden F Secure SSH Client: geneid P home/saerts/software/geneid/param/human3iso.param G urod.fa > UROD_Mb_GeneID.gff 4. Excel: Openen Alle bestanden: UROD_Mb_GeneID.gff Wizard: Volgende Volgende Voltooien 5. Excel Gegevens: Sorteren Sorteren op kolom A 51

6. Excel: verwijder commentaren (#) 7. Excel kolom M: ingeven startpositie (44977830) Kolom J: =D1+$M$1-1 Rechtsonder klikken en slepen naar onder Kolom K: =E1+$M$1-1 Rechtsonder klikken en slepen naar onder 8. Excel: kopieer kolom J en K Selecteer kolom D en E Start Plakken: Waarden plakken Verwijder kolom J, K en M 52

9. Opslaan als: Tekst Opslaan als.txt file 10. UCSC Genome Browser Tables: Table Browser Add Custom Tracks: Bladeren Submit 11. Manage Custom Tracks: Go to Genome Browser 12. Genomes UCSC Genome Browser: UROD 53

13. RefSeq Genes: UROD at chr1:45477805-45481341 54

Oef.1 (slide 145) -Geneid is een programma om genen te voorspellen in een DNA sequentie. Gen voorspellen in UROD-seq: Zoeken op UCSC naar UROD, vervolgens 1 Mb errond met gen in het midden houden 500k naar links en 500k naar rechts via de position/searchs aanpassen zodat men exact 1Mbp heeft Vb. 1 Mb rond chr1: 45,250,417-45,252,835 44,750,000 tot 45,750,000 Of via alternatief via DNA en upstream/downstream aanduiden = 1 mil + URODgen dus meer dan 1 mil bp Genome browser: UROD Get DNA 500000 upstream en 500000 downstream -> 1 miljoen + gen Sequentie opvragen en vervolgens saven (save page as: text file): UROD_1Mb_flank.fa Is op toledo gezet Openen met WordPad Weten van waar tot waar het gen zit als referentie zie ID waar je het vandaan gehaald hebt. (Zie bovenaan voor de ID : chr1:44750417-45752835) 55

-lengte van sequentie = 1002418 Secure Shell: cat (fasta file) grep-v Geneid web server -https://genome.imim.es/geneid.html 56

Deze webinterface draait niet op onze server maar ergens in Spanje. Enige wat eigenlijk moet gebeuren is file opvragen want we werken in human, we willen een GFF en de rest is onbelangrijk, na het ingeven van de fasta file via browse verkrijgen we deze gff file op de server in Spanje: Organisme: mens Strands: forward en reverse Output: GF Rest laten zoals t is Submit (net boven predictions options) Wat je krijgt => GFF Command: wat daar op linux server draait Geneid 2527kotnet => file -weergegeven in volgorde van kolommen: naam, source, beschrijving (first, terminal), start, stop, score, strand, frame, extra commentaar/naam. Na hekje: commentaar - deze GFFoutput saven als text file selecteren, copy en pasten in text editor (WinEdit) of excel (openen, kies: all files) 57

- Pasted in WinEdit file save as Saven: UROD_1MbFlank_geneid.gff Uploaden naar UCSC genome browser -naam en van tot veranderen 1000+begin en 2000+begin (begin: 44,750,417) 1 ste kolom moet chr1 komen te staan ipv hg bij locatie moet niet 1700 maar 1700 locatie van het gen! Dit doen we in Excel Excel: GFF hierin openen (all files selecteren onderaan bij open file) 58

- Melding op excel: Commando s: next, next, finish Excel zet file in kolommen - Formules: C4: =A4+B4 (op vakjes klikken) Kopiëren: rechtsonder hokje vastnemen en naar beneden slepen - GFF in Excel: Kolom D en E knippen en in N en O plakken (Start stop kolommen tijdelijk verplaatsen en formule intypen in originele plaats) 59

- Nieuwe getallen in D: Door de formule = 44750417 + naam rij/kolom (bv =44750417+N7-1), vervolgens 1 kolom naar rechts slepen, wordt de formule ingegeven. Daarna selecteren we de 2 formules en slepen we deze helemaal tot beneden. N7=1700 en -1, want anders 1 teveel (44,750,417 = 1 bij ons) Nieuwe getallen in E: kopiëren vanuit D (rechtsonder vastnemen en naar rechts slepen) Kopiëren in alle kolommen (rechtsonder vastnemen en naar beneden slepen) -Naam hg moet chr1 worden (maar eerst commentaren wegdoen, want storend) Links bovenaan (hoek tussen 1 en A): alles selecteren, data, sort, kolom ingeven (kolom N) Commentaarlijnen staan onderaan 60

Commentaarlijnen eruit knippen. - vervolgens deleten we de laagste (niet kolomwaarden) - in kolom A moet chr 1 staan wanneer je kopieert: chr2, chr3, in 2 de hokje ook chr1, beide selecteren en naar beneden slepen of ctrl D (kopieert je formule in alle hokjes) - Gedeelte dat we nodig hebben selecteren (kolom A tot I), ctrl+c, vervolgens ctrl+n: dit opent een nieuwe sheet en vervolgens klikken we op home dan paste en paste values want anders worden de formules mee gekopieerd en krijgen we foutieve waarden Formules niet pasten, want hokjes zijn anders dus zullen formules niet kloppen Links boven: paste values selecteren Save as type: Text (Tab ) UROD_1MBflank_geneid_genomiccoord.gff Verschillende meldingen: altijd op yes klikken 61

$-teken zorgt ervoor dat 1 bepaald vakje in de formule behouden blijft zodat men bv in heel de kolom N7 wordt opgeteld zet men deze tussen $-tekens - Omzetten naar text file door save as tekst save as text file tab delimited 62

Accuraatheid 3 maten: Sensitiviteit Percentage echte positieven die voorspeld zijn als positieven Formule: Specificiteit Percentage echte negatieven die voorspeld zijn als negatieven Formule: PPV / Positive Predictive Value Percentage voorspelde genen die true positives zijn Formule: Correlatie: combinatie SN en SP Tussen 1 en 1: - + 1: volledig correcte voorspelling - 1: volledig incorrecte voorspelling 63

Exercise on accuracy Use the intersections of tracks in the Table Browser to estimate the specificity and sensitivity of your own gene predictions compared to the UCSC gene track at the gene level (not at nucleotide or exon) how many geneid predicted genes overlap with UCSC genes (i.e., how many true positives?) how many and what kind of UCSC genes are missed by geneid (i.e., how many false negatives)? how many genes are predicted by geneid that are no UCSC genes? (i.e., how many false positives) Oefening S.183 Werkwijze: 1. UCSC Genome Browser Tables: Table Browser Intersection: Create 2. Intersect with User Track: All User Track records that have at least 80 % overlap with UCSC Genes Submit 3. Table Browser: Summary / Statistics 64

4. Tables: Table Browser Eigenschappen: - Group: Genes and Gene Prediction Tracks - Track: RefSeq Genes - Table: RefGene - Region Position: chr1:44,977,830-45,977,829 - Intersection: Clear 5. Table Browser: Summary / Statistics Volgens RefSeq: 39 genen in dat gebied 65

66

Biological classification Pairwise sequence similarity Pairwise sequence similarity = nagaan verband tussen 2 sequenties door vergelijking Pairwise alignment = 2 sequenties positie per positie vergelijken Similarity en homologie Similarity: kwantitatieve meting die weergeeft hoe gelijkend 2 sequenties zijn Basis: pairwise alignment Mechanisme: aantal gelijke residuen tellen Percent identity Hoog: gelijke functie / evolutionair verwante sequenties Homologie: hypothetische conclusie Basis: - Orthologe genen Gescheiden door vorming nieuwe species - Paraloge genen Gescheiden door duplicatie 3 types mutaties: Inserties AAGA wordt AAGTA Deleties AAGA wordt AGA Substituties AAGA wordt AACA Positieve score: Negatieve score: Perfect match Mismatch Indels Dotplots Dotplot: visuele manier van sequentievergelijking Dot: overeenkomst Identificatie regio s: verbinden bolletjes 67

Oefening S.195 Werkwijze: 1. PubMed Nucleotide: AAB08987 FASTA: opslaan als fasta file 2. PubMed Nucleotide: AAH02824 FASTA: opslaan als fasta file 3. 1 e manier: Google Dotlet Input: HMG1 sequentie ingeven Name: HMG1 Input: SOX10 sequentie ingeven Name: SOX10 68

4. Dotlet: overeenkomstige AZ naar 51 Compute 5. Dotlet:Greyscale aanpassen Diagonalen 6. 2 e manier: F Secure SSH Client File Transfer Window: HMG1.fa en SOX10.fa uploaden 7. F Secure SSH Client: dotmatcher asequence HMG1.fa bsequence SOX10.fa Graph type [x11]: png 69

70

Scoring matrices Scoring matrix: in rekening brengen positie overlap en eigenschappen residuen Belangrijk: Conservatie Frequentie Evolutie Nucleotide scoring matrix Normaal: alleen matches / mismatches Assumptie: 25 % kans op elke nucleotide A T G C A 5 4 4 4 T 4 5 4 4 G 4 4 5 4 C 4 4 4 5 Gaps en gap penalties Gaps in alignments: compensatie InDels tussen vergelijkende sequenties Regel: niet meer dan 1 per 20 residuen Affine gap penalty: Vaste vermindering score voor maken gap Bijkomende vermindering lengte gap Regel: G = gap opening penalty L = gap extension penalty n = lengte gap G > L : lange gap is beter dan vele kleine gaps Non affine gap penalty: Geen vermindering score voor maken gap Vaste mismatch vermindering per positie gap 71

Oefening S.201 Werkwijze: 1. 1 e manier: EMBOSS Web Interface EMBOSS Web Interface Alignment Global: Needle Sequenties ingeven 2. EMBOSS Web Interface Matrix File: EBLOSUM62 Eigenschappen: - Gap opening penalty: 11 - Gap extension penalty: 1 Run Needle 72

3. 2 e manier: F Secure SSH Client File Transfer Window: sequenties uploaden 4. F Secure SSH Client: needle asequence Gap_Sequence1.txt bsequence Gap_Sequence2.txt gapopen 11 gapextend 1 outfile Test_Needle.txt 73

Protein alignment Protein based searches: krachtiger dan nucleotide based searches Beter in: Bepalen similarity Bepalen homologie Alignment algoritmes Naïeve benadering: alle mogelijke alignments voor 2 sequenties genereren Alignment met hoogste score kiezen Probleem: te tijdrovend Alignment algoritmes = gebruik van dynamisch programmeren om alignment met hoogste score te vinden 2 soorten: Smith Waterman Lokaal Needleman Wunsch Globaal Globale vs. lokale sequentie alignments Globale alignment = lokaliseren beste alignment over volledige sequenties Lokale alignment = lokalisatie meest gelijkende regio s in delen sequenties Voordeel: subsequenties ontdekken BLAST BLAST / Basic Local Alignment Search Tool: meest gebruikte methode voor detective similarity Types: BLASTP Proteïnesequenties zoeken tegen proteïnedatabank BLASTN Nucleotidesequenties zoeken tegen nucleotidedatabank TBLASTN Proteïnesequenties zoeken tegen nucleotidedatabank BLASTX Nucleotidesequenties zoeken tegen proteïnedatabank Ruwe scores: afhankelijk van opbouw query, doelsequenties, Oplossing: berekening Expectation Value E / Expectation Value = aantal hoog scorende segmentparen die puur door kans verwacht worden 74

Oefening S.215 Werkwijze: 1. PubMed Protein: Drosophila Melanogaster prospero protein isoform F Filter your results: RefSeq (1) FASTA: opslaan als fastafile 2. Google BLAST: BLASTP 3. Bladeren: file uploaden Job Title: Prospero, isoform F BLAST 75

4. Protein Sequence (1703 letters) Graphic Summary: aantal hits 5. Homologie: Bits / E value Lager in lijst: minder homologie en meer gaps 76

DNA microarrays to assay gene expression Microarray data processing Microarray data processing = analyse genexpressie met behulp van microarrays Principe: aanmaak / binding oligonucleotiden op drager RNA: - Controle: groen - Patiënt: rood DNA: hybridisatie op plaat Competitie tussen controle en patiënt Resultaat: - Controle: groen - Patiënt: rood - Controle + patiënt: geel Meting: laser Gene set analyse Oefening S.230 Werkwijze: 1. PubMed: Warner Nature Methods Limits 2. Limits: Dates Published in the Last: Specify date range 2008 2008 77

Search 3. Images from this publication: Free Text Scroll naar beneden Supplementary Material: Supplementary Table 1 Opslaan als.xls file 4. Google: Ensembl Biomart Ensembl: Biomart Dataset: 78

- Ensembl Genes 62 - Homo sapiens genes (GRCh37.p3) 5. Filters: Gene ID List Limit: RefSeq DNA ID(s) [e.g. NR_003682] Plakken: NM_XXXXXX (Cluster 0) 6. Attributes Features: Gene Ensembl: alles uitvinken 79

7. Attributes Features: External External References: UniProt / SwissProt ID Results 8. Results: GO Opslaan als.txt file 80

9. Filters: Gene ID List Limit: EMBL ID(s) [e.g. AK090412] Plakken: overige Genbank / RefSeq ID s (Cluster 0) Results 10. Results: GO Opslaan als.txt file 11. Beide bestanden samenvoegen: Biomart_Export_EMBLRefSeq.txt 12. Google: http://go.princeton.edu/cgi-bin/gotermfinder/gotermfinder Required Basic Input Options: Biomart_Export_EMBLRefSeq.txt uploaden 81

13. Choose annotation: GOA H. sapiens (Human) Search for GO Terms 82

Oefening S.238 Werkwijze: 1. Ensembl Biomart Ensembl: Biomart Dataset: - Ensembl Genes 62 - Homo sapiens genes (GRCh37.p3) 2. Filters: Gene ID List Limit: UniProt / SwissProt ID(s) [e.g. YA23_HUMAN] Plakken: Biomart_Export_EMBLRefSeq.txt 83

3. Attributes Homologs: Gene Ensembl: alles uitvinken 4. Attributes Homologs: Orthologs Mouse Orthologs: Mouse Ensembl Gene ID Results 5. Results: GO Opslaan als.txt file 84

6. Dataset: Ensembl Genes 62 Mus musculus genes (NCBIM37) 7. Filters: Gene ID List Limit: Ensembl Gene ID(s) [e.g. ENSG00000139618] Plakken: Biomart_Export_Mouse.txt 8. Attributes Features: Gene Ensembl: alles uitvinken 85

9. Attributes Features: External External References: MGI ID Results 10. Results: GO Opslaan als.txt file 11. Google: http://go.princeton.edu/cgi-bin/gotermfinder/gotermfinder Required Basic Input Options: Biomart_Export_Mouse_Homologs.txt uploaden 86

12. Choose annotation: MGI M. musculus (Mouse) Search for GO Terms 13. Drosophila melanogaster Mus musculus 87

Pattern matching Elke letter x : AZ residu Voorbeeld: Verklaring: x(4,7): Minimum 4 en maximum 7 residuen tussen beide AZ [NGH]: Enkel N, G of H tussen beide AZ x(2): Exact 2 residuen tussen beide AZ {GP}: Alle residuen behalve Gly en Pro tussen beide AZ 88

Oefening S.242 Werkwijze: 1. Toledo Bioinformatica: Course Documents 102 NFkappaB targets 2. Google: Ensembl Biomart Ensembl: Biomart Dataset: - Ensembl Genes 62 - Homo sapiens genes (GRCh37.p3) 3. Filters: Gene ID List Limit: RefSeq DNA ID(s) [e.g. ] Plakken: NF_KappaB_Targets.txt 89

4. Attributes Sequences: Sequences Sequences: Flank (Gene) Upstream flank: 1000 5. Attributes Sequences: Header Information Gene Information: - Ensembl Gene ID uitvinken - Associated Gene Name aanvinken 6. Attributes Sequences: Header Information Transcript information: Ensembl Transcript ID uitvinken Results 90

7. Results: GO Opslaan als.txt file 8. 1 e manier: EMBOSS Web Interface EMBOSS Web Interface Nucleic Motifs: Fuzznuc Upload Biomart_Export_NF_KappaB_Targets.txt Run Fuzznuc 91

9. 2 e manier: F Secure SSH Client F Secure SSH Client: fuzznuc sequence Biomart_Export_NF_KappaB_Targets.txt rformat gff outfile NF_KappaB_Fuzznuc.gff pmismatch 0 pattern GGGNNNNNCC complement 10. F Secure SSH Client: cat NF_KappaB_Fuzznuc.gff grep v ## wc l 11. Google: TOUCAN TOUCAN: Launch Now 12. TOUCAN File: Load Seq File Name: Biomart_Export_NF_KappaB_Targets.fasta 92

13. TOUCAN Annotation: Annotate GFF File Name: NF_KappaB_Fuzznuc.gff Blokje boven: + strand Blokje beneden: - strand 93

Oefening S.255 Werkwijze: 1. PubMed Protein: CTCF Artikel: CTCF [Homo Sapiens] FASTA: opslaan als fastafile 2. F Secure SSH Client: fuzzpro sequence CTCF_Human.fa outfile CTCF_human_ZincFinger.gff rformat gff pattern C x(2,4)cx(3)[livmfywc]x(8)hx(3,5)h 3. F Secure SSH Client: cat CTCF_Human_ZincFinger.gff grep v ## wc l 94