ExPairwiseAlignment-Answers
Svar til parvis alignment øvelsen
Note: There is also an English version: ExPairwiseAlignment-AnswersEng.
Svar til Parvis Alignment øvelsen
Af: Rasmus Wernersson & Henrik Nielsen
Question 1
- Which sequence format are the two sequences listed in?
FASTA format.
Question 2
Report the following values / observations from the alignment
- Alignment score?
- Alignment length?
- % and fraction Identity (The value reported for "Identity" includes perfect matches only)?
- % and fraction Similarity (The value reported for "Similarity" includes perfect matches + "close" mismatches)?
Length: 361 Identity: 176/361 (48.8%) Similarity: 214/361 (59.3%) Gaps: 92/361 (25.5%) Score: 860.5
SUBS_BACLE 1 -------------------------------------------------- 0 ELYA_BACHD 1 MRQSLKVMVLSTVALLFMANPAAASEEKKEYLIVVEPEEVSAQSVEESYD 50 SUBS_BACLE 1 ------------------------------------------AQSVPWGI 8 :|:||||| ELYA_BACHD 51 VDVIHEFEEIPVIHAELTKKELKKLKKDPNVKAIEKNAEVTISQTVPWGI 100 SUBS_BACLE 9 SRVQAPAAHNRGLTGSGVKVAVLDTGISTHPDLNIRGGASFVPGEPSTQD 58 |.:....|||||:.|:|.:||||||||::||||.|.|||||:..|||..| ELYA_BACHD 101 SFINTQQAHNRGIFGNGARVAVLDTGIASHPDLRIAGGASFISSEPSYHD 150 SUBS_BACLE 59 GNGHGTHVAGTIAALNNSIGVLGVAPSAELYAVKVLGASGSGSVSSIAQG 108 .|||||||||||||||||||||||||||:|||||||..:||||::|:||| ELYA_BACHD 151 NNGHGTHVAGTIAALNNSIGVLGVAPSADLYAVKVLDRNGSGSLASVAQG 200 SUBS_BACLE 109 LEWAGNNGMHVANLSLGSPSPSATLEQAVNSATSRGVLVVAASGNSGAGS 158 :|||.||.||:.|:||||.|.|:|||.|||.|.:.|:|:|.|:||:|... ELYA_BACHD 201 IEWAINNNMHIINMSLGSTSGSSTLELAVNRANNAGILLVGAAGNTGRQG 250 SUBS_BACLE 159 ISYPARYANAMAVGATDQNNNRASFSQYGAGLDIVAPGVNVQSTYPGSTY 208 ::|||||:..|||.|.|||..|||||.||..::|.||||||.|||.|:.| ELYA_BACHD 251 VNYPARYSGVMAVAAVDQNGQRASFSTYGPEIEISAPGVNVNSTYTGNRY 300 SUBS_BACLE 209 ASLNGTSMATPHVAGAAALVKQKNPSWSNVQIRNHLKNTATSLGSTNLYG 258 .||:|||||||||||.|||||.:.||::|.|||..:..|||.|||.:||| ELYA_BACHD 301 VSLSGTSMATPHVAGVAALVKSRYPSYTNNQIRQRINQTATYLGSPSLYG 350 SUBS_BACLE 259 SGLVNAEAATR 269 :|||:|..||: ELYA_BACHD 351 NGLVHAGRATQ 361
Question 3
- Report the same values as above (Alignment score etc). Consider the alignments produced by the two different approaches: do YOU think one of them is more biologically relevant than the other, or do both contribute valuable information?
Length: 269 Identity: 176/269 (65.4%) Similarity: 214/269 (79.6%) Gaps: 0/269 ( 0.0%) Score: 916.0
SUBS_BACLE 1 AQSVPWGISRVQAPAAHNRGLTGSGVKVAVLDTGISTHPDLNIRGGASFV 50 :|:||||||.:....|||||:.|:|.:||||||||::||||.|.|||||: ELYA_BACHD 93 SQTVPWGISFINTQQAHNRGIFGNGARVAVLDTGIASHPDLRIAGGASFI 142 SUBS_BACLE 51 PGEPSTQDGNGHGTHVAGTIAALNNSIGVLGVAPSAELYAVKVLGASGSG 100 ..|||..|.|||||||||||||||||||||||||||:|||||||..:||| ELYA_BACHD 143 SSEPSYHDNNGHGTHVAGTIAALNNSIGVLGVAPSADLYAVKVLDRNGSG 192 SUBS_BACLE 101 SVSSIAQGLEWAGNNGMHVANLSLGSPSPSATLEQAVNSATSRGVLVVAA 150 |::|:|||:|||.||.||:.|:||||.|.|:|||.|||.|.:.|:|:|.| ELYA_BACHD 193 SLASVAQGIEWAINNNMHIINMSLGSTSGSSTLELAVNRANNAGILLVGA 242 SUBS_BACLE 151 SGNSGAGSISYPARYANAMAVGATDQNNNRASFSQYGAGLDIVAPGVNVQ 200 :||:|...::|||||:..|||.|.|||..|||||.||..::|.||||||. ELYA_BACHD 243 AGNTGRQGVNYPARYSGVMAVAAVDQNGQRASFSTYGPEIEISAPGVNVN 292 SUBS_BACLE 201 STYPGSTYASLNGTSMATPHVAGAAALVKQKNPSWSNVQIRNHLKNTATS 250 |||.|:.|.||:|||||||||||.|||||.:.||::|.|||..:..|||. ELYA_BACHD 293 STYTGNRYVSLSGTSMATPHVAGVAALVKSRYPSYTNNQIRQRINQTATY 342 SUBS_BACLE 251 LGSTNLYGSGLVNAEAATR 269 |||.:|||:|||:|..||: ELYA_BACHD 343 LGSPSLYGNGLVHAGRATQ 361
Da de to sekvenser er af forskellig længde (se også svaret på næste spørgsmål), giver det umiddelbart mest mening at bruge Smith-Waterman algoritmen ("local alignment"), da dette vil give en analyse af forskelle og ligheder for den del af sekvensen der faktisk er sammenlignelig.
Bemærk dog at man ved at bruge globalt alignment først nemt kan se at sekvenserne er meget ens - bortset fra at den ene mangler et stykke på ca. 90 aminosyrer i starten. Så i dette tilfælde har vi lært noget ekstra om sekvenserne ved at foretage et globalt alignment først.
Når to sekvenser ligner hinanden meget, som tilfældet er her, er der generelt ikke megen forskel på den information man får ud af at bruge lokalt og globalt alignment.
Question 4
Let's go a bit deeper into why the two sequences differ in the N-terminal part
- a Look up both entries in UniProt (http://www.uniprot.org) and try to locate information regarding the following questions.
- b How were the amino acid sequences of the two proteins determined? (Hint: look at the titles of the papers, and the Cited for fields, listed in the Reference sections).
- c Subcellular localization: Where in (or outside) the cell do the enzymes function?
- d The Sequence Annotation table contains details about the regions/domains of the protein - try and do a comparison to spot the differences between the two UniProt entries (Hint: focus on the "Molecule processing" sections).
Answer 4a
P29600 - sekvensen er afledt af 3D struktur. P41363 - oversat fra DNA + information fra protein-sekventering.
Answer 4b
SUBCELLULAR LOCATION: "Secreted protein" (for dem begge).
Answer 4c
P29600 starter direkte med sekvensen af det mature protein. P41363 starter med et signal-peptid (pos: 1-24), derefter pro-peptid (25-93), og så først derefter kommer det mature protein. Bemærk at både signal-peptid (funktion: signal til eksport af proteinet) og pro-peptidet (funktion: hjælper protein med at folde korrekt eller sørger for at proteinet ikke er aktivt før proteinet findes der hvor det faktisk skal fungere - specielt vigtigt for proteaser som ikke skal starte med at nedbryde sig selv men først aktiveres i f.eks maven hvor det skal klippe andre proteiner i stykket) klippes af inden protein er "modent".
Answer 4d
Forskellen er her at P41363 er (primært) oversat fra DNA og derfor indeholder information fra hele den kodende sekvens, mens P29600 er afledt fra 3D struktur, som indeholder den mature sekvens. Savinase indeholder faktisk både signal- og pro-peptid (kan graves frem i databaserne).
Question 5
- Based on what you've learned about the P41363 protein from the alignment to Savinase and from the data on the Uniprot site: do you think this could be used as an enzyme in washing powder? (Why? / why not?).
Taler for: Samme type protease (serin-protease, S8 familie). Thermostabilt (!). Minder meget som Savinase på sekvens-niveau.
Mulige problemer: Højt pH optimum - vil evt. kunne optimeres i laboratoriet.
Question 6
Compare Savinase to the human peptidase by global alignment (Needle) — remember again to set End Gap Penalty to "true" — and report the following:
- Alignment score
- Alignment length
- Identity and Similarity
- How large a part of the alignment is gaps?
Length: 1255 Identity: 110/1255 ( 8.8%) Similarity: 154/1255 (12.3%) Gaps: 992/1255 (79.0%) Score: -244.0 Bemærk: negativ score! (alignment ikke vist)
Question 7
- Repeat the alignment with End Gap Penalty set to "false" and report the same results as above.
Length: 1290 Identity: 73/1290 ( 5.7%) Similarity: 131/1290 (10.2%) Gaps: 1062/1290 (82.3%) Score: 158.5 (alignment ikke vist)
Question 8
- Repeat the alignment again — this time using the local alignment algorithm (Water) — and report the same results as above.
Length: 296 Identity: 71/296 (24.0%) Similarity: 129/296 (43.6%) Gaps: 73/296 (24.7%) Score: 173.0
SUBS_BACLE 23 GSGVKVAVLDTGISTHPDLNIRGGASFVPGEPSTQDGNGHGTHVAGTIAA 72 ||.....:|:..::.:.|.|: .|.| ..|..|||||| :||| TPP2_HUMAN 234 GSFGTAEMLNYSVNIYDDGNL---LSIV------TSGGAHGTHVA-SIAA 273 SUBS_BACLE 73 LNNSIGVL-------GVAPSAELYAVKV------LGASGSGSVSSIAQGL 109 |.. ||||.|::.::|: ...:|:|.:.::.:.: TPP2_HUMAN 274 -----GHFPEEPERNGVAPGAQILSIKIGDTRLSTMETGTGLIRAMIEVI 318 SUBS_BACLE 110 EWAGNNGMHVANLSLGSPS---PSATLEQAVNSAT-SRGVLVVAASGNSG 155 |:...:.|.|.|..: .|..:.:.:|.|. ...::.|:::||:| TPP2_HUMAN 319 ----NHKCDLVNYSYGEATHWPNSGRICEVINEAVWKHNIIYVSSAGNNG 364 SUBS_BACLE 156 --AGSISYP-ARYANAMAVGATDQNN--------------NRASFSQYGA 188 ..::..| ...::.:.|||....: |:.::|..|. TPP2_HUMAN 365 PCLSTVGCPGGTTSSVIGVGAYVSPDMMVAEYSLREKLPANQYTWSSRGP 414 SUBS_BACLE 189 GLDIVAPGVNVQSTYPGSTYAS-----------LNGTSMATPHVAGAAAL 227 ..| .|.||::.: ||...|| :|||||::|:..|..|| TPP2_HUMAN 415 SAD-GALGVSISA--PGGAIASVPNWTLRGTQLMNGTSMSSPNACGGIAL 461 SUBS_BACLE 228 V----KQKNPSWSNVQIRNHLKNTATSLGSTNLY--GSGLVNAEAA 267 : |..|..::...:|..|:|||....:..:: |.|::..:.| TPP2_HUMAN 462 ILSGLKANNIDYTVHSVRRALENTAVKADNIEVFAQGHGIIQVDKA 507
Question 9
- Do you think local or global alignment is best for finding similar parts of distantly related proteins? Why?
Hint: Distantly related proteins typically share a core, that relates to the function of the protein
Det ses tydeligt af det lokale alignment og af det globale alignment UDEN end gaps, at den prokaryote protease kun matcher et enkelt område midt i den humane protease. Det kan man derimod ikke se af det globale alignment MED end gaps, som "smører" den korte sekvens ud over hele den lange.
Bemærk at globalt alignment UDEN end gaps kan betragtes som en slags mellemting mellem globalt og lokalt alignment.
Til fjernt beslægtede sekvenser vil det være bedst at bruge lokalt alignment, idet man så faktisk får en analyse af den sammenlignelige del af sekvenserne.
Question 10
Open the SeqShuffle Server (http://www.cbs.dtu.dk/biotools/SeqShuffle-1.0/) in a new window/tab, paste in the tripeptidyl peptidase sequence and shuffle it. Then align Savinase and the shuffled tripeptidyl peptidase sequence using local alignment. Repeat the above procedure two more times, so that you align Savinase with three different shuffled versions of tripeptidyl peptidase.
- How do the local alignments look? (What are the ranges of Alignment score, Alignment length, Identity, Similarity, and gap percentage)?
Jeres svar vil naturligvis variere tilfældigt, men generelt skulle I forvente svar inden for disse intervaller:
Length: 100-300 Identity: 20%-30% Similarity: 30%-40% Gaps: 25%-40% Score: 40-70
Dette er altså data fra de lokale alignments man får af at sammenligne ikke-beslægtede sekvenser med den givne længde og aminosyresammensætning.
Meningen med at lave Savinase/Shuffled alignments er at få en "nulmodel" der kan sammenlignes med det rigtige Savinase/Human peptidase alignment. Hvis I havde gennemført eksperimentet 100 gange i stedet for 3, kunne I have lavet statistik på resultatet og udregnet konfidensgrænser og derudfra vurdere graden af signifikans ud fra en given alignment score (meget mere om signifikans når vi kommer til BLAST).
Question 11
Comparing the Savinase/shuffled alignment to the previous Savinase/Human Peptidase alignment
- how will you judge the alignment with human peptidase now? (More/Less confidence in relation between the sequences?).
Når vi sammenligner vores Savinase/Human peptidase alignment (score: 173) med de "bevidst dårlige" Savinase/Shuffled alignments ser det slet ikke så tosset ud længere. Scoren er klart højere end det vi fik med de blandede sekvenser. Bemærk dog at man er nødt til at se på scoren for at få en klar forskel - de andre mål overlapper eller afviger ikke nær så konsekvent.
Som vi vil se når vi kommer til BLAST handler der her om at holde sin alignment score op mod en reference af scores fra ikke-relaterede sekvenser.
Question 12
- What are the alignment results (Length, score, gaps, identity, similarity)?
- How do alignment length and % identity depend on the BLOSUM number (compare also to your answer to question 8)?
BLOSUM90:
Length: 279 Identity: 73/279 (26.2%) Similarity: 107/279 (38.4%) Gaps: 91/279 (32.6%) Score: 147.5
BLOSUM30:
Length: 326 Identity: 76/326 (23.3%) Similarity: 149/326 (45.7%) Gaps: 88/326 (27.0%) Score: 342.5
Bemærk hvordan en matrix med et lavere BLOSUM-tal giver et længere lokalt alignment med en lavere % identitet.
Question 13
- How do the quality parameters look this time (Length, score, gaps, identity, similarity)?
- Is this alignment biologically meaningful at all?
Length: 1255 Identity: 192/1255 (15.3%) Similarity: 228/1255 (18.2%) Gaps: 1011/1255 (80.6%) Score: 895.576
Bemærk hvorledes sekvenserne bliver strukket ud hver gang aminosyrerne ikke lige passer.
Dette giver naturigvis ingen biologisk mening. Hvis gaps er (næsten) gratis kan ALT align'es og give en høj score.
Question 14
Note that there is a gap of 6 positions in GLBE_CHITH. What is the corresponding 6 amino acid long sequence of GLB7A_CHITH? This is an authentic example! Nature truly is fascinating...
Sekvensen i GLB7A_CHITH, som svarer til det 6 positioner lange gap i GLBE_CHITH, er "ALIGNE".