ExPairwiseAlignment-Answers

From 22111
Jump to navigation Jump to search

Svar til parvis alignment øvelsen

Note: There is also an English version: ExPairwiseAlignment-AnswersEng.


Svar til Parvis Alignment øvelsen


Af: Rasmus Wernersson & Henrik Nielsen


Question 1

  • Which sequence format are the two sequences listed in?
 FASTA format.

Question 2

Report the following values / observations from the alignment

  • Alignment score?
  • Alignment length?
  • % and fraction Identity (The value reported for "Identity" includes perfect matches only)?
  • % and fraction Similarity (The value reported for "Similarity" includes perfect matches + "close" mismatches)?


 Length: 361
 Identity:     176/361 (48.8%)
 Similarity:   214/361 (59.3%)
 Gaps:          92/361 (25.5%)
 Score: 860.5
SUBS_BACLE         1 --------------------------------------------------      0
                                                                       
ELYA_BACHD         1 MRQSLKVMVLSTVALLFMANPAAASEEKKEYLIVVEPEEVSAQSVEESYD     50

SUBS_BACLE         1 ------------------------------------------AQSVPWGI      8
                                                               :|:|||||
ELYA_BACHD        51 VDVIHEFEEIPVIHAELTKKELKKLKKDPNVKAIEKNAEVTISQTVPWGI    100

SUBS_BACLE         9 SRVQAPAAHNRGLTGSGVKVAVLDTGISTHPDLNIRGGASFVPGEPSTQD     58
                     |.:....|||||:.|:|.:||||||||::||||.|.|||||:..|||..|
ELYA_BACHD       101 SFINTQQAHNRGIFGNGARVAVLDTGIASHPDLRIAGGASFISSEPSYHD    150

SUBS_BACLE        59 GNGHGTHVAGTIAALNNSIGVLGVAPSAELYAVKVLGASGSGSVSSIAQG    108
                     .|||||||||||||||||||||||||||:|||||||..:||||::|:|||
ELYA_BACHD       151 NNGHGTHVAGTIAALNNSIGVLGVAPSADLYAVKVLDRNGSGSLASVAQG    200

SUBS_BACLE       109 LEWAGNNGMHVANLSLGSPSPSATLEQAVNSATSRGVLVVAASGNSGAGS    158
                     :|||.||.||:.|:||||.|.|:|||.|||.|.:.|:|:|.|:||:|...
ELYA_BACHD       201 IEWAINNNMHIINMSLGSTSGSSTLELAVNRANNAGILLVGAAGNTGRQG    250

SUBS_BACLE       159 ISYPARYANAMAVGATDQNNNRASFSQYGAGLDIVAPGVNVQSTYPGSTY    208
                     ::|||||:..|||.|.|||..|||||.||..::|.||||||.|||.|:.|
ELYA_BACHD       251 VNYPARYSGVMAVAAVDQNGQRASFSTYGPEIEISAPGVNVNSTYTGNRY    300

SUBS_BACLE       209 ASLNGTSMATPHVAGAAALVKQKNPSWSNVQIRNHLKNTATSLGSTNLYG    258
                     .||:|||||||||||.|||||.:.||::|.|||..:..|||.|||.:|||
ELYA_BACHD       301 VSLSGTSMATPHVAGVAALVKSRYPSYTNNQIRQRINQTATYLGSPSLYG    350

SUBS_BACLE       259 SGLVNAEAATR    269
                     :|||:|..||:
ELYA_BACHD       351 NGLVHAGRATQ    361

Question 3

  • Report the same values as above (Alignment score etc). Consider the alignments produced by the two different approaches: do YOU think one of them is more biologically relevant than the other, or do both contribute valuable information?
 Length: 269
 Identity:     176/269 (65.4%)
 Similarity:   214/269 (79.6%)
 Gaps:           0/269 ( 0.0%)
 Score: 916.0
SUBS_BACLE         1 AQSVPWGISRVQAPAAHNRGLTGSGVKVAVLDTGISTHPDLNIRGGASFV     50
                     :|:||||||.:....|||||:.|:|.:||||||||::||||.|.|||||:
ELYA_BACHD        93 SQTVPWGISFINTQQAHNRGIFGNGARVAVLDTGIASHPDLRIAGGASFI    142

SUBS_BACLE        51 PGEPSTQDGNGHGTHVAGTIAALNNSIGVLGVAPSAELYAVKVLGASGSG    100
                     ..|||..|.|||||||||||||||||||||||||||:|||||||..:|||
ELYA_BACHD       143 SSEPSYHDNNGHGTHVAGTIAALNNSIGVLGVAPSADLYAVKVLDRNGSG    192

SUBS_BACLE       101 SVSSIAQGLEWAGNNGMHVANLSLGSPSPSATLEQAVNSATSRGVLVVAA    150
                     |::|:|||:|||.||.||:.|:||||.|.|:|||.|||.|.:.|:|:|.|
ELYA_BACHD       193 SLASVAQGIEWAINNNMHIINMSLGSTSGSSTLELAVNRANNAGILLVGA    242

SUBS_BACLE       151 SGNSGAGSISYPARYANAMAVGATDQNNNRASFSQYGAGLDIVAPGVNVQ    200
                     :||:|...::|||||:..|||.|.|||..|||||.||..::|.||||||.
ELYA_BACHD       243 AGNTGRQGVNYPARYSGVMAVAAVDQNGQRASFSTYGPEIEISAPGVNVN    292

SUBS_BACLE       201 STYPGSTYASLNGTSMATPHVAGAAALVKQKNPSWSNVQIRNHLKNTATS    250
                     |||.|:.|.||:|||||||||||.|||||.:.||::|.|||..:..|||.
ELYA_BACHD       293 STYTGNRYVSLSGTSMATPHVAGVAALVKSRYPSYTNNQIRQRINQTATY    342

SUBS_BACLE       251 LGSTNLYGSGLVNAEAATR    269
                     |||.:|||:|||:|..||:
ELYA_BACHD       343 LGSPSLYGNGLVHAGRATQ    361
 Da de to sekvenser er af forskellig længde (se også svaret på næste spørgsmål), 
 giver det umiddelbart mest mening at bruge Smith-Waterman algoritmen ("local alignment"), 
 da dette vil give en analyse af forskelle og ligheder for den del af sekvensen 
 der faktisk er sammenlignelig.
 Bemærk dog at man ved at bruge globalt alignment først nemt kan se at 
 sekvenserne er meget ens - bortset fra at den ene mangler et stykke på
 ca. 90 aminosyrer i starten. Så i dette tilfælde har vi lært noget ekstra
 om sekvenserne ved at foretage et globalt alignment først.
 Når to sekvenser ligner hinanden meget, som tilfældet er her, er der generelt ikke
 megen forskel på den information man får ud af at bruge lokalt og globalt alignment.


Question 4

Let's go a bit deeper into why the two sequences differ in the N-terminal part

  • a Look up both entries in UniProt (http://www.uniprot.org) and try to locate information regarding the following questions.
  • b How were the amino acid sequences of the two proteins determined? (Hint: look at the titles of the papers, and the Cited for fields, listed in the Reference sections).
  • c Subcellular localization: Where in (or outside) the cell do the enzymes function?
  • d The Sequence Annotation table contains details about the regions/domains of the protein - try and do a comparison to spot the differences between the two UniProt entries (Hint: focus on the "Molecule processing" sections).

Answer 4a

 P29600 - sekvensen er afledt af 3D struktur. 
 P41363 - oversat fra DNA + information fra protein-sekventering.

Answer 4b

 SUBCELLULAR LOCATION: "Secreted protein" (for dem begge).

Answer 4c

 P29600 starter direkte med sekvensen af det mature protein. P41363 starter 
 med et signal-peptid (pos: 1-24), derefter pro-peptid (25-93), og så først 
 derefter kommer det mature protein. Bemærk at både signal-peptid (funktion: 
 signal til eksport af proteinet) og pro-peptidet (funktion: hjælper protein med 
 at folde korrekt eller sørger for at proteinet ikke er aktivt før proteinet findes
 der hvor det faktisk skal fungere - specielt vigtigt for proteaser som ikke skal starte med
 at nedbryde sig selv men først aktiveres i f.eks maven hvor det skal klippe andre proteiner
 i stykket) klippes af inden protein er "modent".

Answer 4d

 Forskellen er her at P41363 er (primært) oversat fra DNA og derfor indeholder 
 information fra hele den kodende sekvens, mens P29600 er afledt fra 3D struktur, 
 som indeholder den mature sekvens. Savinase indeholder faktisk både signal- og 
 pro-peptid (kan graves frem i databaserne).

Question 5

  • Based on what you've learned about the P41363 protein from the alignment to Savinase and from the data on the Uniprot site: do you think this could be used as an enzyme in washing powder? (Why? / why not?).
 Taler for: Samme type protease (serin-protease, S8 familie). Thermostabilt (!). 
 Minder meget som Savinase på sekvens-niveau.
 Mulige problemer: Højt pH optimum - vil evt. kunne optimeres i laboratoriet.

Question 6

Compare Savinase to the human peptidase by global alignment (Needle) — remember again to set End Gap Penalty to "true" — and report the following:

  • Alignment score
  • Alignment length
  • Identity and Similarity
  • How large a part of the alignment is gaps?
 Length: 1255
 Identity:     110/1255 ( 8.8%)
 Similarity:   154/1255 (12.3%)
 Gaps:         992/1255 (79.0%)
 Score: -244.0
 Bemærk: negativ score!
 (alignment ikke vist)

Question 7

  • Repeat the alignment with End Gap Penalty set to "false" and report the same results as above.
 Length: 1290
 Identity:      73/1290 ( 5.7%)
 Similarity:   131/1290 (10.2%)
 Gaps:        1062/1290 (82.3%)
 Score: 158.5
 (alignment ikke vist)

Question 8

  • Repeat the alignment again — this time using the local alignment algorithm (Water) — and report the same results as above.
 Length: 296
 Identity:      71/296 (24.0%)
 Similarity:   129/296 (43.6%)
 Gaps:          73/296 (24.7%)
 Score: 173.0
SUBS_BACLE        23 GSGVKVAVLDTGISTHPDLNIRGGASFVPGEPSTQDGNGHGTHVAGTIAA     72
                     ||.....:|:..::.:.|.|:   .|.|      ..|..|||||| :|||
TPP2_HUMAN       234 GSFGTAEMLNYSVNIYDDGNL---LSIV------TSGGAHGTHVA-SIAA    273

SUBS_BACLE        73 LNNSIGVL-------GVAPSAELYAVKV------LGASGSGSVSSIAQGL    109
                          |..       ||||.|::.::|:      ...:|:|.:.::.:.:
TPP2_HUMAN       274 -----GHFPEEPERNGVAPGAQILSIKIGDTRLSTMETGTGLIRAMIEVI    318

SUBS_BACLE       110 EWAGNNGMHVANLSLGSPS---PSATLEQAVNSAT-SRGVLVVAASGNSG    155
                         |:...:.|.|.|..:   .|..:.:.:|.|. ...::.|:::||:|
TPP2_HUMAN       319 ----NHKCDLVNYSYGEATHWPNSGRICEVINEAVWKHNIIYVSSAGNNG    364

SUBS_BACLE       156 --AGSISYP-ARYANAMAVGATDQNN--------------NRASFSQYGA    188
                       ..::..| ...::.:.|||....:              |:.::|..|.
TPP2_HUMAN       365 PCLSTVGCPGGTTSSVIGVGAYVSPDMMVAEYSLREKLPANQYTWSSRGP    414

SUBS_BACLE       189 GLDIVAPGVNVQSTYPGSTYAS-----------LNGTSMATPHVAGAAAL    227
                     ..| .|.||::.:  ||...||           :|||||::|:..|..||
TPP2_HUMAN       415 SAD-GALGVSISA--PGGAIASVPNWTLRGTQLMNGTSMSSPNACGGIAL    461

SUBS_BACLE       228 V----KQKNPSWSNVQIRNHLKNTATSLGSTNLY--GSGLVNAEAA    267
                     :    |..|..::...:|..|:|||....:..::  |.|::..:.|
TPP2_HUMAN       462 ILSGLKANNIDYTVHSVRRALENTAVKADNIEVFAQGHGIIQVDKA    507


Question 9

  • Do you think local or global alignment is best for finding similar parts of distantly related proteins? Why?

Hint: Distantly related proteins typically share a core, that relates to the function of the protein

 Det ses tydeligt af det lokale alignment og af det globale alignment UDEN 
 end gaps, at den prokaryote protease kun matcher et enkelt område midt
 i den humane protease. Det kan man derimod ikke se af det globale alignment 
 MED end gaps, som "smører" den korte sekvens ud over hele den lange.
 Bemærk at globalt alignment UDEN end gaps kan betragtes som en slags mellemting
 mellem globalt og lokalt alignment.
 Til fjernt beslægtede sekvenser vil det være bedst at bruge lokalt alignment,
 idet man så faktisk får en analyse af den sammenlignelige del af sekvenserne.

Question 10

Open the SeqShuffle Server (http://www.cbs.dtu.dk/biotools/SeqShuffle-1.0/) in a new window/tab, paste in the tripeptidyl peptidase sequence and shuffle it. Then align Savinase and the shuffled tripeptidyl peptidase sequence using local alignment. Repeat the above procedure two more times, so that you align Savinase with three different shuffled versions of tripeptidyl peptidase.

  • How do the local alignments look? (What are the ranges of Alignment score, Alignment length, Identity, Similarity, and gap percentage)?
 Jeres svar vil naturligvis variere tilfældigt, men generelt skulle I forvente svar 
 inden for disse intervaller:
 Length: 100-300 
 Identity:    20%-30%  
 Similarity:  30%-40%  
 Gaps:        25%-40%  
 Score: 40-70 
 Dette er altså data fra de lokale alignments man får af at sammenligne ikke-beslægtede
 sekvenser med den givne længde og aminosyresammensætning. 
 Meningen med at lave Savinase/Shuffled alignments er at få en "nulmodel" der kan 
 sammenlignes med det rigtige Savinase/Human peptidase alignment. Hvis I havde gennemført
 eksperimentet 100 gange i stedet for 3, kunne I have lavet statistik på resultatet
 og udregnet konfidensgrænser og derudfra vurdere graden af signifikans ud fra en given 
 alignment score (meget mere om signifikans når vi kommer til BLAST).

Question 11

Comparing the Savinase/shuffled alignment to the previous Savinase/Human Peptidase alignment

  • how will you judge the alignment with human peptidase now? (More/Less confidence in relation between the sequences?).
 Når vi sammenligner vores Savinase/Human peptidase alignment (score: 173) 
 med de "bevidst dårlige" Savinase/Shuffled alignments ser det slet 
 ikke så tosset ud længere. Scoren er klart højere end det vi fik med de
 blandede sekvenser. Bemærk dog at man er nødt til at se på scoren for at
 få en klar forskel - de andre mål overlapper eller afviger ikke nær så konsekvent.
 Som vi vil se når vi kommer til BLAST handler der her om at holde sin alignment
 score op mod en reference af scores fra ikke-relaterede sekvenser.

Question 12

  • What are the alignment results (Length, score, gaps, identity, similarity)?
  • How do alignment length and % identity depend on the BLOSUM number (compare also to your answer to question 8)?


BLOSUM90:

 Length: 279
 Identity:      73/279 (26.2%)
 Similarity:   107/279 (38.4%)
 Gaps:          91/279 (32.6%)
 Score: 147.5

BLOSUM30:

 Length: 326
 Identity:      76/326 (23.3%)
 Similarity:   149/326 (45.7%)
 Gaps:          88/326 (27.0%)
 Score: 342.5
 Bemærk hvordan en matrix med et lavere BLOSUM-tal giver et længere lokalt alignment 
 med en lavere % identitet.

Question 13

  • How do the quality parameters look this time (Length, score, gaps, identity, similarity)?
  • Is this alignment biologically meaningful at all?
 Length: 1255
 Identity:     192/1255 (15.3%)
 Similarity:   228/1255 (18.2%)
 Gaps:        1011/1255 (80.6%)
 Score: 895.576
 Bemærk hvorledes sekvenserne bliver strukket ud hver gang aminosyrerne ikke 
 lige passer.
 Dette giver naturigvis ingen biologisk mening. Hvis gaps er (næsten) gratis
 kan ALT align'es og give en høj score.

Question 14

Note that there is a gap of 6 positions in GLBE_CHITH. What is the corresponding 6 amino acid long sequence of GLB7A_CHITH? This is an authentic example! Nature truly is fascinating...

 Sekvensen i GLB7A_CHITH, som svarer til det 6 positioner lange gap i GLBE_CHITH, er "ALIGNE".