.
.
Alineamientos de secuencias de ácidos nucleicos y proteínas. Algoritmos de búsqueda en bases de datos de secuencias (Blast, Psi-Blast, HMMs, etc.). Algoritmos de alineamiento múltiple de secuencias. Extracción de información de alineamientos de secuencia: patrones, perfiles y dominios. 

Teoría:


Prácticas avanzadas (Federico Abascal. CNB):


Práctica 1. Comparación de dos secuencias. (Federico Abascal. MNCN).

    Haz un alineamiento de estas dos secuencias usando el servidor del EMBL-EBI

    >RPE_YEAST 
       MVKPIIAPSI LASDFANLGC ECHKVINAGA DWLHIDVMDG HFVPNITLGQ PIVTSLRRSV 
       PRPGDASNTE KKPTAFFDCH MMVENPEKWV DDFAKCGADQ FTFHYEATQD PLHLVKLIKS 
       KGIKAACAIK PGTSVDVLFE LAPHLDMALV MTVEPGFGGQ KFMEDMMPKV ETLRAKFPHL 
       NIQVDGGLGK ETIPKAAKAG ANVIVAGTSV FTAADPHDVI SFMKEEVSKE LRSRDLLD 

     >RPE_MYCPN 
        MLNLVVNREI AFSLLPLLHQ FDRKLLEQFF ADGLRLIHYD VMDHFVDNTV FQGEHLDELQ 
        QIGFQVNVHL MVQALEQILP VYLHHQAVKR ISFHVEPFDI PTIKHFIAQI KQAGKQVGLA 
        FKFTTPLVNY ERLVQQLDFV TLMSVPPGKG GQAFNSAVFN NLKQAHKYHC SIEIDGGIKL 
        DNIHQIQDDV NFIVMGSGFI KLERWQRQQL LKTNQ

    Prueba a hacer un alineamiento global (opción "needle") y uno local (opción "water"). ¿Observas diferencias?
    ¿Crees que estas dos secuencias están relacionadas? 

    Prueba a obtener el alineamiento utilizando distintas matrices de sustitución y distintas penalizaciones para la
    apertura y extensión de gaps. Por ejemplo, prueba con BLOSUM62 y BLOSUM40. ¿Observas diferencias?
    (podéis ver los resultados aquí

    ¿Cómo podríamos estar más seguros de cuál es el mejor alineamiento? ¿cómo obtenerlo? 

Práctica 2. BLAST en el NCBI
    Ejercicios:
       
  • Nucleotide blast (blastn):

  • Buscar los homólogos con menor E-value en la base de datos de nucleótidos (nr) y en el genoma humano de la siguiente secuencia:

    >ejemplo1
    taggaaagcc agaatagaaa gaatccgccc gtaaaaagaa aaataaagca aactcgatac
    aatttcatgc aagaaggcca tttgctaatt ccaagagcga ggtaaacaca caagaaaaaa
    tggtcaaacc aattatagct cccagtatcc ttgcttctga cttcgccaac ttgggttgcg
    aatgtcataa ggtcatcaac gccggcgcag attggttaca tatcgatgtc atggacggcc
    attttgttcc aaacattact ctgggccaac caattgttac ctccctacgt cgttctgtgc
    cacgccctgg cgatgctagc aacacagaaa agaagcccac tgcgttcttc gattgtcaca
    tgatggttga aaatcctgaa aaatgggtcg acgattttgc taaatgtggt gctgaccaat
    ttacgttcca ctacgaggcc acacaagacc ctttgcattt agttaagttg attaagtcta
    agggcatcaa agctgcatgc gccatcaaac ctggtacttc tgttgacgtt ttatttgaac
    tagctcctca tttggatatg gctcttgtta tgactgtgga acctgggttt ggaggccaaa
    aattcatgga agacatgatg ccaaaagtgg aaactttgag agccaagttc ccccatttga
    atatccaagt cgatggtggt ttgggcaagg agaccatccc gaaagccgcc aaagccggtg
    ccaacgttat tgtcgctggt accagtgttt tcactgcagc tgacccgcac gatgttatct
    ccttcatgaa agaagaagtc tcgaaggaat tgcgttctag agatttgcta gattagttgt
    acatatgcgg catttcttat atttatactc tctatactat acgatatggt atttttttct
    cgttttgatc c 

...Protein blast (blastp):
    Buscar los 50 homólogos con menor E-value en la base de datos de proteínas (nr) de la siguiente secuencia:

    >ejemplo2
    MVKPIIAPSI LASDFANLGC ECHKVINAGA DWLHIDVMDG HFVPNITLGQ
    PIVTSLRRSV PRPGDASNTE KKPTAFFDCH MMVENPEKWV DDFAKCGADQ
    FTFHYEATQD PLHLVKLIKS KGIKAACAIK PGTSVDVLFE LAPHLDMALV
    MTVEPGFGGQ KFMEDMMPKV ETLRAKFPHL NIQVDGGLGK ETIPKAAKAG
    ANVIVAGTSV FTAADPHDVI SFMKEEVSKE LRSRDLLD 
     

  • Position-Specific Iterated protein blast (Psi-blast):

  • Realizar 2/3 ciclos de Psi-BLAST contra la base de datos de proteínas (nr) de la siguiente secuencia: 

    >FTSA_ECOLI
    MIKATDRKLVVGLEIGTAKVAALVGEVLPDGMVNIIGVGSCPSRGMDKGGVNDLESVVKC
    VQRAIDQAELMADCQISSVYLALSGKHISCQNEIGMVPISEEEVTQEDVENVVHTAKSVR
    VRDEHRVLHVIPQEYAIDYQEGIKNPVGLSGVRMQAKVHLITCHNDMAKNIVKAVERCGL
    KVDQLIFAGLASSYSVLTEDERELGVCVVDIGGGTMDIAVYTGGALRHTKVIPYAGNVVT
    SDIAYAFGTPPSDAEAIKVRHGCALGSIVGKDESVEVPSVGGRPPRSLQRQTLAEVIEPR
    YTELLNLVNEEILQLQEKLRQQGVKHHLAAGIVLTGGAAQIEGLAACAQRVFHTQVRIGA
    PLNITGLTDYAQEPYYSTAVGLLHYGKESHLNGEAEVEKRVTASVGSWIKRLNSWLRKEF
    ...
    ¿Son homólogas las proteínas: 

  • "FTSA_ECOLI" (nomenclatura de la base de datos Swissprot-Uniprot) y

  • "gi|2983387|gb|AAC06972.1|  rod shape determining protein MreB (Aquifex aeolicus)" (nomenclatura de la base de datos de proteína del NCBI) ?
    1.- Conectarse al servidor de PSI-Blast en el NCBI y pegar la secuencia de FTSA_ECOLI en la ventana de texto (database: nr) 
      Un ejemplo de la salida del programa de PSI-Blast [iteración 1]
      -> Entre los resultados: ¿Se encuentra la secuencia de la proteína MreB de Aquifex aeolicus (gi|2983387|)? 
      ¿O la proteína MreB [Vibrio coralliilyticus]? ¿Con qué E-value? ¿Es indicativo de homología? 
      ..
    2.- Correr una segunda iteración, utilizando ahora el perfil del alineamiento entre las secuencias con un E-value menor de 0.005 como semilla: [iteración 2
      ¿Aparecen ahora "gi|2983387|" o "MreB [Vibrio coralliilyticus]" entre las secuencias con un e-value menor de 0.005 (potencialmente homólogas)? ¿Por qué?
      ..
    3.- Ejemplos de una 3ª y 4ª iteraciones pueden consultarse aquí: [iteración 3]-[iteración 4].
Práctica 3. BLAST en el EBI-EMBL
    Ejercicio:
       
  • Protein blast (blastp):

  • Buscar (y GUARDAR en un archivo de texto) los 50 homólogos con menor E-value en la base de datos de proteínas (UniProt) de la siguiente secuencia (resultado-BLAST) (archivo de texto: 50 ftsa.txt): 

    >FTSA_ECOLI
    MIKATDRKLVVGLEIGTAKVAALVGEVLPDGMVNIIGVGSCPSRGMDKGGVNDLESVVKC
    VQRAIDQAELMADCQISSVYLALSGKHISCQNEIGMVPISEEEVTQEDVENVVHTAKSVR
    VRDEHRVLHVIPQEYAIDYQEGIKNPVGLSGVRMQAKVHLITCHNDMAKNIVKAVERCGL
    KVDQLIFAGLASSYSVLTEDERELGVCVVDIGGGTMDIAVYTGGALRHTKVIPYAGNVVT
    SDIAYAFGTPPSDAEAIKVRHGCALGSIVGKDESVEVPSVGGRPPRSLQRQTLAEVIEPR
    YTELLNLVNEEILQLQEKLRQQGVKHHLAAGIVLTGGAAQIEGLAACAQRVFHTQVRIGA
    PLNITGLTDYAQEPYYSTAVGLLHYGKESHLNGEAEVEKRVTASVGSWIKRLNSWLRKEF

    Comparar el resultado anterior con el obtenido al buscar en la base de datos UniprotKB/Swiss-Prot: (resultado-BLAST-SwissProt) (las 50 secuencias con un E-value menor: (50_FTSA_sw.txt

Práctica 4. CLUSTAL-W Práctica 5. T-COFFEE & MUSCLE
T-COFFEE
Práctica 6. Bases de datos de alineamientos. Pfam. Interpro.
Pfam: http://pfam.sanger.ac.uk/  [Un ejemplo]
Interpro: http://www.ebi.ac.uk/interpro  [Un ejemplo]
  • Pega las secuencias de la proteínas:
  • >RPE_YEAST 
    MVKPIIAPSILASDFANLGCECHKVINAGADWLHIDVMDGHFVPNITLGQPIVTSLRRSV 
    PRPGDASNTEKKPTAFFDCHMMVENPEKWVDDFAKCGADQFTFHYEATQDPLHLVKLIKS 
    KGIKAACAIKPGTSVDVLFELAPHLDMALVMTVEPGFGGQKFMEDMMPKVETLRAKFPHL 
    NIQVDGGLGKETIPKAAKAGANVIVAGTSVFTAADPHDVISFMKEEVSKELRSRDLLD 

    >APAF_HUMAN
    MDAKARNCLLQHREALEKDIKTSYIMDHMISDGFLTISEEEKVRNEPTQQQRAAMLIKMI
    LKKDNDSYVSFYNALLHEGYKDLAALLHDGIPVVSSSSGKDSVSGITSYVRTVLCEGGVP
    QRPVVFVTRKKLVNAIQQKLSKLKGEPGWVTIHGMAGCGKSVLAAEAVRDHSLLEGCFPG
    GVHWVSVGKQDKSGLLMKLQNLCTRLDQDESFSQRLPLNIEEAKDRLRILMLRKHPRSLL
    ILDDVWDSWVLKAFDSQCQILLTTRDKSVTDSVMGPKYVVPVESSLGKEKGLEILSLFVN
    MKKADLPEQAHSIIKECKGSPLVVSLIGALLRDFPNRWEYYLKQLQNKQFKRIRKSSSYD
    YEALDEAMSISVEMLREDIKDYYTDLSILQKDVKVPTKVLCILWDMETEEVEDILQEFVN
    KSLLFCDRNGKSFRYYLHDLQVDFLTEKNCSQLQDLHKKIITQFQRYHQPHTLSPDQEDC
    MYWYNFLAYHMASAKMHKELCALMFSLDWIKAKTELVGPAHLIHEFVEYRHILDEKDCAV
    SENFQEFLSLNGHLLGRQPFPNIVQLGLCEPETSEVYQQAKLQAKQEVDNGMLYLEWINK
    KNITNLSRLVVRPHTDAVYHACFSEDGQRIASCGADKTLQVFKAETGEKLLEIKAHEDEV
    LCCAFSTDDRFIATCSVDKKVKIWNSMTGELVHTYDEHSEQVNCCHFTNSSHHLLLATGS
    SDCFLKLWDLNQKECRNTMFGHTNSVNHCRFSPDDKLLASCSADGTLKLWDATSANERKS
    INVKQFFLNLEDPQEDMEVIVKCCSWSADGARIMVAAKNKIFLFDIHTSGLLGEIHTGHH
    STIQYCDFSPQNHLAVVALSQYCVELWNTDSRSKVADCRGHLSWVHGVMFSPDGSSFLTS
    SDDQTIRLWETKKVCKNSAVMLKQEVDVVFQENEVMVLAVDHIRRLQLINGRTGQIDYLT
    EAQVSCCCLSPHLQYIAFGDENGAIEILELVNNRIFQSRFQHKKTVWHIQFTADEKTLIS
    SSDDAEIQVWNWQLDKCIFLRGHQETVKDFRLLKNSRLLSWSFDGTVKVWNIITGNKEKD
    FVCHQGTVLSCDISHDATKFSSTSADKTAKIWSFDLLLPLHELRGHNGCVRCSAFSVDST
    LLATGDDNGEIRIWNVSNGELLHLCAPLSEEGAATHGGWVTDLCFSPDGKMLISAGGYIK
    WWNVVTGESSQTFYTNGTNLKKIHVSPDFKTYVTVDNLGILYILQTLE

    en las entradas de texto de las bases de datos PFAM e INTERPRO y analiza los resultados,
    comparándolos con los alineamientos obtenidos utilizando Blast y ClustalW.
     

  • Prácticas avanzadas.

  •  
Práctica 7. Búsqueda de homólogos de una proteína con estructura tridimensional conocida.
En ausencia de la estructura 3D experimental de una proteína, en ocasiones es de utilidad conocer la estructura de una proteína homóloga para inferir las propiedades de la primera a partir de  la segunda.Utilizaremos el servidor BLAST-EBI para responder a la pregunta: ¿Se conoce la estructura 3D de un homólogo de FTSA_ECOLI?; es decir: ¿Hay una proteína homóloga a FTSA_ECOLI entre las que se encuentran depositadas en la base de datos de PDB?

1.- Obtener la secuencia de la proteína FTSA_ECOLI a partir del servidor SRS-EBI. (FTSA_ECOLI_seq.txt)
2.- Conectarse al servidor BLAST-EBI. Pegar la secuencia de FTSA_ECOLI en la ventana de texto.
(Atención: escoger la base de datos "Structure" -> "Protein Structure Sequences".)
3.- Un ejemplo de resultado: FTSA_ECOLI_Blast2PDB


 
Cuestionario:

¿Qué es un homólogo? ¿Qué diferencia hay entre "parecido" y homología? 
¿Por qué el parecido en secuencia se pierde antes en la secuencia de nucleótidos que en la de aminoácidos? 
¿Por qué comparando pares de secuencias no podemos encontrar homólogos remotos? 
¿Qué información sale a la luz cuando hacemos un alineamiento múltiple? 
¿Qué es un perfil y por qué permite encontrar homólogos lejanos? 
¿Por qué el análisis de secuencias (alineamientos, búsquedas, predicción de función...) hay que hacerlo teniendo en cuenta la organización de dominios de las proteínas? 
¿Por qué a la hora de predecir la función de una proteína debemos tener en cuenta la clasificación en familias y subfamilias de los homólogos? 
 


....


Coordinador:
Dr. Paulino Gómez-Puertas.
Grupo de Modelado Molecular. 
Centro de Biologia Molecular "Severo Ochoa" (CSIC-UAM).
C/ Nicolás Cabrera, 1.
Campus UAM. Cantoblanco, 28049 Madrid. Spain
Tel: (+34) 91-196-4663/4662   Fax: (+34) 91-196-4420
2012
bioweb: Molecular Modelling Group

Biomol-Informatics SL