Bioinformática: Fundamentos y Aplicaciones
La bioinformática se define como la aplicación de herramientas y técnicas computacionales a la gestión y análisis de datos biológicos. Un área clave es la adquisición, almacenamiento, análisis y modelado de datos relacionados con las secuencias de ácidos nucleicos y proteínas.
Objetivos Principales de la Bioinformática
- Organizar los datos biológicos en bases de datos.
- Facilitar la búsqueda y el análisis de homologías entre moléculas.
- Analizar las interacciones moleculares y contribuir al diseño de fármacos.
Aplicaciones y Utilidades
- Análisis de secuencias de nucleótidos:
- Alineamiento sencillo y múltiple.
- Análisis filogenético.
- Predicción de genes.
- Análisis de secuencias de proteínas:
- Obtención de datos físico-químicos (peso molecular, punto isoeléctrico, hidrofobicidad).
- Predicción de estructuras de proteínas.
- Análisis de propiedades estructurales proteicas.
- Alineamiento de estructuras proteicas.
- Simulación de reacciones químicas metabólicas.
Gestión de Referencias Bibliográficas y Bases de Datos
Una referencia bibliográfica es un conjunto de datos que permite identificar una publicación o parte de ella. Los gestores de referencias bibliográficas, como Zotero, son aplicaciones que ayudan a almacenar, encontrar y formatear referencias.
Zotero permite organizar y citar referencias en procesadores de texto como Word. Web of Science (WoS) es un servicio que facilita el acceso a un conjunto de bases de datos bibliográficas desde 1900 hasta la actualidad. En España, la Fundación Española para la Ciencia y la Tecnología (FECYT) facilita el acceso gratuito a WoS. Productos contratados incluyen: WoS, JCR, ESI y EndNoteWeb.
Operadores Booleanos para Búsquedas
- AND: Encuentra documentos que contienen ambos términos (ej: «aspartamo AND cáncer»).
- OR: Encuentra documentos que contienen al menos uno de los términos.
- NOT: Encuentra documentos que contienen el primer término pero no el segundo (ej: «aspartamo NOT cáncer»).
PubMed es una aplicación del NCBI (National Center for Biotechnology Information) que permite consultar la Biblioteca Nacional de Medicina de Estados Unidos de forma gratuita. Para refinar búsquedas con un alto número de resultados, se pueden utilizar la búsqueda avanzada o filtros. El orden de prioridad de los operadores es (NAO): NOT, AND, OR. Se recomienda usar paréntesis para agrupar términos y evitar errores.
Bases de Datos de Secuencias de Nucleótidos
Las principales bases de datos de secuencias de nucleótidos son:
- GenBank (NCBI, EE. UU.).
- ENA (Europa) – EMBL.
- DDBJ (Japón).
Estas tres bases de datos colaboran entre sí y forman The International Nucleotide Sequence Databases (INSDC). GenBank contiene secuencias de ADN y ADNc, así como de proteínas. Es una base de datos redundante, lo que significa que la misma secuencia puede aparecer en múltiples registros. Los autores son los únicos responsables de la información y solo ellos pueden modificarla. A partir de la versión 18, GenBank no asigna números de NCBI, sino solo números de acceso y versión.
GenBank agrupa las secuencias en dos categorías: taxonómica (12 divisiones) y funcional (5 divisiones).
Análisis Comparativo de Secuencias: Dot Plot y Alineamiento
Dot Plot: Un gráfico de puntos (dot plot) representa dos secuencias en dos ejes, proporcionando una visión general de la similitud entre ellas. No es un alineamiento, pero indica motivos repetidos entre dos secuencias o dentro de una misma. Se marca un punto cuando un elemento de una secuencia coincide con un elemento de la otra. El formato FASTA es el estándar para programas de análisis de secuencias, incluyendo identificadores y la secuencia.
La «ventana» (window) en un dot plot indica la longitud de la secuencia considerada para la comparación. Una ventana más grande (ej: 9) proporciona más información. El programa Dotmatcher de EMBOSS es una herramienta útil para generar dot plots. El mayor repositorio de secuencias de ADN es INSDC.
Acceso a Secuencias y Concepto de Homología
Formas de acceder a una secuencia:
- Código de acceso.
- Búsqueda por nombre del gen o proteína.
- Búsqueda por similitud de secuencia.
Importancia de la similitud: Dos secuencias de ADN o proteínas son homólogas si tienen un origen evolutivo común y, por lo tanto, funciones y/o estructuras similares. Secuencias similares suelen derivar de la misma secuencia ancestral. Se considera que dos proteínas son homólogas si la identidad de secuencia de aminoácidos es del 25% o superior, y dos secuencias de ADN son homólogas si la identidad es del 70% o superior (para secuencias de más de 100 elementos).
Alineamiento de Secuencias
Un alineamiento de secuencias es un emparejamiento elemento por elemento entre dos secuencias. Los elementos no coincidentes se emparejan con huecos (gaps). La distancia de edición (edit distance) es el número de eventos de mutación necesarios para transformar una secuencia en otra.
Un alineamiento con un menor número de mutaciones es más probable. Los algoritmos matemáticos de alineamiento minimizan la distancia de edición.
- Alineamiento Global: Útil para secuencias muy similares y de tamaño parecido. Puede resultar en muchos huecos.
- Alineamiento Local: Busca alinear elementos parecidos por zonas, ignorando las zonas no conservadas.
Tipos de algoritmos de alineamiento según su programación:
- Heurísticos: Se basan en la idea de que dos secuencias relacionadas deben tener al menos una «palabra» (word, pequeño fragmento idéntico) en común. Dividen el problema en fragmentos más fáciles de resolver (ej: FASTA).
- Dinámicos: Utilizan una matriz bidimensional para asignar puntuaciones a los alineamientos. La mejor solución es el alineamiento con la mayor puntuación. Producen los mejores alineamientos, pero requieren más recursos computacionales.
Los algoritmos heurísticos son más rápidos, pero pueden no encontrar el alineamiento óptimo en secuencias con relaciones distantes.
Matrices de Sustitución
Para el alineamiento de secuencias de ADN, un sistema simple otorga 1 punto a cada coincidencia y 0 a las no coincidencias. Sin embargo, existen matrices más sofisticadas:
- Matriz del algoritmo de Needleman-Wunsch (binaria).
- Matriz del algoritmo de Smith-Waterman.
- Matrices con puntuación negativa para huecos (gap penalty) y no coincidencias.
- Matrices que consideran las probabilidades de transición y transversión.
Needleman-Wunsch se utiliza para alineamiento global (programa Needle de EMBOSS). Smith-Waterman se utiliza para alineamiento local (programa Water de EMBOSS).
Las matrices PAM (Point Accepted Mutation) se derivan de la divergencia entre secuencias. Una unidad PAM se define como un cambio del 1% en las posiciones de los aminoácidos. Un número PAM mayor indica mayor distancia evolutiva. PAM250 es la matriz más usada, representando 250 mutaciones por cada 100 residuos (útil para secuencias divergentes). Las matrices BLOSUM (BLOcks SUbstitution Matrix) son lo opuesto a PAM: un número BLOSUM mayor indica mayor *convergencia*.
Microarrays: Tecnología y Análisis
Los microarrays son moléculas de ADN inmovilizadas sobre un soporte en posiciones conocidas. Una sonda es un fragmento de ADN o ARN de secuencia conocida que se utiliza en ensayos de hibridación. En los microarrays, las sondas se inmovilizan en el soporte. Suelen ser fragmentos de 11 a 50 pares de bases.
Técnicas de Depósito de Sondas
- Ink jetting: La sonda se deposita desde un capilar de vidrio con cristales piezoeléctricos.
- Pin deposition: Agujas que se impregnan en la muestra y luego se depositan en el soporte.
- Fotolitografía: El soporte se protege con una máscara fotodegradable. Se utilizan haces de luz para desproteger puntos y unir nucleótidos covalentemente. El proceso se repite con diferentes nucleótidos y máscaras hasta sintetizar las sondas in situ.
Confirmación Biológica de Resultados de Microarrays
Los resultados de los experimentos de microarrays proporcionan miles de valores de transcritos de ARN. La lista resultante puede contener tanto verdaderos positivos (genes realmente regulados) como falsos positivos. Es necesaria la confirmación mediante técnicas independientes como RT-PCR, Northern blot o knockout.
Estructura de Proteínas: Motivos, Dominios y Plegamientos
Estructura supersecundaria o motivos: Los elementos de la estructura secundaria (hélices alfa y láminas beta) se agrupan formando motivos estructurales que aparecen frecuentemente en las proteínas.
Motivos Estructurales Comunes
- Dedos de zinc: Contienen zinc coordinado con cisteínas e histidinas. El zinc estabiliza el motivo.
- Súper hélices (coiled coils): Hélices alfa empaquetadas mediante cadenas laterales hidrofóbicas. Son motivos de dimerización en proteínas de unión al ADN.
- Cremalleras de leucina básicas (bZIP): Presentan un motivo de unión al ADN rico en aminoácidos básicos en el extremo N-terminal.
- Motivo manos EF (EF-hand): Requiere residuos capaces de coordinarse con calcio, una glicina en la posición 6 del bucle y aminoácidos hidrofóbicos en las hélices.
Motivo de secuencia: Una secuencia corta que aparece en muchas proteínas y puede corresponder a elementos estructurales.
Plegamiento proteico (protein fold): Combinación de motivos simples. Ordenación reconocible de hélices alfa y láminas beta en la estructura 3D. Súper plegamientos (superfolds): Aparecen en proteínas sin similitud de secuencia ni funcional. El barril TIM es un ejemplo común; la mayoría de las proteínas con este plegamiento son enzimas.
La prevalencia de los súper plegamientos sugiere ventajas evolutivas: estabilidad estructural, eficiencia funcional y capacidad de plegado.
Dominios Proteicos
Un dominio es una región de la cadena polipeptídica que puede plegarse de forma semi-independiente, formando una estructura terciaria estable y compacta. El 95% de las proteínas multidominio tienen entre 2 y 5 dominios. Los dominios pueden definirse basándose en la estructura. Muchos dominios con un plegamiento característico tienen una función determinada. Se consideran la unidad funcional básica de las proteínas y unidades fundamentales de la estructura terciaria y la evolución molecular. La arquitectura de dominios de una proteína describe el orden secuencial de los dominios.
La duplicación y recombinación génica han dado lugar a proteínas multifuncionales por «barajado» de dominios. Ejemplo: dominios SH1 (tirosina quinasa asociada a ATP), SH2 (tirosina fosforilada) y SH3 (unión a residuos de prolina) en proteínas de señalización.
Familias de Dominios y Proteínas Homólogas
Una familia de dominios incluye dominios con un origen evolutivo común, similitudes de secuencia y estructura, y funciones similares. Proteínas homólogas tienen alta similitud de secuencia (más del 40%). No es correcto hablar de «porcentaje de homología».
- Ortólogas: Homólogas que han surgido por especiación en especies distintas; suelen tener funciones similares.
- Parálogas: Homólogas que han surgido por duplicación de genes en la misma especie; pueden tener funciones diferentes.
El alineamiento múltiple de secuencias permite detectar proteínas homólogas con baja identidad de secuencia. Los residuos conservados (marcados con un asterisco en verde) son clave para mantener la estructura y función.
Modelos Matemáticos y Bases de Datos de Dominios
Los modelos matemáticos que describen familias de dominios se almacenan en bases de datos secundarias como PROSITE, Pfam y CDD.
Secuencia consenso: Secuencia en la cual cada residuo es el más frecuente en esa posición. Si el residuo más común aparece en menos del 60% de las secuencias, se representa con una «x».
- PROSITE: Base de datos secundaria que almacena información sobre dominios, motivos, familias y sitios de proteínas. Utiliza patrones (patterns) y perfiles (profiles).
- Patrones: Expresión consenso sencilla derivada de una región conservada. Útiles para motivos pequeños.
- Patrones genéricos: De 4 a 6 residuos, poco específicos (muchos falsos positivos).
- Perfiles: Matrices de puntuación para motivos divergentes. Describen cada posición de la familia de proteínas.
- Pfam: Base de datos de familias de proteínas. Las familias Pfam se agrupan en súper familias o clanes. Proporciona información sobre la composición de dominios, estructura y función. Un clan es una colección de familias Pfam relacionadas con un origen evolutivo común.
- CDD (Conserved Domain Database): Base de datos de dominios conservados del NCBI. La información sobre la estructura 3D de los dominios se encuentra en la base de datos MMDB.
- InterPro: Permite analizar secuencias buscando en distintas bases de datos.
La herramienta de búsqueda en PROSITE es ScanProsite. Las bases de datos de dominios permiten trasladar la información funcional de una secuencia caracterizada experimentalmente a una secuencia problema no caracterizada.
UniProt: Proteomas y Análisis de Propiedades Físico-Químicas
Proteoma: Conjunto de proteínas que pueden encontrarse en una célula o tejido en circunstancias determinadas. La mayoría de los proteomas de UniProt proceden de la traducción de genomas completamente secuenciados.
Las entradas obsoletas se eliminan de UniProtKB, pero se mantienen en UniParc. Las proteínas de los proteomas redundantes están en UniParc y no en UniProtKB. Las entradas de UniRef son «clusters» o grupos de secuencias procedentes de UniProtKB (y algunas de UniParc).
Ejemplo de entrada de UniRef: Tabla con las proteínas incluidas (MEMBERS) y la secuencia (SEQUENCE) de la proteína representativa.
Herramienta ProtParam
ProtParam proporciona una estimación de propiedades físico-químicas de proteínas almacenadas en UniProtKB:
- Masa molecular.
- Punto isoeléctrico (pI) teórico.
- Composición de aminoácidos.
- Coeficiente de extinción.
- Vida media estimada.
Los resultados no tienen en cuenta modificaciones postraduccionales. La vida media de una proteína es una aproximación del tiempo necesario para que su cantidad se reduzca a la mitad. La regla del extremo N-terminal influye en la vida media. ProtParam proporciona una estimación de la vida media, pero no es válido para proteínas con modificaciones en el N-terminal.
El índice de inestabilidad estima la estabilidad de la proteína en un tubo de ensayo (menos de 40 = estable, más de 40 = inestable). El coeficiente de extinción se calcula a 280 nm en agua, asumiendo que no hay otros cromóforos. Las estimaciones son fiables para proteínas con residuos de triptófano, pero pueden tener desviaciones significativas para proteínas sin triptófano. Las estimaciones no tienen en cuenta modificaciones postraduccionales.
Estructura de Proteínas: Niveles de Organización y Predicción
La estructura de las proteínas muestra una organización jerárquica:
- Estructura secundaria: Conformación local de la cadena polipeptídica (hélices alfa, láminas beta, giros).
- Estructura terciaria: Organización tridimensional de la estructura secundaria.
El enlace peptídico tiene un carácter parcial de doble enlace (híbrido de resonancia). La rotación alrededor del enlace peptídico está restringida. El esqueleto polipeptídico forma planos rígidos separados por grupos metileno sustituidos. El esqueleto polipeptídico es constante; la cadena lateral es variable.
- Ángulo phi (φ): N-Cα.
- Ángulo psi (ψ): Cα-C=O.
Un ángulo phi negativo indica rotación en sentido antihorario. Una cadena polipeptídica no puede adoptar cualquier valor de phi y psi debido a impedimentos estéricos. El diagrama de Ramachandran define los pares de valores phi y psi permitidos.
Hélice Alfa
La hélice alfa se estabiliza mediante puentes de hidrógeno intracatenarios. Tiene 3.6 residuos por vuelta. Los valores de phi y psi están próximos a -60° y -50°, respectivamente.
Factores que afectan a la estabilidad de una hélice alfa:
- Tendencia intrínseca de cada residuo (la alanina tiene la mayor tendencia).
- Interacciones entre grupos R a 3-4 residuos de distancia.
- Tamaño y forma de los grupos R adyacentes.
- Presencia de prolina y glicina (desestabilizan).
- Interacciones entre residuos en los extremos del segmento helicoidal y el dipolo eléctrico de la hélice.
Residuos con carga negativa en el extremo N-terminal estabilizan la hélice.
Predicción de la Estructura Secundaria
Predecir la estructura secundaria facilita la determinación de la estructura 3D completa y es útil en estudios de plegamiento.
- Método de Chou-Fassman: Identifica regiones donde al menos 4 de 6 residuos contiguos tienen una puntuación alta para hélice alfa. Exactitud del 50-60%.
- Métodos de segunda generación: Consideran residuos adyacentes, pero no efectos tridimensionales. Baja fiabilidad en láminas beta.
- Método GOR: Probabilidad condicionada de que un residuo forme parte de una hélice alfa, dado que sus vecinos ya la forman. Exactitud del 65%.
- Métodos de tercera generación: Utilizan información de alineamientos múltiples, aumentando la fiabilidad. Emplean modelos ocultos de Markov (HMM) y redes neuronales entrenadas con proteínas resueltas. Ejemplos: Jpred y PSIPRED.
Jpred utiliza PSI-BLAST para buscar secuencias en UniProt y construir un alineamiento. Si se introduce una sola secuencia, la predicción es más exacta, pero tarda más. Si se introduce un alineamiento, se predice la estructura secundaria de la primera secuencia. Jpred también busca en el PDB antes de hacer la predicción. PSIPRED es gratuito.
Jnet pred: Predicción consenso (tubos rojos = hélices, flechas verdes = hebras beta).
Perfiles de Hidrofobicidad y Predicción de Regiones Transmembrana
ProtScale: Proporciona un perfil de hidrofobicidad. Una escala de hidrofobicidad asigna valores a los residuos (azules = hidrofóbicos, rojos = hidrofílicos). Se utiliza el método de la ventana deslizante (sliding window) para estudiar secuencias. El tamaño de la ventana debe ser similar al tamaño de la propiedad que se busca (ej: hélice transmembrana = 21 aminoácidos, ventana de 19-21).
ProtScale con ventana de 19 residuos: Regiones con índices de hidrofobicidad negativos indican la presencia de hélices alfa transmembrana. Las predicciones basadas en ventanas deslizantes son robustas, pero no muy sensibles.
TMHMM: Herramienta para la predicción de residuos transmembrana. Se introduce la secuencia en formato FASTA.
Espacio de Plegamientos (Fold Space) y Clasificación de Estructuras
El universo de plegamientos existentes (fold space) es limitado. La estructura de las proteínas es redundante. El número de nuevos plegamientos se ha estabilizado. La librería de plegamientos cubre la mayor parte del espacio estructural. Se estima que existen entre 1000 y 10000 plegamientos distintos.
Para identificar proteínas homólogas distantes, es necesario comparar estructuras. La estructura de las proteínas se conserva más que la secuencia. Comprender la relación secuencia-estructura-función es crucial, incluso cuando la identidad de secuencia es baja (ej: 8%).
Clasificaciones Estructurales
- Clasificación de Levitt y Chothia:
- Todo alfa.
- Todo beta.
- Alfa/beta (láminas beta conectadas por hélices alfa).
- Alfa + beta (motivos discretos de hélices alfa y láminas beta, principalmente láminas beta antiparalelas).
- Clasificación SCOP: Jerárquica, basada en estructura y relaciones evolutivas (poco actualizada).
- Clase: Igual estructura secundaria.
- Plegamiento: Distribución espacial de la estructura secundaria igual.
- Superfamilia: Estructuras y funciones comunes, baja identidad de secuencia.
- Familia: Origen evolutivo común, identidad de residuos ≥ 30%.
- Dominio.
- Clasificación CATH: Clasifica jerárquicamente dominios de proteínas del PDB.
- Clase.
- Arquitectura.
- Topología.
- Homología.
Homología en CATH: Familias de secuencia con ≥ 35% de identidad. Topología: Sin similitud funcional ni de secuencia; se agrupan en diferentes súper familias homólogas (ej: mioglobina y colicina).
Modelado por Homología y Reconocimiento del Plegamiento
Modelado por homología: Si dos proteínas tienen secuencias de aminoácidos muy similares, se puede utilizar la estructura de una proteína conocida (plantilla) para construir un modelo 3D de la proteína problema.
Existe una relación entre la longitud del alineamiento y el porcentaje de identidad de residuos necesario para inferir similitud estructural. La «zona segura» para el modelado por homología indica una alta probabilidad de similitud estructural. La «zona crepuscular» (twilight zone) proporciona poca información sobre la similitud estructural.
Pasos del Modelado por Homología
- Localizar proteínas cuya estructura pueda servir de plantilla.
- Realizar el mejor alineamiento posible entre las secuencias plantilla y problema (etapa crucial).
- Revisar el alineamiento manualmente.
- Dividir la estructura en:
- Núcleo estructural común (core): Predicción fácil.
- Bucles (loops) no conservados: Predicción más difícil (algoritmos spare parts).
Problemas del modelado por homología:
- Regiones de baja similitud de secuencia (bucles).
- Proteínas diana sin homólogos conocidos.
- Secuencias similares no siempre comparten la misma estructura.
El modelado por homología es el mejor método computacional actual para predecir la estructura de las proteínas.
Reconocimiento del Plegamiento (Fold Recognition)
Aprovecha la información disponible sobre la estructura 3D. Busca en bases de datos un plegamiento compatible con la proteína modelo que pueda servir de plantilla.
Los algoritmos de reconocimiento del plegamiento evalúan la probabilidad de que la secuencia de la proteína sea compatible con una estructura 3D conocida, asignando una puntuación de compatibilidad. Un valor de z-score muy elevado indica que la secuencia adopta ese plegamiento con alta probabilidad.
En las proteínas plegadas, los aminoácidos tienen preferencia por diferentes entornos. Un parámetro clave es la accesibilidad al solvente. El área superficial expuesta al agua y el entorno polar se utilizan para generar perfiles 3D. Cada residuo en la estructura tiene un descriptor ambiental asociado.
Las bases de datos de estructuras 3D se utilizan para generar matrices de puntuación que indican la probabilidad de encontrar cada aminoácido en una determinada clase ambiental. El método 3D-1D evalúa la probabilidad de que la secuencia de una proteína con estructura desconocida sea compatible con una estructura 3D conocida, de forma similar a como la matriz BLOSUM evalúa la probabilidad de que dos secuencias estén relacionadas.