Escherichia coli en Estudios Post-Genómicos Microbianos

Julio Collado Vides y Gabriel Moreno Hagelsieb


Programa de Biología Genómica Computacional, Centro de Investigación sobre Fijación de Nitrógeno, UNAM

Diversidad y Unidad en Biología

Si bien estamos rodeados de una gran cantidad de seres vivos que nos asombran por su color, forma o habilidades, las secciones de biología en museos de ciencia suele ser mucho menos llamativas y sobretodo menos experimentales que las de, por ejemplo, mecánica o electricidad. Las secciones de física pueden ser muy atractivas, con tubos de agua turbulenta, imanes poderosos, animaciones espectaculares de estática y electricidad. Las secciones de biología, como las dedicadas a la anatomía y a la riqueza del estudio del cerebro humano, tienen una tarea más difícil de ilustrar, así como las secciones del origen e historia de la vida. Su dificultad deriva, como con la astronomía, de que trata de mundos lejanos en el tiempo o en el espacio, o inaccesibles de forma directa, para los que se requiere de trucos, dibujos o abstracciones para atraer al público. (Algunos sitios de museos de ciencia en internet: http://www.mos.org/home.html, http://www.fmnh.org/, http://www.cs.cmu.edu/~mwm/sci.html).

Pero la biología y la vida se recuperan con las películas de ciencia ficción de al menos las últimas dos décadas, desde tiempo atrás con seres extraterrestres, pasando por los dinosaurios que se escapan al control del abuelo soñador, y más recientemente con toda una plétora de seres extraños, mutantes, Pókemons, y demás. Mal que bien, esas películas de acción y fantasías ya nos acercan al tema de la diversidad y riqueza de cambio -metamorfosis, mutaciones, alteraciones- del que el mundo viviente parece una fuente inagotable. (Ver http://directory.netscape.com/Arts/Movies/Titles/J/Jurassic_Park).

La diversidad biológica que vemos a simple vista en películas y zoológicos, corresponde a lo actual en descendencia o fantasía, que ha dejado la explosión del Precámbrico hace aproximadamente 600 millones de años. La riqueza en formas, tamaños, colores y sus combinaciones que nos ofrecen las distintas especies de animales del océano, mamíferos, aves, insectos, reptiles y plantas, son un reto de reproducir para cualquier mente con gran imaginación. Toda esa riqueza se la debemos al invento de la multicelularidad durante el Precámbrico. Se cuentan por ejemplo por miles las especies de escarabajos.

Si esta diversidad nos asombra, es igualmente sorprendente descubrir la gran unidad en mecanismos y estructuras que son comunes a todo ser vivo. Toda esa riqueza en variedad tiene temas comunes, tales como cuatro planes básicos de organismos en toda la variedad de insectos, así como un plan común en las extremidades de organismos superiores de forma que un brazo humano comparte su estructura básica con el ala de un murciélago, empezando por el hombro, el tener primero un hueso, seguido de una articulación, luego dos huesos, otra articulación y finalmente 5 extremidades (Gould, 1977).

Si ahora descubrimos el mundo biológico que no detectamos a simple vista, la diversidad y unidad se amplifican, así como el viaje en el tiempo. El origen del planeta se estima en alrededor de 4 mil millones de años. Las primeras evidencias de vida son tan antiguas como el momento en que se dio el enfriamiento necesario para haber dejado huellas de su existencia. Así pues estamos extendiendo la antigüedad que nos separa del Precámbrico por otras 5 ó 6 veces, para llegar a hace más de 3 mil millones de años. Era un mundo dominado por las bacterias y organismos unicelulares. Se consideran actualmente tres grandes tipos de organismos, las Bacterias, las Arqueobacterias y los Eucariotes. Según estimados actuales, los más recientes entre estos últimos surgieron hace cerca de 1 millón de años.

Inicio de los Proyectos Genómicos

Mucho de lo que sabemos de estos tiempos ancestrales y la diversificación sucesiva de los organismos, viene de la paleontología y la biología molecular. Biología experimental que surge a mediados del siglo pasado con el estudio del fago lambda y de la bacteria Escherichia coli K-12, aislada del excremento de André Lwoff, experimentalista de la época. Las bacterias al microscopio ofrecen un mundo bastante monótono, si bien con algunas diferencias morfológicas (cocos, bastones, espiroquetas), poco atractivo en comparación con un zoológico razonable. Pero se reproducen rápido y por miles y se pueden mutar fácilmente. Estas son ventajas importantes para el estudio experimental de la genética, de sus leyes y mecanismos. De los años 40 a mediados de los 70s los descubrimientos en E. coli nos dejaron los fundamentos de la biología molecular, el código genético, el papel en la replicación y regulación del ADN, el modelo del operón de lactosa, las definiciones de enzima alostérica, promotor, operador, gen estructural y gen regulador. Conceptos que son la base en principio para entender la diferenciación y reproducción celular. Fue un período de surgimiento de la microbiología a las fronteras de la ciencia que más contribuciones generan en su momento.

Con este armamento conceptual y metodológico, empieza la biología molecular a indagar experimentalmente en organismos más atractivos y complejos, las células eucariotes con su potencial de diferenciación, generación de tejidos y anatomías diversas. No se diga más aún el indagar a nivel molecular el estudio del cerebro y sus funciones (Jacob, 1997). El interés y capacidad de estudiar experimentalmente estos procesos biológicos de organismos superiores es tal que los microbiólogos tienen que mostrar lo parecido de estos organismos con eucariotes y sus mecanismos, para que llegar a publicar en las revistas donde pocos años antes habían hecho historia (Magasanik, 1988).

No hubo mucho que esperar para que la microbiología volviera a tomar, o al menos a compartir, los lugares de primera línea en la investigación. El Proyecto del Genoma Humano tiene su nacimiento documentado en 1989, con un reporte crítico de la viabilidad y justificación de sus objetivos. Se criticaba que obtener la secuencia completa de la información hereditaria de la especie humana no es realmente hacer ciencia, ya que para tal propósito se requiere obtener datos y más datos (léase secuencia de nucleótidos) de manera sistemática, ciega a una pregunta previa de cuál es su función o porqué se buscan esos datos -en breve, sin hipótesis previa. Y el mismo Comité contestaba: en efecto, por eso mismo queremos ahorrarle el trabajo al investigador y hacer este proyecto, más bien técnico, de una vez por todas. Así la ciencia podrá avanzar con una piedra menos en el camino.

Dado el avance vertiginoso de la ciencia, en buena medida estas discusiones son ya parte de la historia. En los albores del 2001 estamos a la puerta de tener las 3 mil millones de (3 x 109) nucleótidos del mapa genómico del Homo sapiens sapiens. Y de tener de paso, los genomas de muchos otros organismos "modelo" gracias a alguna virtud especial que facilita investigar y entender el funcionamiento y estructura de los seres vivientes. El primer genoma terminado fue el de Haemophilus influenzae en 1996, el patógeno causante de otitis en los niños. Ese mismo año se terminó el de levadura, modelo de organismo superior y de interés para la industria del vino. Y de allí para entonces, como la explosión del Precámbrico, la lista ha crecido enormemente, con cerca de 40 genomas ya terminados y más de 100 en un par de meses. Disponemos de una cantidad considerable de genomas microbianos -de bacterias y arqueobacterias- y pronto tendremos un número inimaginable. Esta es la base del segundo resurgimiento de la microbiología. Si bien la secuencia de un nuevo genoma ya no es noticia, como decía un réferi, tal parece que la secuencia de una bacteria patógena todavía lo es.

Dicen los colegas en congresos que en la Fundación Nacional de la Ciencia de Estados Unidos se estima que se podrían secuenciar 10 mil genomas microbianos en los próximos 10 años. Suena demasiado? Si estimamos un genoma bacteriano promedio en 4 x 106 nucleótidos, diez mil bacterias tendrían un total de 4 x 1010 nucleótidos, o el equivalente de 10 genomas humanos aproximadamente. Dada la velocidad en el avance de la tecnología, se trata de una empresa sin duda realizable en un futuro cercano. Estos genomas nos daría (darán?) un panorama más preciso de la diversidad de la vida de los microorganismos en nuestro planeta. Hay que recordar que la diversidad de organismos en una cucharadita de tierra se desconoce aún. Los problemas de cultivo de bacterias que viven en comensalismo u otras formas de relación y simbiosis, hacen muy difícil su cultivo e identificación. Sabemos sin embargo que las bacterias y semejantes pueden vivir en condiciones extremas, pueden corroer el acero, vivir a 2 kilómetros bajo tierra, en las profundidades del mar, en temperaturas arriba de los 100oC, donde no? En breve, sabemos que no conocemos ni la punta del iceberg de su riqueza en número y diversidad (Pace, 1997).

Escherichia coli Referencia en el Mundo Genómico Microbiano

Escherichia coli es la célula de vida libre, es decir ser viviente autónomo, de la que tal vez sepamos más al momento. Como dice Fred Neidhardt, reconocido microbiólogo, todo biólogo conoce al menos dos células, aunque no esté consciente, la que trabaja y E. coli. Esta frase anecdótica, refleja en mucho la forma de trabajo y anotación de los proyectos genómicos. El primer paso fundamental en un proyecto genómico es por supuesto secuenciar un genoma. El paso siguiente es hacer su anotación, que consiste en hacer la asignación de algo que un humano entiende a un fragmento de una secuencia aburrida de 4 nucleótidos que nadie puede leer en directo- de todo genoma terminado. La tarea de anotación tiene dos componentes. El de localizar o mapear en la secuencia el conocimiento previo. Esto es, localizar en el genoma secuencias obtenidas con anterioridad en las que se han realizado experimentos y por lo tanto se tiene conocimiento sobre sus elementos biológicos (genes, señales reguladoras, operones, etc.). El segundo componente es tarea de biología computacional y consiste en hacer predicciones sobre funciones biológicas, con base esencialmente en la comparación de la secuencia del genoma desconocido contra toda secuencia reportada con anterioridad -depositada en GenBank. El resultado de la anotación consiste en identificar elementos biológicamente interpretables en la secuencia de ADN (desde genes, operones, secuencias de inserción (ISs), promotores, etc.

El genoma completo de Escherichia coli se terminó de secuenciar y anotar en febrero de 1997 (Blattner et al., 1997). La tarea de anotación fue particularmente intensa en E. coli dada la cantidad de conocimiento previo. La anotación involucra por un lado localizar información ya reportada y por el otro hacer predicciones computacionales. Se conoce o tiene idea de la función para cerca de la mitad de los genes en E. coli. Asimismo se tiene al momento, del orden de 600 promotores -sitios de inicio de la transcripción- mapeados en el genoma y del orden de 300 operones o unidades de transcripción definidas. Piénsese que la identificación experimental de cada promotor ha involucrado muchas veces su secuenciación y una serie de experimentos para conocer su posición y su posible regulación. Fácilmente podemos subestimar la cantidad de trabajo y la información adicional detallada alrededor esta bacteria. Las bases de datos disponibles, si bien dan una idea estimada, en realidad no logran capturar más que "la punta del iceberg" del conocimiento acumulado. Se puede tener una idea más completa leyendo los dos volúmenes sobre E. coli y Salmonella en su primera y segunda edición (Neidhardt et al., 1996) . Compárese este grado de conocimiento con microorganismos, bacterias y arqueobacterias cuyo genoma completo está ya disponible y sin embargo el número de experimentos en algunas de ellas se pueden contar con los dedos de una mano. Para algunas incluso no hay medios de cultivo en laboratorio aún. Y del mismo mundo microbiano, hay ya 6 ó 7 genomas terminados de arqueobacterias, así como varias otras bacterias en las que el número de experimentos realizados se cuenta con una mano.

Si uno ve los archivos de GenBank asociados a los distintos genomas completos microbianos, podrá constatar que en general se conoce o tiene idea de la función de aproximadamente el 50% de los genes en cualquier genoma. Esta aproximación general no debe confundirse con la magnitud de conocimiento experimental acumulado entre por ejemplo Aquifex y E. coli. En muchos genomas con biología poco conocida la gran mayoría de genes se anotan como predicciones, con base en la similaridad de su secuencia con la secuencia de genes ya estudiados y caracterizados experimentalmente en otros organismos.

La comparación de secuencias y su fundamento matemático es la base u origen de lo que actualmente se denomina bioinformática o biología computacional (Smith, 1990). En efecto, se tienen los cálculos estadísticos para que dado un nivel de similaridad entre dos secuencias codificantes, sepamos de que dicha similaridad sea significativa estadísticamente. De esta manera la secuencia genética y genómica permite llegar a un conocimiento estimado con mucho menos esfuerzo que lo que involucra el trabajo experimental. El pago es la incertidumbre, ya que la certeza se da sólo del haber purificado la proteína codificada por un gen y determinado su función bioquímica, o de haber mapeado experimentalmente un inicio de transcripción.

¿Cuáles son los retos u oportunidades que el mundo bacteriano nos ofrece al tener una de las células mejor conocidas, fuente de conocimiento o referencia en la biología molecular de casi cualquier organismo, y también genomas terminados de bacterias prácticamente vírgenes al estudio del laboratorio?

Dada la explosión en información de secuencias genómicas completas, el cuello de botella en cierto sentido está ahora en las metodologías de análisis e interpretación de dichas secuencias y su contenido biológico. El tener la secuencia completa de un genoma de un organismo representa un logro enorme de trabajo. A la vez es en buena medida el punto de partida para lo que actualmente se denominan, estudios post-genómicos. Estos estudios se apoyan en metodologías experimentales que usan la información de la secuencia genómica y permiten obtener información experimental ya no de un gen sino de prácticamente todos los genes de un organismo. Dos ejemplos son lo que se denomina el proteoma y el transcriptoma. El proteoma sería la información cuantitativa del nivel de expresión de todas las proteínas en una condición dada. La manera clásica de obtener dicho perfil han sido los geles de doble dimensión que separan por carga y por peso molecular a las proteínas. Estos geles no logran separar o identificar al total de las proteínas, sin embargo nuevos métodos van en ese camino (ver artículo de Sergio Encarnación en este volumen). El transcriptoma o nivel cuantitativo de los mRNAs de todos los genes en una condición dada ha tenido un auge considerable recientemente (Lockhart et al., 2000). Estas metodologías nuevas por un lado están generando información de poblaciones de genes y de moléculas, y por otro lado, hacen factible pensar en objetivos más ambiciosos en el estudio de los seres vivos. Un objetivo ambicioso pero que se vislumbra realizable, es caracterizar primero, y algún día entender, el comportamiento de la célula completa, a nivel de la dinámica y efecto de cada uno de sus componentes moleculares. No sabemos si conceptualmente y metodológicamente la visión integrada será posible (Krischner et al., 2000), sin embargo, los métodos para la caracterización física completa a nivel molecular de una célula están empezando a desarrollarse y a utilizarse.

Quisiéramos por supuesto entender los procesos más interesantes de diferenciación celular y desarrollo, envejecimiento y aprendizaje a este nivel molecular. La estrategia que hemos seguido en nuestro laboratorio es el limitarnos por el momento a entender una bacteria. Dado el lugar privilegiado en la biblioteca de la biología molecular, E. coli creo puede considerarse el laboratorio ideal para desarrollar métodos de biología computacional y sueños de teorías integrativas. En efecto, lo que en E. coli y bacterias no se logre, dará una pauta de los limites de la metodología para cualquier otro genoma u organismo más complejo. Para concretar más las ideas, enseguida se presentan ejemplos concretos en la elaboración de métodos en biología computacional.

Biología Computacional

Primero describiremos en general el proceso para generar un método predictivo en biología computacional cuyo objetivo es predecir propiedades biológicas en una secuencia de ADN o genoma. Más adelante ilustraremos el caso concreto del método de predicción de operones.

a) En un inicio, se estudian las propiedades de aquéllo que se quiere predecir ya sea genes, operones, sitios de regulación, estructura de proteínas, y se buscan regularidades que caracterice dicho objeto.

b) Con base en las observaciones hechas del estudio de un conjunto conocido se propone un método computacional para generar predicciones.

c) Se implementa dicho método o algoritmo y se prueba hacer una predicción tomando como entrada o punto de partida la secuencia genómica. Dicho método no usa por supuesto la información que se busca predecir, es decir, es ciego al conocimiento que se busca como respuesta o predicción.

d) Se evalúa que tan eficiente fue dicho método, que tan buenas fueron las predicciones al comparar lo predicho con el conjunto conocido.

e) Enseguida se realizan las predicciones o se seleccionan las predicciones con el método generado, dejando claro la capacidad o que tan bueno es dicho método.

f) Idealmente se buscaría más adelante comparar las predicciones con resultados experimentales nuevos, con la posibilidad de establecer un circuito de interacción entre métodos computacionales y experimentos.

Al ser este proceso bastante general en biología computacional se aprecia la conveniencia de trabajar con un organismo con conjuntos conocidos importantes y confiables, donde se incluye desde los genes, pasando por señales de regulación promotores, sitios de pegado de proteínas reguladoras, proteínas reguladoras, organización de genes en operones.

Veamos ahora un ejemplo preciso, el de la predicción de operones (genes contiguos, que se regulan y transcriben simultáneamente) en E. coli, siguiendo los puntos antes mencionados:

a) Este trabajo comenzó con la elección de los grupos conocidos a estudiar para comparar sus propiedades. El material con el que comenzó este proyecto es la información sobre operones conocidos de E. coli, y su genoma. Dicha información la hemos recopilado en el curso de los años en una base de datos, RegulonDB (Salgado et al., 2001, ver: http://www.cifn.unam.mx/Computational_Biology/regulondb/), contando al momento con cerca de 300 operones y más de 500 unidades de transcripción conocidos. Así, el trabajo comenzó con la organización de los genes cuya situación en un determinado operón o unidad de transcripción se conoce, formando colecciones de parejas de genes contiguos unos que se encuentran en el mismo operón, y otros que se encuentran en frontera entre unidades de transcripción. Las propiedades estudiadas fueron las distancias entre los genes, y sus relaciones funcionales.

b) Tal como se esperaba, la frecuencia de distancias muy cortas entre genes que se encuentran en un mismo es mucho más alta que entre genes en frontera (Fig. 1), de manera que conociendo la distancia entre dos genes es posible calcular la posibilidad de se encuentren en un operón basados en esta diferencia. Por otra parte, las anotaciones funcionales de los genes asociados en operones tienden a ser las mismas con más frecuencia que las que corresponden a genes en frontera, lo que provee un parámetro extra que se puede usar en las predicciones, aunque por desgracia estas anotaciones dependen de conocimiento experimental específico y de contexto que no están disponibles para la gran mayoría de los genes en los genomas secuenciados. De esta manera, se propuso calcular una calificación basada en el número de genes en operones que mantienen una distancia dada, contra el número de pares de genes en frontera que se encuentran a esa misma distancia.

c) El método derivado se probó contra todos los pares de genes en el genoma de E. coli.

d) Las calificaciones derivadas de las frecuencias con que se dan determinadas distancias entre genes en operones, contra genes en frontera permiten predecir la asociación de un par de genes en un operón, o que se encuentran en frontera, con una exactitud de más del 82%. El uso de la información sobre relaciones funcionales eleva la exactitud del método por arriba del 86%.

e) Una vez evaluado el método se produjeron las predicciones sobre los genes cuya distribución en unidades de transcripción se desconoce en E. coli, lo que permitió completar el mapa de unidades de transcripción de este organismo. Este método se describe en detalle en (Salgado et al., 2000).

Finalmente, y para remarcar la unidad que se puede encontrar entre los diferentes microorganismos a pesar de sus enormes diferencias y nichos tan diversos, hemos demostrado que el método basado tan sólo en las distancias entre genes es igual de útil en la predicción de la asociación de genes en operones en la gran mayoría, si es que no en todos, los procariotes.

Objetivos a mediano plazo en biología computacional

La predicción de operones es un ejemplo del tipo de métodos que se han implementado en nuestro laboratorio. Asimismo hemos trabajado, y seguimos trabajando buscando mejorar, métodos para predecir promotores, sitios de reconocimiento de proteínas reguladoras -sitios operadores-. (van Helden et al., 1998; Pérez-Rueda y Collado-Vides, 2000). Se puede encontrar más información en la página de nuestro laboratorio en: http://itzamna.cifn.unam.mx/Computational_Biology/computational_molecular_biology.htm).

A mediano plazo, pretendemos predecir la red completa de regulación transcripcional, al menos en E. coli, lo que implica armar todo lo conocido, junto a lo predicho, encontrar las coincidencias que permitan juntar la predicción de una proteína reguladora con la de un sitio probable de unión, de manera que sabríamos, además, cuales son los genes o unidades de transcripción regulados por esta proteína. Para esto se cuenta además con la comparación de los datos de predicción con los datos obtenidos de experimentos de transcriptoma y proteoma, que pueden ser de gran utilidad para el armado del rompecabezas proveyendo de indicios de grupos de genes co-regulados, entre otras cosas.

Objetivos a más largo plazo

La era genómica se encuentra en una explosión donde la información se está generando con tal celeridad, que es equiparable en el asombro e impacto que causa en la comunidad dedicada a la biología molecular y derivados, a la explosión del cámbrico. Así, resulta incluso difícil encontrar algo que estudiarle a los genomas que no sea de gran importancia. A pesar de que la competencia es enorme, un objetivo primordial es el de contribuir a una teoría general en biología molecular. En especial las grandes preguntas a responder son las siguientes:

1. ¿Quién va con quién? El metabolismo y su evolución. Las relaciones entre los procesos de información o bioquímica de macromoléculas y el metabolismo. La comparación en este sentido entre eucariotes y arqueobacterias.

2. Origen si no de la vida, al menos del origen de la vida unicelular.

3. Origen de la diversidad microbiana. Variación en operones y papel de la transferencia horizontal.

4. Papel de la regulación en su evolución. Flexibilidad evolutiva de los elementos de la red de regulación y de las relaciones regulador - regulados.

5. Redes de regulación. Aplicando los algoritmos derivados de E. coli a otros procariotes se podrá en principio predecir la red en otros genomas microbianos. Las predicciones completas están a la mano: predicción de operones, predicción de sitios de pegado, asociar sitios con reguladores, e identificar o predecir el efecto regulador.

6. ¿Cómo se deriva de la anatomía de esta red su posible efecto dinámico? ¿Será posible predecir los cambios de una célula al modificar el medio de cultivo, o las condiciones de crecimiento? ¿Determinar los pasos intermedios que se usa en la flexibilidad y adaptación de la célula al medio ambiente? Esta pregunta en principio se podrá contestar usando modelos matemáticos, utilizando la información en bases de datos así como los resultados experimentales del transcriptoma, proteoma y metaboloma.

Cuando tengamos el genoma de Escherichia coli completamente anotado, estaremos seguramente en los inicios de otra aventura, un poco menos heurística o experimental. La aventura de buscar integrar, modelar, y formalizar un mundo biológico tan rico. Tenemos la tabla periódica en la biología. Nos faltan dos cosas, las reglas de su producción, su historia y las reglas de su uso, sus propiedades. Toda esta revolución, si bien es aparatosa, es estimulante, no deja de mostrar lo mucho que le falta a la biología como ciencia, para alcanzar niveles de interacción teoría - experimento realmente equiparables a como sucede en otras disciplinas. A su vez, nos muestra como el estudio de la biología hace uso de prácticamente cualquier otro campo del conocimiento en las ciencias y en la tecnología para buscar aplicarlo, usarlo y para darnos una visión y comprensión más integradas.









[ Regresar ]