AVANCE DE LA GENÓMICA

Una colección de 100.000 millones de 'letras' genómicas

Madrid - 01 sept 2005 - 00:00CEST

Hace poco más de 20 años que científicos de todo el mundo empezaron a almacenar en colecciones la información genética que iban obteniendo de los organismos. Esta información se escribe en ristras de pares de cuatro letras o bases químicas -A, C, G y T-. Hace unos días, las tres principales colecciones públicas de bases, interconectadas entre sí, superaron en conjunto los 100.000 millones de bases almacenadas. Pertenecen a los genomas de al menos 200.000 organismos distintos.

Estas colecciones públicas se han convertido en una herramienta absolutamente indispensable para el trabajo de los investigadores. Gracias a ellas es posible comparar genomas de distintos organismos muy fácilmente, y comprobar, por ejemplo, que humanos y ratones compartimos cientos de fragmentos de ADN exactamente iguales, cada uno de entre 200 y 800 bases. También gracias a las colecciones es posible, por ejemplo, hacer pronósticos sobre la función de una proteína en un organismo si se conoce lo que hace en otro. De hecho, lo más habitual cuando se tiene una secuencia es consultar con las bases de datos para obtener información sobre ella de forma casi instantánea.

Muchos de los 100.000 millones de bases pertenecen a los casi 1.500 genomas que han sido secuenciados completamente o casi. Entre estos, la mayoría son virus -más de un millar- y bacterias -varios cientos-, pero también están el genoma humano, el del perro y el de los organismos más empleados en los laboratorios, como la planta Arabidopsis thaliana , el gusano Caenorhabditis elegans o la mosca Drosophila melanogaster.

Las tres instituciones con las colecciones más importantes son el Laboratorio Europeo de Biología Molecular (EMBL), cuya colección está en Hinxton (Reino Unido); GenBank, en Bethesda (EE UU); y el Banco de Datos de ADN de Japón, en Mishima (Japón).

El estudio de los genes de los organismos empezó a finales de los setenta. Enseguida surgió la idea de almacenar la información que se iba obteniendo en bases de datos o colecciones de acceso público. Kurt Stüber, entonces en la Universidad de Colonia, en Alemania, empezó la colección del EMBL a principios de los ochenta. Walter Goad, de LANL, empezó muy poco después la de GenBank. La colaboración entre ambas comenzó muy pronto, y en 1987 se unió la base japonesa.

En los primeros tiempos el personal de estas bases de datos buscaba las secuencias publicadas en revistas científicas y las tecleaba para meterlas en la base. Los usuarios recibían la información en discos flexibles o en cintas magnéticas. Hoy el acceso y la obtención de la información vía Internet es inmediato.

Para Graham Cameron, director asociado del Instituto Europeo de Bioinformática del EMBL, el haber superado los 100.000 millones de bases "es un hito importante en la historia de las bases de datos de secuencias de nucleótidos. Desde la primera colección del EMBL hecha pública en 1982 a las más de 55 millones de secuencias actuales, las bases de datos se han anticipado a las necesidades de los biólogos moleculares y las han satisfecho, a menudo a pesar de una notable falta de fondos".

Takashi Gojobori, director de la base japonesa, cree: "A medida que entramos en la era de la biología de sistemas y los investigadores empiezan a intercambiar información compleja, como los resultados de experimentos que miden la actividad de miles de genes, o los modelos computacionales de procesos completos, es importante celebrar los logros de las tres colecciones pioneras en el intercambio libre de la información biológica".