De Sanger a NGS, breve historia de la secuenciación del DNA.

Empezamos un nuevo año en el blog con una entrada que ya debía haber escrito en algún momento a lo largo del año que recién hemos dejado atrás y que, cómo bien se define este espacio, forma parte de esa pequeña sección que es a gusto del consumidor. Me refiero, claro está, a la historia de la ciencia y dado que, por cuestiones laborales, participo desde muy cerca en todo el procesamiento y protocolo de secuenciación genética y del DNA, era buena hora de dedicarle un pequeño repaso a toda la evolución histórica que han sufrido las técnicas que han permitido leer el gran libro de la vida, nuestro DNA. Si quieres saber más, ya sabes que tienes que hacer…Empecemos, pues!

sequence

Todo comenzó en 1869, cuando en la universidad de Tuebingen (Alemania) el bioquímico sueco, Friedrich Miescher, a partir de sus trabajos sobre el esperma de salmón y sobre los exudados de vendajes quirúrgicos, descubrió el germen de lo que más tarde serían los ácidos nucleicos: la nucleína, sustancia de carácter albuminoide muy rica en fósforo. Tras los pasos de Miescher, encontramos el trabajo realizado por el patólogo alemán Richard Altman quién acuñó el término de ácidos nucleicos a lo que Miescher consideró en su momento la nucleína, puesto que demostró su carácter ácido debido a la riqueza observada de ácido fosfórico. Los trabajos realizados por el bioquímico ruso –

Phoebus Levene

Phoebus Levene

estadounidense Phoebus Aaron Theodore Levene, demostraron que además de ácido fosfórico, los ácidos nucleicos estaban compuestos por bases nitrogrenadas y por una pentosa. Esto abriría un nuevo campo de estudio, la búsqueda e identificación de las bases nitrogenadas que conformaban los ácidos nucleicos: el médico alemán y premio Nobel de Medicina de 1910, Albrecht Kossel y Albert Neumann aislaron la adenina (A) y la timina (T) de la glándula del timo, mientras que Kossel y H. Steudel, ailaron la citosina (C); por su parte, el uracilo (U) presente en menor proporción, fue descubierto por Albert Ascoli.  Coetáneamente, Levene llegó  a la caracterización los ácidos nucleicos en 1909 como ARN (ácido ribonucleico) y en 1929, como ADN (ácido desoxirribonucleico), por las diferencias observadas en la composición de los nucleósidos de estos ácidos nucleicos; el ADN contenía A, G, C, T y una desoxirribosa mientras que el RNA contenía A, G, C y U y una ribosa. Sería Levene el que a través del plateamiento del primer modelo de estructura del DNA, inequivocamente, determinaría que la posible transmisión de la información genética residía en el contenido proteico de las células. Sin embargo, a pesar de desviarse de la norma general de investigación tanto el trabajo de Fred Griffith en 1928, como y principalmente, el de los investigadores Oswald Avery, Colin McLeod y Macyln McCarthy, en 1944, permitió demostrar inequívocamente que la información genética reside en el ADN. Avery, MacLeod y McCarthy

Esto supuso una gran revolución en el estudio de los orígenes de la transmisión de la información genética, apareciendo así los primeros estudios acerca del modelo de estructura del DNA que permitiera dar explicación a como se realizaba dicha transmisión genética. Desde los primeros trabajos con difracción de rayos X por el físico inglés William Astbury y los científicos del University College, de Nottingham, M.Gulland y D.O.Jordan que trataban de definir las distancias entre los enlaces de las moléculas así como las disposición de las mismas en la cadena del ADN, pasando  por las reglas de Chargaff definidas por el químico austríaco, Erwin Chargaff y los trabajos definitivos de difracción de rayos X realizados por Rosalind Elsie Franklin mayoritariamente y por su compañero de laboratorio, Maurice Hugh Frederick Wilkins, es como en 1953 se publica el famoso artículo científico firmado por James Dewey Watson y Francis Harry Compton Crick, Molecular Structure of the Nucleic Acids. A Structure for Deoxiribose Nucleic Acid, sobre la naturaleza de la estructura del ácido desoxirribonucleico (ADN). Esto les valió para ganar junto a Maurice Wilkins (en uno de los desprecios académicos más grandes de la historia de la ciencia hacia la labor realizada por una mujer, en este caso Rosalind Franklin) el premio nobel de Fisiología o Medicina en 1962, por sus descubrimientos acerca de la estructura molecular de los ácidos nucleicos y su importancia para la transferencia de información en la materia viva.

Watson y Crick y la estructura del DNA

A partir de este nuevo paradigma, del descubrimiento de la enzima DNA polimerasa en 1960 por el bioquímico norteamericano y premio Nobel de Fisiología o Medicina en 1959, Arthur Kornberg, de la identificación de una endonucleasa de restricción de E.coli por parte de Matthew Meselson and Robert Yuan, es como tienen lugar las primeras aproximaciones al desarrollo de técnicas de secuenciación del DNA.

La secuenciación del ADN consiste en determinar el orden de las bases A, C, G y T en un fragmento de ADN. A partir de los primeros ensayos realizados sobre genoma de la levadura S. cerevisiae usando la hidrólisis parcial con enzimas y el fraccionamiento de los productos generados en columnas de intercambio iónico y/o electroforesis en papel, se desarrollaron las principales protocolos de secuenciación de ácidos nucleicos. El primer protocolo de secuenciación fue el descrito por los científicos del Departamento de Bioquímica y Biología Molecular de la Universidad de Harvard, Allan M. Maxam y Walter Gilbert quienes establecieron el proceso de digestión química del DNA para determinar la secuencia de nucleótidos del ADN. Esta digestión química consiste en marcar en los extremos 5´ o 3´ de una o ambas hebras con el isótopo radiactivo del fósforo, el  32P. Después, la muestra de ADN se divide en cuatro alícuotas y se fragmenta en cuatro reacciones químicas distintas. Para las  A y G, se metilan con dimetil sulfato (DMS) se tratan en un medio alcalinas, provocando la fragmentación de las cadenas en las purinas metiladas (se diferencian por coloración de la banda, mayor en el caso de la guanina, o por el tratamiento con ácido diluido que permite la separación de las A metiladas). Para las C y T, se tratan con hidracina y posteriormente con piperidina que provoca la  fragmentación de ambas pirimidinas (se diferencian por la adicción de NaCl 2M que provoca la estimulación de la fragmentación única de la citosina). Posteriormente, los fragmentos de ADN generados se separan en geles de acrilaminda vía electroforesis en cuatro carriles distintos con base en su tamaño, observándose las bandas generadas por medio de autoradiografía. Conociendo el nucleótido en el que se realizaron los cortes, es posible identificar la naturaleza de los nucleótidos y con ellos, se puede inferir la secuencia de la molécula original.

Método de Maxam y Gilbert

Esta técnica permite la lectura de unas 100 bases de secuencia, pudiendo determinar la secuencia desde la primera base. No obstante, además de los problemas propios de la radiactividad necesaria para realizar el protocolo u observar el resultado, así como los factores limitantes del propio gel de acrilamida o las dificultades técnicas, hacen que sea una técnica de baja resolución y en desuso hoy en día.

El otro protocolo de inicio y el que más largo recorrido ha tenido, es el método de terminación de cadena o método Sanger para la secuenciación de ADN. Desarrollado por el bioquímico inglés Frederick Sanger, (premio Nobel de Químico en 1980 por este hallazgo compartido con W. Gilbert) y A.R Coulson. Este protocolo se basa en hacer cuatro reacciones diferentes de síntesis de ADN utilizando la función propia de la ADN polimerasa (síntesis de hebra complementaria extendiéndola a partir de un oligonucléotido inciador, en dirección 5’ a 3), utilizando un didesoxinucleótido o ddNTP (nucleótido que no tienen un grupo hidroxilo en su extremo 3’) y un nucleótido marcado radiactivamente con 32P (dNTP), distinto en cada tubo. Cuando se añade la ADN polimerasa a la mezcla, ésta comenzará a añadir nucléotidos a la cadena complementaria (secuencia predicha a partir de la secuencia de aminoácidos del bacteriofago F1 por medio de la ) hasta que, por haber añadido un ddNTP, se detanga la síntesis de la hebra complementaria por no presentar un extremo 3′ a partir del cuál, se puedan seguir añadiendo nucleótidos a la hebra complementaria. La incorporación de los ddNTPs es al azar, de tal forma que se obtienen fragmentos de todos los tamaños posibles que terminan en un residuo específico. Después, estos fragmentos se pueden separar en un gel de poliacrilamida vía electroforesis en cuatro carriles distintos (los fragmentos más pequeños migran más rápido que los más grandes, y cada uno difiere en tamaño sólo por un nucleótido) para determinar por lectura de abajo a arriba, la secuencia de la hebra de origen.

Método Sanger

Con este método y útilizando un único cebador de partida, se pueden determinar secuencias de 80 nucleótidos; para mayores longitudes (secuencias de hasta 300 nucleótidos) es necesario partir de 15 cebadores que empiecen una nueva reacción a una distancia 80 nucleótidos después y así, sucesivamente. Por ser una técnica mucho más eficiente en tiempo, ejecución y sensibilidad de los resultados que la de digestión enzimática, ha experimentado variaciones en el protocolo original (uso de dNTP y/o cebadores marcados con fluorescencia, el poder realizar la secuenciación en un único tubo y no en cuatro, así como el uso de electroforesis capilar en lugar de electroforesis en geles de acrilamida) que han llevado a la automatización del método Sanger descrita en 1986 por Leroy Hood, Michael Hunkapiller y Lloyd Smith.

Automatización de Sanger

Surgió así en el 1986, la comercialización del primer secuenciador automático del método Sanger, el Applied Biosystems 370A, un tipo de secuenciador automatizado con gel tipo “slab” o gel en vertical que permitía obtener 200 bases por muestra/ hora, detecatadas simultáneamente en un electroferograma o cromograma, procedentes de hasta 96 muestras en un solo gel. Otros secuenciadores de geles “slab” son el ASTRAL o el LI-COR Modelo 4200, que eran capaces de producir más información de cada reacción de secuenciación por medio de variaciones técnicas en su construcción. La siguiente generación de secuenciadores automatizados mejoró los tiempos de la secuenciación mediante la incorporación de la electroforesis capilar, siendo uno de los más conocidos el ABI PRISM 3700, que puede

ABI PRISM 3700

detectar hasta 5 marcadores fluorescentes distintos, con una capacidad de hasta 96 capilares (y 8 de reserva) y se puede recargar hasta cuatro veces automáticamente, realizando hasta 500 corridas inenturrumpidas, de 2.5 horas de duración, que permite obtener un total de 550 bases por reacción de secuenciación. Debido a su rapidez y a su capacidad autónoma y automatizada, fue el secuenciador utilizado para llevar a cabo la secuenciación del genoma humano planteado en el Proyecto Genoma Humano (1985-2003) que por analogía con un libro, ocuparía alrededor de 100 volúmenes, cada uno con 1000 páginas escrito con los cuatro caracteres A, T, C y G. .

Este hallazgo fundamental en la historia de la ciencia, llevó a que desde numerosos campos de estudio y líneas de investigación, se aumentara la presión sobre el desarrollo de técnicas de secuenciación mucho más ágiles y por supuesto, mucho más económicas. Partiendo de la base de que secuenciar completamente el genoma humano costó unos 2.047 millones de euros y que llevó más de una década en terminarse, era muy necesario diseñar nuevas alternativas para la secuenciación genética. Nació así la conocida como Next Generation Sequencing (NGS), ultrasecuenciación o tecnología de secuenciación masiva, cuyo principal fundamento es realizar múltiples secuencias cortas (de alrededor de 100 pares de bases) de un modo paralelo, produciendo millones de lecturas al mismo tiempo (se asemeja así a la sensibilidad de la técnica de Sanger) y a un coste muy bajo (el coste de cada nucleótido definitivo pasó de los 10 $ en 1990 a 0,01 $ en 2005), gracias a la inmovilización de las reacciones en una superficie sólida (la cantidad de reactivos necesarios se minimiza al máximo y se abarata el coste por base leída). Una vez ensambladas estas secuencias a un genoma de referencia, se puede secuenciar, en lugar de un gen, múltiples genes o incluso un genoma completo.

Coste secuenciación

Aunque las plataformas difieren en sus configuraciones internas y en el tipo de reacciones químicas, si se quiere realizar una secuenciación genómica o exómica, se precisan aproximadamente 50 ng de ADN, íntegro y no contaminado con sustancias orgánicas (RNA, de fenol, de sales, de etanol, de EDTA, proteínas, detergentes, etc.). Este ADN, de alto peso molecular, se somete a varios procesos antes de ser secuenciado, que incluyen la disolución, la fragmentación en cadenas corto tamaño, adicción de adaptadores, la captura (cuando se quiere secuenciar solamente las regiones del genoma que nos interesey la amplificación a través de la técnica de reacción en cadena de la polimerasa o PCR.

Las principales diferencias entre los ultrasecuenciadores de segunda generación se basan en la técnica empleada en la preparación del DNA a secuenciar (librerías) y el protocolo empleado en la secuenciación. Según la técnica empleada en la preparación del DNA, encontramos (dejo unas imágenes muy ilustratrivas de las diferentes técnicas para que sea más fácil su comprensión):                                                                                               1. PCR en emulsión pcr-emulsion

Bajo este método, encontramos los secuenciadores 454 de la plataforma Roche (antes Life Sciences), los primeros secuenciadores de segunda generación que fueron comercializados en 2005, los secuenciadores de la plataforma SOLID comercializados en 2007 por Applied Biosyntesis y los secuenciadores Ion PGM e Ion PROTON comercializados por Life Technologies (ahora Termofisher) en 2011 y 2012 respectivamente. secuenciadores_adn_ultima_generacion-horz2. PCR en puente. PCR puente

Los secuenciadores de la plataforma Illumina (antigua Solexa), que empezaron a comercializarse bajo el nombre de Genome Analyzer en 2006, requieren de este método para la preparación del ADN a secuenciar. Secuenciadores Ilumina

 Según el método empleado en la secuenciación, encontramos:                                           a) Pirosecuenciaciónes un método que mide la bioluminescencia producida por la liberación que tiene lugar durante la incorporación de un nuevo nucléotido (según un orden determinado) por parte de la DNA polimerasa, produciéndose como resultado la activación de una casacada enzimática cuyo fin es la conversión de la enzima luciferina en oxiluciferina, liberándose como resultado un destello de luz que será detectado por una cámara acoplada. Por cada destello de luz detectado, se observará un pico cuya altura y posición se corresponderá con el número y tipo de nucleótido añadido. Este tipo de secuenciación, ideada por  se observa en el secuenciador 454 de Roche.

Pirosecuenciación

b) Ligación: en este caso, la secuenciación implica el tanteo de los nucleótidos de la hebra a secuenciar mediante la incorporación por medio de una enzima ligasa, de una sonda que presenta en su extremo 5′ dos bases conocidas (ej: AT) y un fluórofo de diferente color según la combinación de los nucléotidos del extremo 3′ (ej: AT, fluoróforo color rojo). Una vez ligada la sonda al primer de iniciación de la emulsión en PCR, la sonda con AT en el extremo 5′ se une por complementariedad a la hebra a secuenciar, se provoca la excitación del fluoróforo y su liberación de la secuencia de la sonda (mediado por iones de plata) generando otro extremo 5′ a partir del cual puede añadirse otra sonda y repetir el proceso hasta un total de 10 ciclos. Después de esos ciclos, se elimina uno o dos nucleótidos del primer de la emulsión en PCR y se corre uno o dos sitios en la unión de sonda al primer, favoreciendo que se tanteen así los nucleótidos presentes en la posición 3 y 4 de la hebra a secuenciar y así sucesivamente, hasta cubrir todas las posiciones. Finalmente, se obtienen así, un conjunto de puntos coloreados que se corresponden por duplicado a los nucleótidos del DNA a secuenciar. Alineados estos sobre una secuencia de referencia, se obtiene la secuencia nucleotídica. Secuenciación por ligaciónEsta secuenciación es propia del secuenciador SOLiD (Support Oligonucleotide Ligation Detection) de Applied Byosistem (ahora Termofisher).

c) Secuenciación por semiconductores: se diferencia de las otras secuenciaciones en que carece de un sistema óptico de detección de señales; en este caso se trata de un chip que contiene un sistema integrado de detección electroquímica. En este caso se mide la variación de pH detectada en un sistema CMOS (Complementary Metal Oxide Semiconductor) por la liberación de un protón (H+) durante la incorporación de un nucleótido en la hebra complementaria del DNA a secuenciar por medio de la ADN polimerasa. Esta variación de pH (igual a 0.02 unidades por cada nucleótido añadido en cada ciclo) será detectada por un sensor (capa de tantalio) unido a un sistema ISFET (ion-sensitive field effect transistor) generando una señal gráfica, proporcional al número de nucleótidos añadidos.SemiconductoresSemiconductoresEsta secuenciación, desarrollada por Jonathan Rothberg y colaboradores es la que llevan a cabo los secuenciadores Ion PGM y Ion Proton de Life Technologies (ahora Termofisher).

d) Secuenciación por reversión del terminador (CRT): esta secuenciación se caracteriza por el uso de nucleótidos con el extremo 3’OH bloqueado (por presencia del grupo 3′ O-azidometil) que impiden que  la ADN polimerasa añada más nucleótidos, marcados con un fluoróforo diferencial que tras ser excitado, se libera por acción de un “cleavage agent“, el TCEP (tris(2-carboxietil) fosfina), dejando el nucléotido “útil” para la incorporación de la ADN polimerasa (añade un grupo 3’OH) y que se repita el proceso. La señal de color liberada de cada cluster es detectada por uno o dos pares de láser mediante un microscopio TIRF (Total Internal Reflection Fluorescence); el color observado se corresponde con el nucléotido con el extremo 3’OH bloqueado añadido al cluster (a cada cluster se añade un único nucleótido).Nucleótido con extremo 3'OH bloqueadoreversible-terminator-sequencing-large

CRT

Posteriormente, se han desarrollado los secuenciadores de tercera generación. Son los secuenciadores desarrollados por las plataformas Pacific Biosciences y Oxford Nanopore. En ambos casos, llevan a cabo la llamada secuenciación a tiempo real (SMRT) que emplea adaptadores circulares y lleva a cabo la secuenciación o bien a través de un tipo especial de chips (con pocillos ZMW (zero-mode waveguide)) en donde se detecta el cambio de actividad sufrida por la DNA polimerasa tras la adicción del nucleótido marcado con fluoróforo en el caso de Pacific Biosience, o bien por la detección de un cambio de voltaje producido por el paso de la secuencia de DNA por un poro, traducido en la observación de la propia composición del DNA a secuenciar, tanto de una cadena en sentido foward o reverse como las dos cadenas conjuntamente, en el caso de Oxford Nanopore, cuya idea originaria recae en la figura de George M. Church.Oxford Nanopore

PacBio

Entre las principales aplicaciones de las diferentes plataformas NGS econtramos: el estudio de genomas completos, secuenciación “de novo” de genomas, exomas o regiones codificantes de todo el genoma, panales de genes implicados en el desarrollo de patologías raras y/o cánceres (targeted sequencing), estudios epigenéticos mediante la técnica Chip-Seq (imunoprecitapación de las histonas unidas al DNA) o metil-seq (estudio de la metilación de las histonas unidas al DNA), estudios de expresión de genes y de los ARN más característicos, implicados o no en patologías, a través del RNA-seq o estudios metagenómicos (identificación y caracterización del microbioma).

Y hasta aquí este intento breve de reseña sobre las principales técnicas desarrolladas para facilitar la identificación de las letras de las páginas del libro de la vida. Para otro día, quedará indagar en cómo los secuenciadores analizan tal cantidad de datos, pero si os pica mucho la curiosidad, os comparto este vídeo divulgativo donde Guillermo Peris explica uno de los muchos algoritmos que usan estos secuenciadores para informar correctamente de la posición de las 4 letras del DNA dentro de la secuencia, para que esta tenga sentido y aporte la información correctamente.

Esta entrada participa en la LXII edición del Carnaval de Química, alojada en el blog ‘Huele a Química‘ de @hueleaquimica”  

¡Nos “leemos” en la próxima entrada!.                                                                                   TatianaDC

Fuentes:                                                                                                                     Goodwin, S. et al “Coming of age: ten years of next-generation sequencing technologies” Nature Reviews Genetics (2016) ; Buermans, H.P.J & den Dunnen, J.T. “Next generation sequencing technology: Advances nd applications” Biochimica et Biophysica Acta (2014)  ;  Liu, L. “Comparison of Next-Generation Sequencing Systems” Journal of Biomedicine and Biotechnology (2012)   ;   Rothberg, J.M et al “An integrated semiconductor device enable non-optical genome sequencing” Nature (2011)   ;   Metzker, M. L. “Sequencing technologies: the next generation” Nature Reviews Genetics (2010) Shendure.J. & Hanlee J. “Next-generation DNA sequencing” Nature Biotechnology (2008) http://users.ugent.be/~avierstr/nextgen/Next_generation_sequencing_web.pdf http://www.the-scientist.com/?articles.view/articleNo/31229/title/Charting-the-Course/ http://www.encuentros.uma.es/encuentros128/comofunciona128.pdf http://www.revistas.unal.edu.co/index.php/biotecnologia/article/view/44303/45825 http://www.ibt.unam.mx/computo/pdfs/met/secuenciacion_acidos_nucleicos.pdf http://medicina-genomica.blogspot.com.es/2011/05/diagnostico-genetico-mediante.html http://pendientedemigracion.ucm.es/info/genetica/AVG/practicas/secuencia/Secuencia.htm                                                                                                                     http://kerchak.com/ion-proton-la-maquina-automatica-para-secuenciar-adn/ http://www.thermofisher.com/es/es/home/life-science/sequencing/dna-sequencing.html

Anuncios

Un pensamiento en “De Sanger a NGS, breve historia de la secuenciación del DNA.

  1. Pingback: ¡LXII Carnaval de Química en ‘Huele a Química’! – Huele a Química

Responder

Por favor, inicia sesión con uno de estos métodos para publicar tu comentario:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s