Somos la era digital. La conexión inalámbrica domina nuestras casas, los teléfonos inteligentes nuestros bolsillos y cada vez almacenamos más información en la red. El espacio que ocupa el universo digital se está multiplicando cada año a una velocidad vertiginosa. En un estudio reciente de la multinacional Dell EMC, se estima que la cantidad de información digital aumente 10 veces hasta alcanzar un total de 44 trillones de megabytes, en tan solo 7 años. ¿Tenemos la tecnología suficiente para soportar tantos datos?
Para resolver este tipo de inquietudes debemos buscar en la convergencia entre la tecnología y la biología: la bioinformática. La molécula de origen biológico de más interés en esta disciplina es el ADN. Su capacidad para almacenar y replicar la información genética de manera estable y duradera es lo que hacen que esta molécula sea ideal para el almacenamiento de datos. Mientras que en computación se utiliza el sistema binario, compuesto por dos bits (1 o 0), en el ADN se utilizan los nucleótidos. Hay cuatro nucleótidos que se diferencian por sus bases nitrogenadas que son: adenina (A), timina (T), guanina (G) y citosina (C). Teniendo en cuenta esto, se dice que teóricamente el ADN podría almacenar 2 bits por cada nucleótido.
Además de la gran capacidad de almacenamiento que tiene, el ADN no está restringido a un plano, es decir, tiene una conformación en el espacio. Esto es lo que le permite empaquetarse en sí mismo y ocupar menos espacio en la célula. Si estiramos el genoma de una única célula humana tendría una longitud de 2 metros, que estarían compactados en 0,000006 metros de diámetro que tiene el núcleo de la célula.
No es de extrañar que las primeras publicaciones que encontremos sobre el almacenamiento de información digital en el ADN sean de George Church. Este genetista desarrolló, entre otros, los métodos para la primera secuenciación del genoma en 1994. Recientemente, en 2012 consiguió usar la tecnología next-generation para la síntesis y secuenciación un ADN que tuviera insertado un documento texto que constaba de 53.426 palabras, 11 imágenes JPG y un Java Script. Todo ello ocupaba 0.65 megabytes y estaba codificado de manera que los “ceros” del sistema binario fuesen A o C y los “unos” fuesen G o T. Esto quiere decir que codificaban 1 bit por nucleótido. Sin embargo, obtuvieron un error de 10 bits de un total de 5.27 millones.
Durante estos años las técnicas de secuenciación han ido avanzando muy rápidamente y se han realizado numerosos estudios con el fin de mejorar las técnicas de codificación y descodificación de la información digital en la molécula de ADN. Hace apenas unos días se publicaba en la revista Science un artículo que nos presentaba una nueva técnica de almacenamiento digital. En esta ocasión, Yaniv Erlich y Dina Zielinski han conseguido codificar 2.15 megabytes de información digital con una eficacia del 100%, es decir, sin ningún error. La estrategia usada recibe el nombre de DNA Fountain y alcanza un almacenamiento de 1.98 bits por nucleótido, casi el valor teórico. Esta técnica consta de una primera fase de codificación, en la cual el archivo en binario se procesa en varios segmentos. A continuación, dos métodos computacionales llamados Luby Transform y screening traducen la secuencia binaria compuesta por {00,01,10,11} a una secuencia de ADN {A,C,G,T}, respectivamente. Por ejemplo, donde se encuentren los bits 01 se colocará un nucleótido de citosina (C) y así con las demás combinaciones.
Esquema de la publicación «DNA Fountain enables a robust and efficient storage architecture», Yaniv Erlich y Dina Zielinski.
Aunque puede parecernos algo lejano, el uso del ADN como medio de almacenamiento está en el punto de mira de empresas como Microsoft o proyectos de inteligencia avanzada como el IARPA (Intelligence Advanced Research Projects Activity) en Estados Unidos. La principal preocupación ahora es el coste de las técnicas de secuenciación y almacenamiento de ADN.