La proteómica.
La jerarquía de niveles de complejidad no se detiene con la traducción del código genético a proteínas. Pues las proteínas pueden ser modificadas de muchas maneras e incluso cortarse y empalmarse del mismo modo que lo hacen las moléculas mARN. Esto ha hecho nacer la disciplina de la proteómica, donde el proteoma es una serie completa de todas las proteínas y variantes de proteínas en una célula. Esclarecer su abrumadora complejidad, mucho mayor que la del genoma, es uno de los más grandes retos intelectuales con los que se enfrenta la ciencia.
El procesamiento de información en la célula.
Así, cuanto más se estudia una célula viviente, más aspectos parece tener en común con uno de los productos de la inteligencia humana más sofisticados y de alta tecnología: los ordenadores. Salvo que la capacidad de procesamiento de información de la célula supera con mucho cualquier cosa que puedan hacer los ordenadores actuales. Bill Gates dijo que “El ADN es como un programa de ordenador, pero mucho, mucho más avanzado que cualquier software que hayamos creado jamás” (19)
En su libro Gödel, Escher, Bach, el matemático Douglas Hofstadter escribe lo siguiente:
“Una pregunta natural y fundamental que hay que formular cuando se aprende como funcionan estos increíbles y complicadamente entrelazados fragmentos de software y hardware es: ¿cómo pudo empezar en primer lugar?.... de simples moléculas a células completas, desafía los poderes de nuestra imaginación. Hay varias teorías sobre el origen de la vida. Todas pasan por alto la más central de las cuestiones centrales: ¿Cómo se originó el código genético, junto con los mecanismos para su traducción? La pregunta no resulta más fácil por el hecho de que el código se considere extremadamente antiguo. Werner Loewenstein, que ha ganado internacional renombre por sus descubrimientos en la comunicación entre células y la transferencia de información biológica, dice:
“Este vocabulario genético se remonta a mucho, mucho tiempo. No parece haber cambiado ni jota en dos mil millones de años; todos los seres vivos en la tierra, de las bacterias a los humanos, usan el mismo código de 64 palabras” (21)
Pensemos en un aspecto de este complejo de problemas, el origen del software genético ADN. Se propone a veces que la generación de la información genética se facilita por ciertas afinidades químicas entre las moléculas que portan esa información. Sin embargo, hay una sencilla razón lógica por la que eso no puede ser así. Piensa en el alfabeto. En inglés existe la regla de que a una q le debe seguir una u. Imagina que hay similares afinidades entre otros pares de letras. Resulta claro de inmediato que cuantas más afinidades tengas entre las letras del alfabeto, menos expresiones puedes escribir. La libertad para escribir las letras en casi cualquier orden es crucial para tener un léxico rico. Igual sucede con el ADN. Y lo que pasa con las bases de nucleótidos (A,C,G,T) es que pueden posicionarse esencialmente al azar. Si hubiera alguna afinidad entre ellas, su potencial de portar información quedaría drásticamente reducido.
Las bases están enlazadas a la espina dorsal del ARN mediante enlaces Fuertes covalentes. Pero las dos ramas complementarias del ADN se mantienen juntas mediante relativamente débiles enlaces químicos, o sea enlaces de hidrógeno entre las bases complementarias. Michael Polanyi explica la implicación de esto:
“Suponga que la estructura presente de la molécula de ADN se debiera al hecho de que los enlaces de sus bases fueran mucho más vigorosos de lo que serían para cualquier otra distribución de bases, luego tal molécula no tendría contenido informativo. Su carácter de código sería erradicado por una abrumadora redundancia… cualesquiera que sean los orígenes de la configuración del ADN, sólo puede funcionar como código si su orden no se debe a las fuerzas de la energía potencial. Debe ser tan indeterminado físicamente como la secuencia de palabras en una página escrita” (22)
La palabra operativa aquí es “físicamente”. Como vimos antes, el mensaje no es derivable a partir de la física y la química del papel y la tinta.
Hubert Yockey, autor del influyente estudio La Teoría de la Información y la Biología (23) confirma este juicio:
“Los intentos de relacionar la idea de orden… con la organización biológica o la especificidad deben ser considerados como un juego de palabras que no puede aguantar un cuidadoso escrutinio. Las macro-moléculas informativas pueden codificar mensajes genéticos y por lo tanto llevar información debido a que la secuencia de bases o residuos es muy poco afectada, si es que lo es en absoluto, por factores físico-químicos” (24)
El texto genético no se genera por la química de los enlaces entre las molécualas.
¿Y si las explicaciones en términos de enlaces químicos no funcionan, qué otra posibilidades hay? Una apelación simplista a procesos darwinianos no parece ser una solución pues estamos hablando de la abiogénesis, el origen de la vida, y sea lo que sea lo que puedan hacer los procesos darwinianos, es muy difícil ver como podrían funcionar en ausencia de vida. Pues para que la selección natural haga algo necesita de la existencia de un replicador mutante. La hemos citado el aforismo bien conocido de Theodosius Dobzhansky: “La evolución pre-biótica es una contradicción en los términos”.
Aunque parezca anticuado a muchos ahora, nos hace cautelosos cuando empleamos términos como “evolución molecular” que pueden entenderse que implican que estamos suponiendo de forma encubierta que tenemos a nuestra disposición el mismo proceso (replicación, y sólo tiene sentido la selección natural si actúa sobre ella) cuya existencia estamos tratando de explicar. Como apunta John Barrow, James Clerk Maxwell había observado ya en 1873 que los átomos eran “poblaciones de partículas idénticas cuyas propiedades no actuaban mediante la selección natural y cuyas propiedades determinaban si la vida podría existir” (25)
Sin embargo continúan los intentos de resolver el problema del origen de la vida usando argumentos darwinianos que se apoyan únicamente el azar y la necesidad. Para ponerlos en contexto necesitamos considerar algunas contribuciones matemáticas adicionales al debate.
Capítulo 9.
Cuestiones de información.
“La vida es información digital”.
Matt Ridley
“El problema del origen de la vida es claramente equivalente en lo básico al problema del origen de la información biológica”
Bernd-Olaf Küppers
“Nuestra tarea es encontrar un algoritmo, una ley natural, que lleve al origen de la información”.
Manfred Eigen
Una máquina no crea información nueva, pero realiza una transformación muy valiosa de información conocida.
Leonard Brillouin
¿Qué es la información?
Hemos estado usando libremente la palabra información en este libro. Pero ya es hora de abordar este concepto fundamental de modo más detallado. En el lenguaje cotidiano usamos la palabra información para describir algo que ahora conocemos y que antes no conocíamos, decimos que hemos recibido información. Hay muchos métodos de transmitir información: de palabra, por escrito, mediante lenguaje de signos, encriptada, etc.
El problema viene cuando tratamos de cuantificar la información. Sin embargo la teoría de la información ha realizado progresos considerables lo que es de suma importancia para nuestra consideración de la naturaleza de lo que hemos denominado información genética.
Comencemos explorando la noción intuitiva de que la información reduce nuestra incertidumbre. Por ejemplo, llegamos a un hotelito donde hemos hecho una reserva y vemos que solo hay ocho habitaciones. Después, suponiendo que todas las habitaciones son parecidas y que no hemos pedido una habitación particular, habrá una probabilidad de 1 entre 8 de que se nos asigne cualquier habitación particular. Esta probabilidad es una clara medida de nuestra incertidumbre. Cuando se nos da la información de que nos ha tocado la habitación 3, digamos, esa incertidumbre desaparece.
Una de las maneras en las que podemos medir la información que hemos recibido es averiguar el menor número de respuestas de sí o no que tenemos que preguntar con el fin de averiguar que habitación nos ha tocado. Si meditamos un poco nos convenceremos que el número es tres. Decimos que hemos recibido tres trocitos de información o que necesitamos tres trocitos de información para hallar nuestra habitación. Observamos que 3 es la potencia a la que tenemos que elevar 2 para obtener 8. (esto es 8=2 elevado a 3) o, expresándolo al revés, 3 es el logaritmo de 8 en base 2 (esto es 3=log 2 elevado a

Es fácil generalizar este argumento para ver que si hay n habitaciones en el hotel, entonces la cantidad de información precisa para especificar una habitación concreta es log 2n.
Piensa ahora en un mensaje de texto escrito en inglés, que consideraremos como una lengua escrita en frases que consisten en palabras y espacios de modo que nuestro alfabeto consiste en 16 letras más un espacio de modo que hacen falta 27 símbolos. Si esperamos un mensaje en nuestro móvil, la probabilidad de recibir cualquier símbolo (letra o espacio) es 1/27. La información añadida por cada símbolo de texto es log227 (= 4.76 approx). Observamos aquí que la cantidad de información transmitida es relativa al tamaño conocido del alfabeto. Por ejemplo, si sabemos que nuestro mensaje de texto puede contener números además de letras y espacios entonces nuestro alfabeto tiene 37 letras. Por lo tanto la información representada en cada símbolo recibido es ahora log237 (= 5.2 approx).
En todo esto el número 2 desempeña claramente un papel especial. De hecho el símbolo “alfabeto” empleado en la computación consiste en dos símbolos 0 y 1. Es fácil ver que 2 es el número mínimo de símbolos necesario para codificar cualquier alfabeto. Por ejemplo, si pensamos que el inglés precisa 26 letras más un espacio entonces cadenas binarias de una longitud de cómo mucho 5 (25 = 32 > 27) bastarán para codificarlo todo y sobra sitio, podríamos codificar el símbolo de espacio como 00000 y poner A = 00001, B = 00010,
C = 00011, etc.
Información sintáctica y semántica.
Ahora introducimos una idea muy importante que a veces es un poco complicadilla que entre en nuestra cabeza desde el principio. Supongamos que obtenemos el siguiente “mensaje” en nuestro móvil: ZXXTRQ NJOPW TRP. Este mensaje tiene una longitud de 16 símbolos y por lo tanto, haciendo los cálculos usuales, obtenemos un contenido de información de 16log227 bits. Pero dices: “Eh, espera un momento: esto es absurdo puesto que no he recibido ningún mensaje en absoluto. No hay información alguna en este galimatías”.
Bueno, por supuesto, el mensaje podría estar codificado, podría haber un mensaje oculto. Supongamos que no es el caso. ¿Qué ocurre? Hemos llegado al punto en que la información en el sentido que estábamos discutiendo no tiene ya nada que ver con el significado. La llamamos información sintáctica.
A primera vista esto parece contra-intuitivo desde la perspectiva de nuestra experiencia cotidiana; y por lo tanto necesita una explicación más detallada. Supón que de dicen que esperes un mensaje en tu móvil
También te dicen que hay cuatro posibles símbolos que puedes recibir (~ # * ^) y que el mensaje tendrá una longitud de cinco símbolos. Miras al monitor y lo que ves es: : ^ ^ # ~ *.
¿Cuánta “información” has recibido?
Bueno, ninguna en el sentido de que no tienes ni idea de lo que significa, ciertamente, no sabes si significa algo en absoluto. Pero en el sentido sintáctico has recibido información. Hay cuatro símbolos posibles. De modo que la probabilidad de que obtengas uno en particular es 1/4 y la información aportada por cada símbolo recibido es dos bits. El mensaje total consistente en cinco símbolos contiene 10 bits. Dicho de otro modo: si contamos cuantos posibles “mensajes” (esto es, cadenas de cinco símbolos) puedes recibir hallamos que es 210. Ahora sabes lo que es el mensaje (no lo que significa) Tú no lo sabías antes. Así que, en ese sentido, has recibido información.
Pensemos otra vez en las comunicaciones electrónicas cotidianas a través de un canal, por ejemplo, una línea telefónica corriente. En cualquier momento dado varias clases de “información” pueden fluir a través de ella: la voz, el fax, los datos, todo tipo de símbolos electrónicos. Algunos de ellos tendrán significado para algunas personas y no para otras (por ejemplo, una persona que hable chino no transmitirá información en el sentido semántico a otra que no hable chino) y otras serán cadenas de símbolos aleatorios que representan ruidos en la línea generados por efectos electrónicos aleatorios que no portan significado alguno.
Un ingeniero informático no está interesado en el significado de lo que va a través del canal. No está interesado en las secuencias específicas que se transmiten sino más bien en cosas como la capacidad del canal, cuántos símbolos (de la clase que sea) pueden enviarse a través de él en un segundo; la fiabilidad del canal, es decir, la probabilidad de que un símbolo sea enviado erróneamente, por ejemplo debido a un ruido en el canal, la posibilidad de corrección de errores, etc. Y esas cosas nos afectan a todos: muchos de nosotros nos frustramos con la lentitud de las comunicaciones en hogares que no tienen un buen ancho de banda.
Así que medir la información sintáctica es muy importante y la teoría asociada con esto se llama la Teoría de la Información de Shannon, por Claude Shannon que la desarrolló y demostró ciertos resultados matemáticos sobre la capacidad de un canal ruidoso que son el fundamento de la teoría de la comunicación de la que hoy depende nuestra sociedad.
Contemplemos otro ejemplo cotidiano para asegurarnos de que hemos captado la idea. Vas a una biblioteca y pides un libro de nefrología. El bibliotecario puede que nunca haya oído hablar de esta disciplina. Pero como cadena de símbolos la palabra nefrología contiene 10 log227 bits de información y si le das al bibliotecario estos bits de información puede escribirlos en su ordenador y decirte que deberías mirar en la sección de la biblioteca tal y cual, (46) donde encontrarás tres libros sobre el tema. Es decir, que actúa como un canal para comunicar la información a su sistema de indexación aunque para él, la cadena de símbolos nefrología no tenga connotación semántica en absoluto.
En este ejemplo, la palabra nefrología se trata por el bibliotecario a un nivel puramente sintáctico, ni sabe ni necesita saber lo que significa la palabra. La única información que necesita es la cadena de letras de la que se compone: simplemente trata la palabra como una cadena sin sentido de letras de un alfabeto. Sin embargo para ti como médico la palabra nefrología tiene sentido, transmite no sólo información sintáctica sino información semántica (la semántica deriva del término griego para signo, de hay semiótica, la teoría de los signos)
Medir la información semántica es un problema más difícil de abordar matemáticamente y no se ha descubierto ningún medio que haya tenido éxito hasta ahora. Esto es poco sorprendente porque tenemos el hecho bien conocido de que el significado de un texto depende en gran medida del contexto. Si me ves recibiendo en mi móvil el mensaje SÍ, puedes muy bien conjeturar que es una respuesta a una pregunta que he formulado, pero no puedes saber si la pregunta es “¿tienes un billete para el partido de fútbol de esta noche?” o “¿te casas conmigo?” El significado del mensaje simplemente no puede ser determinado sin un previo conocimiento del contexto. En otras palabras hace falta mucha más información para interpretar cualquier fragmento dado de información.
La información y el ADN.
Ahora apliquemos algunas de estas consideraciones a la biología molecular. Pensemos en la cadena de “letras” que encontramos en el alfabeto químico de la molécula de ADN. Supón que eres un biólogo molecular y sabes (algo de) lo que significa la cadena de letras en el sentido de que puedes dividirlas en genes y decir que proteínas codifica, etc. Esto es, para ti, la cadena tiene una dimensión semántica. Para ti el ADN exhibe precisamente el mismo tipo de complejidad especificada de un lenguaje puesto que el orden de las letras en un gen especifica el orden de la secuencia de aminoácidos en la proteína. (2)
Pero para mi no: yo no veo la cadena más que como una larga lista de símbolos sin sentido ACGGTCAGGTTCTA… pero aun tiene perfecto sentido que hable de que conozco el contenido de la cadena de símbolos en el sentido sintáctico o de Shannon. Ciertamente, a pesar del hecho de que no entiendo el significado de la cadena, puedo averiguar precisamente cuanta información sintáctica necesitas darme para que pueda reproducir la cadena con precisión. El alfabeto genético consiste en cuatro letras de modo que cada letra que me lees (o me envías por el ordenador) implica dos bits de información. Así, por ejemplo, el ADN en un genoma humano que más o menos tiene 3500.000.000 de letras contiene 7.000.000.000 de bits de información. Si me las dan puedo escribir el ADN sin tener ni idea del significado de lo que he escrito.
Un aspecto muy importante de la investigación del genoma es el de encontrar patrones específicos que pueden repetirse en un genoma dado, o encontrar secuencias específicas que son comunes a varios genomas.
La razón para examinar una secuencia especifica puede muy bien estar motivada por consideraciones semánticas, pero la búsqueda real informática de ella en la enorme base de datos que se forma por el genoma procede al nivel de la información sintáctica.
Complejidad.
Hasta ahora en este capitulo no hemos mencionado el concepto de complejidad. Sin embargo podemos ver de inmediato que decir que el genoma humano contiene 7.000.000.000 de bits de información nos da ya alguna idea de su complejidad. Pero sólo alguna. Piensa, por ejemplo, en la siguiente cadena binaria: 001001001001001001001001…
Asumamos que esto continua hasta un total de 6000.000.000 de dígitos (queremos un número divisible por tres) Entonces podemos ver, que, desde nuestra perspectiva, contiene 6.000.000.000 de bits de información. ¿Es por lo tanto (casi) tan complejo como el genoma humano? Claramente no. Pues vemos de inmediato que consiste en un patrón repetido, el triple 001 se repite una y otra vez. Por lo tanto, en un sentido, toda la información contenida en la cadena se contiene en la proposición “repite el triple 001 2.000.000.000 de veces”. Este proceso mecánico de repetición es un ejemplo de lo que los matemáticos llamamos algoritmo (3). El tipo de proceso que los programas de ordenador están diseñados para implementar. En este caso podríamos, por ejemplo, escribir un programa sencillo como sigue: “Para n = 1 a 2.000.000.0000 escribir 001. Stop. Ahora he necesitado sólo 39 pulsaciones para escribir este programa (en inglés) y eso nos da una impresión mucho más precisa de la cantidad de información contenida en la cadena de dígitos binarios que su longitud real de 6.000.000.000 de dígitos.
Otro ejemplo que transmite esta idea intuitivamente es el que sigue: considera la cadena de letras ILOVEYOUILOVEYOUILOVEYOUILOVEYOU… y supón que la cadena contiene 2.000.000.000 de repeticiones de las tres palabras I LOVE YOU. Claramente la información (en sentido semántico esta vez) contenida en la cadena ya está contenida en las primeras tres palabras (aunque se podría afirmar que la repetición conlleva un énfasis). En cualquier caso la plena información sintáctica se da por el programa ‘Para n=1 a 2.000.000.000 escribir ILOVEYOU. Stop’ y podríamos portanto obtener una mucha major medida del contenido informative simplemente contando el número de bits de información sintáctica contenida en el programa (corto) que en el texto (largo)
Teoría algorítmica de la información.
Esta “compresión” una cadena dada se símbolos (dígitos binarios, letras, palabras, etc) en un espacio (mucho) más corto mediante un programa de ordenador es la idea fundamental detrás de lo que se denomina la teoría algorítmica de la información. La palabra algoritmo deriva del nombre del matemático Mohammed Ibn-Musa Al-Khwarizmi, que trabajó en la famosa Casa de la Sabiduría en Bagdad en el siglo IX. Un algoritmo es un procedimiento efectivo, un modo de conseguir que se haga algo en un número de pasos finito. Por ejemplo la fórmula x = (–b} √(b2– 4ac))/2a nos ofrece un procedimiento efectivo para calcular la raíz de la ecuación cuadrática ax2+ bx + c = 0, donde a, b, c son números. Es por tanto, un algoritmo.
De modo similar, los programas de ordenador (software) son algoritmos que permiten al hardware del ordenador realizar el procesamiento de información. En general, los programas de ordenador contendrán muchos algoritmos, cada uno dirigiendo su propio trocito de computación efectiva. La Teoría Algorítmica de la Información (TAI) fue desarrollada por
Kolmogorov y Chaitin como un medio de comprender y manejar la complejidad, en particular del contenido informativo o la complejidad de una secuencia específica, considerando el tamaño del algoritmo preciso para generar esa secuencia. (4)
Según la TAI, por tanto, el contenido informativo de X, (donde X es, por ejemplo, una cadena de dígitos binarios, o una cadena de dígitos ordinarios o de letras en cualquier alfabeto, etc) es el tamaño de H(X) en bits del programa más breve que puede generar X.
Ahora considera una segunda cadena generada por un mono que está moneando con un teclado: Mtl3(#8HJD[;ELSN29X1TNSP]\@… Y supón, también, que tiene una longitud de 6.000.000.000 de letras, esto es, la misma longitud que las cadenas que hemos considerado. Está claro que, puesto que la cadena es esencialmente aleatoria, cualquier programa escrito para generarla será esencialmente de la misma longitud que la propia cadena. Esto es, esta cadena es algorítmicamente imposible de comprimir. Ciertamente esta imposibilidad de comprensión algorítmica es un buen medio de definir lo que significa la aleatoriedad. Asimismo, esta cadena es sumamente compleja sobre la base de nuestro criterio de complejidad.
Por ultimo, si tomamos como nuestra tercera cadena las primeras seis mil millones de letras contenidas en los libros de las estanterías de una biblioteca de libros en ingles, entonces, aunque podamos logara algo de comprensión algorítmica será despreciable comparada con la longitud de la cadena. Es decir, la cadena es simplemente tan algorítmicamente imposible de comprimir como la segunda cadena, y de ese modo, desde un punto de vista matemático, es aleatoria.
Por la misma razón es muy compleja. Y sin embargo su complejidad es de algún modo diferente de la de la cadena generada por el mono. Pues carece de significado que podamos leer. Esta tercera cadena, por contraste, contiene información semántica (podemos entender el significado de las palabras del libro) Y la razón de que la tercera cadena tenga significado para nosotros es que hemos aprendido inglés de modo independiente y por lo tanto reconocemos las palabras formadas por las letras en la cadena. Es cadena no es sólo compleja sino que también exhibe lo que se denomina complejidad especificada, el tipo de complejidad especial asociada con el lenguaje. Este término de complejidad especificada fue empleado por primera vez por Leslie Orgel en su libro “Los Orígenes de la Vida” (5) y también por Paul Davies en el Quinto MIlabro (6) pero en ningún lugar se precisa demasiado. Ha sido investigada de forma concienzuda por el matemático William Dembski en la “Inferencia de Diseño: Eliminando la probabilidad mediante Probabilidades Pequeñas” (7)
Hay claramente grandes diferencias entre la cadena muy comprimible representada por el orden cristalino de nuestro primer ejemplo muy por encima de cada una de las cadenas virtualmente no comprimibles de los dos segundos ejemplos. Esas diferencias hacen que la clase de procesos ordenadores exhibidos en la convección
Rayleigh-Benard o en la reacción Belousov-Zhabotinski sea poco probable que sean de mucha relevancia en relación con el origen de la vida. Nuevamente, el hecho de que esas cadenas sean algorítmicamente no comprimibles significa (por definición de hecho) que no pueden surgir como una propiedad emergente de algún proceso algoritmo relativamente simple, del mismo modo que hermosas “pinturas” fractales puedan surgir de ecuaciones bastante simples. Ha sido objeto de mucha fascinación la intrincada auto-simetría de la famosa serie de Mandelbrot, imágenes generadas por ordenador de las que adornan muchos libros de sobremesa. Sin embargo esta serie es rastreable a una función matemática relativamente simple de la forma f(z) = z2 + k de la variable compleja z. ¿No podemos decir que el complejo fractal “emerge” de la simplicidad de esta ecuación? En un sentido lo hace, es decir si pensamos en el hecho de que podemos emplear la ecuación para representar la curva fractal (en un monitor de ordenador, digamos) Pero tenemos que ser cautelosos, incluso en este punto. Pues si preguntamos de que forma la imagen en el monitor emerge a partir de la ecuación hallamos que hay muchas más cosas implicadas que escribir simplemente la ecuación Mandelbrot. Muchas iteraciones diferentes de la función deben calcularse; deben asignarse colores a los pixels correspondientes en el monitor en relación con qué trayectoria una iteración dada satisface ciertas propiedades (como la limitación local) de modo que tiene que comprobarse que cada trayectoria cumple esta propiedad.
Por lo tanto el cuadro “emergente” sólo se deriva de la ecuación al coste de un insumo adicional considerable de información en términos de esfuerzo de programación y de un hardware diseñado de forma inteligente. No sale “gratis”. Un argumento más claro se aplica a la ilustración de la emergencia ofrecida por Dawkins en una conferencia pública en Oxford (8) que mencionamos anteriormente. Dawkins sostuvo que la capacidad de procesar palabras es una propiedad “emergente” de los ordenadores. Lo es; pero sólo a expensas del insumo de información contenido en un software inteligentemente diseñado como el Microsoft Word. Una cosa es clara: ningún relojero ciego hace surgir la capacidad de procesamiento de texto de un ordenador digital. Para fijar en nuestra mente la importancia de la diferencia entre la segunda y la tercera clase de complejidad, ofreceremos otro ejemplo. Si la tinta se derrama en el papel sucede un evento complejo en el sentido de que, de todas las posibles manchas de tinta, la posibilidad de obtener justamente una es infinitesimalmente pequeña. Pero la complejidad de la mancha de tinta no está especificada. Por otro lado, si alguien escribe un mensaje con tinta en un papel obtenemos complejidad especificada. De paso, atribuimos la mancha de tinta a la probabilidad y la escritura a un agente inteligente sin pensarlo un momento ¿o no?
Ahora apliquemos algunas de estas ideas al genoma. Los A, C, G y T en la molécula del ADN pueden ocupar cualquier posición dada y por lo tanto son capaces de representar expresiones que son esencialmente algorítmicamente no comprimibles y por tanto, recalcamos, desde un punto de vista matemático son aleatorias. Por supuesto no deberíamos pensar que esta aleatoriedad matemática implica que las secuencias del ADN son completamente arbitrarias. Lejos de ello. Ciertamente sólo una proporción muy pequeña de todas las posibles secuencias en la molécula del ADN exhibirán la complejidad especificada de moléculas biológicamente significativas, en gran medida del mismo modo en que sólo una pequeña proporción de todas las posibles secuencias de letras en el alfabeto, o ciertamente las palabras de cualquier lenguaje humano, exhiben la complejidad especificada de afirmaciones con sentido en las palabras de ese lenguaje. Por ejemplo el Catedrático Derek Bickerton nos ofrece una interesante penetración en la lingüística explicando como una sola frase presenta un problema prodigioso: “Intenta reordenar una frase ordinaria que conste de 10 palabras. Hay, en principio, exactamente 3,628,800 maneras en las que puede hacerle, pero para la primera frase de esta (cita) sólo una de ellas nos da un resultado correcto y con sentido. Lo que significa que 3,629,799 no son gramáticas”.
Bickerton después pregunta lo obvio: “¿Cómo aprendemos eso? Ciertamente, ningún maestro o profesor nos lo digo. La única manera en la que podemos saberlo es poseyendo, como si dijéramos, alguna receta para construir frases, una receta tan compleja y exhaustiva que descarta automáticamente 3,629,799 maneras incorrectas de juntar una frase de 10 palabras y permite sólo una forma correcta. Pero que puesto que tal receta debe aplicarse a todas las frases, y no sólo al ejemplo que hemos puesto, la receta, en cada lenguaje, descartará más frases que no se ajustan a la gramática que átomos hay en el universo)”. (9)
Pero no debemos desviarnos a la fascinante (y ciertamente relacionada) cuestión del origen de la facultad de los seres humanos de emplear el lenguaje.
Para dar alguna idea de los números implicados en la situación biológica notamos que las proteínas más pequeñas que tienen una función biológica implican al menos 100 aminoácidos y que por tanto las moléculas del ADN que se corresponden con ellas tienen no menos que 10 elevado a 130 alternativas de secuencia, y sólo una diminuta proporción de las mismas tendrá significado bilógico. La serie de todas las posibles secuencias es por lo tanto inconcebiblemente enorme. Puesto que la ribosa no tiene preferencia por una base particular, todas las secuencias de base de una longitud prescrita son igualmente probables. Este hecho conlleva que la probabilidad de un origen puramente aleatorio de una secuencia específica con significado biológico es tan pequeña como para ser despreciable.
Y eso no es todo. Las proteínas exhiben un alto grado de sensibilidad molecular en el sentido de que la mera sustitución de un aminoácido sencillo en una proteína viable puede significar un fallo catastrófico. (10) Podría por tanto defenderse que la biología molecular de la célula muestra el mismo orden de ajuste fino que vimos antes en conexión con la física y la cosmología. La cuestión clave aquí es que una secuencia de ADN que realmente codifica una proteína funcional al mismo tiempo exhibe la complejidad especificada que es necesaria para codificar esa proteína y es por tanto algorítmicamente incompresible, y por lo tanto aleatoria desde un punto de vista matemático.
Paul Davies escribe:
“¿Puede la complejidad específica ser el producto garantizado de un proceso determinista, mecánico, parecido a una ley, como una sopa primordial que queda a merced de las leyes familiares de la física y la química. No, no podría. Ninguna ley conocida de la naturaleza puede lograr esto”. (11)
En otro lugar escribe: “Concluimos que las macro-moléculas biológicamente relevantes poseen simultáneamente dos propiedades vitales, aleatoriedad y especificidad extrema. Un proceso caótico podría posiblemente conseguir la propiedad primera, pero tendría una probabilidad despreciable de conseguir la segunda”.
Si segunda afirmación es fascinante:
“A primera vista esto parece hacer al genoma un objeto imposible, no obtenible por las leyes conocidas ni por la probabilidad”. Ciertamente. Y sin embargo Davis afirma:
“Claramente la evolución Darwiniana mediante la variación y la selección natural tiene lo que hace falta para generar tanto la aleatoriedad (riqueza de información) y una funcionalidad biológica rigurosamente especificada en el mismo sistema”. (12)
Pero esto es pedir el principio: pues lo que está precisamente en cuestión es si los procesos naturales de cualquier tipo (incluyendo por supuesto la evolución darwiniana) tienen esa capacidad, o si la misma cosa que esta argumentación está apoyando con pruebas es que no la tienen. Ciertamente, puesto que todo el pasaje es sobre la abiogénesis, Davies parece contradecir lo que acaba de afirmar añadiendo:
“El problema hasta ahora por lo que concierne a la abiogénesis es que el darwinismo sólo puede operar cuando la vida (de cualquier tipo) ya está en curso No puede explicar como la vida comenzó en primer lugar”. (13)
¿Pero qué otra posibilidad hay más allá del azar y la necesidad? Bien, como Sherlock Holmes podría habernos dicho, si el azar y la necesidad, ya sea separadamente o conjuntamente no son capaces de crear la vida, debemos considerar la posibilidad de que esté implicado un tercer factor. Esa tercera posibilidad es el insumo de información.
Esta sugerencia podrá ser recibida con un estridente coro de protesta pues se supone que no hablamos de una historia detectivesca y que es en cualquier caso anti-científico e intelectualmente flojo proponer lo que es esencialmente una “inteligencia de los vacíos”, es decir, una solución del tipo de las del “Dios de los vacíos”. Aunque esta acusación debe ser tomada en serio, porque después de todo es posible que un teísta sea un haragán intelectual y diga, como o puedo explicarlo Dios lo hizo, es importante decir que otro podrían aplicarse el cuento. También es muy sencillo decir “la evolución lo hizo” cuando uno no tiene la mejor idea de cómo, o simplemente ha pergeñado una historieta especulativa sin ninguna base en la evidencia. Ciertamente, como hemos dicho, un materialista tiene que decir que los procesos naturales son los únicos responsables, puesto que en su libro, no hay otra alternativa posible. Así que es igual de fácil acabar con una evolución de los vacíos que con un Dios de los vacíos.
Uno podría decir incluso que es más fácil acabar con una evolución de los vacíos que con un “Dios en Cuestiones de vacíos de información”, puesto que la anterior sugerencia es probable que sea objeto de menores críticas que la última.
Para asegurarnos de que no se olvida esta cuestión recordamos el aviso de un experto en el origen de la vida el nobel y físico Robert Laughlin, cuya investigación es sobre las propiedades de la materia que hacen posible la vida (y que no es defensor del diseño inteligente):
“Gran parte del conocimiento biológico del día de hoy es ideológico. Un síntoma clave de este pensamiento ideológico es la explicación de que no tiene implicaciones y no puede comprobarse. Llamo a estos callejones sin salida lógicos anti-teorías porque tienen justamente el efecto contrario de las teorías reales: detienen el pensamiento en vez de estimularlo. La evolución mediante la selección natural, por ejemplo, que Darwin concibió como una gran teoría ha acabado funcionando como una anti-teoría que se utiliza para encubrir los vergonzosos fracasos experimentales y legitimar hallazgos que son cuestionables en el mejor de los casos y que en el peor ni siquiera están equivocados. Tu proteína desafía las leyes de acción de masas…. ¡La evolución lo hizo! Tu complicado follón de reacciones químicas se vuelve un pollo, ¡evolución! El cerebro funciona sobre principios lógicos que ningún ordenador puede imitar. ¡La evolución es la causa!” (14)
¿Cómo podemos, entonces, defendernos contra la acusación de haraganería intelectual o de pensamiento del Dios de los Vacíos? Pues a primera vista parece que el cargo podría estar justificado. Con el fin de explicar el siguiente paso en el argumento volveremos al mundo de las matemáticas puras.
Si una conjetura (digamos, la famosa conjetura de la antigüedad de que cualquier ángulo puede trisecarse empleando sólo una regla y compases) se ha pensado durante muchos años y todas las tentativas de demostrarlo han fracasado, entonces, aunque los matemáticos no necesariamente se den por vencidos para demostrarla verdadera, tratarán de intentar demostrar si se puede demostrar falsa, como pasó al final con esta cuestión, como todos los estudiantes de matemáticas puras saben (o deberían saber)
En otras palabras, cuando los matemáticos no consiguen demostrar una conjetura como cierta, no necesariamente se dan pro vencidos y siguen obstinadamente en la misma dirección que antes: pueden decidir de forma alternativa (o adicional) tratar de demostrar matemáticamente, que la conjetura es falsa. A mi me parece que es precisamente el tipo de pensamiento que debería operar en las ciencias físicas y biológicas en relación con la cuestión que estamos abordando. He dicho que necesitamos introducirlo. Esto no es del todo correcto. No sólo ya está allí, sino que la mayoría de nosotros somos conscientes de ello, por lo menos en las ciencias físicas. Me refiero, por supuesto, a la búsqueda en apariencia eterna por máquinas de movimiento perpetuo. Cada año se escriben artículos por personas que creen que han descubierto el secreto del movimiento perpetuo inventando mecanismos que seguirán en movimiento continuo una vez que han comenzado sin ningún insumo adicional de energía. (15)
Pero tales artículos no se toman en serio por los científicos que están familiarizados con las leyes fundamentales de la termodinámica. De hecho la mayoría de ellos ni siquiera se leen, y no porque los científicos a los que se les envían sean intelectualmente haraganes y no estén preparados para considerar nuevos argumentos. Es porque los científicos creen que hay suficientes pruebas para apoyar la ley de conservación de la energía. Esta ley es una ley conservadora e implica directamente que las máquinas de movimiento perpetuo son imposibles.
Por tanto los científicos saben que si examinan en detalle cualquier supuesta máquina de movimiento perpetuo, acabarán descubriendo invariablemente que al final necesitará una inyección de energía desde el exterior para que siga funcionando. De aquí, y este es el punto clave para nuestro propósitos, es la ciencia la que ha demostrado que las máquinas de movimiento perpetuo no existen. Y la haraganería intelectual no tiene nada que ver con ello. Ciertamente, sería intelectualmente perverso rechazar este argumento y seguir buscando el movimiento perpetuo.
¿Por qué no debería aplicarse el mismo tipo de lógica a la cuestión del origen de la información genética? ¿No podrían las dificultades implicadas en todas las tentativas que ha habido hasta ahora de ofrecer una explicación naturalista para el origen de la información genética ser una razón suficiente para gastar al menos parte de nuestra energía intelectual a indagar si hay algo parecido a un paralelo de teoría de la información a la ley de conservación de la energía?
Esa investigación podría conducir a pruebas científicas contra la validez de cualquier explicación de la abiogénesis que no implique un insumo de información procedente de una fuente externa inteligente.
Innegablemente, las cuestiones estudiadas aquí son de un orden de magnitud diferente de aquellas implicadas en la existencia de una máquina de movimiento perpetuo. Pues, si hubiera una razón científica adecuada para considerar que la abiogénesis no puede explicarse adecuadamente sin introducir un insumo de información entonces el interés se centraría inevitablemente en encontrar cuál es la fuente de esa información. Pero debe notarse que esta última es una cuestión completamente independiente, por difícil que sea mantener las dos aparte en nuestras consideraciones. Que la fuente de la información pueda determinarse o no es irrelevante para la cuestión de si un insumo externo de información es necesario. Después de todo, si fuéramos a Marte y descubriéramos una larga secuencia de montañas de pilas de titanio retrocediendo hacia el horizonte marciano donde las montañas consistieran en un número primo de cubos y las montañas fueran en el correcto orden ascendiente
1,2,3,5,7,11,13,17,19,… entonces con toda seguridad concluiríamos inmediatamente que esta disposición implicaba un insumo inteligente incluso si no tuviéramos ni idea de la inteligencia que está detrás de ello. Pero si descubrimos algo mucho más complejo, como una molécula de ADN, entonces ¡los científicos naturalistas presumiblemente llegarán a la conclusión de que era un resultado del azar y la necesidad!
Se conserva la información.
Nuestra pregunta ahora reza: ¿Existe alguna prueba científica de que la información se conserva en algún sentido significativo del término? Si la respuesta es positiva, entonces se ahorraría mucho tiempo y esfuerzo de investigación en conexión con el origen de la vida abandonando la infructuosa búsqueda de un equivalente en teoría de la información de una máquina de movimiento perpetuo. También debemos observar que ya no es adecuado objetar a un lenguaje de tipo informático cuando nos referimos a los organismos. Hoy en día, como hemos visto repetidas veces, el lenguaje “informático” es ubicuo en la biología molecular por la simple razón de que las proteínas, los flagelos, las células, etc, son máquinas moleculares.
Pueden muy bien ser más que máquinas, pero, al nivel de su capacidad de procesamiento de información son ciertamente máquinas (de procesamiento digital) Esto lleva consigo la implicación, ya explotada científicamente, en miles de formas diferentes en los años recientes, de que las máquinas biológicas están abiertas al análisis matemático en general y al análisis de teoría de la información en particular. Es a este análisis al que nos volveremos para obtener ideas sobre la cuestión de si las máquinas moleculares (de cualquier tipo) pueden generar nueva información. Leonard Brillouin, en su clásica obra sobre la teoría de la información no tiene dudas de la respuesta. Dice que:
“Una máquina no crea nueva información, pero realiza una transformación muy valiosa de la información conocida” (16)
20 años más tarde, un científico de tan poca talla como el nobel Peter Medawar escribió:
“Ningún proceso de razonamiento lógico, ningún mero acto de la mente o una operación programada por ordenador, puede expandir el contenido informativo de los axiomas y de las premisas o proposiciones observacionales a partir de las que parte” (17)
Dedujo de esta observación que algún tipo de ley de conservación de la información debe operar. No trató de demostrar esa ley, contentándose con retar a sus lectores a:
“… encontrar una operación lógica que sume al contenido informativo de cualquier afirmación”
Sin embargo, dio un ejemplo matemático para ilustrar lo que quería decir. Apunta que los famosos teoremas geométricos de Euclides son simplemente:
“Una exposición, una afirmación abierta, de la información ya contenida en los axiomas y postulados”. Después de todo, añade, los filósofos y lógicos desde los tiempos de Bacon no tenían dificultad para percibir que el proceso de deducción meramente hace explícita información que ya estaba allí. No crea nueva información de ninguna manera.
Dicho de otro modo, los teoremas de Euclides son reducibles a sus axiomas y postulados, una circunstancia que debería recordarnos nuestra exposición en el capítulo 3 sobre los límites a la reducción matemática impuestos por el teorema de Gödel. Y ciertamente Gödel que se cuenta entre los más grandes matemáticos del siglo 20, indicó que también pensaba que algún tipo de conservación de la información era característico de los seres vivos. Dijo que:
“la complejidad de los seres vivos tiene que estar presente en el material, a partir del cual derivan o en la leyes que gobiernan su formación. En particular, los materiales que conforman los órganos, si se rigen por leyes mecánicas, tienen que ser del mismo orden de complejidad que el cuerpo viviente”. La propia formulación de Gödel, en tercera persona es la que sigue:
“Más generalmente, Gödel piensa que el mecanismo en la biología es un prejuicio de nuestro tiempo que será refutado. En este caso, una refutación, en la opinión de Gödel, consistiría en un teorema matemático al efecto de que la formación dentro del tiempo geológico de un cuerpo humano mediante las leyes de la física (o cualesquiera otras leyes de naturaleza similar) que comience de una distribución de partículas elementales y el campo, es tan poco probable como la separación aleatoria de la atmosfera en sus componentes” (18)
Lo fascinante aquí es que Gödel esperaba que hubiera un día una demostración matemática de esto, en otras palabras que los matemáticos contribuyeran decisivamente a la solución del problema biológico del origen de la información. Nos encontramos aquí con una deliciosa ironía. Pues fue el propio Gödel el que inicio el sendero para desarrollos subsiguientes en este mismo problema. Empleando la teoría de la información algorítmica, el matemático Gregory Chaitin encontró pruebas de resultados incluso más vigorosos relacionados con los de Gödel que tienen peso sobre la cuestión de si los algoritmos generan información novedosa, y por tanto, por implicación. La abiogénesis.
Lo primero que hay que notar es que es pacifico que hay algún tipo de límite informativo a lo que pueden lograr los algoritmos. En un trabajo importante este matemático ha establecido que no puedes demostrar que una secuencia específica de números tenga una complejidad mayor que el programa precisado para generarla. (19)
Pero el trabajo de Chaitin tiene implicaciones adicionales. El promitente investigador sobre el origen de la vida Bernd-Olaf-Kuppers deduce a partir de ello la consecuencia siguiente, muy interesante:
“En secuencias que portan información semántica la información esta claramente codiicada en el sentido de que ya no es mas comprimible. Por lo tanto no existe ningún algoritmo que genere secuencias significativas donde esos algoritmos son mas breves que las secuencias que generan”. (20)
Kuppers apunta que esto es, por supuesto, un conjetura, puesto que el mismo trabajo de Chaitin que está examinando muestra que es imposible probar, para una secuencia y un algorimo dado, que no hay un algoritmo más breve que pudiera generar la secuencia.
Los argumentos de Chaitin se basan en el concepto de una máquina de Turing. Este es un constructo abstracto matemático llamado así por su inventor, el brillante matemático Alan Turing, que trabajo en el Parque Bletchey en el Reino Unido durante la Segunda Guerra Mundial y encabezó el equipo que descifro el famoso código enigma. El resultado del trabajo de Chaitin es hacer razonable la idea de que ninguna maquina de Turing puede generar cualquier información que no pertenezca o a su insumo o a su propia estructura informativa.
¿Por qué es importante esto? Porque, debido a la tesis Church-Turing, cualquier mecanismo de computación (pasado, presente o futuro) puede ser simulado por una máquina de Turing. Sobre esta base, cualquier resultado obtenido por las máquinas de Turing puede ser traducido al mundo digital. Una implicación de esto podría ser que ningún mecanismo molecular es capaz de generar cualquier información que no pertenezca a su insumo o a su propia estructura informativa.
Más recientemente, William Dembski ha defendido una ley de la conservación de la información no determinista en el sentido de que, aunque los procesos naturales que implican sólo el azar y la necesidad pueden transmitir eficazmente información específica compleja, no pueden generarla (21)
Queda mucho trabajo difícil e interesante por hacer en esta área en desarrollo. Sin embargo, al menos estamos ya en posición de tener una oportunidad de comprobar estas ideas en simulaciones sobre el origen de la vida. Pues, si la información se conserva en algún sentido, entonces podemos esperar lógicamente que cualquier origen de simulaciones de vida que pretenda obtener información “gratis” mediante procesos puramente naturales, debe sin embargo, a pesar de sus pretensiones, estar metiendo de contrabando esa información desde el exterior. Por lo tanto, si podemos demostrar lo último, al menos tenemos un argumento razonable de que es preciso un insumo de información para explicar el origen de la vida.
A la luz de esto, ahora trataremos de analizar una de las más famosas tentativas para simular el génesis de la especificidad compleja del ADN mediante medios naturales. Entran en escena los monos mecanógrafos.