IA supera grandes desafíos de la biología

diciembre 02, 2020
Esta IA puede resolver uno de los problemas más duros de la biología en días en lugar de años.

La IA de plegamiento de proteínas de DeepMind ha resuelto un gran desafío de la biología de hace 50 años

AlphaFold puede predecir la forma de las proteínas dentro del ancho de un átomo. El avance ayudará a los científicos a diseñar medicamentos y comprender las enfermedades.

DeepMind ya ha acumulado una racha de victorias, mostrando IA que han aprendido a jugar una variedad de juegos complejos con habilidades sobrehumanas, desde Go y StarCraft hasta el catálogo completo de Atari. Pero Demis Hassabis, la cara pública y cofundadora de DeepMind, siempre ha enfatizado que estos éxitos fueron solo trampolines hacia un objetivo más amplio: la IA que realmente nos ayuda a comprender el mundo.

Hoy DeepMind y los organizadores de la competencia de evaluación crítica de predicción de la estructura de proteínas (CASP) de larga duración anunciaron una IA que debería tener el gran impacto que Hassabis ha estado buscando. La última versión de AlphaFold de DeepMind, un sistema de aprendizaje profundo que puede predecir con precisión la estructura de las proteínas dentro del ancho de un átomo, ha resuelto uno de los grandes desafíos de la biología.

“Es el primer uso de la IA para resolver un problema grave”, dice John Moult de la Universidad de Maryland, quien dirige el equipo que dirige CASP.

Una proteína está hecha de una cinta de aminoácidos que se pliega a sí misma con muchos giros y enredos complejos. Esta estructura determina lo que hace. Y descubrir qué hacen las proteínas es clave para comprender los mecanismos básicos de la vida, cuándo funcionan y cuándo no. Los esfuerzos para desarrollar vacunas para el covid-19 se han centrado en la proteína de pico del virus, por ejemplo. La forma en que el coronavirus se engancha en las células humanas depende de la forma de esta proteína y de las formas de las proteínas en el exterior de esas células. El pico es solo una proteína entre miles de millones en todos los seres vivos; hay decenas de miles de tipos diferentes de proteínas solo dentro del cuerpo humano.

En el CASP de este año, AlphaFold predijo la estructura de docenas de proteínas con un margen de error de solo 1,6 angstroms, es decir, 0,16 nanómetros o el tamaño de un átomo. Esto supera con creces todos los demás métodos computacionales y, por primera vez, coincide con la precisión de las técnicas experimentales para trazar la estructura de las proteínas en el laboratorio, como la microscopía crioelectrónica, la resonancia magnética nuclear y la cristalografía de rayos X. Estas técnicas son costosas y lentas: pueden costar cientos de miles de dólares y años de prueba y error para cada proteína. AlphaFold puede encontrar la forma de una proteína en unos pocos días.

El avance podría ayudar a los investigadores a diseñar nuevos medicamentos y comprender las enfermedades. A largo plazo, predecir la estructura de las proteínas también ayudará a diseñar proteínas sintéticas, como las enzimas que digieren los desechos o producen biocombustibles. Los investigadores también están explorando formas de introducir proteínas sintéticas que aumentarán el rendimiento de los cultivos y harán que las plantas sean más nutritivas.

“Es un avance muy sustancial”, dice Mohammed AlQuraishi, biólogo de sistemas de la Universidad de Columbia que ha desarrollado su propio software para predecir la estructura de las proteínas. “Es algo que simplemente no esperaba que sucediera tan rápido. Es impactante, en cierto modo “.

“Esto es realmente importante”, dice David Baker, director del Instituto de Diseño de Proteínas de la Universidad de Washington y líder del equipo detrás de Rosetta, una familia de herramientas de análisis de proteínas. “Es un logro asombroso, como lo que hicieron con Go”.

➕Números astronómicos

Números astronómicos

Identificar la estructura de una proteína es muy difícil. Para la mayoría de las proteínas, los investigadores tienen la secuencia de aminoácidos en la cinta, pero no la forma retorcida en la que se pliegan. Y normalmente hay una cantidad astronómica de formas posibles para cada secuencia. Los investigadores han estado luchando con el problema al menos desde la década de 1970, cuando Christian Anfinsen ganó el premio Nobel por demostrar que las secuencias determinaban la estructura. El lanzamiento de CASP en 1994 dio un impulso al campo. Cada dos años, los organizadores publican aproximadamente 100 secuencias de aminoácidos para proteínas cuyas formas se han identificado en el laboratorio pero aún no se han hecho públicas. Luego, decenas de equipos de todo el mundo compiten para encontrar la forma correcta de plegarlos utilizando software. Muchas de las herramientas desarrolladas para CASP ya son utilizadas por investigadores médicos. Pero el progreso fue lento, con dos décadas de avances incrementales que no lograron producir un atajo al trabajo de laboratorio minucioso.

CASP recibió la sacudida que estaba buscando cuando DeepMind ingresó a la competencia en 2018 con su primera versión de AlphaFold. Todavía no podía igualar la precisión de un laboratorio, pero dejó otras técnicas computacionales en el polvo. Los investigadores tomaron nota: pronto muchos estaban adaptando sus propios sistemas para trabajar más como AlphaFold.

Este año, más de la mitad de las entradas utilizan alguna forma de aprendizaje profundo, dice Moult. Como resultado, la precisión general fue mayor. El nuevo sistema de Baker, llamado trRosetta, utiliza algunas de las ideas de DeepMind de 2018, pero aún así llegó a un “segundo muy lejano”, dice.

En CASP, los resultados se puntúan mediante lo que se conoce como prueba de distancia global (GDT), que mide en una escala de 0 a 100 qué tan cerca está una estructura predicha de la forma real de una proteína identificada en experimentos de laboratorio. La última versión de AlphaFold obtuvo una buena puntuación para todas las proteínas del desafío. Pero obtuvo una puntuación GDT superior a 90 para alrededor de dos tercios de ellos. Su GDT para las proteínas más duras fue 25 puntos más alto que el del siguiente mejor equipo, dice John Jumper, quien dirige el equipo AlphaFold en DeepMind. En 2018, la ventaja rondaba los seis puntos.

Una puntuación superior a 90 significa que cualquier diferencia entre la estructura prevista y la estructura real podría deberse a errores experimentales en el laboratorio en lugar de a una falla en el software. También podría significar que la estructura predicha es una configuración alternativa válida a la identificada en el laboratorio, dentro del rango de variación natural.

Según Jumper, había cuatro proteínas en la competencia en las que los jueces independientes no habían terminado de trabajar en el laboratorio y las predicciones de AlphaFold las orientaron hacia las estructuras correctas.

AlQuraishi pensó que los investigadores tardarían 10 años en pasar de los resultados de AlphaFold de 2018 a los de este año. Esto está cerca del límite físico de la precisión que puede obtener, dice. “Estas estructuras son fundamentalmente flexibles. No tiene sentido hablar de resoluciones muy por debajo de eso “.

Piezas de rompecabezas AlphaFold se basa en el trabajo de cientos de investigadores de todo el mundo. DeepMind también se basó en una amplia gama de conocimientos, formando un equipo de biólogos, físicos e informáticos. Los detalles de cómo funciona se darán a conocer esta semana en la conferencia CASP y en un artículo revisado por pares en un número especial de la revista Proteins el próximo año. Pero sabemos que utiliza una forma de red de atención, una técnica de aprendizaje profundo que permite que una IA se entrene centrándose en partes de un problema mayor. Jumper compara el enfoque de ensamblar una sierra de calar: primero junta los trozos locales antes de colocarlos en un todo.

➕Piezas de rompecabezas

Piezas de rompecabezas

AlphaFold se basa en el trabajo de cientos de investigadores de todo el mundo. DeepMind también se basó en una amplia gama de conocimientos, formando un equipo de biólogos, físicos e informáticos. Los detalles de cómo funciona se darán a conocer esta semana en la conferencia CASP y en un artículo revisado por pares en un número especial de la revista Proteins el próximo año. Pero sabemos que utiliza una forma de red de atención, una técnica de aprendizaje profundo que permite que una IA se entrene centrándose en partes de un problema mayor. Jumper compara el enfoque de ensamblar una sierra de calar: primero junta los trozos locales antes de colocarlos en un todo.

DeepMind entrenó a AlphaFold en alrededor de 170.000 proteínas extraídas del banco de datos de proteínas, un depósito público de secuencias y estructuras. Comparó múltiples secuencias en el banco de datos y buscó pares de aminoácidos que a menudo terminan juntos en estructuras plegadas. Luego usa estos datos para adivinar la distancia entre pares de aminoácidos en estructuras que aún no se conocen. También puede evaluar qué tan precisas son estas conjeturas. La capacitación tomó “unas pocas semanas”, utilizando una potencia informática equivalente a entre 100 y 200 GPU.

Dame Janet Thornton del Instituto Europeo de Bioinformática en Cambridge, Reino Unido, ha estado trabajando en la estructura y función de las proteínas durante 50 años. “Eso es realmente mientras este problema ha existido”, dijo en una conferencia de prensa la semana pasada. “Estaba empezando a pensar que no se resolvería en mi vida”.

Muchos fármacos se diseñan simulando su estructura molecular en 3D y buscando formas de encajar estas moléculas en proteínas objetivo. Por supuesto, esto solo se puede hacer si se conoce la estructura de esas proteínas. Este es el caso de solo una cuarta parte de las aproximadamente 20.000 proteínas humanas, dice Thornton. Eso deja 15.000 objetivos de drogas sin explotar. “AlphaFold abrirá una nueva área de investigación”.

DeepMind dice que planea estudiar la leishmaniasis, la enfermedad del sueño y la malaria, todas enfermedades tropicales causadas por parásitos, porque están vinculadas a muchas estructuras proteicas desconocidas.

Un inconveniente de AlphaFold es que es lento en comparación con las técnicas rivales. El sistema de AlQuraishi, que utiliza un algoritmo llamado red geométrica recurrente (RGN), puede encontrar estructuras de proteínas un millón de veces más rápido, devolviendo resultados en segundos en lugar de días. Sus predicciones son menos precisas, pero para algunas aplicaciones la velocidad es más importante, dice.

Los investigadores ahora están esperando saber exactamente cómo funciona AlphaFold.

“Una vez que le describan al mundo cómo lo hacen, florecerán mil flores”, dice Baker. “La gente lo usará para todo tipo de cosas diferentes, cosas que no podemos imaginar ahora”.

Incluso un resultado menos preciso habría sido una buena noticia para las personas que trabajan con enzimas o bacterias, dice AlQuraishi: “Pero tenemos algo aún mejor, con relevancia inmediata para las aplicaciones farmacéuticas”.

Fuente: MIT TechnologyReview
Autor: Will Douglas Heaven

<a href="https://www.clarytek.com/author/clarytek-news/" target="_self">ClaryTek News</a>

ClaryTek News

En ClaryTek News, generamos y compartimos artículos, novedades e innovaciones relacionadas a la tecnología y a la era digital.

Categorías

0 comentarios

Déjenos Su Comentario ??

error: ¡El contenido está protegido!