“Escríbeme un resumen conciso de Misión imposible Personajes y tramas hasta la fecha ”, recientemente le pregunté a ChatGPT antes de atrapar la última entrada de franquicia. Se entregó. No necesitaba entender su código o conocer su conjunto de datos de capacitación. Todo lo que tenía que hacer era preguntar.
ChatGPT y otros chatbots impulsados por modelos de idiomas grandes, o LLM, son más populares que nunca. Los científicos están tomando nota. Las proteínas, los caballos de batalla moleculares de las células, mantienen nuestros cuerpos corriendo suavemente. También tienen un idioma propio. Los científicos asignan una letra abreviada a cada uno de los 20 aminoácidos que componen proteínas. Al igual que las palabras, las cadenas de estas letras se unen para formar proteínas de trabajo, su secuencia determina la forma y la función.
Inspirados en LLM, los científicos ahora están construyendo modelos de lenguaje de proteínas que diseñan proteínas desde cero. Algunos de estos algoritmos están disponibles públicamente, pero requieren habilidades técnicas. ¿Qué pasaría si su investigador promedio podría simplemente pedirle a una IA que diseñe una proteína con un solo mensaje?
El mes pasado, los investigadores dieron a Protein Design AI el tratamiento con chatgpt. De una descripción del tipo, estructura o funcionalidad de una proteína que está buscando, el algoritmo produce posibles candidatos. En un ejemplo, la IA, denominada pinal, hizo con éxito múltiples proteínas que podrían descomponer el alcohol cuando se analizó dentro de las células vivas. Puedes probarlo aquí.
Pinal es el último en un creciente conjunto de algoritmos que traducen el inglés cotidiano en nuevas proteínas. Estos diseñadores de proteínas entienden el lenguaje sencillo y la biología estructural, y actúan como guías para los científicos que exploran proteínas personalizadas, con poca experiencia técnica.
Es un “enfoque ambicioso y general”, el equipo internacional detrás de Pinal escribió en una preimpresión publicada en Biorxiv. La IA aprovecha el “poder descriptivo y la flexibilidad del lenguaje natural” para hacer que las proteínas de diseñador sean más accesibles para los biólogos.
Enfrentados contra los algoritmos de diseño de proteínas existentes, Pinal entendió mejor el objetivo principal de una proteína objetivo y aumentó las posibilidades de que funcionaría en las células vivas.
“Somos los primeros en diseñar una enzima funcional usando solo texto”, dijo Fajie Yuan, científica de IA de la Universidad de Westlake en China que dirigió el equipo. Naturaleza. “Es como la ciencia ficción”.
Más allá de la evolución
Las proteínas son los componentes básicos de la vida. Forman nuestros cuerpos, el metabolismo del combustible y son el objetivo de muchos medicamentos. Estas intrincadas moléculas comienzan a partir de una secuencia de “letras” de aminoácidos, que se unen entre sí y eventualmente se doblan en intrincadas estructuras 3D. Muchos elementos estructurales, un bucle aquí, un tejido o bolsillo allí, son esenciales para su función.
Los científicos han intentado durante mucho tiempo diseñar proteínas con nuevas habilidades, como enzimas que descomponen de manera eficiente los plásticos. Tradicionalmente, han personalizado las proteínas existentes para un cierto uso biológico, químico o médico. Estas estrategias “están limitadas por su dependencia de las plantillas de proteínas existentes y las limitaciones evolutivas naturales”, escribieron los autores. Los modelos de lenguaje de proteínas, en contraste, pueden soñar con un universo de nuevas proteínas sin ataduras de la evolución.
En lugar de absorber el texto, la imagen o los archivos de video, como LLMS, estos algoritmos aprenden el lenguaje de las proteínas entrenando en secuencias y estructuras de proteínas. ESM3 de EvolutionaryScale, por ejemplo, entrenó en más de 2.700 millones de secuencias de proteínas, estructuras y funciones. Los modelos similares ya se han utilizado para diseñar anticuerpos que luchan contra ataques virales y nuevas herramientas de edición de genes.
Pero estos algoritmos son difíciles de usar sin experiencia. Pinal, por el contrario, apunta al científico promedio-joe. Al igual que una cámara DSLR en Auto, el modelo “evita las especificaciones estructurales manuales”, escribió el equipo, lo que hace que sea más simple hacer su proteína deseable.
Háblame
Para usar Pinal, un usuario le pide a la IA que construya una proteína con una solicitud de varias palabras clave, frases o un párrafo completo. En la parte delantera, la IA analiza los requisitos específicos en el aviso. En el back -end, transforma estas instrucciones en una proteína funcional.
Es un poco como pedirle a ChatGTP que le escriba una reseña de restaurante o un ensayo. Pero, por supuesto, las proteínas son más difíciles de diseñar. Aunque también están formados por “letras”, su forma final determina cómo (o si) funcionan. Un enfoque, denominado entrenamiento de extremo a extremo, traduce directamente un aviso en secuencias de proteínas. Pero esto abre la IA a un vasto mundo de secuencias potenciales, lo que hace que sea más difícil marcar las secuencias precisas de las proteínas de trabajo. En comparación con las secuencias, la estructura de proteínas, la forma 3D final, es más fácil para el algoritmo generar y descifrar.
Luego está el dolor de cabeza de los datos de entrenamiento. Aquí, el equipo recurrió a las bases de datos de proteínas existentes y usó LLM para etiquetarlas. El resultado final fue una vasta biblioteca de 1.700 millones de pares de texto proteico, en el que las estructuras de proteínas coinciden con descripciones de texto de lo que hacen.
El algoritmo completado utiliza 16 mil millones de parámetros, estas son las conexiones internas de una IA, para traducir el inglés simple al idioma de la biología.
Pinal sigue dos pasos. Primero traduce las indicaciones en información estructural. Este paso divide una proteína en elementos estructurales, o “fichas”, que son más fáciles de procesar. En el segundo paso, un modelo en idioma proteico llamado Saprot considera la intención del usuario y la funcionalidad de proteínas para diseñar secuencias de proteínas con mayor probabilidad de doblar en una proteína de trabajo que satisfaga las necesidades del usuario.
En comparación con los algoritmos de diseño de proteínas de última generación que también usan el texto como entrada, incluida ESM3, el pinal superó la precisión y la novedad, es decir, generar proteínas no conocidas por la naturaleza. Usando algunas palabras clave para diseñar una proteína, “la mitad de las proteínas de pinal exhiben funciones predecibles, solo alrededor del 10 por ciento de las proteínas generadas por ESM3 lo hacen”.
En una prueba, el equipo le dio a la IA un breve aviso: “Por favor, diseñe una proteína que sea una alcohol deshidrogenasa”. Estas enzimas descomponen el alcohol. De más de 1.600 proteínas candidatas, el equipo eligió los ocho más prometedores y las probó en células vivas. Dos rompieron con éxito el alcohol a temperatura corporal, mientras que otros fueron más activos a un sudor de 158 grados Fahrenheit.
Las indicaciones más elaboradas que incluían la función de una proteína y los ejemplos de moléculas similares, arrojaron candidatos a antibióticos y proteínas para ayudar a las células a recuperarse de la infección.
Pinal no es el único IA de texto a proteína. El Startup 310 AI ha desarrollado una IA denominada MP4 para generar proteínas a partir del texto, con los resultados que la compañía dice que podría beneficiar la enfermedad cardíaca.
El enfoque no es perfecto. Al igual que los LLM, que a menudo “alucinan”, los modelos de lenguaje de proteínas también sueñan secuencias poco confiables o repetitivas que reducen las posibilidades de un resultado final de trabajo. La redacción precisa de las indicaciones también afecta la estructura de proteína final. Aún así, la IA es como la primera versión de Dall-E: juega con ella y luego valida la proteína resultante usando otros métodos.