La IA generativa ha revolucionado el desarrollo de software con la generación de código basado en prompts; el diseño de proteínas es el siguiente.
EvolutionaryScale anunció el lanzamiento de su modelo ESM3, la tercera generación del modelo ESM, que razona simultáneamente sobre la secuencia, estructura y funciones de proteínas, brindando a los ingenieros de descubrimiento de proteínas una plataforma programable.
La startup, que surgió de la unidad Meta FAIR (Fundamental AI Research), recientemente consiguió financiamiento liderado por Lux Capital, Nat Friedman y Daniel Gross, con inversión de NVIDIA.
A la vanguardia de la biología programable, EvolutionaryScale puede asistir a investigadores en la ingeniería de proteínas que pueden ayudar a atacar células cancerígenas, encontrar alternativas a plásticos nocivos, impulsar mitigaciones ambientales y más.
EvolutionaryScale está pionerando el desarrollo de modelos a escala con ESM3, que utilizó NVIDIA H100 Tensor Core GPUs para el mayor poder de cómputo jamás empleado en un modelo biológico fundamental. El modelo ESM3 de 98 mil millones de parámetros usa aproximadamente 25 veces más flops y 60 veces más datos que su predecesor, ESM2.
La compañía, que desarrolló una base de datos de más de 2 mil millones de secuencias de proteínas para entrenar su modelo de IA, ofrece tecnología que puede proporcionar pistas aplicables al desarrollo de medicamentos, erradicación de enfermedades y, literalmente, cómo los humanos han evolucionado a escala como especie, tal como su nombre sugiere, para los investigadores de descubrimiento de medicamentos.
Acelerando la investigación biológica in silico con ESM3
Con avances en los datos de entrenamiento, EvolutionaryScale busca acelerar el descubrimiento de proteínas con ESM3.
El modelo se entrenó con casi 2.8 mil millones de secuencias de proteínas extraídas de organismos y biomas, permitiendo a los científicos solicitar al modelo que identifique y valide nuevas proteínas con niveles crecientes de precisión.
ESM3 ofrece mejoras significativas respecto a versiones anteriores. El modelo es nativamente generativo y es un modelo «de todo a todo», lo que significa que las anotaciones de estructura y función pueden proporcionarse como entrada y no solo como salida.
Una vez esté disponible públicamente, los científicos podrán ajustar este modelo base para construir modelos específicos basados en sus propios datos patentados. El impulso en las capacidades de ingeniería de proteínas debido al entrenamiento generativo a gran escala de ESM3 a través de enormes cantidades de datos ofrece una máquina del tiempo para la investigación biológica in silico.
Impulsando los próximos grandes avances con NVIDIA BioNeMo
ESM-3 brinda a los biólogos y diseñadores de proteínas un impulso de IA generativa, ayudando a mejorar su ingeniería y comprensión de las proteínas. Con prompts simples, puede generar nuevas proteínas con una estructura proporcionada, auto-mejorar su diseño de proteínas basado en comentarios y diseñar proteínas según la funcionalidad que el usuario indique. Estas capacidades se pueden utilizar en conjunto de cualquier combinación para proporcionar diseño de proteínas como si el usuario estuviera conversando con un investigador que hubiera memorizado el significado tridimensional intrincado de cada secuencia de proteínas conocida por los humanos y hubiera aprendido el lenguaje fluidamente, permitiendo a los usuarios iterar de ida y vuelta.
“En nuestras pruebas internas hemos quedado impresionados por la capacidad de ESM3 para responder creativamente a una variedad de prompts complejos”, dijo Tom Sercu, cofundador y vicepresidente de ingeniería en EvolutionaryScale. “Pudo resolver un problema extremadamente difícil de diseño de proteínas para crear una nueva Proteína Verde Fluorescente. Esperamos que ESM3 ayude a los científicos a acelerar su trabajo y abra nuevas posibilidades; estamos deseosos de ver cómo contribuirá a la investigación futura en las ciencias de la vida.”
EvolutionaryScale abrirá una API para beta cerrada hoy y el código y los pesos están disponibles para una pequeña versión abierta de ESM3 para uso no comercial. Esta versión llegará pronto a NVIDIA BioNeMo, una plataforma de IA generativa para el descubrimiento de medicamentos. La familia completa de modelos ESM3 estará disponible pronto para clientes selectos como un microservicio NVIDIA NIM, optimizado en tiempo de ejecución en colaboración con NVIDIA, y soportado por una licencia de software NVIDIA AI Enterprise.
La potencia de cómputo necesaria para entrenar estos modelos está creciendo exponencialmente. ESM3 se entrenó utilizando el clúster Andromeda, que utiliza GPUs NVIDIA H100 y redes NVIDIA Quantum-2 InfiniBand.
El modelo ESM3 estará disponible en plataformas asociadas seleccionadas y NVIDIA BioNeMo.
Consulte el aviso relacionado con la información del producto de software.