La expansión del código genético incorpora aminoácidos no canónicos a las proteínas, más allá de los 20 que se producen de forma natural
Los aminoácidos no canónicos pueden ampliar el abanico de proteínas disponibles para usos terapéuticos, y las plataformas de aprendizaje automático pueden acelerar su aplicación clínica
Crédito de la imagen: © iStock.com, Christoph Burgstedt
Trevor Nicks, PhD
26 de junio de 2026
En mi primer semestre de posgrado en la Universidad de Tufts, me senté frente a un joven profesor que me propuso unirme a su laboratorio para trabajar en la expansión del código genético (ECG). Aunque acababa de terminar mi licenciatura en bioquímica, no entendí del todo de qué hablaba. Me uní a otro laboratorio.
Nueve años después, solo puedo pensar en GCE. Será una de las tecnologías más importantes del siglo XXI , permitiendo el desarrollo de mejores medicamentos, proteínas industriales y nuevas aplicaciones de la biotecnología. Entre todas las posibles aplicaciones del aprendizaje automático y la inteligencia artificial (IA) en las ciencias de la vida, podría ser la más prometedora.
La expansión del código genético ya está transformando la medicina y la industria
La ingeniería genética de compuestos (GCE, por sus siglas en inglés) es el proceso de diseñar sistemas biológicos para incorporar aminoácidos “no canónicos” más allá de los 20 que la naturaleza suele utilizar para construir proteínas. Las aplicaciones comerciales ya son una realidad. Muchos de los fármacos GLP-1 más populares se fabrican utilizando una forma de GCE. Los conjugados anticuerpo-fármaco, que están impulsando una nueva generación de terapias oncológicas más específicas, también se basan en ella. Más allá de la terapéutica, se ha demostrado que la incorporación de aminoácidos no canónicos mejora significativamente la estabilidad térmica de las enzimas en múltiples sistemas, incluyendo grandes aumentos en la vida media y la resistencia a la agregación a temperaturas elevadas, lo que tiene enormes implicaciones para la biotecnología industrial.<sup> 1</sup>
La GCE y las tecnologías relacionadas para la producción de proteínas y péptidos mediante nuevas reacciones químicas están atrayendo importantes inversiones y atención científica a nivel mundial. Empresas como Peptidream en Japón han consolidado negocios sólidos basados en GCE y plataformas de cribado para el descubrimiento de productos. Unnatural Products, que utiliza la química para crear péptidos con aminoácidos no canónicos , anunció una inversión de Serie B de 45 millones de dólares tras cerrar importantes acuerdos con varias grandes compañías farmacéuticas.
Es evidente que la GCE está pasando de ser una novedad académica a una plataforma industrial, pero la distancia entre esos dos puntos es donde reside el verdadero desafío —y la verdadera oportunidad—.
La complejidad de la ingeniería convierte a GCE en un problema de IA
Llevar la ingeniería genética desde el descubrimiento en el laboratorio hasta un producto listo para el mercado no es tarea fácil. Requiere resolver algunos de los problemas de ingeniería multivariante más complejos de la biología, pero esa complejidad es precisamente lo que la convierte en una de las aplicaciones más apasionantes del aprendizaje automático en el siglo XXI .
Cada aminoácido no canónico que se añade al código genético requiere la ingeniería de dos biomoléculas específicas: una nueva ARNt sintetasa y un nuevo ARNt para cada aminoácido adicional. Estos componentes diseñados deben funcionar en conjunto con el resto de la maquinaria de producción de proteínas existente en la célula, un sistema altamente interconectado con poco margen de error, pero con un espacio ilimitado para la variación de diseño y la diversidad química.
Los investigadores están creando plataformas diseñadas específicamente para explorar este campo. OrthoRep, que se utiliza en sistemas de visualización de levadura, ofrece un enfoque para la ingeniería de ARNt sintetasas.² En el ámbito de los sistemas libres de células, un artículo reciente de investigadores de la Universidad de Tokio demostró la expansión del código genético que incorpora hasta 32 aminoácidos distintos —manteniendo los 20 aminoácidos canónicos y añadiendo 12 no canónicos— mediante el uso de ARNt cuidadosamente diseñados y condiciones de traducción optimizadas.³ De cara al futuro, la ingeniería de ribosomas y otros elementos de la maquinaria de producción de proteínas podría permitir implementaciones aún más ambiciosas de la expansión del código genético.
El ciclo de datos interno para GCE y aprendizaje automático
Estas nuevas plataformas, diseñadas para evaluar y desarrollar maquinaria GCE, generan enormes cantidades de datos experimentales. Y esos datos son, por naturaleza, de propiedad exclusiva.
A diferencia de los datos de secuenciación que se encuentran en repositorios de acceso público, estos datos no se pueden descargar de fuentes externas ni replicar sin construir la misma infraestructura experimental física. Solo se pueden producir mediante sistemas de laboratorio específicos cuyo desarrollo requiere años y recursos considerables.
Esto es lo que hace que estas plataformas sean tan estratégicamente valiosas para el aprendizaje automático. La IA aprende de lo que funcionó y lo que no. Las proteínas funcionan o no en condiciones de fabricación. Las enzimas mantienen su estabilidad o se degradan. Esta estrecha relación entre la predicción y la realidad física es precisamente el entorno donde el aprendizaje automático se desarrolla con mayor eficacia.
Por ejemplo, en inmunología: los conjugados anticuerpo-fármaco, una clase de terapias contra el cáncer en rápido crecimiento, dependen de la unión química precisa de una sustancia terapéutica a un anticuerpo. El diseño actual aún se basa en gran medida en el método de ensayo y error para optimizar esta unión. Una plataforma que combine la electroforesis capilar de alto rendimiento (GCE) con el análisis mediante aprendizaje automático podría analizar miles de variantes de aminoácidos no canónicas en paralelo, evaluar su rendimiento frente a dianas biológicas reales y refinar continuamente sus predicciones en función de los resultados. Esto podría reducir años de desarrollo a meses o semanas, a la vez que se obtienen conjugados con propiedades que ningún enfoque convencional podría haber diseñado.
En la biotecnología industrial, las enzimas diseñadas para la captura de carbono se enfrentan a un problema diferente, pero igualmente exigente: deben funcionar de forma fiable bajo las altas temperaturas, presiones y el estrés tóxico de los gases de combustión industriales, que degradan rápidamente las proteínas convencionales. La evaluación de variantes enzimáticas con diferentes aminoácidos no canónicos en esas condiciones específicas puede generar datos exclusivos sobre qué composiciones químicas no canónicas mejoran la estabilidad. Estos datos no existen en ningún otro lugar, ya que solo pueden obtenerse mediante la construcción del sistema físico necesario para su prueba.
A medida que estos modelos mejoran los conjuntos de datos internos, aceleran el proceso desde el laboratorio hasta el mercado al reducir los ciclos de prueba y error que actualmente prolongan el desarrollo, lo que permite diseñar proteínas más económicas y complejas, diseñadas específicamente para sobrevivir a las condiciones de la implementación industrial en el mundo real.
AlphaFold para proteínas con aminoácidos no canónicos
Pero optimizar la maquinaria de GCE no es la única oportunidad importante. El verdadero desafío reside en desarrollar modelos de aprendizaje automático capaces de predecir la estructura y función de las proteínas al incorporar aminoácidos no canónicos. Para ello, se requieren datos propios que aún no existen a la escala necesaria.
Consideremos qué hizo posible AlphaFold. Su éxito dependió de dos bases de datos existentes: el Protein Data Bank, que contiene las estructuras tridimensionales precisas de casi 175 000 proteínas, y UniProt, una base de datos de secuencias y funciones con más de 200 millones de entradas. Décadas de trabajo experimental permitieron construir esos recursos. AlphaFold encontró patrones en datos que ya existían.
Sin embargo, para las proteínas que incorporan aminoácidos no canónicos, esa base aún no existe. No hay un equivalente al Protein Data Bank para el espacio químico ampliado que GCE desbloquea. Una base de datos de aminoácidos no canónicos y proteínas creada para y con GCE, que proporcione datos sobre los efectos en el plegamiento, las mejoras de estabilidad o la degradación, y las afinidades de unión que presentan, proporcionaría los datos de entrenamiento necesarios para que GCE evolucione rápidamente en la ciencia industrial y académica.
Pero esa base de datos solo puede crearse si las organizaciones producen los datos ellas mismas, internamente y a gran escala, y cuentan con la infraestructura física necesaria para generar información veraz.
Una vez construida esa base, surgen las aplicaciones posteriores: enzimas industriales hiperestables capaces de funcionar en condiciones que destruyen las proteínas convencionales, clases de fármacos completamente nuevas con mecanismos no disponibles para los 20 aminoácidos estándar y terapias que requieren una dosificación mucho menos frecuente porque su estabilidad biológica se ha diseñado desde cero.
GCE es el puente entre el descubrimiento y el mercado
Lo que no comprendía de la GCE cuando era estudiante de posgrado me resulta evidente ahora: su enorme potencial para impulsar nuevos productos biotecnológicos —incluso categorías de productos completamente nuevas— es inmenso. Su complejidad también lo es, y precisamente esa complejidad es lo que la convierte en un caso de uso tan interesante para el aprendizaje automático. Existe una enorme oportunidad para crear nuevos sistemas que aceleren el descubrimiento y permitan la fabricación de productos con GCE.
Las organizaciones que desarrollan las plataformas experimentales para generar esos datos internos no solo perfeccionan sus propios procesos, sino que sientan las bases de una de las aplicaciones más interesantes del aprendizaje automático en biotecnología: convertir la ingeniería genética de productos (GCE, por sus siglas en inglés) en el puente entre una posibilidad científica y un producto real con el rendimiento que necesitan los pacientes y otros clientes. Los datos generados durante este proceso son los que hacen posible ese puente.
_____________
Referencias
Gurevich A, Levy Y. Aminoácidos no canónicos como herramienta para la estabilización térmica de enzimas . Protein Eng Des Sel. 2023;36(1):1-15.
Furuhata Y, et al. "Evolución dirigida de aminoacil-ARNt sintetasas mediante hipermutación in vivo" . Comuna Nacional . 2025;16(1):4832.
Katoh T, Suga H. Un código genético reprogramado que consta de 32 aminoácidos distintos . Nucleic Acids Research. 2026;54(4):gkag140.
_______
Fuente:
