Inteligencia artificial para entender el ADN: el aporte de AlphaGenome

Un sistema capaz de analizar secuencias extensas y anticipar cambios funcionales en regiones codificantes y no codificantes.

0
14
Blog Google Deepmind

Google DeepMind ha presentado AlphaGenome, un modelo de inteligencia artificial diseñado para predecir con mayor detalle cómo las variaciones en la secuencia del ADN afectan los procesos que regulan la actividad genética. La herramienta, publicada inicialmente como preprint y posteriormente validada en Nature, representa un avance en la interpretación de regiones codificantes y no codificantes del genoma, un desafío central en biología molecular y medicina genómica.

El genoma humano contiene alrededor de tres mil millones de pares de bases que actúan como un manual de instrucciones para el funcionamiento celular. Aunque solo cerca del 2% corresponde a regiones que codifican proteínas, el resto desempeña un papel esencial en la regulación de cuándo, dónde y en qué medida se expresan los genes. Comprender cómo una mutación altera estos mecanismos es clave para estudiar enfermedades, desarrollar terapias y avanzar en biología sintética. Sin embargo, la complejidad del genoma y la interacción entre múltiples capas regulatorias han dificultado históricamente la predicción precisa de estos efectos.

Un modelo capaz de procesar secuencias largas con alta resolución
AlphaGenome se distingue por su capacidad para analizar secuencias de hasta un millón de letras de ADN y generar predicciones a nivel de base. Esta combinación de contexto amplio y resolución fina permite capturar interacciones regulatorias que ocurren a larga distancia, algo que los modelos anteriores debían sacrificar por limitaciones computacionales.

El modelo integra varias arquitecturas: capas convolucionales para detectar patrones locales, transformadores para relacionar posiciones distantes en la secuencia y capas finales que traducen estas representaciones en predicciones sobre múltiples modalidades biológicas. Entre ellas se incluyen:

– Inicio y final de genes en distintos tipos celulares.
– Patrones de empalme de ARN.
– Cantidad de ARN producido.
– Accesibilidad del ADN y proximidad entre regiones.
– Sitios de unión de proteínas reguladoras.

Para su entrenamiento, AlphaGenome utiliza datos generados por consorcios internacionales como ENCODE, GTEx, 4D Nucleome y FANTOM5, que han caracterizado experimentalmente miles de propiedades regulatorias en células humanas y de ratón. Esta diversidad de datos permite que el modelo abarque un espectro amplio de funciones genómicas.

Predicción de variantes y modelado del empalme
Una de las capacidades más destacadas de AlphaGenome es su eficiencia para evaluar el impacto de variantes genéticas. El modelo compara la secuencia original con una versión mutada y estima cómo cambia cada modalidad regulatoria. Esta función es especialmente útil para estudiar variantes raras, que suelen tener efectos grandes y están asociadas a enfermedades mendelianas.

El modelo también incorpora un enfoque novedoso para predecir uniones de empalme, un proceso crítico en la maduración del ARN. Alteraciones en el empalme están implicadas en enfermedades como la atrofia muscular espinal o ciertos tipos de fibrosis quística. AlphaGenome puede estimar directamente desde la secuencia cómo una mutación modifica estos puntos de corte y unión, proporcionando información que antes requería modelos especializados.

Rendimiento y validación
En evaluaciones comparativas, AlphaGenome supera o iguala a los mejores modelos externos en la mayoría de las tareas analizadas, tanto en predicción de propiedades de secuencias como en efectos de variantes. Destaca además por ser el único modelo capaz de predecir simultáneamente todas las modalidades evaluadas, lo que refuerza su carácter unificador.

Este rendimiento sugiere que AlphaGenome ha aprendido representaciones generales del ADN en el contexto de la regulación génica, lo que lo convierte en una base sólida para futuras extensiones o adaptaciones específicas por parte de la comunidad científica.

Aplicaciones potenciales en investigación biomédica
El modelo abre oportunidades en varias áreas:

Comprensión de enfermedades: permite identificar variantes que alteran la regulación de genes asociados a patologías, incluidas enfermedades raras.

Biología sintética: puede guiar el diseño de secuencias con funciones regulatorias específicas, como activar un gen solo en ciertos tejidos.

Investigación fundamental: facilita la identificación de elementos funcionales del genoma y su papel en distintos tipos celulares.

DeepMind ilustra estas capacidades con un caso relacionado con la leucemia linfoblástica aguda de células T. En estudios previos se habían observado mutaciones en regiones no codificantes cercanas al gen TAL1. AlphaGenome predijo que estas mutaciones introducían un motivo de unión para la proteína MYB, lo que activaba TAL1, un mecanismo ya descrito en la literatura científica. Este ejemplo muestra cómo el modelo puede vincular variantes no codificantes con efectos funcionales concretos.

Limitaciones y próximos pasos
A pesar de sus avances, AlphaGenome presenta limitaciones reconocidas por sus desarrolladores. La predicción de interacciones reguladoras extremadamente distantes sigue siendo un reto, así como la captura de patrones específicos de cada tipo celular. Además, el modelo no está diseñado para interpretar genomas completos de individuos, sino para analizar variantes puntuales en contextos definidos.

DeepMind planea ampliar las capacidades del modelo incorporando más datos, extendiéndolo a otras especies y añadiendo modalidades adicionales. También ha puesto a disposición una API para uso no comercial en investigación, con planes de liberar el modelo completo en el futuro.

Conclusión
AlphaGenome representa un paso significativo hacia modelos más integrales para interpretar el genoma. Su capacidad para combinar contexto amplio, resolución fina y predicción multimodal ofrece una herramienta valiosa para la comunidad científica. Aunque aún quedan desafíos por resolver, su desarrollo apunta a un futuro en el que la inteligencia artificial desempeñe un papel central en la comprensión de la regulación genética y en la identificación de variantes con relevancia biomédica.

Fuente: Blog Google Deepmind | Editado por CDOL

Custom Text
Artículo anteriorBancaribe promueve contenidos de formación para sus usuarios y alerta sobre riesgos de fraude digital.
Artículo siguienteLa apuesta de Mastercard por la IA agentic