IIBM y Sociedad - iib.uam.es

El investigador Alfonso Valencia, referente internacional en inteligencia artificial aplicada a las ciencias de la vida, impartió un seminario en el Instituto de Investigaciones Biomédicas Sols-Morreale (IIBM), CSIC-UAM, titulado “AI for Science: Digital Twins, Data and AI in Biomedicine”. Alfonso Valencia es Profesor ICREA y director del Centro Nacional de Supercomputación de Barcelona, donde lidera investigaciones que combinan inteligencia artificial (IA), análisis masivo de datos y biomedicina. En esta entrevista reflexiona sobre el momento de transformación que vive la biología computacional gracias a la IA, el potencial de los gemelos digitales para estudiar enfermedades y acelerar el descubrimiento científico, así como los retos éticos, regulatorios y formativos que acompañan a estas tecnologías. Creemos que sus reflexiones resultan especialmente interesantes para toda la comunidad científica y, en particular, para los jóvenes investigadores que comienzan su carrera en la intersección entre biología, datos e inteligencia artificial.

Wolfgang Link jefe del grupo de investigación Mecanismos Moleculares de Envejecimiento y Cáncer dentro del Departamento de Cáncer en el IIBM entrevistó a Alfonso Valencia. Aquí recogemos esa entrevista:

La inteligencia artificial está revolucionando muchas áreas de la ciencia. ¿En qué punto se encuentra hoy la integración de la IA en la biología y la biomedicina?

Diría que estamos en un punto de inflexión histórico, saliendo de una fase de "prueba de concepto" para entrar en una de "aplicación generalizada y profunda" particularmente en ciencia y tecnología. Durante décadas, la bioinformática se basó en el desarrollo de modelos estadísticos y de Machine Learning/IA a problemas biológicos, por ejemplo, las primeras publicaciones sobre predicción de estructura de proteínas con redes neuronales son de los años 80. El cambio sustancial se produce con la introducción de las técnicas de “deep learning”, que representan un salto tecnológico muy importante. Ejemplos obvios y relevantes son:

- Estructura de proteínas: AlphaFold2 y los desarrollos posteriores que básicamente han resuelto la parte central del problema de predicción de estructura de proteínas. Esto fue reconocido a los Dres. Demis Hassabis y John M. Jumper con el Premio Nobel.

- Biología sintética y diseño de proteínas: En esta misma área de estructura de proteínas, métodos como RFdiffusion o ProteinMPNN nos permiten no solo predecir, sino diseñar proteínas con funciones nuevas desde cero, ampliando las posibilidades tanto prácticas como científicas a una escala difícil de imaginar hace unos pocos años.

- Modelos fundacionales en genómica: Modelos como Enformer o Nucleotide Transformer aprenden el lenguaje del ADN de manera no supervisada, captando interacciones regulatorias complejas que eran imposibles de modelar con métodos anteriores, abriendo las puertas al diseño de genomas.

- Análisis de datos ómicos integrativos: La IA es clave para integrar y dar sentido a la avalancha de datos de transcriptómica unicelular, epigenómica y proteómica. Por ejemplo, podemos alinear perfiles de expresión génica de millones de células individuales para construir atlas celulares completos de organismos modelo y del cuerpo humano, como los que está generando el consorcio Human Cell Atlas, permitiendo descubrir nuevos tipos celulares y estados de transición en enfermedades.

-Imagen médica y patología digital: La IA está transformando radicalmente el diagnóstico por imagen. Modelos de deep learning, especialmente redes convolucionales profundas (CNNs) y más recientemente arquitecturas basadas en transformers, están alcanzando y en muchos casos superando el rendimiento de especialistas humanos en tareas específicas, por ejemplo en radiología. En patología digital, la IA está permitiendo la identificación de patrones histológicos, cuantificar biomarcadores y combinado con datos de genómica (digital pathology), predecir la evolución de tumores directamente de la morfología tisular.

El impacto en el desarrollo científico es bien real aunque la translación clínica vaya mucho más lenta en el contexto del marco regulatorio del desarrollo de dispositivos médicos.

Tras avances como AlphaFold y los modelos fundacionales en biología, ¿cuál crees que será el siguiente gran salto en biología computacional?

En mi opinión el siguiente gran salto en ciencia en general, y especialmente en biología, será la integración de los modelos mecanísticos con los modelos IA. Es decir, sistemas en los que la respuesta de la IA estén constreñidas a una realidad biológica (datos) y una interpretación (modelos causales). Esto implica una limitación para la IA que evite respuestas que salgan del entorno “real” y a su vez una potenciación de los modelos de sistemas biológicos con la capacidad de construcción y exploración de la IA.
En este sentido trabajamos en la creación de “gemelos virtuales” de sistemas celulares. Estos modelos utilizan como base de conocimiento los desarrollos de sistemas de señalización, metabolismo o regulación génica basados en el conocimiento e implementados en términos causales (redes Booleanas, por ejemplo). Modelos complejos basados en conocimiento que requieren mucho esfuerzo para su construcción y ejecución en infraestructuras de HPC (High Performance Computing). Estos gemelos digitales nos permitirían hacer experimentos “in silico” sobre evolución de tumores, respuesta a fármacos o reproducción de interacciones entre tipos celulares.

El desafío es hacer el desarrollo de estos gemelos digitales mucho más fácil combinándolos con tecnología de IA (agentes de IA en particular) para facilitar y mejorar todas las etapas del proceso: desarrollo, implementación, ejecución, control y análisis de los resultados.

¿Cómo está cambiando la bioinformática la investigación en enfermedades complejas como el cáncer, o las enfermedades raras?

- En cáncer: La bioinformática, impulsada por IA, permite dilucidar la heterogeneidad tumoral. Analizando datos de secuenciación unicelular podemos identificar las diferentes subpoblaciones de células dentro de un tumor, predecir trayectorias y respuestas a perturbaciones (fármacos) de modo personalizado. Desarrollos que idealmente se combinan con sistemas in vitro, como líneas celulares u organoides.

- En enfermedades raras: La IA nos permite expandir los datos creando datos sintéticos equivalentes a los datos reales. Usamos este tipo de aproximación tanto para conseguir datos suficientes para entrenar sistemas de IA como para mejorar – y en algunos casos posibilitar- la interpretación de los datos reales. El desafío está, obviamente, en garantizar la calidad y la variabilidad de estos nuevos datos sintéticos.

El uso de grandes modelos de IA en biomedicina plantea preguntas éticas y regulatorias. ¿Cuáles consideras que son las más urgentes y qué soluciones deberíamos impulsar?

Como científico, me entusiasma el potencial, pero me preocupa profundamente la velocidad a la que avanzamos sin los frenos de mano adecuados. Los puntos que me parecen más urgentes son:

1. Sesgo y equidad: Los modelos se entrenan con datos del mundo real (RWD), con sus sesgos (la mayoría de los genomas disponibles son de ascendencia europea y la mayoría de los datos sobre modelos animales son de ratones macho). Además, los propios algoritmos pueden introducir sesgos y su interpretación por terceras personas también. Si generamos modelos con estas cuestiones perpetraremos y amplificaremos las desigualdades en salud.

2. Transparencia y explicabilidad: Los científicos, pero también los clínicos y el propio sistema regulatorio, necesitan conocer las razones detrás de los resultados y en última instancia la explicación mecanística – el objetivo de la biología es precisamente esta interpretación causal. Aunque hay aproximaciones algorítmicas (métodos de IA explicable -XAI) en realidad la IA generativa es intrínsicamente incapaz de resolver el problema causal, que depende de una cadena de razonamiento. Y de ahí, la importancia de la combinación de los modelos físicos.

3. Privacidad: Los modelos fundacionales deben ser entrenados con datos “legales” y en Europa mantenerse dentro del entorno de la GDPR (General Data Protection Regulation). Exportar datos de pacientes, o datos con propiedad intelectual fuera de estos límites, es ilegal y además causa un daño considerable a la soberanía europea.

4. Soberanía: Este es un problema fundamental asociado. Las principales compañías, que ahora son gigantescas, no son europeas, lo que en la actual situación geopolítica es un problema gravísimo. Por cierto, un problema íntimamente asociado al desarrollo de procesadores que tampoco está en nuestras manos.

¿Crees que la IA cambiará la forma en que se forman los futuros científicos y médicos?

Sin ninguna duda, y debe hacerlo. Solemos decir que el profesional del futuro no será el que compita con la IA, sino el que sepa colaborar con ella.

- Para los médicos: Su formación debe incluir los fundamentos de los sistemas, las limitaciones y los sesgos de estas herramientas. Un profesional debe saber cómo colaborar con los sistemas que estarán en su entorno. Con los sistemas actuales, hasta donde se sabe, esta colaboración es más efectiva que el trabajo aislado del profesional o la IA. Si esto es posible, la relación médico-paciente se enriquecerá y se hará más efectiva.

- Para los biólogos computacionales: Ya no bastará con saber programar y conocer algo de estadística, será necesaria una base más sólida en biología para formular las preguntas correctas, interpretar críticamente los resultados y poder trabajar en los entornos de agentes de IA. En cierto sentido, pienso que el biólogo computacional seguirá siendo un "traductor" entre el mundo de la biología y el mundo de los modelos de IA, con mucha más capacidad de desarrollo.

Si miramos 10–15 años hacia adelante, ¿cómo imaginas el laboratorio de biología computacional del futuro?

Primero me preguntaría cuántos de los actuales laboratorios experimentales serán sustituidos por sistemas robotizados conectados directamente a sistemas de IA que planearán, ejecutarán experimentos y con los resultados, planearán nuevos experimentos.

Para los jóvenes investigadores interesados en bioinformática e IA aplicada a la biología, ¿qué consejo les darías hoy?

Les daría tres consejos, uno de ilusión, otro de precaución y otro de compromiso.

1. Construid un puente sólido entre dos mundos: No os especialicéis demasiado pronto. Es mucho más valioso un científico con una base sólida en biología y un buen dominio de las herramientas de IA, que un experto en “transformers” que no sabe lo que es una célula.

2. Mantened un escepticismo saludable: La IA es una herramienta increíble, pero estamos todavía en una fase muy primitiva. Puede que nada de lo que ahora usamos sea útil en unos pocos años, con una nueva ola de tecnología. Es un momento de posibilidades pero también de aceleración e incertidumbre. Aprended a cuestionar los resultados, su origen, su utilidad, por ejemplo: ¿es importante la pregunta?; ¿cómo se validará? y ¿cómo se implementará?

3. Mirad hacia Europa con espíritu crítico y constructivo: Vivimos un momento agridulce. El talento en Europa es enorme, pero la capacidad de escalar y competir con las grandes tecnológicas americanas es limitada. Además de la falta de inversión de riesgo y una burocracia paralizante. No os desaniméis. Necesitamos una nueva generación que no solo sea excelente técnicamente, sino que también sea emprendedora y empuje para crear un tejido industrial y de investigación propio del que depende nuestro futuro en Europa.

El IIBM agradece al Prof. Alfonso Valencia su visita, el seminario que impartió y su disposición para compartir en esta entrevista algunas reflexiones sobre el impacto de la inteligencia artificial en la biomedicina. Queremos destacar especialmente una de sus afirmaciones: “El científico del futuro será quien sepa colaborar con la IA”.

Entrevista Alfonso Valencia

La revolución de la IA en biología: entrevista con Alfonso Valencia