Clase sobre métodos ómicos para estudiantes de la LCG UNAM

Notas de una clase de un curso introductorio a las técnicas de investigación ómicas en la LCG-UNAM. Es decir, donde estudié mi licenciatura. ¡Gracias por la invitación!

Valentina Arias Ojeda ayudante en la materia “Técnicas de Investigación Ómicas”, impartida por la Dra. Constance Auvynet en la LCG-UNAM. Me invitaron a dar una clase sobre métodos ómicos, en particular sobre secuenciación de células únicas y sobre secuenciación a resolución espacial. Valentina me presentó y luego mencioné un poco de mi historia de enseñanza, comenzando desde mi primera experiencia de enseñanza donde hice un sitio web disponible en inglés y español.

Decidí enseñar la clase de hoy como una sesión colectiva de “guía para ciencia de datos” (DSgs en inglés). Sin embargo, a diferencia de una DSgs regular, primero necesitábamos hacer una lista de preguntas o conceptos que querían aprender más. Aquí usé una técnica que aprendí como asistente para la serie de cursos 140.620 sobre Métodos Estadísticos en Salud Pública en JHU. Es decir, escribir en el pizarrón las preguntas, luego tratar de agruparlas en diferentes categorías. Nuestra lista completa de preguntas fue:

  1. ARN-seq
    • ¿Cuál es la diferencia entre microarreglos y RNA-seq?
    • ¿Qué es ARN-seq?
    • ¿Cómo tratamos con ARN ribosomal en ARN-seq?
    • ¿Cómo tratamos con ruido en ARN-seq?
      • ¿Cómo definimos ruido?
    • ¿Cómo lidea ARN-seq con estructuras secundarias de ARN?
  2. ARN-seq de células únicas
    • ¿Qué es ARN-seq de células únicas?
    • ¿Para qué es útil el ARN-seq de células únicas?
    • ¿Cuáles son las principales tecnologías de secuenciación?
    • ¿Qué es ATAC-seq?
    • ¿Qué es insitu seq?
  3. Transcriptómica resuelta espacialmente
    • ¿Qué es la transcriptómica resuelta espacialmente?
    • ¿Cuál es la diferencia entre la transcriptómica resuelta espacialmente y el ARN-seq de células únicas?
    • ¿Cómo podemos integrar ARN-seq y transcriptómica resuelta espacialmente?
    • ¿Cuáles son las físicas detrás de la transcriptómica resuelta espacialmente?
  4. Análisis de datos
    • ¿Por qué usamos R para el análisis de datos ómicos?
      • ¿Cómo analizamos datos de ARN-seq?
      • ¿Cómo analizamos datos de ARN-seq de células únicas?
      • ¿Cómo analizamos datos de transcriptómica resuelta espacialmente?
    • ¿Cuánto poder computacional necesitamos para el análisis de datos ómicos espaciales?
    • ¿Cómo integramos datos de ARN-seq y transcriptómica resuelta espacialmente?

ARN-seq

Usé esta diapositiva con una imagen de Gandal et al DOI 10.1016/j.biopsych.2020.06.005 que muestra muchos tipos de moléculas de ARN. Muchos están principalmente interesados en el ARNm: ARN mensajero. Aunque otras moléculas de ARN pueden ser de interés, como los microARNs.

Sobre microarreglos, expliqué cómo son ensayos basados en sondas donde una compañía diseña las sondas, las imprimen en una placa de vidrio, y cómo los datos se generan a través de imágenes de alta resolución (fotos) de la placa de vidrio. Para hacer esto, tienes que conocer la anotación de genes (dónde se encuentran los genes en el genoma) para diseñar las sondas. Los microarreglos son más baratos que el ARN-seq y se han utilizado mucho para el genotipado de ADN, donde estamos interesados en un conjunto de aproximadamente 2.5 millones de ubicaciones en el genoma que varían comúnmente entre individuos.

ARN-seq realmente se popularizó o bueno, fue posible, con la llegada de la secuenciación de nueva generación. La idea es que puedes secuenciar las moléculas de ARN en una muestra y luego alinear las secuencias al genoma para saber de dónde provienen. Esto es más caro que los microarreglos pero tiene la ventaja de que no necesitas conocer la anotación de genes de antemano. Esto se debe a que puedes alinear las secuencias al genoma y luego contar cuántas secuencias se alinean a cada gen. También puedes estudiar isoformas (transcritos), en lugar de genes. Una búsqueda rápida en Google me llevó aquí ya que quería mostrarles una ilustración de un gen con múltiples transcritos, algunos de ellos con diferencias muy pequeñas entre ellos. También vimos el historial de lanzamientos de Gencode para resaltar que la anotación de genes no es estática y se actualiza con frecuencia.

Para una breve introducción a la secuenciación de nueva generación o secuenciación de alto rendimiento (estos eran sinónimos en 2006 a 2011 o así), volví a un curso que enseñé a estudiantes de doctorado de la UNAM poco después de terminar mi licenciatura. De https://lcolladotor.github.io/courses/PDCB-HTS.html, vimos la presentación de diapositivas para “2. Entendiendo la tecnología”. Particularmente las diapositivas 39 a 42 donde expliqué brevemente la secuenciación de lecturas cortas de Illumina.

En relación con los ARN ribosomales, expliqué los dos protocolos de ARN-seq más comunes: poliA+ y depleción de ribosomas (RiboZeroGold). Usé un preprint que escribimos en 2024 donde la Figura 1B muestra los dos tipos de bibliotecas de ARN-seq, pero también los diferentes protocolos de extracción de ARN (a menudo algo que la gente ignora).

La Figura 1D destaca cuán diferentes son los datos usando componentes principales (PC1 separa el tipo de biblioteca, PC2 separa las extracciones de ARN), y la Figura 1E muestra dentro de una extracción de ARN dada, cómo se cuantifican diferencialmente los genes por los dos tipos de bibliotecas.

Para el ruido en ARN-seq, vimos mi artículo de doctorado derfinder. La Figura 1 es en realidad un recordatorio de cómo los transcritos pueden tener diferencias muy pequeñas entre ellos. La Figura 2 tiene curvas de cobertura para datos de ARN-seq. Usamos derfinder cuando estudiamos cambios de expresión en el cerebro humano a través de grupos de edad incluyendo muestras prenatales DOI 10.1038/nn.3898. A través de ese trabajo concluimos que el transcriptoma del cerebro humano estaba incompleto. Mencioné también cómo los datos de poliA y RiboZeroGold tendrán perfiles de cobertura diferentes (RiboZeroGold mostrará cobertura para intrones ya que algunos pre-ARNm se secuenciarán). También describí la métrica totalAssignedGene que SPEAQeasy genera: la fracción de lecturas asignadas a genes del número total de lecturas que se alinearon al genoma. Hemos usado totalAssignedGene para identificar muestras de baja calidad en algunos estudios.

También mencioné brevemente que una ventaja de ARN-seq es la posibilidad de ensamblar transcritos usando herramientas como StringTie desarrollado por algunos de mis colaboradores. Corrieron StringTie en ~10,000 muestras de ARN-seq de GTEx para construir CHESS. Eventualmente de ~26 millones de transcritos filtraron la lista y encontraron ~160,000 transcritos DOI 10.1186/s13059-023-03088-4. Hay muchos desafíos sobre cómo decides qué es un transcripción real versus ruido. ¿Confías más en un transcrito con 100 lecturas pero solo en una muestra o un transcrito con 5 lecturas por muestra que está presente en 10% de tus muestras?

Sobre las estructuras secundarias en ARN, expliqué cómo los protocolos de ARN-seq involucran un paso donde el ARN se corta en fragmentos de aproximadamente 300 a 500 pares de bases. Esa es una forma de lidiar con las estructuras secundarias del ARN. Aunque no recuerdo si hay otros pasos que ayudan a evitar problemas con el plegado del ARN. Y podría ser algo que olvidamos: algunos ARN que son más propensos a plegarse pueden no estar tan bien representados en los datos de ARN-seq.

scRNA-seq

Para scRNA-seq, usé partes de este video explicativo de 10x Genomics. Lo pausé algunas veces para resaltar los GEMs, la fluidica para meter células en gotas, y cómo cada gota tiene un código de barras celular (una secuencia de ADN única), y hay alrededor de 750,000 de ellos en un experimento dado.

Al final generas ADN que puedes secuenciar con secuenciadores de Illumina. De hecho, muchos otros protocolos son todos sobre generar ADN para las moléculas de interés, luego secuenciar esas moléculas de ADN con Illumina. Por ejemplo, ChIP-seq, ATAC-seq, etcétera.

Transcriptómica resuelta espacialmente

Para explicar la transcriptómica resuelta espacialmente, mostré a los estudiantes mi publicación de blog (con videos en inglés y español) explicando el primer artículo de 10x Genomics Visium que escribimos DOI 10.1038/s41593-020-00787-0. Destaqué cómo Visium usa “códigos de barras espaciales”, similares a los códigos de barras de scRNA-seq que vimos anteriormente. Estas secuencias de ADN etiquetan los casi 5,000 puntos presentes en una diapositiva de Visium. Aquí hay un breve video de introducción de 10x Genomics a Visium.

Para el tejido que estabamos estudiando (DLPFC de cerebro humano), encontramos que cada punto de Visium contenía en promedio 3 células. Con la omica espacial encuentras cómo las células están agrupadas espacialmente, lo que puede ser informativo a diferencia de lo que obtenemos con scRNA-seq (perfiles de expresión de células individuales sin información espacial) o bulk RNA-seq (como licuar un montón de células y obtener el perfil de expresión general). La deconvolución de puntos, que probamos un poco en DOI 10.1126/science.adh1938, y la deconvolución de bulk RNA-seq que también probamos en DOI 10.1101/2024.02.09.579665, son algunos métodos computacionales que permiten integrar múltiples sabores de RNA-seq juntos. Dai et al también escribieron un artículo de referencia muy bueno para los métodos de deconvolución de bulk RNA-seq de segunda generación utilizando datos de scRNA-seq como referencia: DOI 10.1126/sciadv.adh2588.

También resalté cómo con bulk RNA-seq algunos conjuntos de datos de LIBD tienen 80 millones de lecturas pareadas de 100 pares de bases cada una (como alrededor de $1,000 USD por muestra). En última instancia, la longitud de lectura (en pares de bases) multiplicada por el número de lecturas determina cuánto dinero vas a gastar en secuenciación. 10x Genomics recomienda 50,000 lecturas por célula para scRNA-seq o por punto para Visium. Un área de captura de Visium tiene 5,000 puntos, es decir, son 250 millones de lecturas por área de captura de Visium. Gastas alrededor de 2,000 a 2,500 USD por área de captura de Visium solo para la secuenciación de Illumina sin incluir otros reactivos de 10x Genomics. Además, las opciones que tienes por célula o por punto están limitadas ya que pasaste de 80 millones de lecturas a 50 mil (¡una reducción de 1,600 veces!). Entonces, scRNA-seq y Visium son mucho más dispersos que el ARN-seq a granel. Algunos protocolos de scRNA-seq también están sesgados hacia el 3’, lo que significa que solo secuencias el extremo 3’ de las moléculas de ARN. Algunos han desarrollado formas de cuantificar los transcritos a pesar de estos sesgos, pero sigue siendo un área de investigación activa. Sin embargo, los costos de generación de datos para cada ensayo a veces determinan qué ensayos se pueden usar. Sin embargo, si otros han compartido datos relevantes, entonces puedes reutilizar esos datos y no tienes que generarlos todos tú mismo.

En términos de los mejores métodos para la secuenciación de ARN y los ensayos asociados, mencioné que una forma de verificar esto es mirando la valoración de estas empresas y sus precios de las acciones. Estas empresas adquieren con frecuencia empresas más pequeñas, se demandan entre sí, etc. Algunos de ellas se han visto afectados por recientes guerras comerciales, por ejemplo China prohíbe la importación de secuenciadores de genes de Illumina justo después de la acción arancelaria de Trump. Esto se hizo parcialmente porque dos empresas chinas de genómica fueron acusadas por los EE. UU. por motivos de seguridad nacional. En general, Illumina y 10x Genomics están entre los jugadores más grandes en el campo. Hay otras empresas grandes y muchas pequeñas (20 o más empleados), algunas de las cuales buscan ser adquiridas por las grandes.

Análisis de datos

Veré a estos estudiantes de segundo semestre dentro de un año cuando tomen la clase de cuarto semestre de introducción a análisis de datos de ARN-seq con R y Bioconductor que he enseñado los últimos cinco años. Como un adelanto rápido, mencioné que Bioconductor es un gran repositorio de software de código abierto para el análisis de datos biológicos de alto rendimiento: microarreglos hace 23 años y hoy en día scRNA-seq y omicas espaciales. También es obligatorio escribir guías de usuario (documentos de viñetas) sobre todo el software de Bioconductor. Esto facilita mucho el aprendizaje de cómo usar el software y es un factor distintivo que separa a Bioconductor de otros repositorios de software.

Les mostré unas diapositivas de la presentación reciente de mi equipo de TL DR (muy largo, no lo leí).

Check our recent video "[2025-01-29] R/Bioconductor-powered Team Data Science: TLDR version 2025" youtu.be/alL-g2roXxM

We go over what analyses our @lieberinstitute.bsky.social has expertise on 💻

Slides orchestrated by @lahuuki.bsky.social at speakerdeck.com/lahuuki/2025…

👥 go.bsky.app/53gy4UP

[image or embed]

— 🇲🇽 Leonardo Collado-Torres (@lcolladotor.bsky.social) February 12, 2025 at 3:35 PM

Primero les mostré cómo Visium HD es una nueva tecnología de 10x Genomics que es basada en sondas. Así que piensa en ello como un microarreglo moderno que está resuelto espacialmente. También es lo suficientemente potente como para generar datos de resolución subcelular: empezando desde cuadrados de 2 micrones.

Analizar estos datos puede ser exigente computacionalmente en términos de requerir GPUs y/o nodos de cómputo de alta memoria.

Al final, puede haber una necesidad de procesar uniformemente datos de ARN-seq disponibles públicamente para democratizar el acceso a estos datos de modo que los investigadores sin acceso a entornos informáticos de alto rendimiento. Trabajé en esto a través de los proyectos recount2 y recount3 DOI 10.1186/s13059-021-02533-6. Les enseñaré más sobre esto el próximo año.

Temas adicionales

Terminé resaltando recursos de la Comunidad de Desarrolladores de Software de Bioinformática (CDSB) y el Club RStats LIBD. Ahí los estudiantes pueden encontrar videos de talleres completos de una semana como el curso de análisis de scRNA-seq de 2021 y muchos otros videos del calendario del Club RStats LIBD.

También resalté cómo uno tiene que pasar horas de trabajo tratando de aprender nuevos métodos en lugar de confiar en hacerlo en su tiempo libre. Finalmente, resalté cómo me gusta aprender en público. Cómo compartir lo que sabes puede ser útil no solo para otros, sino también para ti mismo.

Siempre da gusto volver a la LCG-UNAM, mi alma mater de licenciatura. También disfruto interactuar con los estudiantes actuales. Aquí estoy con Valentina y Bernardo, ambos trabajan como ayudantes y están terminando su tercer año. A continuación empezarán su último año que es un año de investigación. Ya nos darán noticias sobre lo que eligen trabajar y me dará gusto ver cómo florecen sus carreras.

Leonardo Collado-Torres
Leonardo Collado-Torres
Investigador @ LIBD, Profesor Asistente, Departamento de Bioestadística @ JHBSPH

#rstats @Bioconductor/genómica del 🧠 @LieberInstitute/@lcgunam @jhubiostat @jtleek @andrewejaffe alumni/@LIBDrstats @CDSBMexico cofundador

comments powered by Disqus