Bienvenida
0.1
Instructores
0.2
Ayudantes
0.3
Temario
0.4
Patrocinadores
0.5
Licencia
1
Estructura e importe de datos
1.1
Diapositivas
1.2
Bulk RNAseq vs single-cell RNAseq
1.3
Consideraciones experimentales
1.3.1
Tecnologías de scRNAseq
1.3.2
¿UMIs o Reads?
1.3.3
¿Cuántas células y profundidad de secuenciación necesito?
1.4
Generación de la matriz de cuentas
1.5
Nombres de los genes
1.6
Importando los datos
1.6.1
Datos tabulares
1.7
Actividad
1.7.1
Datos de cellRanger
1.8
Actividad
1.8.1
Datos con formato HDF5
1.8.2
Datos con formato loom
1.9
El objeto SingleCellExperiment
1.10
Construyendo un objeto SingleCellExperiment
1.11
Accediendo a los elementos del objeto
1.12
Agregando más assays
1.13
Un vistazo al flujo de trabajo
2
Control de calidad
2.1
Material y Diapositivas
2.2
Enfoques o Ideas principales
2.3
¿Por qué hay problemas con los datos?
2.4
Preguntas Básicas en Control de Calidad
2.5
La mala calidad en los datos puede ser debida a varios factores
2.6
Recomendaciones
2.7
Tipos de filtros
2.8
Parámetros empleados para evaluar la calidad con la función
addPerCellQC
2.9
Ejemplo: linea celular 416 en ratón
2.9.1
Paquetes e Importar los datos en R
2.9.2
Anotación de genes
2.9.3
Análisis de calidad con
addPerCellQC
2.9.4
Preguntas sobre los datos
2.9.5
Visualización de los datos crudos
2.9.6
Filtro A: Fixed thresholds
2.9.7
Filtro B: Adaptative thresholds
2.9.8
Preguntas por resolver
2.10
¿Cómo funciona
isOutlier()
?
2.11
Consideran el
Batch
2.12
Visualización gráfica de las células de buena calidad
2.13
Identificando droplets vacíos con datos de PBMC
2.13.1
Conceptos básicos
2.13.2
Información de los datos
2.13.3
Importar datos en R
2.13.4
Visualización de droplets vacíos
2.13.5
Anotación de genes y eliminación de doples vacíos
2.13.6
Control de calidad
2.14
Visualización de los datos con ISEE
2.15
Detalles de la sesión de R
3
Normalización de datos
3.1
Material
3.2
Motivación
3.3
Datos
3.3.1
Primero se debe hacer el control de calidad
3.4
Normalización por escalamiento (scaling normalization)
3.4.1
Normalizacion por tamaño de biblioteca (
Library Size normalization
)
3.4.2
Puntos finales
3.5
Normalización por deconvolución (deconvolution)
3.5.1
Puntos finales
3.6
Transformación logarítmica
3.6.1
Motivación, ¿Por qué hacemos esta transformación?
3.6.2
Lluvia de ideas
3.7
Otras normalizaciones
3.8
Dónde estamos
3.9
Adicionales
3.10
Agradecimientos
3.11
Detalles de la sesión de R
4
Selección de genes altamente variables
4.1
Diapositivas de Peter Hickey
4.2
Motivación
4.3
Selección de
features
(genes)
4.4
Dataset ilustrativo: PBMC4k 10X sin filtrar
4.4.1
Descargar datos
4.4.2
Anotación
4.4.3
Control de calidad
4.5
Dataset ilustrativo: 416B
4.6
Cuantificando la varianza por gen
4.6.1
Varianza de los
log-counts
4.6.2
Enfoque simple
4.6.3
Un enfoque más sofisticado
4.6.4
Supuestos
4.6.5
Visualizando la media y varianza
4.6.6
Ordenando genes interesantes
4.7
Coeficiente de variación de las cuentas
4.7.1
Coeficiente de variación
4.7.2
Visualizando el coeficiente de variación
4.7.3
Genes por coeficiente de variación
4.8
Varianza de los
log-counts
vs coeficiente de variación
4.9
Cuantificando el ruido técnico
4.9.1
En la presencia de spike-ins
4.10
En la ausencia de spike-ins
4.11
Recordemos propiedades de los datos de sce.416b
4.12
Considerando factores experimentales
4.13
Seleccionando genes altamante variables (high-variable genes, HVGs)
4.13.1
Seleccionando HVGs sobre la métrica de varianza
4.13.2
Seleccionando HVGs de acuerdo a su significancia estadística
4.13.3
Seleccionando genes por arriba de la tendencia media-varianza
4.13.4
EJERCICIO: Dibujando los HVGs
4.13.5
Seleccionando genes de interés
a priori
4.14
Poniendo todo junto
4.14.1
Quedándonos sólo con los HGVs
4.14.2
Especificando los HGVs
4.14.3
Witchcraft (Brujería)
4.15
Resumen y recomendaciones
4.16
Recomendaciones para empezar
4.17
Detalles de la sesión de R
5
Reducción de dimensiones
5.1
Diapositivas de Peter Hickey
5.2
Motivación
5.3
Reducción de dimensionalidad
5.4
Dataset ilustrativo: Zeisel
5.5
Dataset ilustrativo: 10x PBMC4k no filtradas
5.6
Análisis de Componentes Principales
5.6.1
PCA aplicado a datos de scRNA-seq
5.6.2
Suposiciones de PCA aplicadas a los datos de scRNA-seq
5.6.3
Eligiendo el número de PCs
5.6.4
Juntando todo
5.6.5
EJERCICIO
5.6.6
Usando el ruido técnico
5.7
Reducción de dimensionalidad para visualización
5.7.1
Motivación
5.7.2
Visualizando con PCA
5.7.3
Retos y resumen de la visualización con PCA
5.7.4
Visualización con t-SNE
5.7.5
Visualización con UMAP
5.7.6
Interpretando las gráficas
5.7.7
Resumen y recomendaciones
5.8
Dónde estamos
5.9
Detalles de la sesión de R
6
Clustering
6.1
Dataset ilustrativo: 10X PBMC4k no filtrado
6.2
Motivación
6.3
¿Por qué no realizamos el clustering sobre las coordenadas de t-SNE/UMAP?
6.4
¿Cuál es el verdadero clustering?
6.5
Clustering basado en grafos
6.5.1
Antecedentes
6.5.2
Gráfica de los
k
vecinos más cercanos (k-nearest neighbour -KNN- graph)
6.5.3
Gráfica de los vecinos más próximos compartidos (SNN)
6.5.4
Gráfica SNN con pesos en las aristas
6.5.5
Obteniendo comunidades a partir de una gráfica SNN pesada mediante un algoritmo de clustering
6.5.6
Resumen de clustering basado en grafos
6.5.7
Detalles a considerar en la implementación
6.5.8
Implementación
6.5.9
Eligiendo un valor de
k
6.5.10
Una implementación diferente: estilo Seurat
6.5.11
Detalles de las implementaciones más comunes
6.5.12
Otras implementaciones
6.6
Evaluando la separación de los clusters
6.7
Otros métodos de clustering
6.8
Evaluando la estabilidad de los clusters
6.9
Subclustering
6.10
Resumen y recomendaciones
6.11
Dónde estamos
6.12
Detalles de la sesión de R
7
Identificación de genes marcadores
7.1
Diapositivas de Peter Hickey
7.2
Motivación
7.3
Dataset ilustrativo: PBMC4k 10X sin filtrar
7.3.1
Anotación
7.3.2
Control de calidad
7.3.3
Normalización de los datos
7.3.4
Genes variables
7.3.5
Reducción de dimensiones
7.3.6
Clustering
7.4
Motivación - continuación
7.5
Prueba t modificada de Welch pareada
7.6
Ejemplo ilustrativo: CD3E como gen marcador en el dataset PBMC4k 10X
7.6.1
Pruebas pareadas
7.6.2
Combinando comparaciones del gen CD3E para el clúster 1
7.6.3
Extendiendo a todos los genes
7.7
Aplicación estándar
7.7.1
Explorando los resultados
7.7.2
Con un heatmap
7.8
Usando el
log-fold change
7.8.1
Sin especificar el lfc
7.8.2
Usando el lfc
7.8.3
Heatmap
7.9
Encontrando marcadores específicos de clústeres
7.9.1
Pros/cons de los genes marcadores específicos de los clústeres
7.9.2
findMarkers con pval.type some
7.10
Pruebas alternas
7.10.1
Motivación
7.11
Prueba de rangos de Wilcoxon
7.11.1
findMarkers para Wilcoxon
7.11.2
Heatmap de genes marcadores con Wilcoxon
7.11.3
Resumen de la prueba de rangos de Wilcoxon
7.12
Prueba binomial
7.12.1
findMarkers para binomial
7.12.2
Visualizando genes marcadores de la prueba binomial
7.12.3
Resumen de la prueba binomial
7.13
Métodos de expresión diferencial personalizados
7.14
Problemas estadísticos
7.14.1
Invalidez de P-values
7.14.2
Naturaleza de la replicación
7.14.3
Comentarios adicionales
7.14.4
Resumen y recomendaciones
7.14.5
Nota sobre la nueva versión en OSCA
7.15
Detalles de la sesión de R
Patrocinadores
8
Anotación de tipos celulares
8.1
Diapositivas
8.2
Introducción
8.3
Motivación
8.4
Aproximaciones para anotar
8.5
Paqueterías de R más “famosas” para anotar
8.6
Paqueterías de R con conjuntos de datos de referencia
8.7
Preparación del dataset
9
Nuevas funcionalidades de RStudio, Quarto.
9.1
Diapositivas
10
Control de versiones con GitHub y RStudio
10.1
Diapositivas
10.2
¿Por qué hacer control de versiones de nuestros proyectos?
10.3
Git
10.3.1
Git vs controles de versión a mano
10.4
Recomendaciones para sus proyectos
10.5
Proyectos colaborativos
10.6
GitHub
10.7
Manual de sobreviviencia con Git Y GitHub en RStudio (en caso de ser necesario)
10.8
Cómo clonar un repositorio y tener conección/permisos para modificarlo?
10.9
Credenciales HTTPS en
Cache
10.9.1
Actividad
10.10
Conectando RStudio con Git y Github.
10.11
GitHub primero, RStudio después…
10.11.1
Actividad
10.11.2
Comentar, pull y push
10.12
Rmarkdown en GitHub
10.12.1
Actividad
10.13
RStudio primero y GitHub también
10.14
Proyecto existente, GitHub al final
10.14.1
Breviario cultural con los PATs
10.15
Git basics: commands
10.16
Merge conflics
10.17
Merge conflics
10.18
En resumen
11
Solución de problemas con las versiones de paquetes de Rstudio.
11.1
Diapositivas
12
Keynote: Convirtiendo tu flujo de análisis en un paquete de R/Bioconductor.
12.1
Diapositivas
13
Documentación de funciones
13.1
Diapositivas
13.2
Links importantes:
13.3
¿Qué es la documentación de una función y por qué es importante?
13.4
Generacion de la documentacion con ayuda del paquete roxygen
13.5
Antes de empezar…✏️
13.6
Generacion de un bloque de documentacion con ayuda del paquete roxygen.
13.7
Otros campos de la documentacion.
14
Diseño de pruebas
14.1
Diapositivas
15
Creación de viñetas
15.1
Diapositivas
15.2
¿Qué es una viñeta?
15.3
Características de una vignette
15.4
¿Cómo consultar la viñeta de un paquete?
15.5
¿Cómo crear una viñeta?
15.6
¿Cómo guardar y actualizar la viñeta?
15.7
Veamos un ejemplo
15.8
Actividad
16
Compilación e instalación de paquetes
16.1
Diapositivas
16.2
Metadatos de una paquetería
16.2.1
Description
16.2.2
Dependencias
16.2.3
¿Cómo añadir dependencias?
16.3
Licencias
16.4
Paqueterías de código fuente
16.5
¿En dónde podemos encontrar el código fuente de un paquete?
16.6
Instalando la última versión en desarrollo
16.7
Instalando paquetes desde GitHub
16.8
Instalando un paquete local
16.9
Contribuyendo código
17
Proyectos colaborativos
17.1
Propuesta 1
17.2
Propuesta 2
17.3
Propuesta 3
17.4
Propuesta 4
17.5
Propuesta 5
Workshop CDSB 2023: Creando paquetes de R/Bioconductor para análisis transcriptómicos de célula única.
11
Solución de problemas con las versiones de paquetes de Rstudio.
Yalbi Balderas
09 de agosto de 2023
11.1
Diapositivas