Taller CDSB 2020: Construyendo flujos de trabajo con RStudio y Bioconductor para datos transcriptómicos de célula única (scRNA-seq)

Comunidad de Desarrolladores de Software en Bioinformática

Resumen

¡Únete a nuestro taller del 2020! Este año te enseñaremos cómo mejorar tus habilidades para interactuar con el lenguaje de programación R con diversas estrategias para organizar tu código y tus proyectos. Esto te permitirá hacer análisis documentados que sean fácilmente reproducibles y puedas compartir con otros colaboradores (de la academia a la industria). Como caso de estudio, aprenderemos las herramientas estadísticas para analizar datos de transcriptómica en células únicas usando Bioconductor. El completar este taller te ayudará en tus diversos proyectos de R y de análisis de datos biológicos: todos tus análisis saldrán beneficiados, las ideas detrás de single-cell RNA-seq se usan en muchos otros análisis bioinformáticos. Además de los instructores de la CDSB, gracias al apoyo de Bioconductor este año contaremos con la presencia de Robert Amezquita, coautor del libro Orchestrating Single Cell Analysis with Bioconductor y publicado en Nature Methods ( DOI), que es de los artículos con mayor publicidad en 2020.

via GIPHY

Pre-requisitos

Requisitos de conocimientos previos

  • Los participantes deberán tener conocimientos básicos del lenguaje de programación R: asignación de variables, lectura de archivos: read.csv; estructuras de datos: matrix, data.frame, list; tipos de datos: character, numeric, factor, logical, etc; instalación y uso de paquetes.
  • Saber instalar paquetes de R.
  • Saber usar RStudio.
  • Interés en hablar sobre problemas de generación de código.
  • Interés en aprender buenas prácticas para organizar tu trabajo y comenzar a compartir tu código con otras personas.
  • Deseas mantenerte conectado con la comunidad de desarrolladores de R.
  • Deseas aprender cómo analizar datos usando paquetes de R/Bioconductor.

Requisitos técnicos

  • Computadora Personal. Un mínimo de 8 GB de RAM, un ratón y espacio de disco suficiente para archivos de texto y archivos de imagen. Privilegios de administrador para instalar y ejecutar utilidades de RStudio.

Introducción

En años recientes, R se ha convertido en uno de los lenguajes de programación más usados para la ciencia de datos. La explosión en la disponibilidad de datos en muchos campos ha incrementado la demanda para personas capacitadas en el analísis de estos datos, tal como es el caso en la Bioinformática. Los usarios de R empiezan usando herramientas que otros han compartido con la comunidad internacional de forma libre. Mientras van analizando más conjuntos de datos, estos usuarios adquieren más habilidades con R. Durante este proceso incluso es posible que empiecen a interactuar con desarrolladores de R vía páginas web como RStudio Community, Bioconductor Support or vía Twitter usando la etiqueta #rstats o #rstatsES. Eventualmente algunos de los usuarios de R van a querer escribir sus propias funciones y organizar su código en diversos proyectos. Es en ese punto que es útil aprender cómo organizar tu código para que tu vida como programador de R sea más sencilla, de tal manera que le dediques más tiempo a tus proyectos en vez de a recordar dónde está tu código o qué hiciste hace unas semanas. Para poner estos temas en práctica, revisaremos los métodos más recientes para analizar datos de single cell RNA-seq (transcriptómica en células únicas) usando paquetes de R especializados para este objetivo que están disponibles libremente vía Bioconductor.

Los instructores de este taller han participado en la CDSB desde su fundación y han ido a cursos como BioC2019, rstudio::conf(2020), entre otros. En años anteriores enseñamos cómo hacer paquetes de R y Bioconductor, que son de gran utilidad para compartir código con otras personas. Recientemente alumnos de la CDSB enviaron su primer paquete de R a Bioconductor, lo cual representa un aumento porcentual enorme en la representación de latinoamericanos en la comunidad de desarrolladores de Bioconductor, lo cual demuestra que participar en la CDSB tiene un impacto más allá de la semana del taller. Para 2020 tendremos un enfoque práctico y a la vez manteniendo objetivos de la CDSB que son:

  1. Transformar usuarios de software (de bioinformática) en desarrolladores de software (de bioinformática).

  2. Fomentar el intercambio de conocimiento y establecer colaboraciones multidisciplinarias.

  3. Crear una comunidad de científicos Latino Americanos comprometidos con el desarrollo de software para análisis de datos (biológicos).

  4. Entrenar a instructores (en bioinformática) para que puedan fomentar el crecimiendo de sus comunidades locales.

Además de los instructores de la CDSB, gracias al apoyo de Bioconductor este año contaremos con la presencia de Robert Amezquita, coautor del libro Orchestrating Single Cell Analysis with Bioconductor y publicado en Nature Methods ( DOI), que es de los artículos con mayor publicidad en 2020. Por lo tanto, el taller de la CDSB 2020 será impartido en inglés.

Este taller es parte de un proyecto a largo plazo para crear una comunidad Latino Americana de desarrolladores de software. Esperamos poder organizar talleres en el futuro de forma sistemática (similar a BioC, EuroBioC y BioCAsia) donde los participantes presenten sus contribuciones de software. Queremos proveer un ambiente amigable para todos así que les pedimos que sigan el código de conducta.

Programa

5 días de 8 horas de curso, más descansos y comidas. Para ver el horario detallado favor de revisar el repositorio cdsb2020 del taller.

Día 1

  • Flujo de trabajo orientado a proyectos:
    • Trabajando con proyectos versus scripts.
    • Generación de un proyecto.
    • Paths seguros.
    • ¿Qué nombre le doy a mi archivo?

Día 2

  • Uso de Git y GitHub.
  • Actividad de integración de la CDSB.
  • Escritura y documentación de funciones.
  • Debugging.

Día 3

  • Buenas prácticas de configuración y mantenimiento de espacios de trabajo.
  • Instalación de paqueterías desde código fuente.
  • Visión general del procesamiento de datos de scRNA-seq
  • RNA-seq vs scRNA-seq: ¿Qué tan diferentes son estos datos?

Días 4

  • Objetos de R tipo SingleCellExperiment
  • Análisis exploratorio de datos de scRNA-seq
  • Métodos de reducción de dimensiones
  • Identificación de marcadores celulares

Día 5

  • Clasificación en tipos celulares
  • Efectos de serie (batch effects) en datos de scRNA-seq
  • Análisis diferenciales con datos de scRNA-seq (proporciones de tipos celulares, expresión diferencial, diferencias en la variación biológica)

Instructores

Comité Organizador

Code of Conduct

Patrocinadores

Sé nuestro patrocinador

Nivel platino

Nivel oro

Nivel plata

Organizadores

CDSB es un nodo de la Red Mexicana de Bioinformática y organiza el taller anual junto con el Nodo Nacional de Bioinformática (NNB).

Avatar
CDSB
Comunidad de Desarrolladores de Software en Bioinformática

Queremos ayudarte a acquirir las habilidades necesarias para contribuir software libre para la bioinformática usando R

comments powered by Disqus