3 Introducción a RNA-seq de célula única (scRNA-seq) con Bioconductor y al libro de OSCA
Instructoras: Elisa Márquez Zavala, Citlali Gil Aguillon
Contenido adaptado del Curso de RNASeq de Leonardo Collado Torres y de
3.1 Bioconductor
- CRAN, the R package repository: https://cran.r-project.org/
- CRAN task views: https://cran.r-project.org/web/views/
“Bioconductor proporciona herramientas para el análisis y la comprensión de datos genómicos de alto rendimiento. Bioconductor utiliza el lenguaje de programación estadístico R y es de código abierto y desarrollo abierto. Tiene dos lanzamientos cada año y una comunidad de usuarios activa. Bioconductor también está disponible como AMI (Imagen de máquina de Amazon) e imágenes de Docker.”
Where do I start using Bioconductor? http://lcolladotor.github.io/2014/10/16/startbioc/#.XqxNGRNKiuo
Básicamente es un repositorio con reglas o estándares para el análisis y la comprensión de datos genómicos de alto rendimiento.
Para conocer sobre Bioconductor podemos ir a: https://www.bioconductor.org/ y dar click en About
3.1.1 Equipos y consejos
Es conformado por diversos equipos y consejos (Asesores científicos, técnicos y de la comunidad). Por ejemplo Leonardo Collado.
- Científicos : Proporciona orientación externa y supervisión de la dirección científica del proyecto y está compuesto por líderes en el análisis estadístico de datos genómicos.
- Técnicos: Desarrollar estrategias para asegurar que la parte técnica de la infraestructura sea apropiada a largo plazo (manejo de paquetes, sitio web, slack, etc)
- Comunidad : Empoderar a las comunidades de usuarios y desarrolladores mediante la coordinación de actividades de capacitación y divulgación.
Dentro del equipo core que mantiene a Bioconductor y apoya con las dudas (https://www.bioconductor.org/about/core-team/) hay gente a la que Bioconductor le paga por mantener los repositorios, lo cual lo hace diferente de CRAN. El tener gente que oficialmente sabe cómo ayudarte y tiene el tiempo para hacerlo crea una mejor experiencia para los usuarios y los desarrolladores.
3.1.2 Encontrando paquetes de Bioconductor
Tipos de paquetes Hay 4 tipos de paquetes que aceptan
Software: tipo principal de paquete BioC, en su mayoría aportado por el usuario. Es un paquete con un tipo de análisis específico. Algunos los hacen gente pagada directamente por Bioconductor
Annotation: facilita la interacción con bases de datos genómicas muy utilizadas
Experiment: contienen datos para algún artículo o datos que se usan en ejemplos más exhaustivos, en su mayoría aportados por el usuario. ~<5 Mb
Workflows: demuestran como puedes usar varios paquetes de Bioconductor para ciertos tipos de análisis
Para descubrir paquetes:
- Software: http://bioconductor.org/packages/release/bioc/
- Annotation: http://bioconductor.org/packages/release/data/annotation/
- Experiment Data: http://bioconductor.org/packages/release/data/experiment/
- Workflows: http://bioconductor.org/packages/release/workflows/
Las listas de cada tipo de paquete se ven algo así:
Package | Maintainer | Title |
---|---|---|
Nombre del paquete | Quién lo mantiene | Título completo |
recount3 | Leonardo Collado-Torres | Explore and download data from the recount3 project |
- Paquetes de R de Leo: https://lcolladotor.github.io/pkgs/
Sin embargo, estas listas no son muy amigables si queremos explorar por lo que podemos usar biocViews
- Encontrando paquetes a través de
biocViews
: http://bioconductor.org/packages/release/BiocViews.html#___Software- Estructura tipo árbol
- Son 4 árboles principales: software, annotation, experiment, workflow
- Dentro de cada árbol, un paquete puede ser parte de varias ramas, por ejemplo, recount3 está dentro de todas estas ramas:
- Software
- AssayDomain
- GeneExpression
- BiologicalQuestion
- DifferentialExpression
- Coverage
- Infrastructure
- DataImport
- Technology
- Sequencing
- RNASeq
- Sequencing
- AssayDomain
- Software
- Tiene una búsqueda de texto simple
- Ejemplo: Software → WorkflowStep → Visualization → http://bioconductor.org/packages/release/BiocViews.html#___Visualization (486 paquetes en BioC 3.11 abril-octubre 2020, 506 en BioC 3.12 octubre 2020-abril 2021, 529 en BioC 3.13 agosto 2021)
3.1.3 Estructura de un paquete de BioC
- Usa
https://bioconductor.org/packages/<pkg_name>
- Ejemplo: https://bioconductor.org/packages/recount
- Otro ejemplo: https://bioconductor.org/packages/SummarizedExperiment
- Badges (etiquetas): rápidamente podemos evaluar como está
: ¿En qué plataformas funciona?
: ¿Qué tan descargado es?
: ¿Se han hecho preguntas del paquete en los últimos 6 meses? (respondidas/hechas)
: ¿Cuánto tiempo lleva en Bioconductor?
: ¿Funciona en las máquinas de bioconductor?
: ¿Cuándo fue la última vez que lo actualizaron?
: Número de dependencias recursivas necesarias para instalar el paquete
- Parráfo de descripción del paquete
- Cómo citar al paquete de Bioconductor
- Cómo instalarlo. Más detalles en http://bioconductor.org/install/
- Documentación
- Una líga por cada vignette en formato PDF o HTML. Es la documentación principal!
- Una vignette es donde lxs autores del paquete explican cómo usar las diferentes funciones del paquete y en qué orden
- Detalles
- Términos de
biocViews
- Cómo se relaciona a otros paquetes (depends, imports, linking to, suggests, depends on me, …)
- URL: donde puedes encontrar el código fuente (nos puede dar más infor)
- BugReports: donde puedes pedir ayuda
- Términos de
- Más detalles sobre el paquete
- Estadísticas de descargas
3.1.4 Las dos ramas de Bioconductor: release y devel
- Dos ramas
release
, actualmente 3.13devel
, actualmente 3.14Bioconductor version 3.14 (Development) https://bioconductor.org/packages/devel/BiocViews.html#___Software
Ejemplo: http://bioconductor.org/packages/devel/bioc/html/recount.html
- Bioconductor tiene es actualizado cada 6 meses (abril y octubre). R lo actualizan 1 vez al año (abril).
- Todo el software lo prueban en macOS, Windows y linux
- Resumen BioC 3.13 http://bioconductor.org/news/bioc_3_13_release/
- Blog post en LIBD rstats club: Quick overview on the new Bioconductor 3.8 release http://research.libd.org/rstatsclub/2018/11/02/quick-overview-on-the-new-bioconductor-3-8-release/
3.1.5 Cursos y eventos
- http://bioconductor.org/help/events/
- http://bioconductor.org/help/course-materials/
- BioC2021: conferencia principal anual https://bioc2021.bioconductor.org/
- Talleres del BioC2019: https://rebrand.ly/biocworkshops2019
Teach online data science, bioinformatics, or other computational skills interactively using the Orchestra platform:https://t.co/r4aJ2xAZbh
— Sean Davis (@seandavis12) January 10, 2021
Nearly 50 workshop environments preloaded with #jupyter, #rstudio, #shell. #rstats, or #python.@NIHSTRIDES @NIHDataScience @Bioconductor pic.twitter.com/HyWVLBJxGU
- Talleres de la CDSB, como los talleres de CDSB 2020: https://comunidadbioinfo.github.io/post/cdsb2020-building-workflows-with-rstudio-and-scrnaseq-with-bioconductor/#.XmJT-Z-YU1I
3.1.6 Comunidad
- Slack: https://bioc-community.herokuapp.com/
- Sitio web de ayuda: https://support.bioconductor.org/
- Usa la(s) etiqueta(s) adecuada(s) para que lxs autores de los paquetes reciban email de forma automática
- Pueden revisar ese sitio web y usarlo para aprender cómo en https://lcolladotor.github.io/bioc_team_ds/helping-others.html#bioconductor-support-practice-grounds
- Twitter: https://twitter.com/bioconductor
3.2 Introducción a RNA-seq de célula única (scRNA-seq) con Bioconductor y al libro de OSCA
3.3 Detalles de la sesión de R
## Información de la sesión de R
Sys.time()
## [1] "2021-08-19 15:15:48 UTC"
proc.time()
## user system elapsed
## 0.395 0.118 0.399
options(width = 120)
::session_info() sessioninfo
## ─ Session info ───────────────────────────────────────────────────────────────────────────────────────────────────────
## setting value
## version R version 4.1.0 (2021-05-18)
## os Ubuntu 20.04.2 LTS
## system x86_64, linux-gnu
## ui X11
## language (EN)
## collate en_US.UTF-8
## ctype en_US.UTF-8
## tz UTC
## date 2021-08-19
##
## ─ Packages ───────────────────────────────────────────────────────────────────────────────────────────────────────────
## package * version date lib source
## bookdown 0.23 2021-08-13 [1] RSPM (R 4.1.0)
## bslib 0.2.5.1 2021-05-18 [1] RSPM (R 4.1.0)
## cli 3.0.1 2021-07-17 [2] RSPM (R 4.1.0)
## digest 0.6.27 2020-10-24 [2] RSPM (R 4.1.0)
## evaluate 0.14 2019-05-28 [2] RSPM (R 4.1.0)
## htmltools 0.5.1.1 2021-01-22 [1] RSPM (R 4.1.0)
## jquerylib 0.1.4 2021-04-26 [1] RSPM (R 4.1.0)
## jsonlite 1.7.2 2020-12-09 [2] RSPM (R 4.1.0)
## knitr 1.33 2021-04-24 [2] RSPM (R 4.1.0)
## magrittr 2.0.1 2020-11-17 [2] RSPM (R 4.1.0)
## R6 2.5.0 2020-10-28 [2] RSPM (R 4.1.0)
## rlang 0.4.11 2021-04-30 [2] RSPM (R 4.1.0)
## rmarkdown 2.10 2021-08-06 [1] RSPM (R 4.1.0)
## sass 0.4.0 2021-05-12 [1] RSPM (R 4.1.0)
## sessioninfo 1.1.1 2018-11-05 [2] RSPM (R 4.1.0)
## stringi 1.7.3 2021-07-16 [2] RSPM (R 4.1.0)
## stringr 1.4.0 2019-02-10 [2] RSPM (R 4.1.0)
## withr 2.4.2 2021-04-18 [2] RSPM (R 4.1.0)
## xfun 0.25 2021-08-06 [2] RSPM (R 4.1.0)
##
## [1] /__w/_temp/Library
## [2] /usr/local/lib/R/site-library
## [3] /usr/local/lib/R/library