9 Taxonomía
Dra. Mirna Vazquez Rosas Landa
03 de agosto de 2022
Vamos a explorar la taxonomía de estos bins con GTDB-tk.
mkdir 11.GTDBTK
Activemos el ambiente
conda activate gtdbtk-2.1.0
Indiquemos dónde está la base de datos:
export GTDBTK_DATA_PATH=/home/programs/DB/release207_v2
Explora la ayuda de GTDB-tk
Discutamos: https://docs.google.com/document/d/1iiw-q-90nATg-RNTd9nU8L1XE5xoDRC6j19JC1GiPIk/edit?usp=sharing
Excelente, ahora en equipos vamos a correr GTDB-tk.
gtdbtk classify_wf --genome_dir /home/mirna/07.Bins/Genoma/01.Bins_named --out_dir /home/mirna/11.GTDBTK --cpus 4 -x fa
Vamos a visualizar los datos. Todos a R!!
9.1 Leamos los datos
library(tidyverse)
<-read.table("11.GTDBTK/gtdbtk.bac120.summary.tsv",
GTDBKsep = "\t", header = T,
na.strings ="", stringsAsFactors= F)%>%
as_tibble()
<-GTDBK %>%
htn_gtdbtkselect(user_genome, classification) %>%
separate(classification, c("Domain", "Phylum", "Class", "Order",
"Family", "Genus", "Species"), sep= ";") %>%
rename(Bin_name=user_genome) %>%
unite(Bin_name_2, c("Bin_name", "Phylum"), remove = FALSE) %>%
select(Bin_name, Domain, Phylum, Class, Order, Family, Genus,
Species)
Paréntesis, vamos a imprimir esta tabla para convertirla en metadatos.
write.table(htn_gtdbtk, file = "11.GTDBTK/Metadatos.txt", sep="\t", quote = F,
row.names = F, col.names = T)
Vamos a hacer un plot
<-htn_gtdbtk %>%
GTDBtkcount(Domain, Phylum) %>%
rename(Number_of_MAGs = n) %>%
ggplot(aes(x = Domain,
y = Number_of_MAGs, fill = Phylum)) +
geom_bar(stat = "identity", position=position_dodge())+
theme_minimal()
Puede ser interactivo también.
library(plotly)
<- ggplotly(GTDBtk) GTDBtk_p_fig