【实验记录】8月25日
作者:互联网
ls /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/named_sort/ |grep 'Fetal' |xargs -I {} mv /home/xxzhang/data/Epigenome/cist ome/human_histone_mark/named_sort/{} ./
这里的话,就是批量的把fetal的样本拿了出来。如下图所示。
ls ./ |grep "H3K4me3_" |xargs -i -t sh -c "giggle search -i human_rp_index/ -q {} -s >./H3K4me3/{}.result"
#这里学到了如果xargs和重定向(>)联用的时候,不加引号就会报错。
这样的话,我想批量的整合这个数据。得到一个matrix。
setwd("/home/xxzhang/data/Epigenome/cistrome/human_histone_mark/Hs_repeat/H3K4me1/")
filelist <- list.files("./")
n <-length(filelist)
files <- paste("./",filelist,sep="")
test<- read.delim(file=files[1],header=T,sep="")
dim(test)
test1<-test[,c(1,8)]
dataset_filiter<-as.character(test1$combo_score)
for (i in 2:n)
{
txt_data<-read.delim(file=files[i],header=T,sep="")
txt_data<-txt_data[,c(1,8)]
dataset_filiter <- cbind(dataset_filiter,txt_data[,2])
}
filelist_v1 <- as.matrix(gsub("H3K4me1_","", filelist))
filelist_v2 <- as.matrix(gsub(".bed.gz.result","", filelist_v1))
colnames(dataset_filiter)<-filelist_v2
filelist_v3 <- as.matrix(gsub("sort/Hs_","",test1$X.file ))
filelist_v4 <- as.matrix(gsub(".bed.gz","",filelist_v3))
rownames(dataset_filiter)<-filelist_v4
write.csv(dataset_filiter,"H3K4me1.csv",quote=F,col.names=T,row.names=T)
然后就得到了一个matrix,接着对该matrix进行修改。
想对该matrix进行画图。
setwd("F://cistrome")
data<-read.csv("H3K4me1.csv",row.names = 1)
library(pheatmap)
df = data[apply(data, 1, function(x) sd(x)!=0),]
df2 = df[,apply(df, 2, function(x) sd(x)!=0)]
p<-pheatmap(df2,color = colorRampPalette(c("navy", "white", "firebrick3"))(50),
show_rownames = T,show_colnames = T)
现在就相当于是把H3K4me1的这个peak做了一下,接下来可以把其他的也都可以弄一下。
然后再把图整理一下,综合的来比较分析。
上面的代码类似,只需要改写一下即可。
我感觉还是不行。
从绝对的值上来看,明显是SVA-D等家族在各种histrone peak上富集程度,我们现在的结果该出来了。因为想要的数据都有了,可以研究的东西也有了。应该可以把全部的结果整理出来了。
现在的想法就是说,我把所有的相关的样本收集整理出来,然后先看一下整体的规律。
比如哪一种类型的peak,什么样本在什么家族中富集?然后我们想对比的找出来,可能对fetal brain的发育有重要作用的转座子家族。
接着从多个维度的数据上去试图详实的论证这个结论。==>我希望这周能够完成这一部分的内容。
现在没有别的事情了,你要认真的完成你自己该做的事情了,我希望在做的过程中就可以得到快乐。
1、挑选候选数据样本。
2、对这些样本进行富集。
3、对富集结果绘制成热图。
4、从中挑选出我们认为比较感兴趣的peak。
5、对这些家族的基因进行功能和细胞类型的富集。
6、结合已有的Encode上的数据和一些文件的工具对部分位点进行可视化。
7.其他方面的可能的详实的证明。
(base) [xxzhang@mu02 Hs_repeat]$ ls /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/named_sort/ |grep 'H3K36me3_None_Astrocyte' \
> |xargs -i -t sh -c "giggle search -i human_rp_index/ -q /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/named_sort/{} -v -o >./{}.resul
sh -c giggle search -i human_rp_index/ -q /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/named_sort/H3K36me3_None_Astrocyte_Brain.0.bed.ocyte_Brain.0.bed.gz.result
sh -c giggle search -i human_rp_index/ -q /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/named_sort/H3K36me3_None_Astrocyte_None.0.bed.gcyte_None.0.bed.gz.result
sh -c giggle search -i human_rp_index/ -q /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/named_sort/H3K36me3_None_Astrocyte_None.10.bed.ocyte_None.10.bed.gz.result
sh -c giggle search -i human_rp_index/ -q /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/named_sort/H3K36me3_None_Astrocyte_None.11.bed.ocyte_None.11.bed.gz.result
sh -c giggle search -i human_rp_index/ -q /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/named_sort/H3K36me3_None_Astrocyte_None.1.bed.gcyte_None.1.bed.gz.result
sh -c giggle search -i human_rp_index/ -q /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/named_sort/H3K36me3_None_Astrocyte_None.2.bed.gcyte_None.2.bed.gz.result
sh -c giggle search -i human_rp_index/ -q /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/named_sort/H3K36me3_None_Astrocyte_None.3.bed.gcyte_None.3.bed.gz.result
sh -c giggle search -i human_rp_index/ -q /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/named_sort/H3K36me3_None_Astrocyte_None.4.bed.gcyte_None.4.bed.gz.result
sh -c giggle search -i human_rp_index/ -q /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/named_sort/H3K36me3_None_Astrocyte_None.5.bed.gcyte_None.5.bed.gz.result
sh -c giggle search -i human_rp_index/ -q /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/named_sort/H3K36me3_None_Astrocyte_None.6.bed.gcyte_None.6.bed.gz.result
sh -c giggle search -i human_rp_index/ -q /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/named_sort/H3K36me3_None_Astrocyte_None.7.bed.gcyte_None.7.bed.gz.result
sh -c giggle search -i human_rp_index/ -q /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/named_sort/H3K36me3_None_Astrocyte_None.8.bed.gcyte_None.8.bed.gz.result
sh -c giggle search -i human_rp_index/ -q /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/named_sort/H3K36me3_None_Astrocyte_None.9.bed.gcyte_None.9.bed.gz.result
糟糕,我好像在拆分家族的时候,出了问题,导致最后的拆分的结果的不准确。
##chr1 40277202 40278392 peak499 26 . 4.19340 5.54654 2.64596
chr1 40278339 40278586 AluY Alu SINE sort/Hs_Alu.bed.gz #显然是在匹配的时候,把AluY和Alu混为一谈了。这可怎么办?重新做吗?还是对AluY、Alu的结果不再考虑。
chr1 40278339 40278586 AluY Alu SINE sort/Hs_AluY.bed.gz
这是很重要的一个方面。这里的确是我在分析和处理的时候的失误。
标签:sort,25,记录,histone,bed,实验,xxzhang,human,data 来源: https://www.cnblogs.com/zjuer/p/16623240.html