首页 > 其他分享> > 【实验记录】8月25日

【实验记录】8月25日

2022-08-29 14:32:06 作者：互联网

ls /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/named_sort/ |grep 'Fetal' |xargs -I {} mv /home/xxzhang/data/Epigenome/cist ome/human_histone_mark/named_sort/{} ./

这里的话，就是批量的把fetal的样本拿了出来。如下图所示。

ls ./ |grep "H3K4me3_" |xargs -i -t sh -c "giggle search -i  human_rp_index/ -q {} -s >./H3K4me3/{}.result"
#这里学到了如果xargs和重定向（>）联用的时候，不加引号就会报错。

这样的话，我想批量的整合这个数据。得到一个matrix。

setwd("/home/xxzhang/data/Epigenome/cistrome/human_histone_mark/Hs_repeat/H3K4me1/")
filelist <- list.files("./")
n <-length(filelist)
files <- paste("./",filelist,sep="")
test<- read.delim(file=files[1],header=T,sep="") 
dim(test)
test1<-test[,c(1,8)]
dataset_filiter<-as.character(test1$combo_score)
for (i in 2:n)
{
  txt_data<-read.delim(file=files[i],header=T,sep="") 
  txt_data<-txt_data[,c(1,8)]
  dataset_filiter <- cbind(dataset_filiter,txt_data[,2])  
}
filelist_v1 <- as.matrix(gsub("H3K4me1_","", filelist))
filelist_v2 <- as.matrix(gsub(".bed.gz.result","", filelist_v1))
colnames(dataset_filiter)<-filelist_v2
filelist_v3 <- as.matrix(gsub("sort/Hs_","",test1$X.file ))
filelist_v4 <- as.matrix(gsub(".bed.gz","",filelist_v3))
rownames(dataset_filiter)<-filelist_v4
write.csv(dataset_filiter,"H3K4me1.csv",quote=F,col.names=T,row.names=T)

然后就得到了一个matrix，接着对该matrix进行修改。

想对该matrix进行画图。

setwd("F://cistrome")
data<-read.csv("H3K4me1.csv",row.names = 1)
library(pheatmap)
df = data[apply(data, 1, function(x) sd(x)!=0),]
df2 = df[,apply(df, 2, function(x) sd(x)!=0)] 
p<-pheatmap(df2,color = colorRampPalette(c("navy", "white", "firebrick3"))(50),
            show_rownames = T,show_colnames = T)

现在就相当于是把H3K4me1的这个peak做了一下，接下来可以把其他的也都可以弄一下。
然后再把图整理一下，综合的来比较分析。
上面的代码类似，只需要改写一下即可。

我感觉还是不行。
从绝对的值上来看，明显是SVA-D等家族在各种histrone peak上富集程度，我们现在的结果该出来了。因为想要的数据都有了，可以研究的东西也有了。应该可以把全部的结果整理出来了。

现在的想法就是说，我把所有的相关的样本收集整理出来，然后先看一下整体的规律。
比如哪一种类型的peak，什么样本在什么家族中富集？然后我们想对比的找出来，可能对fetal brain的发育有重要作用的转座子家族。
接着从多个维度的数据上去试图详实的论证这个结论。==>我希望这周能够完成这一部分的内容。
现在没有别的事情了，你要认真的完成你自己该做的事情了，我希望在做的过程中就可以得到快乐。

1、挑选候选数据样本。

2、对这些样本进行富集。

3、对富集结果绘制成热图。

4、从中挑选出我们认为比较感兴趣的peak。

5、对这些家族的基因进行功能和细胞类型的富集。

6、结合已有的Encode上的数据和一些文件的工具对部分位点进行可视化。

7.其他方面的可能的详实的证明。


(base) [xxzhang@mu02 Hs_repeat]$ ls /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/named_sort/ |grep 'H3K36me3_None_Astrocyte' \
> |xargs -i -t sh -c "giggle search -i  human_rp_index/ -q /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/named_sort/{} -v -o >./{}.resul

sh -c giggle search -i  human_rp_index/ -q /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/named_sort/H3K36me3_None_Astrocyte_Brain.0.bed.ocyte_Brain.0.bed.gz.result
sh -c giggle search -i  human_rp_index/ -q /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/named_sort/H3K36me3_None_Astrocyte_None.0.bed.gcyte_None.0.bed.gz.result
sh -c giggle search -i  human_rp_index/ -q /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/named_sort/H3K36me3_None_Astrocyte_None.10.bed.ocyte_None.10.bed.gz.result
sh -c giggle search -i  human_rp_index/ -q /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/named_sort/H3K36me3_None_Astrocyte_None.11.bed.ocyte_None.11.bed.gz.result
sh -c giggle search -i  human_rp_index/ -q /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/named_sort/H3K36me3_None_Astrocyte_None.1.bed.gcyte_None.1.bed.gz.result
sh -c giggle search -i  human_rp_index/ -q /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/named_sort/H3K36me3_None_Astrocyte_None.2.bed.gcyte_None.2.bed.gz.result
sh -c giggle search -i  human_rp_index/ -q /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/named_sort/H3K36me3_None_Astrocyte_None.3.bed.gcyte_None.3.bed.gz.result
sh -c giggle search -i  human_rp_index/ -q /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/named_sort/H3K36me3_None_Astrocyte_None.4.bed.gcyte_None.4.bed.gz.result
sh -c giggle search -i  human_rp_index/ -q /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/named_sort/H3K36me3_None_Astrocyte_None.5.bed.gcyte_None.5.bed.gz.result
sh -c giggle search -i  human_rp_index/ -q /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/named_sort/H3K36me3_None_Astrocyte_None.6.bed.gcyte_None.6.bed.gz.result
sh -c giggle search -i  human_rp_index/ -q /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/named_sort/H3K36me3_None_Astrocyte_None.7.bed.gcyte_None.7.bed.gz.result
sh -c giggle search -i  human_rp_index/ -q /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/named_sort/H3K36me3_None_Astrocyte_None.8.bed.gcyte_None.8.bed.gz.result
sh -c giggle search -i  human_rp_index/ -q /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/named_sort/H3K36me3_None_Astrocyte_None.9.bed.gcyte_None.9.bed.gz.result

糟糕，我好像在拆分家族的时候，出了问题，导致最后的拆分的结果的不准确。

##chr1  40277202        40278392        peak499 26      .       4.19340 5.54654 2.64596
chr1    40278339        40278586        AluY    Alu     SINE    sort/Hs_Alu.bed.gz  #显然是在匹配的时候，把AluY和Alu混为一谈了。这可怎么办？重新做吗？还是对AluY、Alu的结果不再考虑。
chr1    40278339        40278586        AluY    Alu     SINE    sort/Hs_AluY.bed.gz

这是很重要的一个方面。这里的确是我在分析和处理的时候的失误。

标签：sort,25,记录,histone,bed,实验,xxzhang,human,data
来源： https://www.cnblogs.com/zjuer/p/16623240.html