Bam文件去重复
作者:互联网
RNA-seq一般不去重复
ChIP-seq一般去重复
call SNP一般去重复
还需参考起始量和PCR扩增数判断是否去重复。reads mapping覆盖均匀度可以判断是否需要去重复。
PCR去重工具首选Picard
根源上解决去重复问题:起始量高,循环数少,reads能长不短,能双端不单端
PCR重复的危害
理论上
不同序列在PCR扩增时,扩增的倍数应该相同
。但是由于聚合酶的偏好性
,PCR扩增次数过多的情况下,会导致一些序列持续扩增
,而另一些序列扩增到一定程度后便不再进行,也就是常说的PCR偏好性
。
这种情况对于定量分析(如ChIP-seq
),会造成严重影响
。此外,PCR扩增循环数过多,会出现一些扩增偏差,进而影响一些突变识别(比如call SNP)的置信度。
因此,在一些NGS分析流程中需要考虑去除PCR重复。但这并不代表可以无脑去除。
测序所得到的reads是由于超声波或者酶切断裂得到的,这些reads比对到基因组上的位置是完全随机。那么两个reads比对到相同位置的概率是非常低的。如果两个reads比对情况相同或者极其相似,则很有可能是由于PCR重复所导致的。而我们常用的去重工具主要也是遵循这一思想。
标签:文件,seq,扩增,重复,PCR,reads,序列,Bam 来源: https://blog.csdn.net/geekfocus/article/details/120063887