叶绿体基因组分析须要注意的地方(注释篇)
作者:互联网
叶绿体基因组分析须要注意的地方(注释篇)
上期我们讲了组装问题,在组装完成后,就需要对序列进行注释了,叶绿体基因组的注释通常是经过同源比对注释的,同源注释的软件比较多,针对叶绿体基因组注释的软件也有很多,但是目前还没有一款可以得到完美注释结果的软件,所以学会自己检查注释的正确与否很重要。由于基于的是同源比对,那么参考的选择十分的重要,这里要注意一点,不是已经发表的叶绿体基因组就是正确的注释!已有的数据库中也会有很多错误注释的基因组序列,所以针对参考序列的注释,需要自己去辨别好坏。可以根据常见的基因类型,基因数量,拥有内含子的基因(常见的如:atpF clpP ndhA ndhB ndhB petB petD rpl16 rpl2 rpl2 rpoC1 rps12 rps12 rps16 trnA-UGC trnA-UGC trnG-GCC trnI-GAU trnI-GAU trnK-UUU trnL-UAA trnV-UAC ycf3等)等等。比如反式剪接的基因(rps12),在一些已经发表的序列中(参考序列中)容易出现错误,拥有较短的外显子的基因在参考中也容易丢掉那个较短的外显子(最短只有6 bp:petB、petD、rpl16等)。这些问题在选择参考之前都要注意下,如果参考的注释有问题,那么对你的注释会有很大影响,这是软件解决不了的,可以多选择几个物种作为参考来降低错误。
注释完后,根据常见的基因(或者多比较几个参考序列)看看哪些基因有差异,对于有差异的基因,需要自己辨别对错,保留最好的结果。然后还需要进行以下的检查:
- 基因序列的内含子边界问题,这个根据参考的序列检查下,微调下就行。
- 反向重复区基因的对称问题,由于反向重复区的序列基本是高度相似的(多数是100%,如果不是,请看回头看看组装问题),所以完全处于反向重复区的基因序列也应该是一致的,但是也会存在注释的结果不一样,主要是有内含子的基因和非编码基因,这个需要根据对称的序列进行统一化处理,使其对称。
- 基因的重叠问题,叶绿体序列的基因重叠情况不是很多,但是如果发现有的基因几乎完全重叠了,那么注释的就可能是有问题的,已经发表的序列中常见的是tRNA会出现这种问题,同一个地方注释出来两种tRNA,导致tRNA数量变多,这种应该保留一种。
- 假基因的问题,这种情况常见的是处于边界的基因,如ycf1,rps19两个,其他的有些物种中ndh*基因容易出现假基因。还有的注释的时候发现编码基因内容有终止密码了注释成假基因(最好检查下组装有没有问题)。
- RNA编辑问题,叶绿体基因组中的RNA编辑位点相对比较少,一般不做注释,但是有的起始密码子可能由于RNA编辑产生,常见的如ndhD,psbL,rpl2等等,常规的注释会找到基因的起始密码子,如果不考虑起始密码子由RNA编辑产生,那么得到的编码序列起始地方会偏长。
- 非编码基因方向问题,这个也比较常见,一些物种的注释中会把非编码基因的正负链搞错,再和其他物种的相同基因比较的时候就会出现明显的差异,比如反向重复区的两个相同rRNA均在同一条链上,这肯定是有一个错误了,还有一些比较难发现,比如tRNA原本应该在正链上,但是注释的时候弄成负链了,这种只有通过比较多个物种时才能发现(或者采用tRNA预测软件直接预测)。
叶绿体基因组虽小,但是分析时需要注意的地方非常多,希望大家在自己组装注释的过程中能够注意到以上的问题,不然上传有问题的序列对自己的分析和对别人的分析都会产生不好的影响。
如果你在分析过程种遇到问题,加QQ群:936427018 一起讨论吧~
标签:叶绿体,参考,基因,基因组,注释,须要,序列 来源: https://blog.csdn.net/weixin_43362619/article/details/120656637