其他分享
首页 > 其他分享> > 二代测序质量控制(FastQC)

二代测序质量控制(FastQC)

作者:互联网

【最近拿到了近1TB的全基因组测试数据,在数据分析之前,有必要对数据质量进行评价】

在二代测序过程中,测序仪通过荧光成像读出每一个DNA或者RNA序列的碱基类型。在大量的阅读识别碱基过程中,难免会有各种各样的错误。所以,当我们拿到测序数据之后,不是急急忙忙地进行数据分析,而是首先应该对测序数据的质量进行评估,识别出可能存在的错误、错误的类型和对后续数据分析的潜在影响。

1、文件完整性校验

由于测序文件通常很大,在文件传输、存储过程中,难免会造成文件不完整。为此,在获得测序数据的同时,测序公司还通常会提供一个MD5.txt的校验文件。如果测序文件不完整或者被修改(哪个仅仅是多了一个空格),MD5校验码也会出现天壤之别。

image.png

上图是两个测序文件和一个MD5.txt校验文件(含有两个测序文件的校验码),在Linux下,通过md5sum命令来生成校验码,然后和MD5.txt中给出的校验码核对。

2、FASTQ文件

FASTQ包含了每一个读长最原始的信息,通常每4行来描述一个读长。

第一行:以@开头,然后是一串和测序过程相关的信息

第二行:具体的ACGT核酸序列

第三行:以+号开头,和第一行相似

第四行:一串字符组合,每一个字符代表一个碱基的质量评分,所以该行的长度应该和第二行碱基的长度是一致的。

示例如下:

@SRR031716.1 HWI-EAS299_4_30M2BAAXX:3:1:944:1798 length=37

GTGGATATGGATATCCAAATTATATTTGCATAATTTG

+SRR031716.1 HWI-EAS299_4_30M2BAAXX:3:1:944:1798 length=37

IIIIIIIIIIIIIIIIIIIIIIIIIIIII8IIIIIII

表示该序列片段的名字为SRR031716.1,对应的DNA序列为GTGGATATGGATATCCAAATTATATTTGCATAATTTG,然后对应的每一个碱基的质量评分为IIIIIIIIIIIIIIIIIIIIIIIIIIIII8IIIIIII。每一个碱基的质量评分是用ASCII编码来表示的,也就是Phred quality score。分值越高,表示该碱基的准确性越好。

 

Phred Quality Score

Probability of incorrect base call

Base call accuracy

10

1 in 10

90%

20

1 in 100

99%

30

1 in 1000

99.9%

40

1 in 10,000

99.99%

50

1 in 100,000

99.999%

60

1 in 1,000,000

99.9999%

 

3、读长质量评估

对测序数据质量的评估通常使用FastQC软件来完成,它是开源免费的工具,能够快速对测序数据进行检测,并且生成很详细的质量评估报告。

FastQC能够对整个测序文件中的读长数据进行质量评估,并完成如下汇总图:

image.png

其中X坐标轴表示每一个读长中碱基的位置,y坐标轴表示质量评分。上图是一个150bp读长的测序,每一个位置都表示出了该位置质量评分的分布情况。蓝线表示质量评分的平均值,背景颜色绿色表示高质量评分区间,黄色为可接受质量评分区间,红色为差质量评分区间。注意对于二代测序,在每一个读长末端出现质量评分一定程度的降低是正常现象。

4、每个序列质量评分

image.png

以每一个读长序列为质量评价单位,检查是否存在一个读长序列的评分普遍偏低的情况。如果存在很大比例的读长序列评分偏低,可能是由于该序列在测序过程中没能被很好的显影(如在显影视界的边缘等)。

5、每个测序方格(tile)的质量评分

image.png

描述每一个测序方格的质量,冷色调表示该方格的碱基质量评分在平均水平(之上),暖色调表示在平均水平之下,一个理想的情况是整个图都是蓝色的冷色调。

6、每个序列碱基含量(Per base sequence content)

image.png

该图表示在一个读长上每一个位置的ACGT的比例。由一个随机测序文库产生的测序数据,ACGT四种碱基在一个读长的不同位置的比例应该是一致的,即四条线应该平行。有些建库方法会造成读长开头和其他部分四种碱基分布不一致,这是一种建库造成的系统偏倚,它通常不会对下游数据分析造成影响,不过FastQC通常还是会给出警告或错误提示。

7、每个序列GC含量(per sequence GC content)

图片

该图展示了一个读长序列中GC含量的分布,蓝线表示理论GC分布情况,红线表示实际GC分布。由一个随机测序文库产生的测序数据,其GC含量应该是蓝线的正态分布,峰值表示整个基因组GC含量的平均水平。如果红线不是正态分布类型,那么可能意味着测序文库污染,或其他偏倚的存在

8、每个碱基N含量(per base N content)

image.png

如果测序仪不能很有把握的确定一个碱基类型,那么通常会用N来代替这个位置可能的碱基。上图反应了每个位置的N的比例。在测序中出现一些N是很正常的,尤其是在读长的末端。但是如果N的比例高达几个百分比,就需要引起我们的注意。

9、序列重复水平(sequence duplication levels)

image.png

在一个理想的测序文库中,大多数的序列应该只出现一次。如果多次重复出现,那么可能意味着存在一定程度的富集偏倚(如PCR过度扩增等)。FastQC软件能够计数每一种序列的重复出现次数。如上图,蓝线是表示测序文库中所有序列的重复次数分布情况,红线是去重之后的分布情况。正常情况下,蓝线和红线的峰值都应在在坐标轴做左端。而如果出现了过多的重复序列,那么峰值会变低,曲线变平。可能意味着存在测序文库的污染或者严重的技术偏倚导致过多的重复序列。

10、总结

二代测序的特点导致了其读长末端测序错误率增大,因为有必要对测序数据进行过滤和筛选,以提高数据质量,避免对下游数据分析产生影响。

应当剔除的读长序列:

·       平均质量评分过低

·       过短

·       含有过多不确定碱基(N)

·       GC含量偏倚严重

应当被屏蔽的序列区域:

·       质量评分较低的区域

·       序列的起始端和末端

·       测序配体(adaptor)

软件实现:

·       FastQC:测序数据质量评价

·       Cutadapt:对数据进行过滤删减,提升数据质量

 

===== THE END ====

参考资料:https://galaxyproject.github.io/training-material/topics/sequence-analysis/tutorials/quality-control/tutorial.html

image.png


标签:二代,FastQC,测序,碱基,读长,评分,质量,序列
来源: https://blog.51cto.com/15069450/2577371