Benchmarking of computational error-correction methods for next-generation sequen下一代测序数据的计算纠错方法的基准测试
作者:互联网
下一代测序数据的计算纠错方法的基准测试
- 基思·米切尔( Keith Mitchell)
- 杰奎琳·布里托( Jaqueline J.
- […]
- 塞尔吉·曼古尔(Serghei Mangul)
基因组生物学 卷 21,产品编号: 71(2020)
-
3814访问
-
3引文
-
46高度
抽象
背景
下一代测序的最新进展迅速提高了我们以前所未有的规模研究基因组材料的能力。尽管测序技术有了实质性的改进,但是数据中存在的错误仍然有可能混淆下游分析并限制测序技术在临床工具中的适用性。计算纠错有望消除序列错误,但是纠错算法的相对准确性仍然未知。
结果
在本文中,我们评估了纠错算法修复跨不同类型数据集的错误的能力,这些数据集包含不同程度的异构性。我们重点介绍了跨生物学(包括免疫基因组学和病毒学)不同领域的计算错误校正技术的优点和局限性。为了证明我们技术的有效性,我们应用了基于UMI的高保真测序方案,以消除来自模拟数据和原始读数的测序错误。然后,我们对错误纠正方法进行实际评估。
结论
在准确性方面,我们发现方法性能在不同类型的数据集之间有很大差异,没有一种方法对所有类型的检查数据表现最佳。最后,我们还确定了可以在精度和灵敏度之间取得良好平衡的技术。
介绍
下一代测序技术的飞速发展提高了我们以前所未有的规模研究生物样品的基因组材料的能力,并有望彻底改变我们对生命系统的理解[ 1 ]。测序技术现在选择的技术对人类遗传学许多研究应用,免疫学和病毒学[ 1,2]。现代测序技术将输入的基因组DNA(或逆转录RNA)分解为数百万个核苷酸序列,称为读取序列。尽管测序技术不断改进,但由于引入随机和系统错误,这些技术产生的数据仍然存在偏差。测序错误通常发生在大约0.1–1%的碱基序列中;此类错误在碱基质量差的读段中更常见,其中测序仪会误解信号或掺入错误的核苷酸。通过引入错误,错误会在测序步骤中引入,甚至出现在每次读取的碱基质量较差的读取中[ 3]。在样品制备,扩增或文库制备阶段可能会引入其他错误,例如聚合酶偏倚和掺入错误[ 4 ]。包含测序错误的数据限制了测序技术在临床环境中的适用性[ 5 ]。此外,错误率在平台之间有所不同[ 6 ];最流行的基于Illumina的协议可以在每千个核苷酸中产生大约一个错误[ 7 ]。
为了更好地了解测序错误的性质和可能的解决方案,我们对当前可用的错误校正方法进行了全面的基准研究。我们确定了各种排序设置以及纠错方法的不同参数可能对纠错方法的输出准确性产生多种影响。我们还研究了跨生物学(包括免疫基因组学和病毒学)不同领域的计算错误校正技术的优点和局限性。
计算误差校正技术有望消除测序误差并改善下游分析的结果(图 1a)[ 8 ]。许多计算错误校正方法已经被开发,以满足精确测序数据的生物医学界[日益增长的需求9,10,11 ]。尽管有许多纠错工具可用,但是要彻底,准确地消除测序数据中的错误仍然是一个挑战。首先,目前可用的基于分子的技术来纠正测序数据中的错误(例如,ECC-Seq [ 12])通常会增加计算成本,从而限制了跨大量样本的可伸缩性。其次,由于我们缺乏对纠错方法的系统比较,因此无法将这些工具最佳地集成到标准化的下一代测序数据分析管道中。
图。1
基准测试计算错误校正方法的研究设计。一个的纠错算法的目标示意图。纠错旨在修复序列错误,同时保持数据异构性。b使用基于UMI的群集生成了黄金标准的无错误读数。将读数根据匹配的UMI进行分组,并通过共识进行校正,其中需要80%的多数来校正测序错误而不影响自然发生的单核苷酸变异(SNV)。C评估纠错方法准确性的框架。在无错误,未校正(原始)和校正后的读数之间进行多重序列比对,以对校正后的读数中的碱基进行分类。碱基分为修整,真阴性(TN),真阳性(TP),假阴性(FN)和假阳性(FP)类别
全尺寸图片以前基准研究[ 13,14 ]缺乏综合实验金标准[ 15 ]。相反,这些早期的基准测试工作依赖于与参考基因组唯一对齐的模拟数据和真实读数。另外,自从较早的基准研究以来,纠错算法已经得到了重大发展,并且尚未评估最新方法的性能。其他研究[ 16]提供了可用的纠错工具的详细描述,但缺少基准测试结果。当将当今的纠错算法应用于由高度相似但截然不同的基因组变体组成的极其异类的种群时,其效率目前未知。人类免疫库是多种B和T细胞受体克隆型的集合,是需要可靠的错误校正的异质人群的一个很好的例子。此类数据集的异质性增加以及低频变量的存在进一步挑战了纠错方法修复数据中序列错误的能力。
在本文中,我们评估了纠错算法修复具有不同异构性级别的不同类型数据集之间的错误的能力。在此过程中,我们制定了黄金标准,该标准为执行错误校正方法的实际评估提供了准确的基准。我们重点介绍了跨生物学(包括免疫基因组学和病毒学)不同领域的计算错误校正技术的优点和局限性。例如,我们用来自T细胞受体克隆型和宿主内部病毒种群的不同种群的数据挑战了纠错方法。要定义的纠错方法的黄金标准,我们应用一个独特的分子标识符(UMI)基高保真测序方案(也被称为安全-SeqS)[ 17,18],并消除了原始读取中的测序错误。
结果
黄金标准数据集
我们使用了来自人类基因组DNA,人类T细胞受体库和宿主内病毒种群的模拟和实验金标准数据集。我们使用的数据集对应于不同级别的异质性。随着数据集变得更加异构,纠错的难度增加。异质性最低的数据集来自人类基因组DNA(D1数据集)(表 1)。最异构的数据集来自T细胞受体库和密切相关的病毒突变体变体(称为准种)的复杂群落。
表1黄金标准数据集概述
全尺寸表以生成用于D2和D4的数据集无差错读取,我们使用一个基于UMI高保真测序方案(也被称为安全-SeqS)[ 17,18 ],其能够消除来自数据测序错误的(图。 1b)。高保真测序方案可在扩增DNA片段之前将UMI连接到片段。测序后,源自同一生物片段的读段将根据其UMI标签分组为簇。接下来,我们在每个生物区段簇内应用了纠错程序。如果UMI簇中至少有一个核苷酸缺乏80%的读段支持,我们将无法生成一致的无错误读段。换句话说,如果80%的读数具有相同的核苷酸,则我们认为该核苷酸是正确的。当核苷酸缺乏80%读段的支持时,这些UMI簇的所有读段都将被忽略(图 1)。C)。我们使用基于UMI的聚类为D2和D4数据集生成无错误的读取。D1和D3数据集都是通过使用工具WgSim [ 19 ]的定制版本(附加文件 1:图S1)通过计算模拟生成的。
我们应用了基于单倍型的纠错方案,以消除D5数据集中的测序错误,D5数据集由五种在体外混合的HIV-1亚型B单倍型组成[ 20 ]。首先,我们通过比对从混合物获得的一组已知单倍型的读段进行比对来确定每个读段的来源单倍型。通过将读数中的碱基替换为来源单倍型的碱基,可以纠正测序错误。我们改变了HIV-1混合物中存在的单倍型数量和相似性。另外,我们改变了数据中测序错误的发生率。
无错误读取和原始原始读取均带有错误,它们的可用性为执行实际的错误校正方法评估提供了准确,可靠的基准。对于我们的基准研究,我们同时检查了实验数据和模拟数据。模拟数据包含具有各种长度和覆盖率的读段,以估计此类测序参数对纠错准确性的影响。“方法”部分提供了所用数据集的详细说明以及准备黄金标准数据集的相应协议。
纠错方法的选择
我们选择了最常用的纠错工具来评估当前方法纠正序列错误的能力。以下算法被包括在我们的基准研究:珊瑚[ 21 ],保佑[ 10 ],菲奥娜[ 10,22 ],波吕克斯[ 11 ],BFC [ 23 ],打火机[ 24 ],步枪[ 9 ],赛车[ 25 ],计算者[ 24,26 ],和SGA [ 27 ]。根据HiTEC开发人员的建议,我们排除了HiTEC,而将其替换为Racer。我们还排除了专门为非基于Illumina的技术设计的工具[ 28]和不再受支持的工具。我们总结了每种工具的详细信息,包括基础算法和数据结构(表 2)。为了评估每种方法的安装过程的简单性,我们在表3中描述了软件依赖性 。运行每个工具所需的命令在补充材料(附加文件1:表S1)和https://github.com/Mangul-Lab-USC/benchmarking.error.correction中可用 。补充材料(补充文件1:补充说明2)中介绍了用于评估的数据准备 。
表2纠错方法的参数和发布详细信息摘要。纠错方法按发布年份排序(在“发布年份”列中指示)。我们记录了基础算法(在“基础算法”列中指示),所使用的纠错工具的版本(在“版本”列中指示)和软件工具的名称(在“软件工具”列中指示)
全尺寸表表3本研究评估的纠错方法的技术特征摘要
全尺寸表评估纠错方法的准确性和性能
我们使用了大量评估指标来评估每种纠错方法的准确性和性能。我们将真肯定(TP)定义为通过纠错工具正确修复的错误,假肯定(FP)定义为通过工具错误更改的正确碱基,假否定(FN)定义为错误碱基未纠正或错误纠正的错误碱基。工具,和真阴性(TN),其由所述工具(图不受影响正确碱基 1 b)(附加文件 1:图S2)。
我们使用增益度量[ 13 ]来量化每个纠错工具的性能。正增益表示错误校正算法的总体正效应,而负增益表示工具执行的错误动作要多于纠正动作。增益为1.0意味着错误校正工具无需进行任何FP更改即可进行所有必要的校正(表 4)。我们将精度定义为错误校正工具执行的校正总数中正确校正的比例。灵敏度评估固定错误在数据中识别的所有现有错误中所占的比例;换句话说,敏感度表明哪些算法正在纠正最大的诱发错误[ 29]。最后,我们检查了错误纠正方法是否删除了纠正读取的开头或结尾的碱基。移除碱基可以对应于尝试校正删除(TP修剪),或者可以简单地移除正确的碱基(FP修剪)(附加文件 1:图S3)。
表4纠错方法的准确性评估
全尺寸表校正全基因组测序数据中的错误
我们使用各种覆盖率设置(D1数据集)(表1)评估了当前可用的纠错方法在纠正引入全基因组测序(WGS)读数的错误中的功效 。首先,我们探讨了k-mer大小对纠错方法准确性的影响。k-mer大小的增加通常会提高错误校正的准确性。在某些情况下,增加的k-mer大小对纠错的准确性没有影响(附加文件 1:图S4a-f)。对于所有调查方法,我们都使用了最佳k-mer大小(附加文件 1:表S2)。WGS人类数据的Lighter方法覆盖率是32倍,k-mer大小为30 bp时效果最好(附加文件 1:图S4f)。对于其他覆盖范围,打火机通常在20 bp的k-mer大小下表现最佳,这是在这些情况下选择的。总体而言,k-mer大小的增加导致所有工具针对WGS数据的校正次数减少(附加文件 1:图S5)。
我们的结果表明,当将Pollux和Musket应用于覆盖度为4x或更小的D1数据集时,在所有覆盖范围设置中进行的校正次数最多(附加文件 1:图S5)。通常,更高的覆盖率允许纠错方法进行更多的纠正并修复数据中的更多错误。对于大多数调查方法,较高的覆盖率还可以减少错误校正的次数(附加文件 1:图S6)。对于绝大多数工具(Lighter和Racer除外),增益随着覆盖率的增加而不断增加(图 2)。一种)。对于我们研究中的大多数纠错工具,仅当覆盖率达到4倍或更高时,增益才为正。唯一证明2倍覆盖率获得正增长的方法是SGA和Coral。对于1x的覆盖范围,珊瑚能够维持正增益(图的唯一方法 2 a)中。覆盖水平也对精度和灵敏度(图强烈冲击 2 B,C)。除了珊瑚,没有一种方法能够纠正的数据的80%以上为用2×的覆盖范围或更小(图数据集 2 c)所示。32x的覆盖率使大多数方法都可以高精度地纠正超过95%的错误(图 2)。F)。纠错工具通常会修剪读取的一小部分。我们比较了各种纠错方法的修整率和趋势。总体而言,大多数纠错工具会修剪一小部分基准。唯一的例外是Bless,它修剪了多达29%的碱基(其他文件 1:图S7)。修剪后的绝大多数基部都是正确的基部(附加文件 1:图S8-S9)。
图2
校正全基因组测序数据(D1数据集)中的错误。对于每种工具,都选择了最佳的k-mer尺寸。a – f WGS人力数据。g – l WGS大肠杆菌数据。a,g热图描述了各种覆盖范围设置下的增益。每行对应一个纠错工具,每列对应一个具有给定覆盖率的数据集。b,h热图描述了各种覆盖范围设置的精度。每行对应一个纠错工具,每列对应一个具有给定覆盖率的数据集。Ç,我热图描绘了各种覆盖范围设置下的灵敏度。每行对应一个纠错工具,每列对应一个具有给定覆盖率的数据集。d,j散点图,描述了具有32x覆盖率的数据集的TP校正(x轴)和FP校正(y轴)的数量。e,k散点图,描述了覆盖率是32倍的数据集的FP校正(x轴)和FN校正(y轴)的数量。f,l散点图,描述了灵敏度(x轴)和精度(y轴)用于32倍覆盖率的数据集
全尺寸图片我们还比较了大肠杆菌WGS数据中纠错算法的准确性。纠错方法的相对性能类似于WGS的人类数据。但是,与专门针对高覆盖率数据的人类数据相比,这两种工具在大肠杆菌数据上的性能差异要小一些(图 2 d–f,j–l)。值得注意的是,即使覆盖率低至8倍,许多工具仍能够保持出色的性能(超过90%)。当应用于人类和大肠杆菌数据时,针对低覆盖率WGS的最佳性能的工具是Coral,即使对于大肠杆菌和人类数据的1x WGS数据,它也能够保持正增益(图 2)。G)。即使对于低覆盖率数据,纠错工具在大肠杆菌上的精度也通常很高(图 2 h)。即使8倍的覆盖率,许多工具也能够实现90%以上的灵敏度(图 2 i)。与人类数据类似,大多数工具都能够在32x WGS数据的精度和灵敏度之间保持良好的平衡(图 2 f,l)。
我们还研究了低复杂度区域中工具的性能。排除低复杂度区域会导致大多数工具的精度适度提高。在Racer和Pollux产生的结果中,低复杂度区域与其余基因组之间的性能差异最大。值得注意的是,对于低复杂度区域,唯一具有负增益的工具是Pollux(附加文件 1:图S10)。
我们还基于WGS数据比较了每个工具的CPU时间和最大RAM使用量(附加文件 1:图S11)。Bless,Racer,RECKONER,Lighter和BFC是最快的工具,能够在不到2小时的时间内纠正与21号染色体相对应的WGS样本的错误,其覆盖率为8倍。其他工具需要5个小时以上才能处理相同的样品。内存占用最少的工具是Lighter,SGA和Musket,它们需要少于1 GB的RAM来纠正样本中的读取。内存占用最大的工具是Coral,需要超过9 GB的RAM才能更正错误。
纠正TCR测序数据中的错误
我们比较了纠错方法修复来自T细胞受体(TCR)库(D2和D3数据集)的读数中的错误的能力(表 1)。我们使用来自诊断为HIV的8位个体的真实TCR-Seq数据(D2数据集)和模拟的TCR-Seq数据(D3数据集)调查了k-mer大小的影响。对于D2数据集,使用基于UMI的聚类通过共识生成了黄金标准的无错误读数(请参见“方法”部分)。与我们对WGS数据的研究相似,我们探索了k-mer大小对TCR-Seq数据纠错方法准确性的影响。正如我们在WGS数据和TCR-Seq数据中观察到的那样,k-mer大小的增加会提高某些工具的增益,而对于其他工具则没有影响(附加文件 1:图S12-S13)。对于所有调查方法,我们都使用了最佳的k-mer大小(附加文件 1:表S3-S4)。
我们使用模拟的TCR-Seq数据(D3数据集)来比较各种覆盖范围内的纠错工具的性能。所有的纠错工具都能够在各种覆盖范围内的模拟TCR-Seq数据上保持正增益(附加文件 1:图S14)。绝大多数被调查的工具还保持较高的精度(0.76-0.99)(附加文件 1:图S15)。我们发现工具和覆盖范围的敏感性差异很大。对于几种错误校正方法,当覆盖率增加时,灵敏度会下降(附加文件 1:图S16)。接下来,我们使用了真实的TCR-Seq数据来比较纠错工具的性能。使用打火机方法达到最高的精度,其次是菲奥娜(Fiona)和BFC(图2)。 3 a)。
图3
纠正TCR-Seq数据(D2数据集)中的错误。对于所有绘图,每个工具报告8个TCR-Seq样本的平均值。一个柱状图中描述了在不同的纠错方法的增益。b散点图,描述了TP校正(x轴)和FP校正(y轴)的数量。c散点图,描绘了FP校正(x轴)和FN校正(y轴)的数量。d散点图,描绘了每种工具的灵敏度(x轴)和精度(y轴)
全尺寸图片打火机在精度和灵敏度之间实现了理想的平衡,并且根据所有指标(包括TP和FP的数量),通常表现出相似的性能(图 3 b–d)。由于忽略错误(FN)的数量增加,SGA在所有错误校正方法中均显示出最低的灵敏度(图 3 d)。与WGS数据类似,大多数纠错工具不会修剪或仅修剪读取的一小部分。与从WGS数据集生成的结果类似,仅修剪了少量的读取。通常,大多数修剪后的基底是正确的基底(附加文件 1:图S17)。
纠正病毒测序数据中的错误
我们比较了纠错方法修复来自异种病毒种群(D4数据集)的读数中的错误的能力(表 1)。首先,我们研究了k聚体大小对病毒测序数据纠错方法准确性的影响(其他文件 1:图S18)。对于几种纠错方法,k-mer大小对纠错的准确性没有实质性影响。为每种工具选择了最佳的k-mer大小(附加文件 1:表S5)。大多数方法能够将精度保持在80%以上(图 4a)。在精密度和灵敏度之间取得最佳平衡的方法是Fiona,它也保持了最高的f评分(图 4)。一种)。的方法都没有能够校正错误的超过54%(图 4 b)中。
图4
纠正病毒测序数据(D4数据集)中的错误。对于所有地块,选择最佳的k聚体大小。一个柱状图中描述了在不同的纠错方法的增益。b散点图,描绘了每种工具的灵敏度(x轴)和精度(y轴)
全尺寸图片我们进行了额外的分析,以调查对病毒测序数据中的纠错工具的性能产生影响的因素。我们使用了真正的HIV-1测序基准[ 20 ],该基准由5种HIV-1亚型B单倍体在体外混合而成(D5数据集)(表 1)。为了准备无错误的读段,我们应用了基于单倍型的纠错协议,该协议可通过将读段与来源的单倍型进行匹配来消除测序错误。在单倍型和读段相匹配后,通过将读段中的碱基替换为来源单倍型中的碱基来纠正测序错误。“方法”部分提供了有关D5数据集和基于单元型的纠错协议的详细信息。
与从D4 HIV数据集生成的结果相反,大多数错误纠正方法无法准确纠正错误(附加文件 1:图S19)。值得注意的是,所有方法的增益均低于6%。绝大多数的纠错方法都能够将精度保持在60%以上。但是,没有一种工具能够达到20%以上的灵敏度(附加文件 1:图S20)。
我们进一步调查了影响D5 HIV混合物数据集性能降低的因素。首先,我们改变了单倍型之间的多样性。我们已经生成了三个数据集,每个数据集都包含两个单倍型。使用汉明距离测量多样性,其多样性在5.94和0.02%之间变化。单倍型之间减少的多样性对大多数错误校正方法都有积极作用,允许10种方法中的7种在数据集上具有最低多样性(单倍类型之间的汉明距离为0.02%)获得正增益(附加文件 1:图S21)。
我们还进行了其他实验,以调查数据中存在的错误数量对方法准确纠正错误的能力的影响。我们已经通过计算改变了病毒数据集D5的错误率(“方法”部分)。总共,我们获得了8个数据集,错误率范围从10 -6到3.3×10 -3。通常,增加的错误率会对大多数方法准确纠正错误的能力产生负面影响。Fiona和Racer是在各种错误率下保持数据集一致性能的工具。值得注意的是,Racer能够在具有各种错误率的所有数据集上将增益保持在70%以上(附加文件 1:图S22)。
讨论区
我们对当前可用的纠错工具的系统评估突显了跨不同类型的数据集(包含不同级别的异构性)的计算纠错技术的优势和局限性。我们评估了错误校正算法对典型DNA测序数据以及源自人类免疫谱和宿主内病毒种群的高度异构数据的性能。当应用于不同类型的数据集时,我们观察到纠错方法的性能存在很大差异,没有一种方法能在所有类型的数据上均表现最佳。例如,当应用于WGS人类数据时,大多数调查方法为覆盖率达8倍或更高的数据集提供了改进的测序读数。
我们观察到,大多数方法仅对于高覆盖率数据集才能够产生准确的结果,这表明在考虑选择纠错工具时,覆盖深度是重要的参数。我们确定,Coral需要2倍或更高的基因组覆盖率才能在WGS人类数据中获得更好的读数。其他工具需要更高的覆盖率才能成功纠正序列错误。例如,十分之七的工具只能成功纠正4倍或更高覆盖率的错误。16x的基因组覆盖率允许使用多种方法高精度地校正90%以上的错误。例如,Fiona能够以94%的精度纠正98%的错误。我们的结果表明,在选择合适的纠错工具时,应考虑到WGS人类数据的基因组覆盖率。我们还评估了k-mer大小对纠错工具准确性的影响。当应用于WGS和TCR-Seq数据时,k-mer大小的增加通常会提高错误校正的准确性。
我们的研究发现,将纠错方法应用于生物学各个领域的数据时,其性能会有很大不同,没有一种方法在所有类型的检查数据集上都能表现最佳。我们注意到,纠错方法在免疫基因组学领域非常有用,其中多种纠错方法可能会显着改善结果-即使覆盖率极低。这些结果表明,计算纠错工具有可能取代基于UMI的纠错协议。UMI通常用于免疫基因组学研究中的数据,以纠正测序错误,但是基于UMI的错误纠正可能会对覆盖率产生负面影响,这会增加每测序碱基的成本。
同样,纠错方法可用于减少异种病毒种群中的错误数量。十分之三的方法能够显着改善病毒测序读数,其增益超过30%。
我们的基准研究集中于基准计算错误校正工具。对下游分析的错误校正的评估已在其他地方进行[ 8 ],并已发表[ 8 ],这超出了本研究的范围。在未来的研究中,我们预计有关被分析基因组结构特性的其他知识将用于开发生物信息学工具,从而产生更准确和可靠的结果。例如,来自不同生物体的基因组的结构由上位导致不同变体的共-依赖性形30,31]。将上位效应纳入误差校正方法中可以帮助研究人员区分真实基因组和人工基因组异质性,并最终提高误差校正的准确性。
方法
运行错误纠正工具
使用各个工具附带的说明来运行纠错工具(附加文件 1:表S1)。然后准备了包装程序,以便运行各个工具,并创建标准化的日志文件。在运行工具时,我们尽可能选择了Illumina技术选项和配对端模式。在没有配对端选项的情况下(表 1),我们通过忽略配对信息并将对中的每个读取都视为单端读取,来准备从配对端数据获得的单端读取。比较纠错方法的计算管道是开源的,可以在MIT许可下免费使用,并且可从https://github.com/Mangul-Lab-USC/benchmarking.error.correction获得。
使用基于UMI的群集生成无错误的读取
使用基于UMI的群集生成黄金标准的无错误读取。读取被分组基于被上匹配的UMI并协商一致,其中80%的多数被要求正确测序错误不影响天然存在的个SNV(图校正 1 b)中。基于UMI的聚类用于为D2和D4数据集生成无错误的读取。
生成模拟数据集
我们生成的模拟数据模仿了WGS数据(D1数据集)和TCR-Seq数据(D3数据集)。为了生成D1数据集,我们开发了工具WgSim [ 19 ]的定制版本(附加文件 1:图S1)。我们模拟了21号染色体的读段。读段的范围在1到32之间。简而言之,自定义版本以及生成有错误的测序读段,都可以将无错误的读段报告给作为命令行参数提供的文件。WgSim分支可从https://github.com/mandricigor/wgsim获得。附加文件1:补充说明1中描述了用于生成数据集的命令 。
为了生成TCR-Seq数据集,我们使用了T细胞受体α链(TCRA)[ 32 ]。我们生成的读取长度为100 bp的样本。读数覆盖范围在1到32之间。对于所有样品,平均片段长度设置为200 bp。
使用基于单体型的纠错协议生成无错误的读
我们使用来自NCBI的真实测序数据(由Giallonardo等人准备,登录号为SRR961514)准备了病毒数据集D5。[ 20]。这是对5种具有不同基因组的B亚型HIV-1病毒的混合物进行的MiSeq测序实验。原始数据集包含714994个MiSeq 2×250 bp读数,我们将其映射到所有五个HIV-1参考基因组上。每次读取均被分配给具有最小不匹配数的参考。由于未映射的读取没有最佳匹配,因此我们将其删除;结果,剩余的706,182读物。数据集中的原始错误率为1.44%。我们对这些读数进行了如下修改:首先,我们用相应的参考核苷酸纠正了错误的相应部分,以在数据集中获得不同级别的错误(1.44%,0.33%,0.1%,0.033%,0.01%,0.0033%,0.001 %,0.00033%,0.0001%);其次,我们创建了两个单元型与原始单元1混合的数据集。错误率达44%,但单倍型之间的差异程度不同(汉明距离= 5.94%,0.29%,0.02%)。从原始数据集SRR961514中选择了两个单元型“ 89.6”和“ YU2”。原始单倍型的汉明距离等于0.0595%。校正“ YU2”单倍型的随机部分以将其距离减小至“ 89.6”。来自“ 89.6”的MiSeq读数也已得到纠正。我们控制我们的更正不能解决测序错误。因此,如果在读取的某个位置进行的校正最终导致消除了测序错误,我们将通过引入随机错误的核苷酸将其重新引入相同的位置。原始单倍型的汉明距离等于0.0595%。校正“ YU2”单倍型的随机部分以将其距离减小至“ 89.6”。来自“ 89.6”的MiSeq读数也已得到纠正。我们控制我们的更正不能解决测序错误。因此,如果在读取的某个位置进行的校正最终导致消除了测序错误,我们将通过引入随机错误的核苷酸将其重新引入相同的位置。原始单倍型的汉明距离等于0.0595%。校正“ YU2”单倍型的随机部分以将其距离减小至“ 89.6”。来自“ 89.6”的MiSeq读数也已得到纠正。我们控制我们的更正不能解决测序错误。因此,如果在读取的某个位置进行的校正最终导致消除了测序错误,我们将通过引入随机错误的核苷酸将其重新引入相同的位置。
专为混合基因组设计的纠错方法
大多数错误校正方法是为单个基因组设计的,而Pollux是为由多个微生物基因组组成的宏基因组学数据而设计的独特方法。它也可以对来自单个基因组的数据进行测序。Pollux确定数据中每个观察到的k-mer的出现次数。k聚体计数用于确定每次读取的k聚体深度概况并定位测序错误。
选择k-mer尺寸
对于每个数据集,我们使用的k-mer大小范围为20到30 bp。在错误校正工具配备了基因组大小选项的情况下,我们提供了相应基因组大小的长度。用于T细胞免疫库测序的基因组大小为405,000 bp(样本中存在的所有模拟TCR转录本的总长度),而用于人类的整个基因组测序大小为46,709,983 bp(chr21的长度),以及5,594,605 E的bp(所有染色体的长度)。大肠杆菌。用于病毒测序(HIV)的基因组大小为9181 bp。
评估纠错精度
纠错的评估涉及获得无错误的读取,原始原始读取以及通过计算错误校正工具校正的原始读取。然后使用多个序列比对比较读数。我们使用MUSCLE [ 33 ]进行多序列比对。原始读取表示使用纠错工具之前的基础。EC读数表示使用纠错工具后的基准值。真实读数代表正确的基础。真阳性(TP)表示正确更改了测序错误。假阴性(FN)表示错误被忽略或错误更改不正确(附加文件 1:图S1)。误报(FP)表示将正确的基准更改为错误的基准。真负(TN)表示保留了正确的基数。修剪还被评估为TP或FP修剪。如果未正确更改基础,则将FN基础调用评估为FN错误;如果未触摸基础并且应将其更正,则将FN评估为FN(附加文件 1:图S2)。我们还报告了每个工具的CPU时间和最大RAM使用量。
数据压缩格式
由于纠错的fastq文件的数量和大小,压缩了对读取的评估。为了总结各种工具无法解决的错误,采用了一种与错误校正评估类似的方法。代替从INDEL中确定TP,TN,FP的数量,从修整,常规FP和FN基数确定FP的数量,数据压缩将以以下简化的方式表示此数据。格式按以下顺序排列:read_name,length,TP,FN,FN WRONG,FP,FP INDEL,FP TRIM,TP TRIM(例如:1_22_238_1:0:0_3:0:0_0 / 1,100,3,0,0, 0,0,0,0)。如果等位基因被分类为TP,FP或FN,则会生成此输出数据。
评估成效
我们通过报告挂墙时间,CPU时间和每个工具使用的最大RAM量来比较纠错工具的性能。这些性能指标是通过-qsub选项以及附加的-m bse选项获得的,该选项允许自动生成CPU和内存使用情况统计信息。用于对工具进行基准测试的群集中的典型节点具有双十二核2.2 GHz Intel ES-2650v4 CPU和Intel 800GB DC S3510系列MLC(6 Gb / s,0.3 DWPD)的2.5英寸SATA SSD。
比较基因组类别中工具的性能
我们根据序列的复杂性比较了不同基因组类别的纠错工具的性能。为了用类别注释基因组(更准确地说是人类基因组的21号染色体),我们使用了RepeatMasker(版本4.0.9)。结果,基因组被分为多个类别(最丰富的类别是“ LINE / L1”,“ SINE / Alu”,“ LTR / ERVL-MaLR”,“ LINE / L2”,“ LTR / ERV1”,“ LTR / ERVL”,“ SINE / MIR”,“ Simple_repeat”,“ DNA / hAT-Charlie”,“ DNA / TcMar-Tigger”,“卫星/中心”,“ DNA / hAT-Tip100”,“ LTR /吉普赛人”, ”,“低复杂度”,“ LINE / CR1”,“ LINE / RTE-X”,“卫星”,“ LTR”和“ LTR / ERVK”)。我们还引入了“正常”类别,该类别由不在上述任何类别中的序列组成。如果读取与类别X的序列重叠,则认为该读取属于类别X。
数据和资料的可用性
D1和D3数据集是使用WgSim工具的自定义版本通过计算仿真生成的,该版本可从https://github.com/mandricigor/wgsim [ 34 ]获得。SRA数据是通过SRA存档(https://www.ncbi.nlm.nih.gov/sra)下载的。D2数据集的8个样本对应于登录号:SRR1543964,SRR1543965,SRR1543966,SRR1543967,SRR1543968,SRR1543969,SRR1543970和SRR1543971。D4数据集由登录号SRR11207257标识,该号码对应于受感染患者基于UMI的HIV人群测序,网址为https://www.ncbi.nlm.nih.gov/sra/SRR11207257。D5数据集是使用来自NCBI的真实测序数据(登录号为SRR961514)生成的。可通过https://doi.org/10.6084/m9.figshare.11776413获得数据集D1,D2,D3,D4和D5的原始读数和真实读数。比较错误校正方法的计算管道是开源的,在MIT许可下可从https://github.com/Mangul-Lab-USC/benchmarking.error.correction [ 35 ]公开获得。
标签:校正,computational,methods,错误,测序,工具,纠错,数据 来源: https://blog.csdn.net/u010608296/article/details/113083790