长序列测序数据分析的机遇与挑战
作者:互联网
导读:长序列测序(即三代测序)技术正克服精确性和通量方面的限制,逐渐应用于基因组学的各个研究领域,因此专门的分析工具也应运而生。但目前层出不穷的此类工具使研究者难以抉择,为了更好地指导长序列测序数据的设计和分析,墨尔本大学Gouil团队综述了长序列测序数据分析工具的当前状况,并提出一个在线交互式数据库https://long-read-tools.org/。今天,我们将跟随Gouil一起了解当前长序列测序数据分析的机遇和挑战。
文献获取:关注“三代测序”,回复“20201115”,获取本研究原文。
正文
1. 长序列测序和数据分析的现状(The state of long-readsequencing and data analysis)
Nanopore和SMRT长序列测序技术依赖不同的原理。当单链核苷酸序列通过nanopore时,Nanopore测序仪(MinION、GridION和PromethION)测量的是离子电流波动,不同的核苷酸对孔内不同核酸延伸的抗性不同,因此可从特定的电流变换推断碱基序列。SMRT测序仪(RSII、Sequel和Sequel II)检测的是特定核苷酸的荧光事件,SMRT测序的序列长度受聚合酶的寿命限制。尽管Nanopore和SMRT是真正的长序列测序技术,并且是本文的重点;但也有合成的长序列测序方法,包括连接序列、邻位连接策略和光学测绘,可与真正长序列分析方法协同使用。
针对组装基因组、甲基化、变异、异构体、单倍型以及物种分析等不同的分析目的,从2011年后逐渐开发了基于长序列数据分析的各种软件(如图1a)。
通过检索文献、网络资源和社交媒体,我们找到了354种长序列分析工具,其中大多数(262)中为Nanopore序列分析工具,170个为SMRT分析工具。我们进一步根据功能将上述工具分为31个组。这确定了研究兴趣发展的趋势:由于长序列测序技术初始的通量问题,大多数工具都是经非人类数据进行测试;从头组装、错误校正和修饰分类的工具受到了最多关注,而转录组分析仍处于早期开发阶段(如图1b)。
如图1c,我们对Nanopre和SMRT数据的分析流程进行了概述,重点介绍了通用工具;同时介绍了长序列分析的原理和潜在陷阱,集中于一些主要类型的下游分析,如结构变异信息获取,错误纠正,碱基修饰的检测和转录组。
图1. 长序列分析工具和流程概述。a,已发布的工具;b,功能类别;c,用于SMRT和Nanopore数据的典型长序列分析流程。
Fig. 1 Overview of long-read analysis tools and pipelines. a,Release of tools identified from various sources and milestones of long-read sequencing. b,Functional categories. c, Typicallong-read analysis pipelines for SMRT and nanopore data. Six main stages are identified through the presented workflow (i.e. basecalling, quality control, read error correction, assembly/alignment, assembly refinement, and down stream analyses). The green-coloured boxes represent processes common to both short-read and long-read analyses. The orange-coloured boxes represent the processes unique to long-read analyses. Unfilled boxes represent optional steps. Commonly used tools for each step in long-read analysis are within brackets. Italicssignify tools developed by either PacBio or ONT companies, and non-italics signify tools developed by external parties. Arrows represent the direction of the workflow.
2. 碱基判读(Basecalling)
任何长序列分析的第一步都是碱基判读,或是将原始序列转换到核酸序列。长序列分析中的此步骤比在短序列分析中更受到重视,而短序列分析中碱基检测依赖专门软件,更标准化。Nanopore碱基检测比SMRT碱基检测更复杂,也更具有选择性:我们发现26个碱基判读工具中有23个与Nanopore测序相关的。
在SMRT测序中,连续的荧光被记录为一个movie。由于模版是环形的,聚合酶可能会多次越过DNA片段的两条链。SMRT碱基检测从将荧光信号转换为脉冲信号,再将脉冲信号转换为碱基开始,形成连续的长序列。然后将这种长序列拆分为多个子序列,其中每个子序列对应一次被测的文库,而没有连接序列。子序列存储为未比对的BAM文件。将这些子序列比对,可以得出插入序列的一致性环状序列(CCS)。SMRT碱基判读程序主要在于内部开发,并需要特殊训练。当前SMRT的碱基检测流程就是CCS。
Nanopore原始数据是在HDF5的基础上以fast5格式保存的4kHz下测量的电流强度值。Nanopore测序的碱基检测是一个活跃的研究领域,对其进行训练的化学方法的算法正在迅速发展。ONT提供了碱基判读的多种软件,如Guppy和其他进阶版软件(Flappie,Scrappie,Taiyaki,Runnie和Bonito)。总的来说,碱基判读软件具有最佳准确性和最稳定的性能,并且适合大多数用户。进阶版的碱基判读软件可以用来测试碱基特征,例如均聚物准确性、变异体检测或碱基修饰检测,但不一定针对速度和整体准确性进行优化。
也可以使用具有不同网络结构的独立碱基判读软件,最著名的是Chiron。当然,作为使用者,我们应该知道碱基判读软件的准确度实际低于宣传值。比如目前对ONT的碱基检测进行了人、酵母和细菌DNA混合物的训练,但它们在富含非CG甲基化的植物DNA上的性能可能较低。
3. 错误、纠错和抛光(Errors, correction, and polishing)
SMRT和Nanopore技术的单序列精度均比短序列测序更低。就SMRT而言,一致性环形序列的质量很大程度上取决于序列读取的次数——单个SMRT-bell分子的测序深度。若错误不是随机的,增加测序深度将不能消除它们。但是子序列由插入/缺失带来的随机错误比错配更多,因此建议使用通用方法来避免系统误差。尽管如此,CCS序列仍有错误并对均聚物表现出偏好性。就Nanopore而言,序列质量与DNA序列的长度无关。序列质量取决于实现核酸通过孔的最佳转运速度,通常在测序运行的后期降低,从而影响测序质量。较为常见的是插入和替换,随机但不均匀分布。
尽管目前长序列测序的准确性已足以确定基因组来源,但某些仍需要很高的碱基水平的准确性,包括从头组装、变异检测或定义内含子-外显子边界。可以采用单独的长序列分析方法(非混合)和利用其他短序列的方法(混合)。如图2所示。在非混合方法中,首先将所有序列比对,然后使用一致性序列来纠错单个序列;此时就可以将这些纠错过的片段用于组装或其他应用。此外,还可以根据短序列的使用方法将混合纠错方法进一步分类。
组装完成后,从contigs中清除剩余错误的过程称为“抛光(polishing)”。其中一种方法是通过使用Arrow(用于SMRT子序列)或Nanopolish(用于Nanopore电流轨迹)来提高一致性序列的准确性。对于Nanopore数据,polishing还考虑了碱基修饰来提高装配的准确性。
尽管长序列测序的准确性不断提高,但在许多应用中纠错仍然是必不可少的。我们确定了62个能够进行纠错的工具。校正装配需要综合使用多种工具(如Racon、Pilon和Nanopolish)进行耐心细致的工作。但由于缺乏权威的纠错流程,使得很多纠错工具无法很好地应用于深度测序或大型基因组中。此外大多数工具在设计时都考虑了单倍体组件,但等位基因变异、重复和基因家族可能无法正确处理。
图2. 纠错(a)和抛光(b)的范例。长序列和组装中的错误用红叉表示,非混合方法仅需长序列,混合方法还需准确的短序列(紫色)。
Fig. 2 Paradigms of error correction(a) and polishing (b). Errors in long reads and assembly are denoted by red crosses. Non-hybrid methods only require long reads, while hybrid methods additionally require accurate short reads (purple).
4.检测结构变异
尽管短序列能够准确检测单核苷酸变异和小片段插入或删除,但不适用于检测长序列改变。大于50bp的结构变异(SV),如插入、删除、重复、染色体倒位或易位更适合用长序列测序。长序列测序跨越重复元件或重复区域的能力具有独特的锚点,从而有利于从头组装和SV检测。即使是相对较短的SMRT片段(5kb),也可以鉴定出人类基因组中先前被短序列技术遗漏的结构变异。
5. 检测碱基修饰
除了规范的A、T、C和G碱基外,DNA还包括修饰碱基,这些碱基的性质和频率在生物体和组织间会发生改变,6mA、4mC、5mC在细菌中很常见,5mC是真核生物中最常见的碱基修饰,而5hmC、5fC和5caC已经在某些哺乳动物细胞中检测到,但尚未得到深入表征;此外由DNA损伤引起的更多碱基修饰仍在低频发生。SMRT测序可以检测到6mA、4mC、5mC和5hmC的DNA修饰。Nanopore测序中,经修饰的RNA或DNA碱基对电流通过孔的影响与未修饰碱基的影响不同,从而导致信号移位(如表1)。如图3,可以通过三种不同的方法在碱基判读后和比对后识别这些变化:(a)通过与计算机参考库、对照或未修饰样本比对;(b)使用预训练模型;(c)直接使用碱基判读软件。
表1 检测Nanopore数据碱基修饰的工具和测量
图3 长序列测序中检测碱基修饰的方法。
Fig.3 Methods to detect base modifications in long-read sequencing. Base modifications can be inferred from their effect on the current intensity (nanopore)and inter-pulse duration (IPD, SMRT). Strategies to call base modifications in nanopore sequencing and the corresponding tools are further depicted.
6. 分析长序列转录组(Analysing long-read transcriptomes)
可变剪切是增加真核生物基因表达复杂度的主要机制,然而短序列不能完全组装也不能准确定量所表达的异构体,尤其是在复杂的位点中。长序列测序可能会通过测序全长转录本来解决这个问题,我们统计了36种与长序列转录组分析相关的工具。大多数长序列异构体检测工具是通过将比对和纠错的序列聚类并拼接为异构体,但是不同工具之间的具体实现有所不同。PacBio公司的ISO-SEQ3是最成熟的长序列转录组分析流程,能够装配全长的转录本;它为SMRT序列执行预处理,通过层次聚类和迭代合并从头发现转录本,并进行修饰。Cupcake用于下游分析,提供了丰度信息并进行junction分析。但是Iso-Seq的文库准备通常需要大小分级,这使得绝对定量和相对定量变得困难;同时昂贵的成本也是需要考虑的问题之一。因此,IsoCon、SQANTI、TALON等异构体检测流程,以及FLAIR、Tama、IDP、TAPIS、Mandalorion Episode II等异构体注释流程应运而生,从不同方面改善了Iso-Seq的上述问题。但此项功能仍需要进一步的研发和调整。如图4,展示了转录组分析的类型及步骤。
图4 转录组分析的类型及步骤
Fig.4 Types of transcriptomic analyses and their steps.The choice of sequencing protocol amongst the six available workflows affects the type, characteristics, and quantity of data generated. Only direct RNA sequencing allows epitranscriptomic studies, but SMRT direct RNA sequencing is a custom technique that is not fully supported. The remaining non-exclusive applications are isoform detection, quantification, and differential analysis. The dashed lines in arrows represent upstream processes to transcriptomics
7. 组合长序列、合成长序列和短序列(Combining long reads, synthetic long reads, and short reads)
仅基于长序列的组装通常会产生高度完整和连续的基因组,但是多数情况下,短序列或合成长序列技术产生的序列可进一步改善结果。不同的技术可以以不同的规模进行干预:短序列可确保基本水平的准确性,高质量5-15kb SMRT序列可产生良好的contigs,而超长(100kb+)Nanopore序列、光学映射或Hi-C提升了contigs拼装后转变为染色体的能力。将这些技术应用到一个基因组计划中将是非常昂贵的。然而,应用在一些基因子集中是比较常见的,尤其Nanopore/SMRT的短序列测序。
对于结构变化或碱基修饰的检测,从SMRT和Nanopore数据获取的正交支持可用于确认发现和限制假阳性。诸如Unicycler之类的工具整合了长序列和短序列数据以生成混合组装,而Canu、Pilon、racon等工具也具有为实现此目的的流程。然而工具和数据类型的组成仍然是一个挑战,通常需要大量的人工整合。
8. 长序列测序数据分析工具目录:long-read-tools.org (long-read-tools.org: acatalogue of long-read sequencing data analysis tools)
在过去十年中,工具的迅猛发展反映了生物学领域对长序列测序日益增长的兴趣。有开源静态目录(github.com/B-UMMI/long-read-catalog)、各个实验室为特定目的开发的自定义流程(Search results from GitHub)以及其他将其归纳为一个更广泛的研究社区的尝试。能够轻松识别存在或不存在的工具对于计划和执行最佳实践分析,建立全面的基准并指导新软件的开发至关重要。因此我们引入了https://long-read-tools.org/,这是一个整合了长序列数据分析工具的实时数据库。用户可以按照技术和预期分析类型交互式搜索相应工具。除了真正的长序列测序技术之外,我们还整合了合成长序列方法。https://long-read-tools.org/是MIT许可下的一个开源项目,代码可通过GitHub获得。我们鼓励研究人员直接通过GitHub或通过网页为相关工具和数据库的改进提供意见。
总结: 长序列测序技术为基因组学研究开辟了新的途径,但目前仍面临诸如获取准确而完整的基因组和转录组的挑战,因此需要进一步的努力来研发和基准化相关工具。
参考
[1] Amarasinghe et al.Opportunities and challenges in long-read sequencing data analysis,Genome Biology (2020) 21:30
后记
随着测序技术的不断发展,科学研究进入了数据井喷的时代。然而,测序样本的处理流程、测序数据的分析流程甚至是数据分析过程中的数据库搭建问题,都给测序技术的普及化设置了壁垒,严重阻碍了该项技术向广大科研工作者中推广。此外,基于长读长的三代测序技术的发展更是引入了一套完全有别于二代测序数据处理的分析流程,为了让更多学者认识三代测序、在科学研究中用好三代测序,本公众号应运而生。期待与您一起学习、成长。
标签:数据分析,碱基,测序,long,Nanopore,序列,SMRT 来源: https://blog.csdn.net/u010608296/article/details/111309746