首页 > 其他分享> > 生信软件工具-trim_galore

生信软件工具-trim_galore

2020-06-24 09:55:25 作者：互联网

trim_galore

注意：软件工具一般会定期进行迭代更新，如果使用出现问题，请查看官方文档。

网址：http://www.bioinformatics.babraham.ac.uk/projects/trim_galore/
- 需先安装fastqc和cutadapt
Trim galore简介
Trim Galore是对FastQC和cutadapt的包装。适用于所有高通量测序，包括RRBS(Reduced Representation Bisulfite-Seq )、 Illumina、Nextera和smallRNA测序平台的双端和单端数据。主要功能包括两步：第一步首先去除低质量碱基，然后去除3' 末端的adapter, 如果没有指定具体的adapter，程序会自动检测前1 million的序列，然后对比前12-13bp的序列是否符合以下类型的adapter:
- Illumina: AGATCGGAAGAGC
- Small RNA: TGGAATTCTCGG
- Nextera: CTGTCTCTTATA
示例：

## 处理双端测序结果
echo " trim_galore cut adapters started at $(date)"
trim_galore -q 20 --phred33 --stringency 3 --length 20 -e 0.1 \
--paired $dir/cmp/01raw_data/$fq1 $dir/cmp/01raw_data/$fq2  \
--gzip -o $input_data \
-a1 ATCG... \
-a2 TAGC...
echo "trim_galore cut adapters finished at $(date)"

参数说明：
--quality：设定Phred quality score阈值，默认为20。
--phred33：选择-phred33或者-phred64，表示测序平台使用的Phred quality score。
--adapter：输入adapter序列。也可以不输入，Trim Galore会自动寻找可能性最高的平台对应的adapter。自动搜选的平台三个，也可以直接显式输入这三种平台，即--illumina、--nextera和--small_rna。其中adapter1 为3'端引物，通常不同组织样有自己对应的引物，公司提供的word里面都附带的有，此处执行命令时需要在该序列前添加A，不然程序会提醒adapter不完整a2后面的其实是5'端引物的反向互补序列
--stringency：设定可以忍受的前后adapter重叠的碱基数，默认为1（非常苛刻）。可以适度放宽，因为后一个adapter几乎不可能被测序仪读到。
--length：设定输出reads长度阈值，小于设定值会被抛弃。
--paired：对于双端测序结果，一对reads中，如果有一个被剔除，那么另一个会被同样抛弃，而不管是否达到标准。
--retain_unpaired：对于双端测序结果，一对reads中，如果一个read达到标准，但是对应的另一个要被抛弃，达到标准的read会被单独保存为一个文件。
--gzip和--dont_gzip：清洗后的数据zip打包或者不打包。
--output_dir：输入目录。需要提前建立目录，否则运行会报错。
-- trim-n : 移除read一端的reads

标签：trim,双端,adapter,测序,galore,reads,生信
来源： https://www.cnblogs.com/dataanaly/p/13185942.html