其他分享
首页 > 其他分享> > 2021-05-12

2021-05-12

作者:互联网

宏基因组分析流程--Step1检查原始数据质量

详细内容见 微信公众号 【阿呆ForFun

https://mp.weixin.qq.com/s/SrmgNw-R5Zh2x_iHtWo6PQ

涉及到的内容太多,所以阿呆这里每天整理一点,成一个小系列。后期有改进的地方会及时更新~

 

Step1: Fastqc 检查原始数据质量

Step2: Trimmomatic 去掉接头(adapter)序列和低质量序列,得到clean data

Step3: Fastqc 检查clean data质量,得到数据质量统计表

同Step1

Step4: 去掉宿主序列(如人的序列,大鼠的序列等)

Step5: MetaPhIAn2 分析微生物群落丰度信息

Step6: HUMAnN2 分析微生物代谢途径和功能模块信息

Step7: LEfSe 分析进行多组间差异分析

 

 

Step1: Fastqc 检查原始数据质量

(1)FastQC 质控软件的下载

FastQC的下载地址:http://www.bioinformatics.babraham.ac.uk/projects/download.html#fastqc

linux命令:

nohup wget -c http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.5.zip 1>fastqc.o 2>fastqc.e

得到压缩包:fastqc_v0.11.5.zip

解压:unzip fastqc_v0.11.5.zip

进入FastQC

查看help文档:fastqc -h

增加可执行权限:chmod 754 fastqc

无需编译,直接运行

运行命令:fastqc -f fastq -o result/ clean_r1.fq clean_r2.fq

 

(2)FastQC 使用方法

用法:

fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1 .. seqfileN

参数:

-o 输出目录,需自己创建目录

--(no)extract 是否解压输出文件,默认是自动解压缩zip文件。加上--noextract不解压文件。

-f 指定输入文件的类型,支持fastq|bam|sam三种格式的文件,默认自动识别。

-t 同时处理的文件数目。

-c 是contaminant 文件,会从中搜索overpresent 序列。

 

(2)FastQC 更新

https://launchpad.net/ubuntu/+source/fastqc (可以去这个网站看fastQC在ubuntu上的最新版本以及以往发布的版本,界面如下)

fastqc -version(查看你的fastqc版本)

更新到最新的版本一般可以解决以下两种比较常见的报错问题:

Too many tiles (>500) so giving up trying to do per-tile qualities since we're probably parsing the file wronglyuk.ac.babraham.FastQC.Sequence.SequenceFormatException: Midline'CTCCTCCCAGCTGGGCTGACEGEH?CEFG<CGDFC3D@HE@ACE<E@59140.4559140.4T8TAGCTTAGEBB1:9?@DDDDDF:140.431' didn't start with '+'

(3)MultiQC, 整合QC质控结果

先将所有的数据进行质控,得到zip的压缩文件(*_fastqc.zip)和html文件(don’t need slurm)

fastqc -o /data/QC -t 6 *.fastq.gz  

然后利用multiqc整合分析fastqc质控文件

multiqc  /data/*_fastqc.zip

余下内容下期奉上~

 

参考:

1. https://blog.csdn.net/niuhuihui_fei/article/details/72961561

标签:文件,12,zip,05,fastqc,FastQC,2021,序列,质控
来源: https://blog.csdn.net/qingliujituan0206/article/details/116718667