Mothur可视化_Mothur输出结果可视化_测序数据分析常用图表
作者:互联网
本人在读研究生,方向环境微生物。之前在学习生物信息分析过程中在网络上四处奔走获取相关学习资料与解决问题,好生麻烦。于是,我就把与同学一起做的一些生物信息分析相关教程与经验总结搬运到这个CSDN这个大平台上来,希望能够与大家一起学习讨论。班门弄斧,大神见文多指教,抱拳抱拳抱拳抱拳!
本文主要讲解了对生物信息分析软件Mothur的分析输出结果文件进行图形可视化,及其可视化结果的应用。
前言:小编刚开始看高通量测序数据分析文章的时候,感觉个个图表都高大上,但只觉得别人画的真好,自己却真的一无所知耶,更别提能看懂文章了。那么现在学习完使用Mothur分析数据了,是不是万事大吉了呢?并不是,因为Mothur的输出文件有很多,而且只有数字的堆砌如何能说明问题?因此,我们就要对数据进行可视化啦?那么,我们要可视化哪些数据呢?使用图还是表格?真的让人头大啊!!!不要着急,相信我们也可以做出文章里展示的图。
本文选取了Mothur的五个输出文件,根据文件内容,绘制了以下图表,更有一些图表的基础知识也分享给大家哦~总之,看完这篇文章,也许你会受益良多!
01文件一:
stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pick.pick.opti_mcc.shared
文件内容:
打开该文件可以看到一共有524个OTU,第二列为样本名称,即统计了OTU的个数,以及每个样本中所具有的每个OTU的数量。相当于QIIME软件运行输出的OTU_table,即我们常说的OTU表格。基于OTU表格一般可以绘制韦恩图、计算多样性、进行统计检验等。
韦恩图
韦恩图又称文氏图,用于统计多个样本中所共有和独有的物种数目,可以比较直观的表现环境样本在不同的分类水平上(多为OTU水平上的)的组成相似性及重叠情况。当样本组数量不大于5时,一般采用常规的韦恩图形式;当样本组数量大于5时,通常使用Upset韦恩图或者花瓣韦恩图形式。
绘图软件:Origin 2019b 32位
Beta多样性
在生物群落的研究中,经常会使用物种群落间的距离来评估样本间物种群落的差异程度,这种群落间的距离就是beta多样性。最常用的评估物种群落距离的beta多样性指数是Bray-Crutis距离和Unifrac距离。Bray-Crutis距离在计算是同时考虑了物种在群落中是否存在以及物种在群落中的丰度。Unifrac距离分为加权和不加权两种,Unweighted Unifrac在计算时只考虑物种在样本中是否存在,Weighted Unifrac在计算时同时考虑物种的存在及其丰度。
使用软件:Past
1.PCA
PCA分析(Principal Component Analysis)即主成分分析,是一种对数据进行简化分析的技术,这种方法可以有效的找出数据中最“主要”的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简单结构。其优点是简单且无参数限制。通过分析不同样本群落组成反映样本间的差异和距离,PCA运用方差分解,将多组数据的差异反映在二维坐标图上,坐标轴取能够最大反映样品间差异的两个特征值。如样本物种组成越相似,反映在PCA图中的距离越近。
2.PCoA
PCoA分析即主坐标分析(principal co-ordinates analysis),也是一种非约束性的数据降维分析方法,可用来研究样本群落组成的相似性或差异性,首先对一系列特征值和特征向量进行排序,然后选择排在前几位的最主要特征值,并将其表现在坐标系里,结果相当于是距离矩阵的一个旋转,没有改变样本点之间的相互位置关系,只改变了坐标系统。
方法注释:PCA与PCoA的主要区别在于PCA利用物种(包括OTU)丰度表,基于欧氏距离直接作图;PCoA是基于所选距离矩阵进行作图,二者都是通过降维找出影响样本群落组成差异的潜在主成分。 |
统计检验
1. 两组多样性差异
单纯的查看多样性指数意义不大(数字只是数字,我们更专注的应该是其代表的意义)。多进行两组间多样性指数的比较,下图就是比较两组间多样性的差异,结果表明两组间具有显著差异。
使用软件:past
2. ANOSIM
Anosim分析(Analysis of similarities)是一种基于置换检验和秩和检验的非参数检验方法,用来检验组间的差异是否显著大于组内差异,从而判断分组是否有意义。Anosim分析使用距离进行分析,也可以直接使用距离矩阵进行分析。
使用软件:Past
统计结果:
箱线图:
3. OTU贡献率
使用软件:Past
基于Bray-Crutis计算物种贡献率,统计结果如下表:截取贡献率大于1%
使用柱状图可视化:
02文件二:
stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pick.pick.opti_mcc.0.03.cons.tax.summary
文件内容:
该文件为从界到属6个水平的物种注释表,用数字1-6代表。该类型文件在QIIME中是通过q2-feature-classifier插件完成的。
根据分类学分析结果,可以得知不同分组(或样本)在各分类水平(如域、界、门、纲、目、科、属、种、OTU等)上的群落结构组成情况。通过对物种注释结果进行计算,可以得出某一物种在不同注释水平的相对丰度,找出优势种群。其结果有的展示方法一般有柱状图、饼图、热图等。
物种丰度柱状图
根据群落Bar图,可以直观呈现两方面信息:(1)各样本在某一分类学水平上含有何种微生物;(2)样本中各微生物的相对丰度(所占比重)。
使用软件:Origin 2019b 32位
1. 门水平相对丰度图
2. 属水平前1%物种相对丰度图
03文件三:stability.opti_mcc.count.summary
文件内容:
该文件第一列为样本名称,第二列为序列数目,我们通过柱状图来展示。
样本序列数柱状图
使用软件:Origin 2019b 32位
文件注释:横坐标是样本名称,纵坐标为序列数目。 |
04文件四:stability.opti_mcc.groups.rarefaction
文件内容:
该文件是在Mothur中使用rarefaction.single命令生成的稀释曲线文件,用于描述观察到的OTUs数量与采样工作量的关系,我们直接选取表格中数据进行可视化即可。
稀释曲线
稀释性曲线是从样本中随机抽取一定数量的个体,统计这些个体所代表的物种数目,并以个体数与物种数来构建曲线。它可以用来比较测序数据量不同的样本中物种的丰 富度,也可以用来说明样本的测序数据量是否合理。采用对序列进行随机抽样的方法,以抽到的序列数与它们所能代表各分类学水平的数目构建稀释性曲线,当曲线趋向平坦 时,说明测序数据量合理,更多的数据量只会产生少量新的物种(或OTU),反之则表明继续测序还可能产生较多新的物种。因此,通过作稀释性曲线,可得出样品的测序深度情况。
使用软件:Origin 2019b 32位
05文件五:stability.opti_mcc.groups.ave-std.summary
文件内容:
该文件是在Mothur中使用summary.single命令得到一个包含序列数(number of sequences)、样本覆盖率(Coverage)、观测OTU数(observed OTUs)和逆Simpson多样性(Inverse Simpson diversity )估计的表。在QIIME中可以通过计算核心多样性实现。
每个特征的从属关系。
知识拓展
Insimpson指数箱线图
箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因形状如箱子而得名,常用于展示样品组中各样品Alpha多样性的分布。
使用软件:Origin 2019b 32位
以上就是本次可视化的全部内容!当然可视化的方式还有很多,篇幅有限就不一一展示啦。
这篇推文对你有帮助吗?喜欢这篇文章吗?喜欢就不要错过呀,关注本知乎号查看更多的环境微生物生信分析相关文章。亦可以用微信扫描下方二维码关注“环微分析”微信公众号,小编在里面载入了更加完善的学习资料供广大生信分析研究者爱好者参考学习,也希望读者们发现错误后予以指出,小编愿与诸君共同进步!!!
学习环境微生物分析,关注“环微分析”公众号,持续更新,开源免费,敬请关注!
转载自原创文章:
Mothur可视化_Mothur输出结果可视化_测序数据分析常用图表
最后,再次感谢你阅读本篇文章,真心希望对你有所帮助。感谢!
标签:文件,Mothur,样本,测序,物种,可视化,OTU 来源: https://blog.csdn.net/HUANWEIFENXI/article/details/120106294