利用metaphlan2结果计算alpha多样性
作者:互联网
利用metaphlan2结果计算alpha多样性
前期回顾
MetaPhlAn2是分析微生物群落(细菌、古菌、真核生物和病毒)组成的工具,可以基于宏基因组数据,获得微生物群体中种水平精度的组成,包括细菌、古菌、真核生物和病毒。如果有株水平基因组的物种,也可以追踪和研究。
MetaPhlAn2整理了超过17000个参考基因组,包括13500个细菌和古菌,3500个病毒和110种真核生物,汇编整理了100万+类群特异的标记基因,可以实现:
- 精确的分类群分配
- 准确估计物种的相对丰度
- 种水平精度
- 株鉴定与追踪
- 超快的分析速度
结果展示
输出结果为各层级物种相对丰度值,但是这样的表格并不合适进行α多样性的分析
SampleID | Metaphlan2_Analysis_1 | Metaphlan2_Analysis_2 | Metaphlan2_Analysis_3 |
---|---|---|---|
k__Archaea|p__Euryarchaeota|c__Methanobacteria | 0.31692 | 0 | 0.14969 |
k__Archaea|p__Euryarchaeota|c__Methanococci | 0 | 0.00208 | 0.00174 |
所以我们需要将MetaPhlAn2的结果转成STAMP的格式
格式转化
metaphlan_to_stamp.pl ./taxonomy.tsv > ./taxonomy.spf
以上程序可以在https://github.com/LangilleLab/microbiome_helper上下载到
因为去掉了重复的分层注释,所以STAMP结果是
Kingdom | Phylum | Class | Metaphlan2_Analysis_1 | Metaphlan2_Analysis_2 | Metaphlan2_Analysis_3 |
---|---|---|---|---|---|
k__Archaea | p__Euryarchaeota | c__Methanobacteria | 0.31692 | 0 | 0.14969 |
k__Archaea | p__Euryarchaeota | c__Methanococci | 0 | 0.00208 | 0.00174 |
什么是α多样性
α-多样性(α-diversity)指局部区域的物种数量。
什么是Shannon指数
Shannon指数,也称香浓指数,也是在α多样性分析中常见的概念, 在1963年由Shannon和Wiener首先提出来。Shannon指数不只关心物种丰富度,而且同时关心物种的均匀度(Evenness),所以是对群落结构的更综合性的反应。它的具体算法是:
H=-∑(Pi)(log2Pi)
其中Pi是样品中属于第i种的个体的比例,如样品总个体数为N,第i种个体数为ni,则Pi=ni/N。Shannon指数的总体理念是为了预测下一个采集的物种是什么,因此它是对采集物种的不确定性进行分析。如果群落的多样性越高,那么下一个采集到物种的不确定性更大。
举个例子,如果X群落只由4个物种M组成,Y群落由各一个E、F、G、H物种组成,那么在连续采样的时候,X群落中,第一个采样的是M,第二个还是M,这个结果是肯定的,因此X的多样性更低。而Y群落,第一个采E之后,第二个有同样的可能性采到其他三个种,因此相比X来说,Y的不确定性更大,多样性则更高。
对于Shannon指数的计算方法来说,我们举个例子进一步说明,如果:
A群落:甲2、乙2、丙2,则各物种比例为甲(0.33),乙(0.33),丙(0.33)
B群落:甲4、乙1、丙1,则各物种比例为甲(0.67),乙(0.17),丙(0.17)
通过计算可以得到,群落A的Shannon值=-〔0.33(log20.33)+0.33(log20.33)+0.33(log20.33)〕=1.58,同理,群落B的是Shannon值为1.26。数值显示,群落B的α多样性比群落A的低,这是由于群落B的物种均匀度更低所引起的。
Shannon指数如何计算
如果不考虑低丰度问题,我们可以根据以上转化为.spf为后缀的文件进行计算,以class为例进行。因为香浓指数实际上是对群落物种的个数进行计算,所以我们将表格进一步转化,非零的单元格全部转为1,转化后的表格如下
Kingdom | Phylum | Class | Metaphlan2_Analysis_1 | Metaphlan2_Analysis_2 | Metaphlan2_Analysis_3 |
---|---|---|---|---|---|
k__Archaea | p__Euryarchaeota | c__Methanobacteria | 1 | 0 | 1 |
k__Archaea | p__Euryarchaeota | c__Methanococci | 0 | 1 | 1 |
最后根据公式进行计算(以excel的公式书写方法):
Metaphlan2_Analysis_1的Shannon指数:-(1/1)*log((1/1),2)=0
Metaphlan2_Analysis_2的Shannon指数:-(1/1)*log((1/1),2)=0
Metaphlan2_Analysis_3的Shannon指数:-[(1/2)*log((1/2),2)+(1/2)*log((1/2),2)]=1
我们也可以看出Metaphlan2_Analysis_3的多样性是大于Metaphlan2_Analysis_1和Metaphlan2_Analysis_2
标签:__,Analysis,多样性,Metaphlan2,群落,物种,metaphlan2,alpha,Shannon 来源: https://blog.csdn.net/m0_37526339/article/details/88531786