在线分析丨相关性分析——RDA/CCA分析
作者:互联网
Q1:什么是RDA分析?
RDA分析(Redundancy analysis),即冗余分析,对比主成分分析可以发现,其实冗余分析就是约束化的主成分分析。冗余分析(redundancy analysis, RDA)或者典范对应分析(canonical correspondence analysis, CCA)是基于对应分析(correspondence analysis, CA)发展而来的一种排序方法,将对应分析与多元回归分析相结合,每一步计算均与环境因子进行回归,又称多元直接梯度分析。
Q2:什么是CCA分析
典型相关分析(Canonical Correlation Analysis)是研究两组变量之间相关关系的一种多元统计方法,它能够揭示出两组变量之间的内在联系。
优点:CCA是一种基于单峰模型的排序方法,样方排序与对象排序对应分析,而且在排序过程中结合多个环境因子,因此可以把样方、对象与环境因子的排序结果表示在同一排序图上。缺点:存在“弓形效应”。克服弓形效应可以采用除趋势典范对应分析(detrended canonical correspondence, DCCA)。
Q3:如何选择RDA和CCA?
RDA或CCA的选择问题:RDA是基于线性模型,CCA是基于单峰模型。一般我们会选择CCA来做直接梯度分析。但是如果CCA排序的效果不太好,就可以考虑是不是用RDA分析。RDA或CCA选择原则:先用species-sample资料做DCA分析,看分析结果中Lengths of gradient 的第一轴的大小,如果大于4.0,就应该选CCA,如果3.0-4.0之间,选RDA和CCA均可,如果小于3.0, RDA的结果要好于CCA。
Q4:如何不使用R语言绘制RDA/CCA图?
小编和他的小伙伴们开发了一个在线的作图小网站——云图图(www.cloudtutu.com,免费的哦~),操作步骤如下:
①登录网址:https://www.cloudtutu.com/#/index(推荐使用360或者谷歌浏览器)
②输入用户名和密码(小编已经为大家填好了,如果不显示可添加文末二维码添加小编获取),输入验证码后即可登录,不必注册,直接使用,不必担心隐私泄露,是不是诚意满满~
③RDA和CCA在图图云中是两个单独的工具,登录后在工具一栏(基础分析)里找到RDA或者CCA,点击进入;
④请按照界面右侧的说明书或者下文进行操作,即可在2分钟内获得一张精美的RDA或者CCA图喽~
话不多说,我们开始行动吧~
Step 1 上传数据
※目前平台仅支持.txt(制表符分隔)文本文件或者.csv文件的文件上传;
平台可对不规范的数据格式进行部分处理,但还是请您尽量按照示例数据的格式调整数据,以便机器可以识别。数据形式请参考示例数据。
a)准备第一个数据矩阵,格式见下图(如微生物物种丰度表、基因表达量矩阵、代谢物含量表等),第一行为样品名称,第一列为OTU名称;
b)准备第二个数据矩阵,格式见下图(如环境因子等),第一行为环境因子名称,第一列为样品名称
c)请提交.txt(制表符分隔)文本文件或者.csv文件。操作方法为:全选excel中的所有内容(ctrl+A),复制到记事本中,将记事本文件另存后上传该文件。
※传完文件后一定要填写说明书下方的分组信息!
Step 2 设置参数
2.1 方法选择:
a) hellinger,hellinger转化,就是总和标准化数据的平方根(default MARGIN=1),hellinger转化后的数据使用欧氏距离函数计算将得到hellinger距离矩阵。
b) normalize,模标准化,将数据除以每行或者每列的平方和的平方根(default MARGIN=1),模标准化后每行、列的平方和为1(向量的模为1),也即在笛卡尔坐标系中到原点的欧氏距离为1,样品分布在一个圆弧上,彼此之间的距离为弦长,因此也称为弦转化。在基于欧氏距离的PCA、RDA中分析群落数据可以将每个样方弦转化可以弥补欧氏距离的缺陷。弦转化后的数据使用欧氏距离函数计算将得到弦距离矩阵。
c) standardize,z-score标准化,最常用的标准化方法之一,将数据减去均值比上标准差(default MARGIN=2),z-score标准化后数据均值为0,方差为1,服从正态总体的数据标准化后服从标准正态分布。z-score标准化可以去除不同环境因子量纲的影响。
d) total,总和标准化,将数据除以该行或者列的总和,也即求相对丰度(default MARGIN=1),总和标准化后数据全部位于0到1之间。
e) max,最大值标准化,将数据除以该行或者列的最大值(defaultMARGIN=2)。若数据非负,最大值标准化后数据全部位于0到1之间。
f) freq,数据矩阵除以行或列的最大值,并乘以非零值的个数
g) range,Min-max标准化,将数据减去该行或者列的最小值,并比上最大值与最小值之差(defaultMARGIN=2),Min-max标准化后的数据全部位于0到1之间。
h) pa, 将数据转换为有-无(1-0)类型,若分析不加权的情况群结构下可以使用。
i) chi.square",卡方转化,在默认(defaultMARGIN=1)的情况下是数据除以行的和再除以列的和的平方根,卡方转化后的数据使用欧氏距离函数计算将得到卡方距离矩阵。
j) log, 将数据(样本观察值)取自然对数(或者其他数为底的对数),可以使用log()函数来实现(log1p()可以将数据加1后取自然对数)。若是数据中有0或负值,可以全部数据加上一个数转换为正数。一般来说自然对数转换可以使0~1范围内的数据范围变大,可以使>1范围内数据范围变紧凑。
2.2 横纵坐标字体大小:根据需求酌情选择。
2.3 元素大小:图中代表样品的图表的大小。
2.4 是否添加椭圆:
椭圆一:按照正常计算方式得到分组椭圆(有些数据可能加不上分组椭圆) 椭圆二:对无法添加正常椭圆的数据强行添加分组椭圆。
否:不添加分组椭圆
2.5 箭头颜色:图中代表环境因子的箭头颜色
3.6 分组信息:整个页面的右下角(图片的下方) 需要对所有样品进行分组,本网站支持在线修改分组名称和样品名称的功能。 不填写分组信息无法运算!
3.7 筛选显示种类:根据自己的需要,可以选择需要显示的样品。
Step 3 下载文件
根据个人需求进行参数调整后点击运行后等待5-10秒即可下载结果,平台提供PDF格式的矢量图下载。
Step 4 作图后处理
TUTU云平台提供的是PDF格式的矢量图,可通过矢量图处理软件(Inkscape或AI)进行编辑和调整(如:文字字体,文字大小,图片分辨率等)。图形处理软件和使用方法可扫描文后的二维码添加小编微信获取。
写作建议
RDA/CCA was performed on Tutools platform (https://www.cloudtutu.com), a free online data analysis website.
CCA and RDA analysis plot. The arrow length represents the strength of the correlation between the environmental variables and the microbes. The longer the arrow length, the stronger the correlation. The perpendicular distance between microbes and environmental variable axes in the plot reflects their correlations. The smaller the distance, the stronger the correlation.
尊敬的用户,如果图图云平台在您的科研中有幸提供了些许帮助,我们期望您能在方法学或者致谢中提及我们,引用方法如下:XXXX analysis was performed on Tutools platform (https://www.cloudtutu.com), a free online data analysis website. 目前平台还处于测试阶段,使用过程中有任何疑问或者报错欢迎随时联系小编反馈。您的反馈和建议是我们最大的动力~
标签:分析,数据,标准化,analysis,RDA,CCA 来源: https://blog.csdn.net/weifanbio/article/details/118852586