Beta 多样性详解:从概念到实践,全面掌握微生物群落差异分析
UniFrac距离
考虑物种间的进化关系
计算复杂,需要系统发育树
研究功能相似性时
Aitchison距离
适用于成分数据,避免假相关
不能处理零值
处理高通量测序数据时
有多种方法可以计算 Beta 多样性,以下介绍几种常用的方法,并用上图中的例子进行说明:
3.1.1 Bray-Curtis Dissimilarity
Bray-Curtis Dissimilarity是一种常用的 Beta 多样性度量方法,它考察的是两个样本之间共有微生物的丰度。取值范围从 0 到 1,0 表示两个样本的微生物组成完全相同,1 表示两个样本的微生物组成完全不同。
计算公式如下:
其中:
示例:
计算样本 A 和 B 之间的 Bray-Curtis 相异性。
蓝色、黄色和橙色物种是两个样本共有的物种。
BC = 1 - (2 * 13) / (27 + 19) = 0.4348
这是一个常用的指标,其界限范围 (0 - 1) 使得结果易于理解和比较。但需要注意的是,当样本中微生物数量很少时,即使丰度发生微小变化,也可能对 Bray-Curtis 相异性产生较大影响。反之,当样本中微生物数量很多时,丰度的变化对 Bray-Curtis 相异性的影响可能较小。因此,在解释结果时,需要结合样本中微生物的丰度和 alpha 多样性进行综合考虑。
3.1.2. Jaccard 距离
Jaccard 距离也是一种常用的 Beta 多样性度量方法,它只考虑物种的存在与否,不考虑其丰度。取值范围同样是 0 到 1,0 表示两个样本的物种组成完全相同,1 表示两个样本的物种组成完全不同。
计算公式如下:
其中:
示例:
计算样本 A 和 B 之间的 Jaccard 距离。
与 Bray-Curtis 相异性不同,Jaccard 距离不考虑物种的丰度信息。这使得它在某些情况下可能更适用于比较物种组成差异,例如当样本之间丰度差异较大时,Jaccard 距离可以更好地反映物种组成的变化。
3.1.3. City Block 距离
City Block 距离,也称为曼哈顿距离或出租车距离,计算的是两个样本之间每个物种丰度差的绝对值之和。
计算公式如下:
其中:
示例:
计算样本 A 和 B 之间的 City Block 距离。
City Block 距离是一种简单直观的度量方法,它可以反映样本之间物种丰度的总体差异。但是,它没有考虑物种之间的相关性,因此在某些情况下可能不如其他方法准确。
3.1.4. Unweighted UniFrac 和 Weighted UniFrac
UniFrac 距离考虑了微生物之间的系统发育关系,它计算的是两个样本之间在系统发育树上不共享的分支长度。“Unweighted UniFrac”只考虑物种的存在与否,而“Weighted UniFrac”则将物种的丰度也纳入考虑。
Unweighted UniFrac:
Unweighted UniFrac 的前提是,亲缘关系密切的微生物通常具有相似的功能。因此,如果两个样本之间存在许多亲缘关系密切但不同的物种,那么 Unweighted UniFrac 距离会比较大。
计算 Unweighted UniFrac 的步骤:计算公式如下:
Unweighted UniFrac = (sum of unshared branch lengths) / (sum of all tree branch lengths)= fraction of total unshared branch lengths
Weighted UniFrac:
Weighted UniFrac 遵循与 Unweighted UniFrac 相同的逻辑,但也考虑了样本中微生物的丰度。
计算 Weighted UniFrac 的步骤:计算公式如下:
其中:
UniFrac 距离在微生物组数据分析中具有独特的优势,因为它考虑了物种之间的系统发育关系。这使得它能够更好地反映样本之间微生物群落的功能差异。
3.1.5. Aitchison 距离
微生物组数据的一个特点是,每个样本的测序读数总和是固定的。这意味着,一个物种丰度的增加必然会导致其他物种丰度的减少。这种数据的组成性质使得传统的距离度量方法(例如欧氏距离)可能无法准确地反映样本之间的差异。
Aitchison 距离是一种专门针对成分数据的距离度量方法。它首先对读数进行中心对数比变换,然后再计算欧氏距离。中心对数比变换可以将成分数据转换为无约束数据,从而避免了数据组成性质带来的影响。
计算 Aitchison 距离的步骤如下:
Aitchison 距离能够更准确地反映成分数据之间的差异,因此在微生物组数据分析中得到了广泛应用。
3.2 基于方差分解的方法
这类方法通过分解总体方差来量化Beta多样性,例如:
4. Beta 多样性可视化方法
为了更好地理解 Beta 多样性结果,我们可以使用一些可视化方法:
4.1 热图 (Heat Maps)
热图是一种常用的数据可视化方法,它可以用颜色来表示数据矩阵中的值。在 Beta 多样性分析中,热图可以用来展示样本之间的相似性或差异性。热图还可以对样本进行聚类,从而帮助我们识别样本之间的分组关系。
4.2. 多维标度分析 (Multi-Dimensional Scaling, MDS)
虽然热图可以快速查看样本对的距离或距离,但我们通常希望了解不同的cluster之间如何相互关联,以及我们的元数据是否导致了这些差异。但当你有很多样本时,这就变得很难做到。
想象一下您有两个样本的情况。您可以用一条线表示这两个样本之间的距离,其中该线的长度表示距离。这意味着我们需要 1 个维度来查看 2 个样本之间的关系。现在假设您有第三个样本。您可以使用三角形或二维图来呈现三个样本之间的差异。如果添加第四个样本,您现在需要第三个维度来捕获所有样本之间的所有距离。拥有的样本 (n) 越多,需要 (n-1) 的维度就越多,才能完全捕获所有对之间的所有距离。我们的大脑无法真正理解太多的维度!
多维缩放 (MDS) 帮助我们同时处理多个样本,通过使用算法使我们能够在减少的维度上尽可能多地了解样本之间的距离。维度通常按照它们解释的方差的大小进行排序,其中维度 1 比维度 2 解释所有样本之间更多的方差,依此类推。因此,我们倾向于仅绘制 2-3 个维度,具体取决于前几个维度单独解释了多少方差。
以下只是绘制此类数据的几种方法:
4.2.1. 主成分分析 (Principal Component Analysis, PCA)
主成分分析的工作原理是在多维空间中找到所有数据点之间的最佳拟合线,即最小化每个点到该线的平方距离的线。这条线或向量是您的第一个组成部分。您可以将其视为解释样本之间最大差异的变量组合(例如微生物及其丰度)。这个差异量就是你的特征值。通过在许多不同方向上旋转和拉伸数据,PCA 找到下一个最佳拟合线或特征向量,直到可以解释点之间的所有方差。
PCA 的好处之一是您可以确定哪些变量对主成分贡献最大。有了这些信息,您可以生成双图,这意味着您不仅可以看到样本如何聚类或传播,还可以看到哪些变量对它们的聚类或传播效果影响最大,如下例所示。
4.2.2 主坐标分析 (Principal Coordinates Analysis, PCoA)
PCoA 也是一种降维技术,它与 PCA 类似,但它可以处理任何类型的距离矩阵,而不仅仅是欧氏距离矩阵。PCoA 基于特征值分解进行计算,它可以将距离矩阵转换为低维空间中的点,并保留数据点之间的距离关系。PCoA 图与 MDS 图类似,可以用来展示样本之间的相似性或差异性。
PCA 和 PCoA 的主要区别在于:
PCA 直接对原始数据进行分析,而 PCoA 对距离矩阵进行分析。
PCA 可以识别对变异贡献最大的变量,而 PCoA 不能。PCoA 可以处理任何类型的距离矩阵,而 PCA 通常只能处理欧氏距离矩阵。
对于微生物组数据而言,PCoA 通常比 PCA 更适用,因为它可以处理各种 Beta 多样性距离矩阵。
4.2.3 Scaling by MAjorizing a COmplicated Function (SMACOF)
SMACOF 也是一种 MDS 方法。它计算“压力”—— 一个评估理想距离和实际距离之间平方差的函数。“压力”通过迭代优化函数最小化。这会生成一个图,其中密切相关的样本绘制在彼此附近。
5. 统计检验
为了评估观察到的Beta多样性模式是否具有统计学意义,常用的统计检验方法包括:
PERMANOVA(置换多元方差分析)
ANOSIM(相似性分析)
Mantel测试
这些方法可以帮助我们确定组间差异是否显著,以及环境因素与Beta多样性之间是否存在相关性。
6. Beta多样性分析在实际研究中的应用案例案例研究:人体微生物组与肥胖的关系
研究目的:探究肥胖人群和正常体重人群的肠道微生物组成差异。
方法:
收集100名肥胖者和100名正常体重者的粪便样本。
使用16S rRNA基因测序获取微生物组数据。
计算样本间的Bray-Curtis距离。
使用PCoA进行可视化。
进行PERMANOVA测试,评估组间差异的显著性。
结果:
结论:这项研究通过Beta多样性分析揭示了肥胖与肠道微生物组成之间的关联,为理解肥胖的微生物学机制提供了新的视角。
7. Beta 多样性分析中的常见陷阱和误解
在进行 Beta 多样性分析时,研究者需要注意以下常见的陷阱和误解:
忽视数据的组成性质:微生物组数据通常是成分数据, 直接应用欧氏距离可能导致错误的结论。
过度解释低丰度物种:某些 Beta 多样性指标对低丰度物种敏感, 可能导致过度解释噪音。
忽视系统发育信息:仅考虑物种存在与否或丰度, 忽视物种间的进化关系。
未考虑批次效应:不同批次的样本可能由于技术原因而产生系统性差异。
过度依赖 p 值:仅依赖统计显著性而忽视效应大小。
8. 总结
Beta 多样性分析是微生物生态学研究中不可或缺的工具。它为我们提供了量化和可视化样本间差异的强大方法, 有助于揭示微生物群落结构与环境因素之间的关系。然而, 研究者需要注意方法选择、数据解释和潜在的陷阱。通过结合其他分析方法, 我们可以获得对微生物生态系统更全面、深入的理解。随着新技术和新方法的不断发展, Beta 多样性分析将继续在微生物生态学研究中发挥重要作用。
希望这篇文章能帮助你更好地理解 Beta 多样性!
相关阅读
-
Beta 多样性详解:从概念到实践,全面掌握微生物群落差异分析
在微生物组研究中,我们常常需要比较不同样本或环境之间的微生物群落组成差异,例如比较不同处理组或不同地理位置的样...
-
DOTA-PEG-COOH,关于大环化合物可用于修饰活性基团?
DOTA-PEG-COOH ,关于大环化合物可用于修饰活性基团?...
-
目前我们所生活的空间为三维空间:长宽高;根据爱因斯坦相对论里的概念,宇宙应由时间和空间共同构成,故加上时间,又被称为四维时空。...
-
【投融资】全球分布式员工外包科技公司Remote完成1.5亿美元B轮融资,新晋独角兽!
疫情带来的一个明显的趋势就是混合式办公的兴起,这个涟漪掀起的蝴蝶效应是巨大的,可能在未来几年中显现。...
-
爱读《道德经》,用手抓饭,“老顽童”诺奖得主要来上海讲述“生命奇迹”
“我曾经每天读一小时《道德经》,玩味其中的哲理。”夏普莱斯非常欣赏老子 《道德经》里的一句话,“故有之以为利,无之以为用”。他觉得,这句话道出了“点击化学”中的哲学真谛。...
-
DOTA-PEG-COOH,关于大环化合物可用于修饰活性基团?
DOTA-PEG-COOH ,关于大环化合物可用于修饰活性基团?...
-
目前我们所生活的空间为三维空间:长宽高;根据爱因斯坦相对论里的概念,宇宙应由时间和空间共同构成,故加上时间,又被称为四维时空。...
-
【投融资】全球分布式员工外包科技公司Remote完成1.5亿美元B轮融资,新晋独角兽!
疫情带来的一个明显的趋势就是混合式办公的兴起,这个涟漪掀起的蝴蝶效应是巨大的,可能在未来几年中显现。...
-
爱读《道德经》,用手抓饭,“老顽童”诺奖得主要来上海讲述“生命奇迹”
“我曾经每天读一小时《道德经》,玩味其中的哲理。”夏普莱斯非常欣赏老子 《道德经》里的一句话,“故有之以为利,无之以为用”。他觉得,这句话道出了“点击化学”中的哲学真谛。...
-
我们都知道,钉东西时,要用锤子;拧螺丝时,要用螺丝刀。但是,如果让我们做书柜时,我们就束手无策了。因为我们日常中把做书柜的每一部分当做孤立零散的部分来处理...
-
深度长文:你理解时间维度吗?为什么说时间必须是一个维度?,维度,爱因斯坦,宇宙,爱因斯坦相对论,地球表面...
发表评论
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件举报,一经查实,本站将立刻删除。