Skip to content

Multi omics integration in biomedical research – A metabolomics centric review

摘要

高通量技术的最新进展使得能够对生物系统的多个层面进行分析,包括 DNA 序列数据(基因组学)、RNA 表达水平(转录组学)和代谢物水平(代谢组学)。这导致了大量生物数据的生成,可以在所谓的多组学研究中整合这些数据,以检查健康和疾病的复杂分子基础。对这些数据集的综合分析并不简单,特别是由于数据的高维性和异质性以及缺乏通用的分析协议而变得复杂。以前的综述讨论了应对数据整合挑战的各种策略,详细阐述了特定方面,如网络推断或特征选择技术。因此,主要关注的是两个组学层面在其与感兴趣表型的关系上的整合。在本综述中,我们概述了典型的多组学工作流程,重点介绍了具有潜力将代谢组学数据与两个或更多组学相结合的整合方法。我们讨论了包括数据驱动、知识驱动、同时和逐步方法在内的多种整合概念。我们重点介绍了这些方法在最近多组学研究中的应用,包括旨在全球描绘不同生物层面内外复杂关系的大规模整合工作,而不是关注特定的表型。

关键词:多组学,数据整合,系统生物学,代谢组学,脂质组学

Introduction

高通量技术的进步使得能够生成关于生物系统多个层面的海量数据,包括 DNA 序列数据(基因组学)、RNA 表达水平(转录组学)、表观遗传改变(表观基因组学)、蛋白质丰度(蛋白质组学)、代谢物水平(代谢组学)等。单独考虑这些生物层面,每个组学研究已经鉴定了与特定疾病或感兴趣的表型相关的基因、蛋白质和代谢物。例如,高水平的支链氨基酸及其降解产物已被发现是 2 型糖尿病的标志 [1];相反,阿尔茨海默病则与这些代谢物的低水平相关 [2]。虽然已鉴定的实体可以作为有价值的生物标志物,并提供参与病理机制的途径的见解,但单一组学研究并未考虑到各种生物层面间的复杂相互作用。然而,跨组学的相互作用的干扰可能在疾病的发展和临床表现中起重要作用 [3,4]。因此,将多个生物领域(如转录物、蛋白质或代谢物水平)的组学数据结合在多组学研究中,是朝着更详细的健康和疾病分子理解的有希望的方法,也是指导新疗法的因果链的必要条件 [5]。例如,Lotta 等人 [1] 使用孟德尔随机化方法对大规模遗传和代谢组学数据集进行综合分析的结果,与 BCAA 代谢在 2 型糖尿病中的因果作用一致,并建议 PPM1K 基因(其遗传变异特异性地与血液中 BCAA 水平相关)作为潜在的药物靶点。PPM1K 编码线粒体磷酸酶,激活支链 α- 酮酸脱氢酶(BCKD)复合物,这是 BCAA 分解代谢的限速酶,并且在验证实验中仅在健康个体的肌肉中上调,而在 2 型糖尿病患者中不上调。尽管多组学数据的可用性并不总是允许直接得出因果结论,但多组学研究中多层证据的结合已被证明能够提供更可靠的结果,并降低假阳性发现的风险 [6,7]。除了多组学方法在特定疾病研究中的价值外,大规模多组学研究还能够系统地调查不依赖于特定表型的跨组学(如代谢物的酶促转化)和组内(如蛋白质 - 蛋白质相互作用)关系。

在多组学研究中,代谢组学及其子学科脂质组学占据了独特的地位,并在综合分析中得到了越来越多的关注 [8]。代谢物是生物过程的下游产物,携带基因组、表观基因组和环境效应的印记。它们常被称为“基因型和表型之间的联系”[9],并已被牵涉到许多疾病中,如阿尔茨海默病 [10]、2 型糖尿病 [11] 和各种癌症 [12]。此外,它们在容易获取的生物体液(如血液、尿液)中携带整合的生物和医学信号,使其成为有吸引力的生物标志物候选者 [13]。大规模流行病学研究证明了将代谢组学与其他组学层面(如基因组学 [14-17]、转录组学 [18] 和表观遗传学 [19])结合的价值,提供了代谢个体差异性和与疾病机制的联系的见解 [20,21]。例如,在两个基于人群的队列中,多达 62% 的代谢物浓度水平变异可以通过常见的遗传变异解释 [16]。此外,已经表明 DNA 甲基化影响代谢 [22]。这一效应部分由遗传变异驱动,但进一步依赖于环境和生活方式因素,使其能够对常规(如食物摄入)[23,24] 和特定(如疾病)[25] 挑战做出适应性反应。代谢组的变化反过来又可以调节基因和蛋白质的活性,创造复杂的反馈机制和组学层面之间的相互关系 [26]。因此,将代谢组学与其他组学层面整合为研究疾病机制和识别新疗法靶点提供了令人兴奋的机会。

为了在多组学研究中实现异质数据集的分析,已经开发了大量的数据缩减、操作和整合技术。先前的综述文章为特定的整合策略(如网络推断和分析 [27,28] 或机器学习技术 [29-32])提供了综合的方法总结,并讨论了以代谢物为中心的研究的关键方面 [33-35]。然而,大多数综述集中在与特定表型相关的两种不同数据类型的整合。在本综述中,我们将概述一个典型的多组学工作流程,重点介绍具有将代谢组学数据与两个或更多组学相结合潜力的整合方法,并强调其在最近多组学研究中的应用。我们将区分建立预测模型 [36-39] 或识别特定疾病表型或特征的诊断和预后生物标志物候选者 [39,40] 的整合工作,以及最初不关注特定结果的全球整合工作。后者方法旨在系统整合多个组学数据集,以便在后整合分析中生成可测试的假设并获得对多种复杂疾病病理生理学的机制性见解 [41-43]。

选择适当的整合策略并不简单,很大程度上取决于可用数据和研究目标。数据维度、异质性和缺乏通用协议进一步使这项任务变得复杂。一般来说,文献中描述了两种主要的整合范式(图 1),并将在本综述中引用;(1)同时和(2)逐步整合。同时整合策略同时使用所有可用的组学数据,并在单一建模步骤中进行分析。这样,可以考虑到每个组学层面编码的互补信息以及层面之间的相关性。这类方法要求数据来自同一生物样本或个体,这仍然是由于资金或技术限制而导致的数据可用性方面的主要限制。另一方面,逐步整合策略在孤立或特定组合中分析组学数据集,并在随后的步骤中整合结果。这有助于在缺乏相同样本的组学测量的情况下,整合来自不同来源(如不同研究或知识库)的数据和统计结果,从而实现大规模分析异质数据。

多组学工作流程

典型的多组学分析通常可以分为四个步骤:(i) 数据生成。研究设计、样本准备和随后通过高通量分析平台进行的数据采集会导致不同的数据场景。(ii) 数据预处理和降维。对在不同组学层面收集的原始数据进行适当的预处理,并可以应用降维技术来减少变量(测量的生物实体)的数量。(iii) 数据整合。使用数据驱动、知识驱动或混合整合方法对来自不同组学层面的数据进行分析和整合。方法的选择取决于输入数据和研究问题。(iv) 数据解释。整合结果(如统计模型或网络)的整合后可视化和分析可以识别新的生物标志物候选者,生成可测试的假设或揭示有意义的生物关系。

本综述将讨论典型的多组学数据整合工作流程的核心方面(图 1),并按如下结构组织:(i) 数据场景。研究设计、样本准备和通过高通量分析平台进行的后续数据采集会导致不同的数据场景。(ii) 降维。对在不同组学层面收集的原始数据进行适当的预处理后,通常应用降维技术来减少变量(测量的生物实体)的数量。(iii) 数据整合。使用适合输入数据和研究问题的方法对不同组学层面的数据进行分析和整合。(iv) 数据解释。整合后的结果(例如统计模型或网络)的后续检查和进一步分析可以提供有意义的生物学见解。我们最后将简要展望多组学研究的未来方向。

2. 数据场景

整合多组学分析结合了几种组学测量,选择性地包括其他感兴趣的表型,这些表型可以由连续变量(如蛋白质水平或代谢物浓度)或分类变量(如性别或疾病状态)表示。通常,每个数据集都存在于一个单独的数据矩阵中,行代表个体样本,列包含人口统计、临床或生物实体的测量值(图 1)。然而,根据研究目标和相关数据的可获取性,存在三种不同的数据场景:(1) 不同的数据集可用于相同的样本/个体;(2) 数据集仅可用于部分重叠的样本/个体集;(3) 组学数据分布在主要不相交的样本集中。

在第一个场景中,研究中的样本同时经过相同的多组学筛选过程,或者对最初收集的样本应用额外的组学技术进行回顾性分析。这类研究的数据将生成数据矩阵,其中每个数据矩阵中的行对应相同的样本/个体,列包含各自组学技术的测量值(例如代谢组学、转录组学、蛋白质组学)。这是最佳场景,因为它允许应用任何整合策略,包括需要匹配样本的数据矩阵的同时数据整合 [47]。

然而,对于所有样本/研究参与者来说,完全的多组学概况通常不可用或不可行。这背后的原因是多方面的,包括资金限制、收集样本对某些组学分析的不兼容性或样本耗尽防止应用新技术 [35,47]。例如,尽管尿液样本在代谢组学研究中非常有价值,但它们包含的蛋白质和 RNA 数量有限,限制了其在大规模蛋白质组学或转录组学研究中的使用 [35]。此外,在长期研究或翻滚参与者的研究中,由于技术进步、样本分析成本下降或研究目标的演变,基线时应用的组学和表型筛选可能会调整。例如,阿尔茨海默病神经影像学计划(ADNI)是一项于 2004 年启动的纵向多中心研究,旨在研究阿尔茨海默病(AD)早期检测的生物标志物 [48]。虽然大规模代谢组学和脂质组学分析可用于 ADNI-1 和 ADNI-GO/2 阶段,但到目前为止(生物样本仍然可用),蛋白质组学分析仅应用于部分 ADNI-1 参与者,基因表达分析仅可用于 ADNI-GO/2 阶段。这导致在研究阶段中参与者的组学概况不同。

这种研究生成的数据仅具有部分重叠样本用于多组学整合 [47]。如果数据类型之间的样本重叠足够大,可以支持足够的研究,则删除没有完整组学概况的样本仍可以进行同时整合。然而,应用这种逐项删除个体的方法容易导致信息的重大丧失 [30][47]。在最坏的情况下,这可能会通过导致样本集不代表初始研究人群而引入估计偏差 [49]。尽管如此,正在出现的同时数据整合策略可以处理中等数量的缺失组学概况的样本(见第 4.2.2 节)。

由于上述限制,许多多组学分析使用的数据集并非来自相同的样本,而是来自不同的来源。如果每种数据类型的样本集在同一研究中获取但重叠最小,则这种情况是该场景的特例。通过整合这些组学测量,数据矩阵在起点上主要具有不匹配的样本和变量。对于这种数据场景,已经开发了几种逐步整合策略(在第 4.1 和第 4.2.1 节中讨论),使得在不相交的样本集中进行多组学分析并包含现有的生物数据成为可能。然而,重要的是要记住,由于样本大小、研究协议和研究人口统计(如年龄、性别或种族)的不同,这些类型的分析增加了另一层数据异质性。

总之,适用于相同样本/个体的多组学数据集引入的非期望数据异质性较少,并允许应用任何整合方法。对于仅部分重叠或完全不相交样本/个体集的数据集,可应用的整合方法数量有所限制,但可用的方法允许几乎无限的数据包含,从而使研究达到最大效能。

3. 降维

对原始数据的适当预处理是任何类型分析的关键前提,因为技术伪影和数据分布偏斜会扭曲生物信号 [50]。这个过程通常包括移除批次效应、归一化和填补缺失值,每种数据类型在整合前单独处理 [51]。关于研究设计和样本采集的时间顺序 [35,44,51,52] 的重要性,以及适当数据预处理的指南 [30,51],已在以前的综述中讨论,不在本综述范围内。接下来,我们假设用于整合分析的数据已适当预处理并且质量高。

维度灾难 [53] 是单组学研究中的一个核心挑战,在多组学研究中这一问题更加严重,因为变量的数量大大增加。随着维度(变量数量)的增加,距离测量变得毫无意义,这对于在高维空间中的操作(如聚类)是一个挑战 [54,55]。此外,样本通常显著少于测量的变量,这对大多数统计学习方法来说是一个挑战。这可能导致数学系统不确定并增加过拟合分类器或预测器的风险 [27]。降维(DR)是一种减少数据集复杂性的方法,同时增加预测稳定性,增强下游分析的统计效力,并减少多重检验负担。DR 通过提取相关变量(特征选择)或将数据投影到低维空间(特征提取)来完成 [30]。

特征选择通常涉及先验知识或生物假设,用于减少考虑的变量数量。流行的方法,例如,将分析限制在某些感兴趣的路径中的基因、蛋白质和代谢物,或研究以前与研究中的特定特征相关的实体 [41]。这种假设驱动的 DR 策略可以显著增强统计效力,但自然容易偏向通过先前研究注释的生物实体。另一种基于知识的方法是构建生物学上有意义的新变量,即代表功能组的变量,例如路径。例如,可以通过聚合分配给特定路径的所有分子的水平(例如,使用浓度的平均 z 分数 [56] 或 PCA 的第一个主成分 [56-58])来生成新的路径级变量 [59]。

另一方面,特征提取通常通过数据驱动的 DR 技术实现,例如主成分分析(PCA)[30,60]。PCA 通常单独应用于每个组学数据集,将单组学变量转换为低维子空间,通过找到原始变量的正交线性组合来最大化数据中保留的方差。因此,PCA 允许使用一组减少的特征,信息丢失最少。相关方法包括聚类技术(如 K 均值 [61] 或层次聚类 [62]),然后用聚类质心替换相似变量的组 [63]。一种流行的方法是使用加权基因共表达网络分析(WGCNA)[64] 对每个数据集中的代谢物、蛋白质或转录物等相关生物实体进行聚类 [65,66]。然后,通过 PCA 的第一个主成分(“特征基因”或“特征代谢物”)对每个相应聚类的丰度矩阵进行汇总,并在下游分析中使用这些特征(例如,与特定表型的关联,与其他组学层面的整合)[67]。这种数据驱动方法的一个限制是,提取的特征关联或相关性的解释需要将其映射回原始变量。

总之,DR 提供了一种限制过拟合潜力并显著减少多重检验负担的方法。此外,基于知识的 DR 可以增加下游分析结果的可解释性。

4. 数据整合

对多组学数据集的综合分析的兴趣日益增加,导致了各种整合框架的出现。接下来,我们将回顾主要概念,分为考虑外部信息(基于知识的方法)和主要依赖内在信息(数据驱动的方法)来推断组学间依赖关系的方法。最后,我们将讨论结合基于知识和数据驱动整合的混合方法(复合网络)。

4.1 基于知识的方法

基于知识的整合策略使用来自数据库或科学文献的外部信息来建立生物实体之间的关系。先前分析的结果要么使用先验知识进行注释(例如,使用常见的功能术语),要么映射到一个参考网络上,该网络根据已建立的知识连接不同的组学层面。例如,基于生化知识组装的代谢网络能够通过反应连接酶和代谢物。通过将单组学分析结果映射到这样的网络上,发现可以在多组学背景下整合和解释,从而识别在基因、蛋白质和代谢物水平上失调的途径 [68]。此外,多组学测量可以整合到现有的生物模型中,使其具有特定条件(例如,删除不活跃的反应)[69]。

用于这种组学整合的先验知识包括但不限于功能关系(例如途径或生物反应)、药物基因组学关联和基因组注释的信息。根据来源,这些信息要么基于实验数据 [70],要么从科学文献中收集(手动或使用自动文本挖掘技术)[71],要么来源于计算预测方法 [72]。由于知识库通常结合了多个来源的信息,它们可能具有不同的证据水平。例如,STRING[71],一个流行的蛋白质 - 蛋白质相互作用数据库,通过根据来自靶向实验、共表达分析、基因组背景预测或文本挖掘的支持证据的质量和类型分配分数,来指示蛋白质之间功能相互作用的可信度 [73]。

尽管许多资源是特定于某一种组学类型的,如用于脂质注释的 STRING 或 LIPID MAPS 结构数据库(LMSD)[74],但一些覆盖多个生物领域的数据库也已经出现(见表 1)。例如,京都基因与基因组百科全书(KEGG)[75-77] 数据库于 1995 年发布,是第一个将基因组与更高层次功能信息链接的计算资源之一。在 KEGG 中,手动编译的途径图使研究人员能够在代谢网络和途径(如鞘脂代谢或 NF-kappa B 信号传导)背景下查看基因和蛋白质。几乎十年后,额外的以途径为中心的资源开始出现,如 Reactome[78,79] 和 Recon[80-82]。Reactome 是一个主要集中于人类生物过程的资源,并围绕反应构建。反应被定义为将输入转化为输出(两者都是生物实体,如蛋白质、脂质或核苷酸)的事件,并根据它们的(时间)关系进一步分组到途径中 [78]。进一步发展的概念是 Recon3D[80-82],提供了一个基于基因组的代谢重建,可以用于计算建模(见第 4.1.2 节的基于约束的代谢建模)。它还包括代谢物和蛋白质的三维(3D)结构数据,并代表迄今为止最全面的人类代谢网络模型 [82]。

网络可视化 分析工具 将组学数据投影到网络上 生物实体 实现方式 参考文献
BioCyc 富集分析,通量分析 基因、蛋白质、代谢物 在线 [206]
KEGG - 基因、酶、代谢物 在线 KEGGscape Cytoscape 应用 [76]
Reactome 富集分析,ID 映射 蛋白质、代谢物、疾病 在线 ReactomeFIViz [78]
Recon3D 富集分析,ID 映射 基因、代谢物 在线 [82]
PathwayCommons 富集分析 - 蛋白质、代谢物、药物 在线 R CyPath2 [207]
WikiPathways - 基因、蛋白质、代谢物 在线 WikiPathways [208,209]
NDEx 邻域搜索 - 各种** 在线 CyNDEx-2 [190,210,211]
PaintOmics3 聚类,相关性分析,富集分析,ID 映射 基因、蛋白质、代谢物 在线 [68]
MetaboAnalyst 富集分析,ID 映射,最短路径分析 基因、代谢物 在线 R [84]
OmicsNet 聚类,富集分析,最短路径分析 基因、蛋白质、转录因子、miRNA、代谢物 在线 [169]
MetExplore 富集分析,通量分析,ID 映射,最短路径分析 基因、酶、代谢物 在线 [212]
ConsensusPathDB 聚类,富集分析,最短路径分析 基因、蛋白质、代谢物 在线 [167]
PathMe Viewer 最短路径分析 基因、蛋白质、代谢物 在线 [213]
MetScape 相关性分析,富集分析 基因、酶、代谢物 MetScape 应用 [214,215]

注释: 无限制 *Cytoscape 应用 [216]

为了利用这些资源进行基于知识的整合,需要将测量的生物实体的平台特定标识符(ID)映射到相应目标数据库的命名空间。这项任务具有挑战性,因为大多数资源已经开发了自己的内部 ID 方案和层次结构,导致跨数据库指向相同实体的大量 ID。已经做出了努力来实现 ID 方案之间的交叉链接 [82],并且可以通过在线工具或 R 包(如用于基因的 biomaRt[83] 或用于代谢物的 MetaboAnalystR[84,85])进行映射。然而,名称歧义、ID 多样性和同义词的使用使这项任务变得复杂 [86],如果处理不当,可能会导致信息的显著丢失。这对于代谢物和脂质尤其具有挑战性,因为平台和技术之间的分辨率差异 [87]。例如,脂质侧链的组成和构造是决定磷脂酰胆碱(PC)功能的重要因素。然而,许多脂质组学技术无法区分具有相同名义质量的同位异构体 [88],并假设偶数脂肪酸更为常见,即将 m/z 731 的 PC(731)标记为 PC 32:1 而非 PC O-33:1,尽管两者都是可能的 [87]。

知识库不断面临适应技术进步和纳入新研究发现的压力(例如,各种调控 RNA 种类的发现),以准确反映科学的最新状态,这可能会导致进一步的差异。例如,尽管一些平台提供脂肪酸侧链解析技术,但脂质通常尚未在这种细节层次上进行注释 [6],当将测量的化合物匹配到资源的命名空间时,这些信息将会丢失(例如,PC 16:0_16:1 只会映射到磷脂酰胆碱的 KEGG 标识符 C00157)。

尽管如此,如果正确使用,知识库提供了大量有价值的信息,可以在多组学整合中加以利用。

4.1.1. 基于集合的富集

基于集合的富集是一种常用的、逐步结果整合策略。它测试在先前组学分析中识别的感兴趣(例如,差异表达或丰度)的生物实体列表中,某些功能注释是否富集。使用来自知识库的信息将生物实体分配到集合(也称为注释术语),以检查它们是否已知参与相同的生物途径,在特定疾病中显著变化,或共定位(例如,在相同的细胞器、组织或器官中)[89]。例如,Reactome[78,79] 中的注释术语“鞘脂代谢”包括诸如鞘氨醇 1- 磷酸和鞘氨醇的代谢物,以及诸如 SGPP1(鞘氨醇 -1- 磷酸磷酸酶 1)和 SPHK1(鞘氨醇激酶 1)的基因。这里,我们重点介绍最广泛使用的方法:过度代表分析和功能集合富集分析。

过度代表分析(ORA)的目的是识别过度代表的注释术语,即在输入的感兴趣实体列表中,比预期更频繁分配的术语 [89]。可以使用超几何检验(例如单侧 Fisher 确切检验)并随后进行多重检验校正来进行统计测试 [89]。为了产生有意义的结果,背景的有效定义,即在分析中测量并分配到每个注释术语的实体集,是纠正由于不同实体注释覆盖率不均而产生的偏差的关键要求 [52]。这是代谢组学和脂质组学研究中的一个突出挑战,因为分析方法通常偏向于某些化学类的分子 [52,87,88]。对于多组学整合,ORA 通常在每个组学层面单独进行。通过将组学(如转录组学、蛋白质组学或表观基因组学)映射回基因水平,可以将多种组学类型与代谢组学数据一起整合。使用 Fisher 方法 [90] 或 Stouffer 方法(无权重 [91] 或加权 [92])结合单个组学分析的 P 值,生成每个注释术语的联合富集 P 值,例如在 web 资源 PaintOmics3[68]、Integrated Molecular Pathway-Level Analysis(IMPaLA)[93] 和 MetaboAnalyst[84,94] 中实现。MetaboAnalyst 还提供了一种综合过度代表分析,通过使用来自 KEGG 的注释术语(如代谢途径)来定义集合,同时查询基因和代谢物。ORA 的一个缺点是它只考虑了在条件之间显示显著水平变化的测量实体的子集。这使其对用于确定输入生物实体集的显著性截止值或任何其他包含标准敏感。同时,ORA 忽略了条件之间变化程度的信息(例如,通过折叠变化测量)[34]。

功能集合富集分析(FSEA)是另一种基于集合的富集方法,旨在解决这些与 ORA 相关的局限性。它最初是为转录组数据分析中的基因集合富集分析(GSEA)开发的 [95],但也已应用于代谢物(代谢物集合富集分析或 MSEA)[89] 和脂质(LION/web)[96]。与 ORA 不同,这些方法测试所有测量的实体,而不仅仅是一个定义的子集,并考虑其定量测量。这使得能够识别注释术语,其中只有少数实体显著变化或许多实体变化较小但一致 [89]。类似于 ORA,几个组学数据集的综合分析通过从单个组学分析中计算联合 P 值来实现。例如,在 web 资源 IMPaLA 中,通过使用来自 11 个公共数据库的途径注释,使用 Wilcoxon 符号秩检验进行 FSEA[93]。

FSEA 和 ORA 的中心局限是它们自然局限于先前注释的实体。为此,提出了 de novo 富集方法,如 KeyPathwayMiner[97,98]。这些方法通过从预定义的生物网络(如基于知识的代谢网络或数据驱动的关联网络)中提取具有高差异调节实体数量的连接子网络,来发现未表征的途径 [99]。该框架理论上适用于多组学数据,通过使用包括多个组学层面的途径注释或本体。到目前为止,它们主要用于以基因为中心的研究。例如,Soerensen 等人 [100] 在对认知相关基因进行的全基因组和全转录组关联分析中,展示了同时使用 GSEA 和 KeyPathwayMiner 的好处。GSEA 能够通过识别涉及神经功能和细胞周期控制的基因集,重复以前研究的发现。de novo 富集方法识别了包括 GSEA 未涉及的基因(如 Ras And Rab Interactor 3(RIN3)和 Ataxin 2(ATXN2))在内的差异调节实体子网络。有趣的是,该方法还涉及了两个与认知健康相关的基因(淀粉样前体蛋白(APP)和核呼吸因子 1(NRF1)),这些基因在此分析中未差异甲基化和表达。

4.1.2. 基于约束的代谢建模

基于约束的代谢模型(CBMM)通过在化学计量矩阵中数学表示代谢反应,能够对可能的代谢稳态进行模拟描述和预测 [101]。这些反应的化学计量系数用于限制代谢物通过系统的流动,确保在稳态下,任何生成的化合物的质量必须等于消耗的总量(流量平衡)[102]。基因组范围的代谢模型(GEMs),如 Recon3D,通常采用自下而上的方法构建 [103],使用基因组注释自动构建草稿,包含所有预测可用的酶促反应,考虑其测序基因组中编码的蛋白质。然后,通过手动整理和基于约束的建模进行精炼(例如识别和填补重建代谢网络中的空白)[104]。

在多组学整合的背景下,GEMs 提供了全面的代谢网络,可用于通过将高通量数据(如转录组学、蛋白质组学或代谢组学数据)投影到网络上,将单组学分析的结果链接到其他生物信息层,如我们在第 4.1.1 节中描述的 [105]。例如,GEMs 可以用作 de novo 途径富集分析中的基础生物网络,以识别显著富集差异调节实体的子网络 [106]。

此外,通过从实验组学数据推断的额外约束层,通用 GEM 草稿可以情境化为特定条件、组织或个体 [107,108]。约束基础重建和分析(COBRA)[104,109] 是一个流行的框架,已经实现了多种组学数据整合方法,包括时间过程代谢组学数据 [110] 和转录组学和蛋白质组学数据 [111,112]。情境化的 GEMs 为代谢工程、药物靶标识别和个性化治疗提供了新的机会 [105,107,113]。例如,Agren 等人 [114] 使用肝细胞癌患者的蛋白质组数据构建个性化的、特定细胞的 GEMs,以预测可以阻止肿瘤生长的抗代谢物(代谢物的结构类似物)。作者识别了近 150 种抗代谢物,其中三分之一是个体特有的。尽管样本量小(n=6),并且将建模限制在细胞效应上,这项研究突显了使用实验组学数据精炼 GEMs 进行个性化治疗的潜力。最近出现的全身代谢(WBM)重建 [115] 目前在 20 个器官中建模人类代谢,预计将进一步推动这一重要领域的发展。

4.2. 数据驱动的方法

数据驱动的多组学整合方法使用统计模型和机器学习技术来推断多组学数据层之间和层内的关系,在某些情况下还包括感兴趣的表型。在不考虑已知的生物关系或注释的情况下,大多数方法依赖于对数据本身内部的关联结构进行分析。对于专注于特定疾病或表型的多组学研究,数据驱动方法的常见应用包括训练预测器和分类器,以及多变量生物标志物候选者的识别。独立于特定的感兴趣表型,使用数据驱动方法对组学层之间和层内关系的无偏分析可以提供对生物实体相互作用的全局视角。使用足够大的数据集,这种方法有潜力发现未知的关系(例如,在知识库中未表示的关系)并表征功能未知的实体。

接下来,我们回顾了一些逐步和同时整合策略,并重点介绍了它们在代谢组学和脂质组学研究中的应用。表 2 提供了多组学整合方法和框架的列表。

| 是否需要匹配样本 | 整合策略 | 实现方式 | 参考文献 | 描述 | | ------------------ | -------- | -------------- | --------------------------- | --------- | ------------------------------------------------------------------------------------------------------------- | | 基于知识的方法 | | | | | | IMPaLA | 否 | 富集 | 在线 | [93] | 综合分子通路水平分析(IMPaLA)支持联合通路分析。 | | COBRA | - | 基于约束的建模 | MATLAB Python Julia Toolbox | [69,104] | 基于约束的重建和分析(COBRA)工具箱。 | | PathMe | - | 复合网络 | 在线 Python | [213] | 整合 KEGG、Reactome 和 WikiPathways 为统一的抽象。 | | 数据驱动的方法 | | | | | | KeyPathwayMiner | 否 | de novo 富集 | 在线 Cytoscape 软件 | [97,98] | 提取所有最大连接的子网络,这些子网络富集了差异调节实体。 | | MI-MFA | 部分 | 插补/集成 | R 代码补充 | [217] | 使用多重插补(MI)使多重因子分析(MFA)应用于具有部分缺失单组学概况的多组学数据。 | | MOFA | 部分 | 插补 | R Python | [218,219] | 无监督整合框架,推断低维数据表示,并支持插补缺失的组学概况。 | | causalMGM | 是 | 单块 | 在线 | [220] | 使用变量选择学习因果(即有向)图,并在应用混合图形模型(MGM)PC-Stable 算法时进行后续分析。 | | omicade4 | 是 | 单块 | R | [217] | 基于投影的方法,执行多重共惯性分析。 | | xMWAS | 是 | 单块 | 在线 R | [221] | 使用(稀疏)偏最小二乘回归进行成对相关性分析,并构建异质网络。 | | mixOmics | 是 | 多块 | R | [150] | 无监督和监督多变量方法的集合,包括稀疏广义典型相关分析(SGCCA)和用于生物标志物发现的数据整合分析(DIABLO)。 | | OnPLS | 是 | 多块 | Python | [158,159] | 基于投影的整合方法,分解全局、局部和唯一变化层次。 |

4.2.1. 逐步整合

逐步整合策略以顺序方式整合数据集。在这里,通常分别或以特定(低阶)组合分析各个组学层面。在后续步骤中,将这些分析的结果整合到一个通用框架中。以下部分将介绍适合研究特定表型或感兴趣结果的集成方法,以及无需特别关注特定疾病或表型的成对关联策略,后者使得系统性和大规模整合成为可能。

集成整合策略应用多变量分类或预测方法,例如 k- 近邻 [116] 或 Elastic Net[36],分别对每个数据集进行分析,然后使用例如多数投票方案或堆叠泛化方法来提升性能 [117]。尽管每个数据集是单独建模的,但这些方法需要从相同样本中收集的组学数据,因为预测结果最终会在一个全局模型中组合。例如,Ghaemi 等人 [36] 在孕妇孕期三个时间点的样本中,构建了一个预测妊娠年龄的多变量模型。数据集包括免疫组、转录组、微生物组、蛋白质组和代谢组的测量值。使用 Elastic Net 算法,作者为每个组学数据集构建了多个预测模型,并随后将它们的预测结果作为最终模型的输入。这种堆叠泛化策略能够显著提高性能,消融分析 [118] 提供了每个数据集各自贡献的见解。此外,对每个单独模型的顶级预测特征的后续分析,使得能够形成基于多组学的假设。作者发现了孕酮硫酸盐与骨髓树突状细胞和调节性 T 细胞中的 NF-kB 信号之间的强相关性,突显了这种内源性类固醇在妊娠期间特定免疫细胞功能中的潜在调节作用。

在集成方法中分别训练基础模型,即在每个组学数据集上单独训练基础模型,有几个后果。一方面,不完全考虑不同组学数据集变量之间的相互依赖关系,因此可能会遗漏一些跨组学的相互作用。另一方面,基础模型的独立性防止了具有大量变量的数据集主导分析。

成对关联结果的整合是另一种逐步整合策略。与集成整合相反,这种方法通过大规模整合来自多个来源的数据,实现多个组学层面关系的全局分析。一种流行的方法是基于遗传变异作为个体间变异驱动因素的 QTL(数量性状位点)整合 [7]。这种整合技术的基础是所谓的数量性状位点(QTLs)[119]。QTLs 是与定量分子性状(例如特定基因的转录水平)的变异显著相关的遗传标记(例如单核苷酸多态性)[120]。它们在全基因组关联研究(GWAS)中被识别,这些研究利用大规模人群个体的全基因组基因型,通过单变量分析测试与分子性状的关联 [120-122]。除了基因表达水平的 QTLs(eQTLs)[123,124],主要的例子还包括蛋白质丰度的 QTLs(pQTLs)[125,126] 或代谢物浓度的 QTLs(mQTLs)[14,127]。例如,Shin 等人 [16] 在近 8000 个个体的两个基于人群的队列中,研究了对超过 400 种人类血液代谢物的遗传影响。结果是一个全面的图谱,将 145 个位点的遗传变异与生化读数连接起来,编目了影响各种代谢途径的 mQTLs。

在关联分析之后,变异注释 [128] 或共定位分析 [129,130] 用于通过识别重叠的 QTLs 来功能性地连接不同组学的实体(图 2C)。这可以在全基因组范围内进行,并且可以使用在不同研究或队列中识别的 QTLs。QTLs 整合已成功应用于预测疾病相关变异的功能后果的研究中,这些变异通常位于基因组的非编码区域 [126,131,132]。例如,Chen 等人 [132] 系统性地将与自身免疫疾病相关的变异与 eQTLs 以及 DNA 甲基化(meQTLs)、RNA 剪接(sQTLs)和组蛋白修饰(hQTLs)QTLs 重叠,以识别细胞特异性调控效应。同样,Suhre 等人 [126] 通过将血液蛋白组衍生的 pQTLs 与 meQTLs、eQTLs、蛋白质糖基化 QTLs 和 mQTLs 重叠,展示了将 GWAS 识别的风险变异与疾病终点连接的力量。除此之外,这种方法揭示了通过将阿尔茨海默病(AD)中心基因载脂蛋白 E(ApoE)与小核糖核蛋白 F 连接起来的重叠 QTLs,潜在地将 AD 与 mRNA 剪接联系起来。

多组学整合通过复合网络实现。

A. 高通量技术可以分析的生物系统的不同层面,这些层面常常在多组学研究中整合。 B. 同时整合。使用统计方法分析组学数据集内和跨组学数据集的关联结构。 C. 基于 QTL 的整合。以基因组为锚点,在全基因组关联研究(GWAS)中识别的数量性状位点(QTLs)被覆盖,以建立不同组学层之间的链接。 D. 知识整合。使用来自代谢数据库或科学文献的外部信息来建立生物实体之间的关系。 E. 复合网络。通过合并在(B-D)中推断的网络,基于共同实体,可以构建全面的多组学目录。这些异质网络可以在整合后分析中使用已建立的图算法进行挖掘。

虽然这种整合策略只考虑成对关系,但它促进了来自不同来源的组学数据集的大规模整合。这在没有足够大规模的同一组样本的多组学研究可用的情况下尤其有价值。此外,基于 QTL 的整合只需要总结统计数据(关联研究的结果),避免了可能存在于包含患者信息的数据集上的数据共享限制。最后,这种方法可以整合独立 GWAS 对相同性状的结果,提供通过独立重复建立数据可信度的机会。同样,统计结合独立关联研究总结统计数据的元分析方法 [134](例如,多个 GWAS 与代谢性状)可以用来增加效力并减少假阳性发现。重要的是要注意,整合成对关联结果的概念并不限于以基因组为锚点,还可以围绕任何其他组学层,包括代谢组。

4.2.2. 同时整合 同时整合策略同时使用所有可用的组学数据集,并在单一建模步骤中整合信息。这具有考虑组学层内和跨组学层实体之间关联的优势。在下文中,我们将按单块和多块策略对方法进行分类进行回顾。单块整合策略在应用任何分析方法之前,将所有可用的数据集连接形成一个大型数据矩阵(“单块”),而不考虑组学之间的异质性(例如,规模或方差)。相反,多块整合策略保留并考虑由不同组学数据集定义的数据的多块结构。这两种策略都要求相同样本/个体的完整多组学概况可用。一些方法使在多组学背景下对中等数量样本/个体的缺失单组学概况进行插补成为可能。这些方法包括使用热甲板插补 [135] 替换缺失组学向量的 MI-MFA(多重插补 - 多重因子分析)[47] 和推断低维数据表示形式(隐藏因子)的 MOFA(多组学因子分析)[138,139]。然而,尽管插补可以通过扩展可用观测集来增加效力,但插补值永远不能准确代表“真实”的未观察到的测量值,因此应始终谨慎解释。

为了整合不同的组学数据集,单块整合策略在应用统计分析方法之前,简单地将不同的数据矩阵连接成一个大型数据矩阵。这使得可以直接应用通常用于单组学数据集的方法进行任务,如聚类(例如 K-means 聚类 [61])、分类和回归(例如随机森林 [137]、LASSO 回归 [138])或投影(偏最小二乘判别分析(PLSDA)[139,140])。基于关联的策略是另一类流行的单块方法,旨在通过迭代应用关联测量(如 Pearson 相关系数)来量化生物实体之间的关系。然而,简单的关联测量无法区分直接和间接效应 [141]。例如,mRNA 水平之间的关联通常由基因水平的转录共调控介导 [142]。这些混淆的关联导致大量边的极度膨胀,导致网络密集,解释性有限 [41,142,143]。高斯图形模型(GGMs)[144] 通过估计全阶偏相关系数,即对所有其他变量校正后的变量之间的成对关联,解决了这个问题。这种条件独立性测量在从单组学数据集中推断路径关系方面非常有价值 [57,145,146]。然而,GGMs 假设多变量正态分布数据,而多组学数据集通常包括不同分布的变量,如性别或疾病亚型的表型数据 [41,143]。扩展到 GGMs 以解决这一问题的是混合图形模型(MGMs)[147-149],它可以包含具有混合分布(例如连续、离散和计数变量)的数据集 [143]。例如,Zierer 等人 [41] 从同一群体中收集的多组学数据集中推断了一个 MGM,包括表观基因组学、转录组学、糖组学、代谢组学和表型数据。作者使用图形随机森林 [149] 方法整合了 144 个预选特征,探讨了与年龄相关的疾病和共病的分子基础。他们识别了反映衰老不同方面的七个网络模块,如肺功能、骨密度和肾功能。此外,他们发现这些模块由不同的枢纽连接,突显了连接肾脏疾病与身体组成和肥胖的潜在关键分子和机制,如尿酸。

单块整合忽略了数据类型之间的异质性,可能导致严重的偏差和其他问题 [30,32,150]。例如,代谢组学和转录组学数据由根本不同的分析技术生成。这导致了不同规模和方差的值以及不同的噪声分布 [51,151]。在对这些数据集进行聚类时,特定组学类型内的实体将主要聚类在一起,反映组内而非跨组学的关系 [18,36,41,151]。同样,最大化方差的方法,如 PCA 和 PLS,将在其第一个组件中捕获这些技术差异 [151]。此外,每个单一组学数据集中的变量数量在大多数情况下会有很大差异:最先进的基因组学分析将提供数百万个遗传变异的信息,转录组学测量数万个 mRNA,而蛋白质组学和代谢组学技术通常测量数千个分子 [51]。在不考虑特征数量差异的情况下同时分析这些数据集将引入偏差,因为特征最多的数据类型将驱动结果 [152]。

为了避免这个问题并确保每个数据集具有相等的权重,可以使用单位方差进行变量缩放,随后进行块缩放 [151],例如使用相应数据集(“块”)中变量的逆数来缩放每个变量。这在多重因子分析中得到了实现 [152,153],其中在连接前,通过使用 PCA 对每个数据块的第一个平方奇异值的逆数作为权重,规范化数据块。然而,不同的变量缩放和块缩放方法会显著影响结果 [151]。在连接来自不同来源的数据集时应格外小心,并应特别注意识别一种能够适当结合和缩放数据的整合方法 [7,151]。

需要考虑多组学数据集之间的异质性,已经导致了多块整合策略的出现,这些策略可以考虑数据的块结构,即来自不同来源的组学变量组 [154]。多块方法同时对多个数据矩阵进行建模,并提供关于组学(块)之间关系的见解。许多这些方法是已建立的多变量方法的扩展,如偏最小二乘(PLS)。示例包括用于整合两个组学数据集的 O2PLS[155,156] 和用于整合两个以上组学数据集的多块正交投影到潜在结构(OnPLS)[157-159]。OnPLS 将来自多个组学数据矩阵的数据分解为全局、局部和唯一变化层次 [159]。Reinke 等人 [160] 使用来自哮喘队列的一个小子集(n=22)展示了这种方法的潜力。在这里,使用 OnPLS 整合了六个数据块 - 转录组学、代谢组学、三个靶向分析(鞘脂、氧化脂和脂肪酸)和临床变量。后续变量选择和可视化提供了跨组学相互作用的见解,例如,通过识别 ATP6V1G1 基因(与骨质疏松症相关)转录水平与多种吸入皮质类固醇调节的代谢物之间的潜在联系。

其他流行的多块整合策略包括无监督方法如正则化广义典型相关分析(RGCCA)和稀疏广义典型相关(SGCCA)[161],以及监督框架数据整合分析用于通过潜在组件发现生物标志物(DIABLO)。DIABLO[39] 是一种多变量分类方法,将 SGCCA 扩展到监督分析和预测框架。它可以识别驱动感兴趣的表型组之间差异的关键组学变量,并同时构建预测模型以对新数据进行分类 [37,40,162-164]。例如,Qui 等人 [40] 整合了高和低骨密度(BMD)患者的基因组、转录组、表观基因组和代谢组数据集。使用 DIABLO,他们识别了一个包含 74 个差异表达基因、75 个差异甲基化 CpG 位点和 23 个差异丰度代谢物的多组学生物标志物面板。

为了进一步了解潜在的疾病机制,作者进行了靶向 QTL 分析结合孟德尔随机化。他们能够识别五个对 BMD 水平有因果影响的生物标志物(ADRA2A、FADS2、FMN1、RABL2A、SPRY1)。DIABLO 和各种其他基于投影的整合方法在 R 包 mixOmics[150] 中实现,该包专注于数据探索、降维和多组学数据的可视化。

同时整合策略迄今为止被相对较少的研究应用,并且大多数情况下样本/个体数量较少。这很可能是由于缺乏较大的可用多组学数据集。然而,同时整合,特别是多块方法,是强大的工具,具有充分利用多组学数据进行整合分析的潜力。

4.3. 复合网络方法

复合网络旨在通过合并来自不同知识驱动和/或数据驱动源的信息,在异质网络中捕捉组学层之间的关系。由于其可扩展性和多功能适用性,这种逐步整合策略越来越受欢迎。为了构建复合网络,来自每个知识驱动(例如 STRING、KEGG)或数据驱动(例如基于关联)的组件的信息被存储并互联在可访问的网络结构(图)中,通过覆盖共同生物实体合并(图 2B-E)。只要数据集和/或资源之间存在某种程度的重叠,这可以通过简单地连接相应的底层边列表来完成。生成的网络由节点(基因、蛋白质和代谢物等生物实体)组成,这些节点通过建模成对功能、生化或物理关系的边连接。复合网络本身并不限定于特定的表型或疾病。一旦构建,它们提供了一个全面的跨组学关系目录,可以在后整合分析中探索,例如在网络中疾病相关基因邻域内识别和优先考虑相关实体或预测新的关联。

复合网络可以以知识驱动、数据驱动或混合方式构建。虽然知识驱动的整合允许大规模分析大量已发表的信息,而无需额外的组学实验 [43],但这种方法仅限于已注释的实体。数据驱动的复合网络合并了实验多组学数据中推断的信息,相反,自然只能包括由相应组学技术测量的生物实体。通过结合这两种方法,例如,通过将数据驱动的网络(例如通过基于 QTL 的整合构建,如第 4.2.1 节所述)与知识驱动的关系(例如基因 - 转录 - 蛋白质或药物 - 药物靶标关系)扩展,可以构建全面的多层资源,促进多组学假设的无偏生成和探索。HENA[166],一个用于阿尔茨海默病(AD)的异质网络数据集,是这方面的一个最新示例。Sügis 等人整合了与 AD 相关的数据,包括 GWAS 结果、蛋白质 - 蛋白质相互作用和基因共表达网络,来自公共知识数据库和实验数据集。然后,使用图卷积网络分析生成的以基因为中心的网络,以识别与疾病相关的基因,突显了复合网络的许多潜在应用之一。未来还包括代谢物数据的框架将提供更全面的模型,用于研究与 AD 相关的分子机制。

尽管概念上简单,但由于 ID 映射和化合物识别(见第 4.1 节)所讨论的挑战,以及资源之间的数据格式不同以及信息类型的统计截止和加权考虑,使得构建复合网络变得复杂。此外,这些大型和高度复杂网络的后整合分析并不简单,需要复杂的算法(在第 5 节中进一步讨论)。因此,提供访问复合网络的数据库和框架越来越受到关注,如 ConsensusPathDB[167,168] 和 omicsNet[169,170]。

5. 后整合分析、可视化和解释

通过手动检查或计算算法对推断网络或多组学特征进行后整合分析是获得生物学相关见解并充分利用多组学数据集潜力的关键。迄今为止,限制因素通常是能够表示、理解和再现跨多个生物领域的高度复杂和多因素关系的能力 [171]。

对于有明确研究问题驱动的研究,解释可能是直接的。例如,当为感兴趣的特定表型构建预测器时,整合方法如 DIABLO(见第 4.2.2 节)会产生一组有趣(在统计意义上,例如最具预测性、最显著)的生物实体。这组变量然后可以进行下游分析以获得进一步的功能见解或调查因果关系(例如通过孟德尔随机化)。另一方面,全球整合工作使得通过系统地编目生物实体及其相互作用而无需关注特定表型或疾病进行探索性分析。在这里,通过计算算法进行后整合分析提供了识别数据模式和找到有趣实体的工具。

为此,网络提供了一种灵活且直观的数学框架,用于表示、可视化和分析这些复杂关系 [172]。已经开发了各种技术,通过以特定布局排列节点和边,促进网络的可视化和探索。例如,通过将高度连接的节点分组,数据中的模块化模式变得更加明显 [172]。然而,随着复杂性和规模的增长,网络可能很快变得非常密集且难以理解 [173]。为缓解这些挑战并提供可扩展布局替代方案,已经开发了大型网络的替代表示形式,如结构摘要 [174] 或基于轴的节点链接表示 [175]。

除了提供直观的可视化,网络还提供了丰富的工具箱,可以应用于探索多组学网络并以自动化方式提取相关信息 [177]。例如,多层网络代表了一种有前途的数学框架,其中节点层(例如基因、蛋白质、代谢物)通过不同类型的边连接,具有不同程度的连接性(例如基因共表达、性状关联和蛋白质共丰度)[178,179]。图论和网络科学等研究领域已经开发了各种算法,可以应用于这种异质网络,包括随机游走 [43]、模块识别 [180] 或基于元路径的技术 [181]。这使得例如可以预测新边 [181]、识别关键角色 [182,183] 或检索有趣的子网络(模块)[184-186]。此外,原生图数据库,如 Neo4j,代表了一种有吸引力的后整合分析框架,因为它们能够有效地存储和分析大量半结构化、多样且高度连接的数据 [187]。表 1 提供了基于网络的多组学可视化工具和在线资源的广泛列表。

即使成功识别出有趣的实体或模块,这种复杂的多组学发现的下游功能解释和验证也不是简单的。直接重复作为识别假阳性的重要工具 [7] 通常由于可比较且足够有力的组学研究的可用性有限而不可行。迄今为止,因此,结果的验证通常使用先验知识 [171] 进行,以提供功能证据,例如通过基于集合的富集(见第 4.1.1 节)。然而,随着大规模研究数量的增加和跨来源数据集标准化和索引工作的努力,如 Omics Discovery Index(OmicsDI)[188,189],数据驱动的重复在未来将变得越来越可行。除此之外,通常不可能详细描述多组学研究的每一个发现,因为结果可能非常复杂和众多。这因此导致了结果的偏向或选择性报告 [171]。为此,共享所有结果在易于访问的数据存储库中,如 NDEx[190] 或专门的补充网站服务器 [16,20,126],变得越来越受欢迎,因为它使其他研究人员能够进一步探索或重复多组学结果。

6. 当前趋势和未来展望

如本综述所述,各种多组学整合策略存在。计算机视觉和自然语言处理等研究领域的发展为高维数据的无偏整合提供了有前途的新方向。近年来,这些领域已经通过深度学习技术(如深度神经网络)的使用发生了变革,这些技术可以处理大量数据并能够发现高度复杂且相关的特征 [191,192]。在深度学习中,多个隐藏层使得能够学习新的、高度复杂的数据表示 [191]。此外,灵活的架构允许模型针对许多不同的问题领域进行定制,也为多组学整合研究提供了令人兴奋的新可能性 [193,194]。例如,变分自编码器(VAEs)[195] 是流行的表示学习方法,已被提议用于非线性降维、无监督聚类和数据集的降噪 [196,197]。它们可以用于将输入数据(例如不同的组学数据集)编码为低维嵌入,有效地将不同的组学类型整合为新的潜在表示 [198]。迄今为止,深度学习算法的一个主要限制是它们需要大量高质量数据以及模型特征解释的复杂性 [192,194,199]。然而,随着大规模多组学数据集的日益可用和可解释深度学习方法的发展,将来会有越来越多的深度学习应用 [191,200]。

除了算法创新,分析技术的持续进步还将为整合研究提供新的机会和挑战。例如,空间组学剖析由于高分辨率技术的出现而受到越来越多的关注,以生成细粒度空间分辨率的数据。这对于癌症领域特别有趣,因为有越来越多的证据表明肿瘤微环境(即围绕和支持肿瘤细胞的所有间质细胞的集合)在预后和治疗中起着主要作用 [201]。对于代谢组学,现代“基质辅助激光解吸电离”(MALDI)成像质谱仪器可以以几乎单细胞分辨率获取代谢物剖面 [202]。这种由代谢物、样本和两个或更多空间维度组成的新型数据也需要创新的数据处理、整合和分析方法。例如,单细胞代谢物剖面可以使用“SpaceM”方法进行分配和分析,该方法将空间测量模式插值到显微镜图像上 [203]。同样,新的技术和相应的计算方法允许高分辨率蛋白质剖析,例如,使用质谱仪飞行时间(CyTOF)仪器 [204],并且空间转录组数据可以通过越来越多的测序和微阵列技术获得 [205]。未来的应用中,通过这些技术组合生成空间多组学数据集的组织样本或整个器官的顺序分析,有望深入了解所研究系统的分子生物学。

7. 结论

大量生物数据的生成为获得跨越健康和疾病的调控层次的分子连线的系统视角提供了令人兴奋的新机会。然而,多组学数据集的异质性和高维性质,结合不同的研究目标和数据场景,使得适当的数据整合策略成为逐案选择。

虽然基于知识的策略可以利用来自数据库和科学文献的大量手动和实验验证的信息来指导整合分析,但它仅限于已知或先前表征的生物实体,不适用于功能或身份未知的分子。另一方面,数据驱动方法使用统计方法(如相关或关联分析)推断组学层之间的关系。尽管这可能容易识别伪关联,并且成功在很大程度上取决于正确预处理的高质量数据,但数据驱动整合具有发现新颖且特定条件相互作用的潜力。特别是能够同时分析数据集并考虑跨组学异质性的多块整合方法显示出充分利用多组学数据集的令人兴奋的潜力。为了利用这两种方法的优势,网络基混合整合方法已经出现,使得能够结合基于知识和数据驱动的数据整合。这促进了高度复杂的多组学相互作用目录的生成,可以使用图算法进行自动化挖掘。

随着更大、更高质量的数据集的日益可用以及新组学技术的发展,对强大数据分析工具和标准化整合框架的需求将继续增长。这些多组学数据的整合分析,通过将数据发布到遵循 FAIR 原则(可查找、可访问、可互操作和可重复使用)的集中数据存储库中,最终将使研究人员能够提高其工作的可用性和可重复性,并有潜力在生物医学研究和医疗保健方面取得实质性进展。