Skip to content

Prediction of recurrence risk in endometrial cancer with multimodal deep learning

摘要

预测子宫内膜癌(EC)的远处复发对于个性化辅助治疗至关重要。目前结合病理学和分子分析的金标准成本高昂,阻碍了其实施。在此,我们开发了 HECTOR(基于组织病理学的子宫内膜癌定制结果风险),这是一种多模态深度学习预后模型,使用苏木精和伊红染色的全切片图像和肿瘤分期作为输入,基于来自八个 EC 队列(包括 PORTEC-1/-2/-3 随机试验)的 2,072 名患者的数据。HECTOR 在内部(n = 353)和两个外部(n = 160 和 n = 151)测试集中的 C 指数分别为 0.789、0.828 和 0.815,优于现有的金标准,并通过 Kaplan-Meier 分析鉴定了具有显著不同预后的患者(HECTOR 低、中、高风险组的 10 年远处复发无概率分别为 97.0%、77.7% 和 58.1%)。HECTOR 在预测辅助化疗获益方面也优于现有方法。形态学和基因组特征提取鉴定了 HECTOR 风险组的相关特征,其中一些具有治疗潜力。HECTOR 改进了现有的金标准,可能有助于在 EC 中提供个性化治疗。

正文

子宫内膜癌(EC)是高收入国家最常见的妇科恶性肿瘤,发病率正在增加【1】。尽管大多数局部疾病的女性通过手术可以治愈,但 10-20% 的患者会发生远处复发【2】,这通常是无法治愈的。辅助化疗可以减少这种风险,但会带来毒性【3,4】。因此,目前的指南基于一系列临床病理风险因素(例如,组织学亚型、分级、淋巴血管间隙浸润(LVSI)、国际妇产科联盟(FIGO)肿瘤分期)以及分子分类(如果可用),推荐进行这种辅助治疗。分子分类识别出具有良好和不良预后的患者,分别由 POLE 突变(POLEmut)或 p53 异常(p53abn)定义,以及由错配修复缺陷(MMRd)或无特定分子特征(NSMP)定义的中间预后【5,6,7,8】。最近的努力试图结合临床病理和分子因素【9】;然而,在实践中,结合越来越多的因素存在挑战,病理因素评估中的高观察者间变异性以及分子检测的成本和周转时间都是问题。此外,组织切片包含大量视觉信息,其中一些具有预后潜力【10】,但在病理学家的分级和肿瘤类型化中仅部分被捕捉到。

包括使用数字化苏木精和伊红(H&E)染色肿瘤切片的深度学习(DL)模型在内,已经在分子变化预测【11,12,13】、细胞成分【14】和预后【15,16,17,18,19,20,21】方面显示出巨大潜力,优于标准的病理学家评估。这对于使用基于注意力网络【22】、图形【15,19】或(视觉)转换器【23,24】的最新一代自监督学习和全切片图像(WSI)预测 DL 模型尤其如此,这些模型提供了更细粒度和可解释的图像表示。此外,预后预测的多模态 DL 模型有望优于仅依赖 H&E WSI 提供的形态信息的单模态方法【16,21】。我们之前开发了一种 DL 模型,基于图像的(im)四分子分类在 EC 中(im4MEC),能够准确预测肿瘤 H&E WSI 的分子 EC 分类,并显示基于图像的分子分类能够预测预后【11】。其他研究已经对 EC 的二元复发进行了分类【25】或使用单/多模态 DL 模型预测 EC 的总体生存率【15,16,19,21】(一致性指数(C- 指数)为 0.629-0.687),但这些研究依赖于更详细的肿瘤分析,例如多重免疫荧光染色【25】或 H&E WSI 与基因组和/或转录组数据的结合【16】,这些目前在临床实践中尚不可行。因此,仍然迫切需要一种能够从作为常规临床诊断一部分生成的输入数据中预测 EC 远处复发的方法。

在本研究中,我们报告了 HECTOR 的开发和评估(图 1)——一个多模态 DL 模型,通过 H&E WSI 和解剖分期预测术后 EC 女性的远处复发——涵盖了包括三个大型随机试验【3,26,27,28,29,30,31】在内的八个 EC 队列。

a. 从 EC 的 H&E WSI 中分割的组织,随后在 180 μm 处进行了补丁处理。使用自监督学习,通过随机采样 1,862 名患者的 WSI 补丁训练了一个多阶段视觉变换器,排除了内部和外部测试集中的任何患者。补丁级特征从最后八个变换器块中提取。

b. HECTOR 将 H&E WSI 和(FIGO 2009)解剖分期 I-III 类别作为输入。提取的补丁级特征在空间上和语义上进行了平均。补丁特征被传递到一个基于注意力的多实例学习模型和 im4MEC DL 模型(所有层被冻结),该模型从 H&E WSI 预测分子类别为 imPOLEmut、imMMRd、imNSMP 或 imp53abn11。解剖分期类别和基于图像的分子类别都通过嵌入层。对生成的三个嵌入应用基于门控的注意力【16,35】,然后进行克罗内克积以进行融合。使用 -log(似然损失) 预测离散时间内的远处复发无概率函数【61】。风险评分定义为综合预测概率。MLP,多层感知器;FC,全连接层。

结果

EC 队列

HECTOR 是一个两步的深度学习(DL)模型,其中第一步是自监督的肿瘤图像表征学习,第二步是远处复发预测任务(图 1)。

为了训练和验证 HECTOR 的远处复发预测任务,我们收集并整理了来自 8 个队列的 2,072 名患者的子宫切除标本的肿瘤包含、H&E 染色的 WSI 以及全面的临床病理数据、分子和临床远处复发数据,这些队列包括 PORTEC-1、-2 和 -3 随机试验【3,26,27,28,29,30】(扩展数据图 1;研究 CONSORT 图见补充图 1 和 2 及补充表 1 和 2)。其中,两个基于人群的队列作为两个外部测试集:在 Groningen 大学医学中心(UMCG)治疗的患者(n = 160)和莱顿大学医学中心(LUMC)治疗的患者(n = 151),其中 LUMC 外部测试集还模拟了每位患者最多三个肿瘤块的诊断场景。剩余的患者随机分为 20% 的内部测试集(n = 353)和 80% 的训练集(n = 1,408),在训练集中进行了五折交叉验证。训练集、内部测试集、UMCG 外部测试集和 LUMC 外部测试集的中位随访时间分别为 7.8 年、8.4 年、5.3 年和 2.9 年,在此期间,246(17.5%)、62(17.6%)、14(8.8%)和 24(15.9%)名患者发生了远处复发。重要的是,接受化疗的患者,主要是 PORTEC-3 随机试验的实验治疗组(n = 225),由于这种治疗会影响远处复发风险,因此在训练中被排除【3,4】(扩展数据图 1)。然而,这些 PORTEC-3 患者被用于 HECTOR 对辅助化疗获益的下游分析。

为了训练 HECTOR 的自监督学习步骤(这需要一个不包含结果数据的大型成像数据集),我们通过额外的一个 TCGA-UCEC 队列(癌症基因组图谱子宫内膜癌)【32】以及由于诊断时癌症转移(FIGO 2009,IV 期)或缺少结果而排除在远处复发任务之外的 WSI(n = 1,862;方法)丰富了训练集。

总的来说,包括这两个训练步骤和下游分析,本研究共包含 2,751 名患者的肿瘤数据。

HECTOR 设计和性能

为了设计 HECTOR 并获得最具性能的 DL 模型以基于最高 C 指数【33】预测远处复发,我们在五折交叉验证中进行了消融研究(补充表 3)。HECTOR 的第一步包括一个视觉变换器用于补丁级别的自监督表征学习(图 1a)。HECTOR 的第二步是一个多模态、三臂架构,用于预测远处复发无概率(图 1b)。该三臂架构融合了来自肿瘤包含子宫部分的 H&E 染色 WSI 的预后信息、直接从 H&E WSI 预测的基于图像的分子类别(由 im4MEC 预测)【11】和手术评估的解剖分期(根据 FIGO 2009 系统分为三个层次,I 期表示肿瘤局限于子宫,II 期表示扩展到宫颈,III 期表示扩展到子宫外,包括阴道、附件、盆腔和淋巴结)【34】。为此,我们结合了基于注意力的多实例学习和嵌入层,将离散的风险因素(基于图像的分子类别和解剖分期)映射到高维连续向量空间,每个因素的重要性由基于门控的注意力控制【16,35】。消融研究(补充表 3)还包括多任务学习【36】,其中第二个训练目标是预测基于图像的分子类别,而不是冻结的 im4MEC,或者用集成补丁空间信息的 DL 模型(如变换器【23】和基于注意力的图神经网络【15】)替代基于注意力的多实例学习。这两种架构在此任务中未能优于基于注意力的多实例学习。进一步的详细信息见方法部分,HECTOR 配置的摘要见补充表 4 和 5。

HECTOR 在五折交叉验证中展示了 0.795 的平均 C 指数(95% 置信区间(CI):0.768-0.822)。值得注意的是,添加由 im4MEC 从 H&E WSI 预测的基于图像的分子类别臂(分别称为两臂或一臂模型)将性能从 0.775(95% CI:0.748-0.802)提高到 0.782(95% CI:0.759-0.805),无需额外的输入数据。添加解剖分期(三层 FIGO 2009,I 期、II 期或 III 期)进一步将 C 指数提高到 0.795(95% CI:0.768-0.822),形成了 HECTOR 的最终架构(图 2a)。受试者工作特征曲线(AUC)的累积面积和综合 Brier 评分报告在补充表 6 中。我们还观察到,与依赖于 H&E WSI 的模型相比,HECTOR 在较少区域集中了高注意力,而忽略了 H&E WSI 的大部分区域(扩展数据图 2)。

a. HECTOR 性能与替代的单模态和两臂 DL 模型以及基于临床病理和分子风险因素拟合的 Cox 比例风险(CPH)模型的 C 指数比较。 b. 在多变量分析中,HECTOR 与合并成一个风险评分的临床病理和分子风险因素之间的预后价值比较。数据以 HRs 和 95% CIs 表示(n = 1,254 名患者)。 c. 在使用 HECTOR 预测的风险评分进行多变量分析时,所有已建立的临床病理和分子风险因素的剩余预后价值。数据以 HRs 和 95% CIs 表示(n = 1,254 名患者)。 d. 使用 Kaplan-Meier 方法对内部测试集中 HECTOR 风险组进行 10 年远处复发无概率分析,并进行对数秩检验 P 值。 e. 在 LUMC 外部测试集中(n = 151 名患者)使用多个 WSIs 进行的实验。 f. 在 LUMC 外部测试集中随机使用一到三张 WSI 进行 HECTOR 的 C 指数,并重复实验 100 次。 g. 使用最多三个 WSI(通过中位数后聚合)在 LUMC 外部测试集中,使用 Kaplan-Meier 方法对 HECTOR 风险组进行 5 年远处复发无概率分析,并进行对数秩检验 P 值。GR3,3 级;EEC,子宫内膜样癌。

在未见过的内部测试集中,HECTOR 的 C 指数为 0.789,在 UMCG 外部测试集中为 0.828。LUMC 外部测试集中的性能见“使用多个 WSI 的性能”。

为了帮助临床解释,我们首先将 HECTOR 风险组定义为训练集中连续风险评分的四分位数。由于前两个四分位数的组在训练集中具有非常相似的临床结果(通过 Kaplan-Meier 分析,远处复发无概率分别为 98.1% 和 95.8%;见补充图 3),因此将这些组合并,并将其应用于内部和外部测试集。其次,我们使用 Cox 比例风险(CPH)模型计算 HECTOR 的风险比(HR),将连续和分类的 HECTOR 风险评分作为自变量,远处复发时间作为因变量。

HECTOR 在训练测试集中作为连续变量显示出强大的预后价值(HR = 5.06;95% CI:4.35–5.89;P = 9.00 × 10^-99),在内部测试集中(HR = 2.69;95% CI:2.07–3.49;P = 1.31 × 10^-13)和 UMCG 外部测试集中(HR = 5.84;95% CI:3.06–11.14;P = 8.37 × 10^-8)也显示出强大的预后价值。在内部测试集中,HECTOR 低风险组(n = 175)、中风险组(n = 82)和高风险组(n = 96)的 10 年远处复发无概率分别为 97.0%(95% CI:0.930–0.988)、77.7%(95% CI:0.670–0.854)和 58.1%(95% CI:0.469–0.677)(对数秩检验 P = 1.78 × 10^-10;见图 2d)。在内部测试集中,使用 HECTOR 低风险组作为参考,HECTOR 高风险组和中风险组的相应 HR 分别为 15.63(95% CI:6.58–37.13;P = 4.81 × 10^-10)和 7.67(95% CI:3.06–19.22;P = 1.37 × 10^-5)。在 UMCG 外部测试集中,HECTOR 低风险组(n = 102)、中风险组(n = 44)和高风险组(n = 14)的 5 年远处复发无概率分别为 93.9%(95% CI:0.859–0.974)、91.4%(95% CI:0.756–0.972)和 19.0%(95% CI:0.0097–0.553)(对数秩检验 P = 5.56 × 10^-10;见补充图 4)。在 UMCG 外部测试集中,HECTOR 中风险组的相应 HR 为 2.26(95% CI:0.61–8.42;P = 0.225),高风险组为 20.42(95% CI:5.92–70.50;P = 2.00 × 10^-6)。

与当前预后金标准的比较

我们将基于 DL 的风险评分(即一臂、两臂和 HECTOR 模型)与当前 EC 预后标准进行比较,包括临床病理风险因素和分子 EC 分类在五折交叉验证中的 C 指数(图 2a)。首先,我们按所需输入类型比较 C 指数:(1)“基础”CPH 模型,包括病理学家仅使用 H&E 图像定义的变量(组织学亚型、分级和 LVSI);(2)基础模型加上解剖分期;(3)基础模型加上解剖分期和分子 EC 分类。在五折交叉验证中,给定基于 H&E 的输入数据,一臂和两臂模型的区分优于基础 CPH 模型(C 指数 = 0.681;95% CI:0.624–0.738)。HECTOR 模型的区分优于基础 CPH 模型加解剖分期(C 指数 = 0.716;95% CI:0.672–0.761),并且比或等于基础 CPH 模型加解剖分期和分子 EC 分类(C 指数 = 0.762;95% CI:0.732–0.791),后者需要测序、免疫组化(IHC)和专家病理学。

我们进一步比较了 HECTOR 与当前临床病理和分子风险因素在多变量分析中的预后价值,使用 HECTOR 连续风险评分作为自变量。在多变量模型中,HECTOR 保持了预后价值,其中已知风险因素(组织学亚型、分级、LVSI、FIGO 2009 I–III 期、年龄、分子分类)结合成一个风险评分(称为 CLINICAL 风险评分)不具有预后价值(HECTOR HR = 4.62(95% CI:3.72–5.73;P = 5.02 × 10^-44)与 CLINICAL HR = 1.08(95% CI:0.90–1.30;P = 0.402);见图 2b)。类似的多变量分析,包括作为个体变量的风险因素,显示 HECTOR 具有独立的预后价值(HR = 5.26;95% CI:4.21–6.56;P = 2.30 × 10^-48),只有 FIGO 2009 III 期疾病保持统计显著性(HR = 1.50;95% CI:1.05–2.14;P = 0.026;见图 2c)。在包括 HECTOR 风险评分后,其他已知风险因素不再具有预后价值,这表明这些因素已被 HECTOR 捕捉。例如,源自真实测序和 IHC 的 POLEmut 和 p53abn 分子类别分别为 HR = 0.66(95% CI:0.26–1.69;P = 0.384)和 HR = 0.90(95% CI:0.61–1.34;P = 0.616),以及 LVSI 等组织学因素(HR:1.05;95% CI:0.77–1.42,P = 0.776)在预测远处复发中不具有附加预后价值。

考虑到当前预后金标准将 p53abn EC 分类为高风险肿瘤,而 MMRd 和 NSMP 分类为具有异质性结果的中间风险肿瘤,我们验证了 HECTOR 在训练和内部测试集中细化 MMRd、NSMP 和 p53abn 分子类别预后的能力。特别是,HECTOR 低风险组在整个数据集中还识别了大约 5.3%(300 例中的 16 例)具有良好预后的 p53abn EC 病例(见补充图 5)。沿着这些思路,我们估计 HECTOR 与 ESGO-ESTRO-ESP 2021 指南【5】之间具有显著不同风险分类的患者数量,该指南结合了临床病理和分子因素(见补充图 6)。在基于指南的所有中高风险肿瘤患者中(且未报告远处复发),48.2%(1,146 例中的 552 例)患者被预测为 HECTOR 低风险,16.9%(仅高风险肿瘤中的 62 例 366 例)被预测为 HECTOR 低风险。在基于指南的所有低至中高风险肿瘤患者中,11.2%(1,170 例中的 131 例)患者被预测为 HECTOR 高风险,限制为仅低风险肿瘤时为 4.9%(287 例中的 14 例)。

使用多个 WSI 的性能

为了评估 HECTOR 在第二个现实世界外部测试集中的预后价值和稳健性,我们利用了 LUMC 队列中的大多数病例具有来自不同组织块的多个肿瘤包含 H&E WSI 的事实(151 例中 121 例有 3 个 WSI,21 例有 2 个 WSI,9 例有 1 个 WSI;见图 2e)。这使我们能够在诊断环境中验证 HECTOR 的外部性能,并随后测试对 H&E WSI 选择的稳健性。初步评估中,使用从每个患者随机选择的单个 WSI 派生的 HECTOR 评分,重复 100 次,显示 LUMC 外部测试集中远处复发预测的平均 C 指数为 0.802(95% CI:0.799–0.804;见图 2f)。

通过添加更多的 WSI,HECTOR 性能和风险分层略有改善(将每个患者的 HECTOR 风险评分作为 WSI 之间的平均或中位数评分),最多 2 个 WSI 时的 C 指数为 0.810(95% CI:0.808–0.811),最多 3 个 WSI 时的 C 指数为 0.813 或 0.815(见图 2f)。测试了一种不同的方法,将 WSI 组合为一个输入图像袋,C 指数为 0.805。使用每个患者的 HECTOR 风险评分中位数进行的 5 年远处复发无概率分析显示,HECTOR 低风险组为 98.4%(95% CI:0.891–0.998),中风险组为 74.8%(95% CI:0.534–0.874),高风险组为 52.6%(95% CI:0.323–0.694)(对数秩检验 P = 1.00 × 10^-6;见图 2g 和补充图 7)。相应的 HR(对于连续的 HECTOR 风险评分)为 3.73(95% CI:2.34–5.96;P = 3.17 × 10^-8),而(对于高风险与中风险的分类)为 34.51(95% CI:4.52–263.39;P = 6.37 × 10^-4)对比 15.08(95% CI:1.91–119.16;P = 0.010)。此外,HECTOR 在 LUMC 外部测试集中对患者分层的性能扩展到了总体生存率(5 年概率分别为低、中、高风险的 88.4%(95% CI:0.769–0.944)、69.9%(95% CI:0.468–0.845)和 47.0%(95% CI:0.289–0.633);见补充图 8)。

潜在的肿瘤内异质性影响也很小,因为 142 例中有超过 1 个 WSI 的 85 例病例在 WSI 之间具有一致的 HECTOR 风险组预测,只有 3 例具有 3 个 WSI 的病例在每个 WSI 中有不同的预测 HECTOR 风险组(见补充图 9–12 和补充注释第 16 页)。

与预后因素和输入贡献的关联

DL 预后模型可以提供有关决定临床结果的相关因素或特征的信息。通过多元线性回归对内部测试集的初步分析(图 3a,b)显示,较低的 HECTOR 风险评分与已确立的有利风险因素(子宫内膜样(EEC)组织学亚型、1 级和 POLEmut EC)相关,而较高的 HECTOR 风险评分与不利因素(包括非 EEC 组织学亚型、3 级、FIGO III 期、LVSI、p53abn EC、雌激素受体阴性和 L1 细胞粘附分子(L1CAM)阳性)相关(见补充表 7–9 和补充图 13)。MMRd EC、2 级和 FIGO 2009 II 期在整个风险评分轴上分布,并且没有统计学意义。

a. 内部测试集中患者的已建立预后因素的热图(n = 353 名患者),按预测的 HECTOR 风险评分排序。显示了 POLE、MMR 和/或 p53 中有多种改变的病例。根据世界卫生组织 2020 年女性生殖器肿瘤分类【62】,缺乏这三种特定分子改变的病例被视为 NSMP。 b. 使用多单变量线性回归分析预后因素与连续 HECTOR 风险评分的关联,HECTOR 连续风险评分作为因变量。数据以线性回归系数和 95% CI 表示(n = 353 名患者)。 c. 使用积分梯度(IG)方法分析 WSI 模态对内部测试集中 HECTOR 风险评分的贡献(n = 353 名患者)。补丁的 IG 值经过归一化和 WSI 平均。 d. 在内部测试集中按组织学亚型(上)和 LVSI 存在(下)分层的 WSI 归一化 IG 值(n = 353 名患者)。箱形图的定义如下:中间刻度为中位数值,箱体的下部和上部分别为第一个四分位数(Q1)和第三个四分位数(Q3),胡须的范围为(Q1 − 1.5 × IQR, Q3 + 1.5 × IQR),其中 IQR 为四分位距(Q3 − Q1)。任何超出胡须范围的异常值用点标记显示。 e. 使用 imNSMP 作为参考组,分析图像基于分子类别对内部测试集中连续 HECTOR 风险评分的贡献。计算图像基于分子类别给出的风险评分与使用 imNSMP 生成的风险评分之间的差异。 f. 使用 FIGO 2009 II 期作为参考组,分析 FIGO 2009 期对内部测试集中连续 HECTOR 风险评分的贡献。CCC,透明细胞;GR1–3,1–3 级;SEC,浆液性;wt,野生型。

为了更深入地解释,我们评估了 H&E WSI、im4MEC 和解剖分期对预测的影响,即每种模式是减少(负贡献)还是增加(正贡献)了 HECTOR 风险评分的发展远处复发的风险。我们使用归一化的积分梯度(IG)值来评估 H&E WSI,并在内部测试集中固定 im4MEC 或 FIGO 解剖分期的预测风险评分差异。H&E WSI 主要表现出正贡献,值随着 HECTOR 风险评分线性增加(图 3c 和补充图 14)。我们还注意到对 3 级 EEC 或非 EEC 组织学亚型和 LVSI 的贡献较大(图 3d)。这两个观察结果可能表明,在 H&E WSI 中捕捉到的不利形态特征是风险评分预测的重要驱动因素。使用基于图像的分子分类和 FIGO 2009 I-III 期与 EC 领域专家的知识一致,其中 imPOLEmut 和 imMMRd 主要降低,而 imp53abn 显著增加 HECTOR 风险评分(图 3e,补充表 8 和补充图 15),更高的解剖分期增加了 HECTOR 风险评分(图 3f 和补充图 16)。

这些分析使我们能够解剖内部测试集中被预测为 HECTOR 低风险但实际发生远处复发的六名患者的数据(补充表 10 和补充图 17)。在这些实例中,将基于图像的分子分类替换为真实分子分类的实验测试表明,im4MEC 的误分类对 HECTOR 风险组没有影响。由一位专家妇科病理学家审查单个 WSI 输入显示,至少在两个病例中,WSI 缺少病理报告中报道的不利视觉特征(显著的 LVSI 或高分级肿瘤区域)。我们还注意到三例被预测为 HECTOR 高风险但具有 POLE 突变的病例。虽然相同的实验确认基于图像的分子分类在这些实例中的 HECTOR 预测中几乎没有或没有影响,但这三例病例都明显具有 FIGO 2009 II 期或 III 期疾病(补充表 11)。

预后风险的形态学相关性

为了识别可能被 HECTOR 使用的预后形态特征,我们提取并审查了在内部测试集中对风险评分影响最大的 H&E WSI 的前 5% 区域(减少和增加)(图 4a 和补充图 18-22)。在 HECTOR 低风险组中,降低风险评分的形态特征被识别为光滑的腔内边界、发炎的基质和上皮内淋巴细胞、上皮内中性粒细胞和丰富的紧凑正常子宫肌层无肿瘤。在 HECTOR 高风险组中,增加风险评分的形态特征为参差不齐的腔肿瘤表面(也称为钉状突起)、LVSI、具有明显核异常的实体肿瘤生长、纤维增生性基质反应和有丝分裂象的存在(图 4a)。在 HECTOR 低风险组中,我们观察到一些较少见的正贡献形态特征,如表面变化模拟钉状突起、收缩伪影模拟 LVSI、水肿松弛的子宫肌层模拟纤维增生和散在高分级核异常的实体肿瘤生长(扩展数据图 3a)。

a. 通过 IG 方法【63】提取的增加和减少风险评分的前 5% 区域,用于定性审查和定量分析。每种形态亚型中选择四个代表性补丁(每个选自不同患者),展示了 HECTOR 高风险组中增加风险评分的区域(右)。每种形态亚型中选择四个代表性补丁(每个选自不同患者),展示了 HECTOR 低风险组中减少风险评分的区域(左)。每个补丁的尺寸为 180×180 μm²。

b. 在前 5% 区域中,减少和增加风险评分的区域中检测到的炎症细胞、有丝分裂象和肿瘤核面积,并使用基于 DL 的图像分析工具【14,64】计算。报告了内部测试集中每位患者的平均值(n = 353)。箱形图的定义如下:中间刻度为中位数值,箱体的下部和上部分别为第一个四分位数(Q1)和第三个四分位数(Q3),胡须的范围为(Q1 − 1.5 × IQR, Q3 + 1.5 × IQR)。任何超出胡须范围的异常值用点标记显示。

有丝分裂活性、炎症细胞密度和肿瘤细胞核大小使用基于 DL 的图像分析工具进行量化(图 4b 和方法)。在减少风险评分的前 5% 区域中,炎症细胞的数量较多,这一效果在 HECTOR 低风险组中更为显著(P = 0.011)。在 HECTOR 高风险组中,前 5% 区域内有较高的有丝分裂密度和较大的肿瘤细胞核(均 P < 0.001)。这些结果在基于图像的分子类别和 FIGO 2009 I–III 期中保持一致(见补充图 23–25),以及在筛选包含肿瘤细胞的区域时(见补充图 26)。在定量空间分析中,我们计算了前 5% 区域与肿瘤和侵袭边界区域的重叠(扩展数据图 3b)。结果显示,增加风险评分的区域更多来自肿瘤区域而非侵袭边界区域。肿瘤和侵袭边界区域在减少风险评分的区域中几乎同样贡献,尤其是在 HECTOR 低风险组中。

基因组变异、免疫和转录特征

为了全面分析 HECTOR 风险评分的分子相关性,我们分析了 TCGA-UCEC(n = 381,FIGO I–III 期 EC)数据集(图 5 和补充图 27)。在 HECTOR 低风险组中,ARID1A、CTCF、CTNNB1、FGFR2、KRAS 和 PTEN 的编码驱动突变富集(均 P < 0.005),而 PPP2R1A 和 TP53 突变在 HECTOR 高风险组中更为常见(分别为 P = 2.19 × 10^-3 和 P = 2.81 × 10^-7)(图 5a 和补充表 12)。使用转录数据,我们进行了 CIBERSORT 定义的淋巴细胞群体的多变量线性回归分析(图 5b)。结果显示,HECTOR 评分增加与记忆 B 细胞(P = 0.008)、活化树突状细胞(P < 0.001)和静息肥大细胞(P = 0.029)正相关,与 CD8+ T 细胞(P < 0.001)、滤泡辅助 T 细胞(P < 0.001)、调节性 T 细胞(P < 0.001)和自然杀伤(NK)细胞活化(P = 0.049)负相关。值得注意的是,这些关联独立于 EC 分子类别和肿瘤突变负担(TMB)(见补充表 13)。进一步的转录组分析(图 5c,补充图 27c 和补充表 15)确认了淋巴细胞群体的变化反映在经典免疫细胞标志基因的差异表达上,包括在 HECTOR 低风险病例中富集的 CD1C、BTLA 和 CD40LG。HECTOR 高风险肿瘤还表现出预测 EC 不良预后的基因上调,包括 L1CAM 和 CLDN6,而 HECTOR 低风险病例显示出与激素信号传导相关的基因上调(C1orf64 和 OVGP1)。

a. 对每个 HECTOR 风险组中被认定为 EC 关键致癌变异的前 19 个基因突变频率的分析。 b. 使用多单变量线性回归分析 HECTOR 风险评分与免疫激活基因的关联(方法)。数据以线性回归系数和 95% CI 表示(n = 381)。 c. HECTOR 高风险与 HECTOR 低风险 TCGA-UCEC 病例的差异基因表达。似然比检验的 P 值使用 Benjamini-Hochberg FDR 进行调整,并接受<0.050 的统计显著性。

HECTOR 对辅助化疗反应的预测

我们使用 PORTEC-3 随机试验【3】来调查 HECTOR 是否能够预测化疗对远处复发风险的益处。在该试验中,高风险 I-III 期 EC 患者被随机分配到同步和辅助外照射放疗组,是否同时接受基于铂和紫杉醇的化疗。对于所有可获得 WSI 的 PORTEC-3 病例(n = 442),预测了 HECTOR 风险评分,包括接受化疗的患者(n = 225)。重要的是,这 225 例未用于训练或测试集(扩展数据图 4,补充表 14 和补充图 28)。通过治疗组和 HECTOR 对远处复发无概率的分析显示,化疗和 HECTOR 风险评分之间无论作为连续变量还是分类变量,均表现出统计显著的交互作用(PINTERACTION = 0.014 和 PINTERACTION = 0.064,分别)。

我们详细研究了 HECTOR 风险组的这一点(图 6a)。在 HECTOR 低风险组(n = 92)和中风险组(n = 177)中,两组治疗臂的结果相似,EC 远处复发的概率相似(log rank P = 0.244 和 0.807,分别)。相比之下,在被分类为 HECTOR 高风险的女性(n = 173)中,接受辅助化疗的患者与仅接受外照射放疗的患者相比,远处复发无概率显著提高(5 年远处复发无概率分别为 62.2%(95% CI: 0.511–0.715)和 42.0%(95% CI: 0.311–0.526);log rank P = 0.007;HR = 0.561(95% CI: 0.366–0.862;P = 0.008))。探索性分析表明,HECTOR 的预测准确性优于目前用于识别可能从辅助化疗中获益的高风险肿瘤患者的预后因素,包括浆液性组织学亚型、FIGO 2009 III 期和 p53abn 分子分类(图 6b)。进一步的探索性分析表明,HECTOR 还识别出了 NSMP 和 MMRd 分子分类中从辅助化疗中获益的患者(补充图 29 和 30)。当按 HECTOR 的基于图像的分子分类臂进行次分层时,这些结果仍然一致(补充图 31)。因此,HECTOR 展示了显著的预测效用,可能超过目前的方法。

a. 通过 Kaplan-Meier 分析和对数秩检验 P 值显示每个 HECTOR 风险组按随机分配的治疗分层的 6 年远处复发无概率。显示了使用分类 HECTOR 风险组的交互项 P 值。HECTOR 连续风险评分和治疗之间也存在显著的交互作用(PINTERACTION = 0.014)。

b. 为了与 HECTOR 选择进行比较,显示了 PORTEC-3 试验中依赖于浆液性组织学、FIGO 2009 III 期和 p53abn 分子分类的不同金标准预后因素的 Kaplan-Meier 分析的远处复发无概率。显示了对数秩检验和交互项 P 值。EBRT,外照射放疗;CT,化疗。

讨论

HECTOR 是一种在 2072 名 I–III 期子宫内膜癌患者中进行训练和验证的深度学习模型,具有长期随访数据,通过仅使用全子宫切除术标本的 H&E 染色肿瘤切片和解剖分期预测术后远处复发风险。在三个未见过的测试集中,HECTOR 的 C 指数分别为 0.789、0.828 和 0.815。其性能与其他癌症类型中临床实施的预后 DL 工具相当(结直肠癌复发的 C 指数为 0.714 和 0.744,前列腺癌 10 年远处复发的 AUC 为 0.78),也优于某些分子预后检测(例如,OncotypeDX 用于 10 年乳腺癌远处复发的 C 指数为 0.641)。值得注意的是,HECTOR 在远处复发风险预测方面优于当前的病理和分子分析相结合的诊断金标准,并且在 PORTEC-3 随机试验中也被发现能够预测辅助化疗的益处。等待前瞻性验证,我们的结果表明,HECTOR 有可能成为个体化预测子宫内膜癌患者预后的高效工具,同时缩短周转时间并降低检测成本。HECTOR 还可能为改善靶向治疗决策提供生物标志物发现的机会。

HECTOR 的性能得益于一种新的多模态、综合的三臂架构,该架构利用了 H&E WSI、来自 im4MEC 的基于图像的分子分类和解剖分期的预后信息。这种多模态架构优于仅使用 H&E 信息的替代 DL 模型,证实了其他研究的结论。值得注意的是,将 im4MEC 模型嵌入 HECTOR 中提高了性能,而其他研究中整合拷贝数变异或转录组学并未改善子宫内膜癌的总体生存预测。我们展示了分类临床风险因素(如解剖分期)的预后价值可以通过 DL 模型端到端学习来提高预测准确性。HECTOR 朝着整合患者级别的成像、基于图像的分子和临床见解迈出了一步,这可能会使其他癌症类型的类似研究受益,那里基于图像的单模态 DL 模型已经开发。

我们的模型解释性和风险评分相关性初步研究为提高我们对子宫内膜癌和其他癌症类型生物学的理解提供了良好的前景。例如,HECTOR 低风险评分与免疫细胞浸润的关联与数据显示免疫浸润子宫内膜癌预后更好一致,尽管目前尚不清楚 HECTOR 是否直接从 H&E WSI 量化了 T 细胞等淋巴细胞亚型。HECTOR 高风险子宫内膜癌中 CLDN6 的上调与其作为远处复发预测因子一致。具有 HECTOR 高风险和 CLDN6 上调的病例可能作为嵌合抗原受体 T 细胞的靶标。虽然已知纤维增生性基质反应预测结直肠癌的预后不良,但本研究中描述的这种关联尚未在子宫内膜癌中报道。这是否代表 L1CAM 过表达的形态学读取目前尚不清楚。我们还确认了与更高 HECTOR 风险评分一致的子宫内膜癌中已知的不利组织病理学风险因素。因此,我们预计 HECTOR 优于标准组织病理学的表现可能是由每个因素的非线性组合驱动的,更重要的是,由于 WSI 视觉信息的非分类处理。

HECTOR 的设计在扩展到临床实施方面具有相当大的前景,因为它基于两种广泛可用且具有成本效益的输入,常规诊断中获得:一张 H&E 染色的肿瘤切片(我们使用基于图像的而非真实的分子分类)和肿瘤在诊断时的高层次临床信息(扩展到宫颈或超出子宫,但不包括远处)。经过适当的前瞻性临床试验验证,HECTOR 可能在辅助环境中为个体化分类子宫内膜癌患者提供巨大的潜力,从低到高的远处复发风险。随后的治疗决策可以相应地指导,因为 HECTOR 低风险预测可以提供一种减少辅助治疗或鼓励对预测为 HECTOR 高风险的患者推荐辅助系统治疗(如化疗或临床试验中的靶向治疗)的方法。在 HECTOR 高风险中的治疗指导可以通过选择性的靶向分子检测(如 MMRd)或具有良好准确性的 DL 基于分子预测来支持。尽管我们的数据支持 HECTOR 可以减少子宫内膜癌患者的治疗不足和过度治疗,但它也可以节省在资源有限的环境中进行分子检测和专家病理学审查的挑战和费用。我们推测,未来对 HECTOR 的技术改进可能是将其输入扩展到连续数字化的 H&E 染色子宫切除术切片,随后进行三维重建,常规进行 IHC 染色的 WSI,术前放射影像或编码患者级临床信息的临床报告。此外,通过利用子宫颈、卵巢和(或放射影像的)淋巴结切片的组织图像进行 DL 基于解剖分期的评估,可以使 HECTOR 独立于病理审查。

我们的研究有几个优势。我们的总队列包括 2751 名患者,包括 3 项随机试验,使其成为迄今为止在子宫内膜癌中进行的最大 DL 基于预后研究之一。我们最先进的多模态 DL 方法允许我们利用多个因素的预后信息,包括超出 H&E 图像的信息。专家病理审查和分子分析使我们能够将我们的方法与当前的子宫内膜癌风险分层金标准进行基准对比。我们研究的局限性在于,我们目前基于多实例学习的模型不知道区域之间的空间关系,也未设计利用多个 WSI 之间的信息,这两者可能提高性能;尽管上下文感知架构在该任务中并未发现性能改善。此外,形态、分子和解剖分期的复杂相互作用可能通过实验其他早期到晚期融合技术进一步优化,或使用前置任务学习更普遍的形态分子表示。本研究中的一些患者未接受手术分期淋巴结切除术,这可能在解剖分期输入中引入了一些噪音,并可能解释了多变量分析中高级疾病 III 期的剩余预后价值。鉴于 POLEmut 子宫内膜癌很少转移,我们承认 HECTOR 在这些罕见情况下可能会高估风险。此外,并非所有在 H&E 区域中观察到的形态相关性(例如结构变化)在本研究中都进行了量化,原因是缺乏可用于训练基于 DL 的子宫内膜癌特异性图像分析工具的标记数据集。重要的是,HECTOR 的性能需要在比我们检查的大部分欧洲血统患者更为多样化的未选择队列和前瞻性试验中进一步验证。因此,前瞻性验证将首先在 PORTEC-4a 试验中进行。此外,鉴于子宫内膜癌的治疗格局快速演变,最适合 HECTOR 高风险患者的辅助系统治疗需要不断验证或在其他随机试验中探索。

总之,HECTOR 的验证和扩展可能有助于实现精准医学,提高 I–III 期子宫内膜癌初次手术后女性患者的预后预测,提高全球系统治疗推荐和治疗减量。

方法

伦理声明

PORTEC-1、PORTEC-2 (NCT00376844) 和 PORTEC-3 (NCT00411138) 研究协议已获得莱顿、海牙、代尔夫特医学伦理委员会及参与中心的医学伦理委员会的批准。研究按照《赫尔辛基宣言》原则进行。对临床试验和回顾性队列(TransPORTEC 研究,Medisch Spectrum Twente (MST))的回顾性使用获得了莱顿医学伦理委员会(编号 B21.065 和 B21.011),以及 LUMC 队列(nWMO-D4-2023-002)和丹麦队列由区域发展中心(Center for Regional Udvikling)、科学伦理委员会(De Videnskabsetiske Komiteer,H-16025909)的伦理许可。所有临床试验的研究参与者均提供了知情同意书。伦理委员会为其他研究提供了知情同意的豁免。对于 UMCG 队列,由于研究的观察性质,医学伦理委员会批准了数据使用并提供了知情同意的豁免。

队列

我们使用了来自三个随机试验和六个临床队列的甲醛固定石蜡包埋(FFPE)肿瘤材料和子宫内膜癌患者的临床病理数据。我们纳入了生物性别为女性的研究参与者,不论其性别认同。

PORTEC-1 试验从 1990 年到 1997 年招募了 714 名早期中度风险子宫内膜癌女性,在初次手术后随机分配到盆腔外照射放疗或无辅助治疗组【26】。PORTEC-2 试验在 2000 年至 2006 年间将 427 名早期高至中度风险子宫内膜癌女性随机分配到外照射放疗或阴道近距离放疗组【27】。PORTEC-3 随机试验从 2006 年至 2013 年招募了 660 名 I–III 期高风险子宫内膜癌女性,随机分配到仅接受盆腔外照射放疗或接受同时及辅助化疗的外照射放疗组【3】。回顾性 TransPORTEC 研究包括了 116 例高风险子宫内膜癌肿瘤,来自 5 个机构的国际患者,使用与 PORTEC-3 相同的纳入标准(荷兰的 LUMC 和 UMCG;英国伦敦大学学院和曼彻斯特圣玛丽医院;法国 Villejuif 的 Gustave Roussy 研究所)【28】。MST 的前瞻性队列包括了 257 名 I–III 期高风险子宫内膜癌患者,这些患者在 1987 年至 2015 年间在荷兰恩斯赫德的 MST 接受治疗【29】。丹麦队列包括了 451 名在丹麦妇科癌症数据库中前瞻性登记的高等级子宫内膜癌患者【30】。UMCG 队列是一个基于人群的队列,包括在 UMCG 治疗的患者,时间范围为 1984 年至 2004 年,共 278 名患者,随访数据收集至 2010 年【31】。LUMC 队列是一个回顾性收集的基于人群的队列,包括在 2012 年至 2021 年间在 LUMC 诊断和治疗的 222 名患者。最后,公开可用的 TCGA-UCEC 队列【32】的 529 名患者数据从 cBioPortal 下载【65,66】。

数据集

根据肿瘤材料的可用性,每位患者包括一张代表性的 H&E 染色的子宫切除术标本切片(补充图 1 和 2,补充表 1、2 和 14)。对于 LUMC 队列,我们为每个子宫内膜癌患者收集了三张诊断性的 H&E 染色肿瘤切片,每张切片来自不同的 FFPE 肿瘤组织块。H&E 切片使用 3Dhistech P250(分辨率为 0.19 µm/像素)和 3Dhistech P1000(分辨率为 0.24 µm/像素)两台扫描仪以×40 倍率扫描。论文中提供的任何图像均为未处理的扫描图像。我们的专家病理学家对所有 WSI 进行了定性审查,随后排除了没有肿瘤、组织质量差和扫描问题的病例,最终保留了每例至少有一张 WSI 的 2,560 例病例(补充图 1 和 2 中的 CONSORT 图)。

在本研究中,根据以下标准排除了一些病例用于 HECTOR 的有监督训练:(1)缺少远处复发随访数据;(2)FIGO 2009 IV 期【34】,因为在诊断时已发生远处复发;(3)接受辅助化疗的治疗,因为这可能降低了远处复发的风险【3,4】。I、II 和 III 期的分类解剖阶段按照 FIGO 2009 分类进行定义【34】。因此,它代表诊断时肿瘤限制在子宫内(I 期)、肿瘤扩散到宫颈基质(II 期)或扩散到阴道、附件、盆腔和淋巴结(III 期)。辅助治疗中的远处复发定义为任何盆腔外的复发。因此,远处复发包括腹部转移和主动脉旁淋巴结转移。远处复发的时间定义为从随机分组开始(对于 PORTEC-1、-2 和 -3)或初次手术的日期(MST、TransPORTEC 研究、丹麦、UMCG 和 LUMC 队列),直到诊断出转移的日期,或在没有转移的患者中直到最后随访日期或死亡日期。我们还强调,在收集临床队列时,辅助化疗并不是标准护理,大多数接受辅助化疗的患者来自 PORTEC-3 随机试验(n = 225)。

根据上述标准,共有 2072 例被纳入有监督的训练 - 测试拆分:584 例来自 PORTEC-1【26】,395 例来自 PORTEC-2【27】,217 例来自 PORTEC-3【3】,67 例来自 TransPORTEC 研究【28】,226 例来自 MST 队列【29】,272 例来自丹麦队列【30】,160 例来自 UMCG 队列【31】,151 例来自 LUMC 队列。然后,我们保留了一个内部测试集和两个外部测试集,所有这些都代表一个未选择的人群。内部测试集通过随机抽取有监督训练集的 20% 获得,按离散时间间隔和审查状态进行分层,以确保事件在各个时间段的存在(n = 353,其中 116 例来自 PORTEC-1,100 例来自 PORTEC-2,43 例来自 PORTEC-3,13 例来自 TransPORTEC 研究,35 例来自 MST 队列,46 例来自丹麦队列;中位随访时间为 8.45 年,62 例事件)。第一个外部测试集是 UMCG 队列(n = 160 例患者;中位随访时间为 5.32 年,14 例事件)。第二个外部测试集是 LUMC 队列(n = 151 例患者:121 例有 3 张 WSI,21 例有 2 张 WSI,9 例有 1 张 WSI;中位随访时间为 2.90 年,24 例事件)。最后,剩余的 1408 张 WSI 用于 HECTOR 的有监督训练(468 例来自 PORTEC-1,295 例来自 PORTEC-2,174 例来自 PORTEC-3,54 例来自 TransPORTEC 研究,191 例来自 MST 队列,226 例来自丹麦队列;中位随访时间为 7.77 年,246 例事件)。

此外,还对之前排除的 PORTEC-3 随机试验中接受化疗的病例(n = 225)以及 TCGA-UCEC 的 I-III 期患者(n = 381)进行了 HECTOR 风险评分的预测。

对于自监督学习,我们仅使用已经保留用于有监督训练的 1408 张 WSI,因此严格限制在内部和外部测试集中未包含的 WSI。此外,自监督学习训练通过包含任何疾病阶段的病例(其治疗或远处复发结果数据未知)进行丰富(n = 454,其中 31 例来自 TransPORTEC 研究,5 例来自 MST 队列,16 例来自丹麦队列,402 例来自 TCGA-UCEC),总共用于自监督学习的病例为 1862 例。

性能评估

超参数优化和模型比较(包括使用自监督学习进行补丁表示学习的架构选择)在有监督的下游任务中通过 C 指数指标【33】进行评估(使用 tau = 10 年和 scikit-survival Python 包(v.0.17.2))。为此,对保留用于有监督训练的 1408 张 WSI 进行了五折交叉验证。根据五次折叠的最高平均 C 指数选择性能最佳的架构和超参数。最终模型,即 HECTOR,然后在整个训练集上重新训练,并在内部和两个外部测试集(UMCG 和 LUMC)上进行评估。还计算了累积 AUC【37】和 Brier 分数【38】。

考虑到 LUMC 外部测试集包含每例最多三张 WSI,而内部测试集和 UMCG 外部测试集则只有一张,我们进行了多个实验以使用随机抽样得出患者级别的风险评分。首先,我们随机选择每例一个 WSI,并重复实验 100 次,得到平均 C 指数和 CI。其次,我们在每例有可用时随机选择最多两张 WSI,然后对每位患者的两个风险评分取平均,并重复实验 100 次。第三,我们选择外部测试集所有可用的 WSI,在有可用时每例最多三张 WSI,并计算两个或三个风险评分的平均值和中位数。在额外的实验中,我们通过将所有可用 WSI 的补丁特征合并为一个特征袋来组合每位患者的 WSI。

WSI 预处理

WSI 分割使用 Otsu 阈值法进行。在 180µm 处进行不重叠的补丁,补丁大小调整为 256×256 像素。平均而言,该程序为每个 WSI 生成 10,185 个补丁。

基于 ViT 的补丁表示学习

我们遵循自监督学习的进展,采用基于视觉变压器的 DL 模型,能够在多个分辨率下学习细粒度的补丁级别表示。为此,我们训练了 EsVIT【60】并将其与 CtransPath【67】进行了比较,后者是一个在病理学领域训练的替代模型(补充表 3)。我们修改了 EsVIT 最初提出的四阶段 Swin【68】变压器架构,以捕捉细胞和区域级别的组织信息并适应我们的计算资源。第一阶段的补丁大小加倍至 8 像素,以减少序列长度并增加视野以捕捉细胞视图。在第二至第四阶段,我们保持了两倍的特征图合并率,将输入图像的大小调整为 256×256 像素 2,而不是 224×224 像素 2,以避免在第四阶段不可分的补丁大小。最后,将第三阶段的堆叠变压器数量从六个减少到四个,其余保持为两个。第一个嵌入维度保持不变为 96,各阶段的注意力头数量也保持不变,即 3、6、12 和 24(补充表 4)。

通过从 1862 张用于自监督学习的 WSI 中随机提取最多 2000 个补丁,在 180µm 处调整为 256×256 像素 2,整理了一个包含 3702447 个补丁的数据集。之后,在 3 台 Nvidia RTX 8000 GPU 上训练了修改后的 EsVIT,批量大小为 128,训练 100 个 epochs,窗口为 14,以鼓励学习补丁之间的长期依赖关系。为了提高性能,我们还使用了无标签自蒸馏 DINO 头,没有权重归一化,第一 epoch 时冻结层,默认输出维度为 65,536【60】。我们遵循 EsVIT 作者的建议,通过增加动量教师到 0.9996,并从 0.04 的初始教师温度开始,优化了较小的批量大小。教师温度在训练过程中调整,从 0.04 调整到 0.02,以进一步减少损失。我们使用 AdamW 和默认参数进行优化,默认优化例程包括学习率(线性预热十个 epochs 后,余弦调度器调整到 1×10-6)和权重衰减(余弦调度器从 0.04 调整到 0.4)。数据增强与原始发表中完全一致【60】。

训练完成后,从堆叠变压器的各阶段注意头中提取补丁级别特征。对于我们的下游任务,我们观察到提取最后 8 个块比发表中提到的默认最后 4 个块有所改进,生成了大小为 3,456 的特征向量(补充表 3)。

多模态 DL 预后模型

为了建立用于远处复发预测任务的多模态模型,首先仅使用 H&E WSI 模式进行消融研究(称为基于 H&E 的一臂模型),然后整合基于 H&E 预测的 im4MEC 生成的基于图像的分子分类(称为两臂模型)和分类阶段(因此称为 HECTOR)。本节描述 HECTOR,补充表 5 总结了架构和训练参数,而“消融研究”部分提供了一些训练实验和架构选择的更多细节。

基于 H&E 的一臂模型以从 EsVIT 提取的大小为 3,456 的 180-µm 补丁级别特征袋作为输入,其中每个特征袋中的补丁数各不相同。为了训练时间到事件数据,并考虑到注意力基于多实例学习(AttentionMIL)模型的批量大小为 1,时间尺度被离散化为四个间隔,基于非审查患者分布的四分位数,并使用 -log(似然损失)【61】。

在 AttentionMIL 模型中,我们报告了通过添加另一个 WSI 预处理步骤,性能略有提高。具体来说,WSI 形态信息通过使用 L2 范数阈值为三个补丁和余弦相似度为 0.8 的方式平均高度相关的邻近补丁级别特征,在空间和语义上进行压缩。该步骤将 180µm 处的特征袋从平均 10,185 个补丁减少到 1,723 个(补充表 3)。每个平均补丁级别特征通过 3 个全连接层逐渐压缩到 512。注意力模块在减少到 256 的潜在特征上计算注意力分数,然后进行池化,生成大小为 512 的切片级别嵌入。

为了利用分子分类(此处基于 H&E 预测的 im4MEC 生成的基于图像的分子分类)和分类(FIGO 2009)阶段 I、II 和 III 变量的公认预后价值,并且考虑到 AttentionMIL 模型从补丁中计算出 H&E 切片级嵌入,我们尝试了中期到晚期融合,将切片级的基于图像的分子分类和患者级的解剖阶段信息整合到 H&E 切片级嵌入中。我们提出了一种方法,首先将每个分类风险因素编码为具有可学习嵌入层的高维向量空间,大小为 16,然后是 Elu 激活函数和一个全连接层,大小为 8。接下来,基于门控的注意机制与双线性乘积一起应用于来自不同模态的嵌入,以根据参考【16】加权每种模态的重要性。为了捕捉所有交互并保留单模态嵌入,将一个追加到注意力加权的嵌入,然后使用 Kronecker 积进行融合【35】。需要注意的是,为了将基于图像的分子分类作为 HECTOR 的输入模态,我们在专门为本研究设计的训练集上重新训练了 im4MEC 模型。这是为了避免信息泄露,因为原始 im4MEC 模型训练使用的一些病例在本研究中被用作测试。

最终的多模态嵌入通过使用两个全连接层进一步减少,大小分别为 256 和 128,然后是一个具有输出大小为离散时间间隔数量的全连接层的生存分类头。架构中的每个全连接层后都跟有一个 0.25 的 dropout 和 ReLU 激活函数。

HECTOR 训练了 24 个 epochs,初始学习率为 3×10-5,在第 2、5 和 15 个 epochs 时减少 10 倍。Adam 优化器使用默认参数和 1×10-5 的权重衰减。HECTOR 还通过调整部分开放访问的代码库开发而成【11,16,21】。

消融研究

为了首先找到从 H&E 模式预测远处复发的最佳架构(一臂模型),我们将三种最先进的 WSI 分类架构改编为我们的远处复发预测任务:AttentionMIL22、遵循参考文献 15 的图注意力网络(Graph Attention Network),其半径最多可连接 32 个补丁节点,以及遵循参考文献 23 的 Transformer 架构。这些架构均来自开源库,并基于使用 EsVIT 提取的特征包进行训练,批量大小为 1,并使用相同的离散生存损失(-log(可能性损失))。我们发现,AttentionMIL 架构在这一预后任务中的 C-index 高于图注意力网络和 Transformer,同时具有更低的计算复杂性(补充表 3),这与参考文献 15 对 TCGA-UCEC 的发现一致。

为了整合由 im4MEC 从 H&E WSI 预测的基于图像的分子分类,实验包括:(1)迁移学习,其中 AttentionMIL 骨干网络预训练用于分子分类,随后在预后任务中微调;(2)多任务学习,其中添加了一个预测基于图像的分子分类的训练目标,除了预后之外;(3)融合从冻结的 im4MEC 模型派生的基于图像的分子分类(从中间层或最终预测的分类类中提取,随后是嵌入层和注意门)。在实验 2 中,实施了第二个分类头部,使用生存损失(-log(可能性损失))和交叉熵分类损失的加权和进行训练。权重因子被视为超参数,并使用五折交叉验证进行优化。实验 3 包括使用嵌入层和注意门包含预测的分类类,结果在 C-index 上取得了最高平均值(补充表 3)。

关于融合阶段类别的实验显著包括使用扩展的 FIGO 2009 分类或简化的三级分类(I、II 和 II)进行训练,随后是嵌入层和注意门,后者获得了最高的 C-index(补充表 3)。

与临床病理数据的关联分析

我们使用 HECTOR 连续风险评分作为因变量,临床病理数据作为回归变量,进行了多次单变量线性回归分析。统计检验为双侧,统计显著性接受 P 值 < 0.050。回归系数和确切的 P 值已在补充表 7 中报告。

输入贡献

IG 方法63 用于衡量 WSI 的贡献,并识别 WSI 中与预测风险函数相关的补丁。鉴于离散时间间隔,IG 分数在四个神经元目标上平均。特征缺失的 IG 基线表示为来自白色补丁的补丁级特征。所有 IG 分数在患者范围内归一化为 -1 和 +1,同时保持符号和 IG 分数为零,并进一步平均以获得 WSI 级别的 IG 分数。向 1 的正 IG 值意味着它对增加风险分数有正面贡献,而负值意味着它对减少风险分数有贡献。代表性补丁的选择由专家病理学家在前 5% 的补丁中进行,这些补丁分别增加和减少了每个病例的风险分数。

通过将阶段和基于图像的分子分类值固定为我们选择的值(称为“参考组”),然后计算预测风险分数的差异,来计算 im4MEC 预测的基于图像的分子分类和 FIGO 阶段的贡献。类似于 IG 方法,正或负差异分别表示对风险分数的正或负贡献。

细胞级组成

作为 HECTOR 可解释性部分的一部分,用于量化高贡献提取补丁的视觉特征,我们首先使用细胞分割和分类 Hover-Net14 DL 模型来获得炎症细胞计数,并在 EC 特定 WSI11 上进行再训练。然后,用一个泛癌 DL 基于检测器64 检测有丝分裂图像,该检测器针对 EC 组织进行了微调以用于本研究目的。通过用我们内部标注的 10 个 PORTEC 数据集中的 WSI 的附加数据点扩展原始训练集69,进行了微调,这些数据集涵盖了 EC 组织类型的变异性。区域级别的炎症和有丝分裂活动密度定义为绝对计数归一化为平方毫米面积,并进一步平均区域数以获得患者级别的密度值。肿瘤细胞核的大小以 mm² 报告,并按患者平均。HECTOR 风险评分与视觉特征的患者级数量之间的统计关联在感兴趣的区域(即具有负面或正面贡献的区域)内用线性回归进行检验。统计检验为双侧,统计显著性接受 P 值 < 0.050。线性回归系数和确切的 P 值如下:在负面区域内患者级别炎症密度的系数为 −0.0109(95% CI:−0.019 至 −0.002),P = 0.011;在正面区域内患者级别有丝分裂密度的系数为 0.0447(95% CI:0.033–0.057),P = 1.96 × 10−12;在正面区域内患者级别肿瘤细胞核面积的系数为 377.916(95% CI:297.677–458.155),P = 3.10 × 10−19。

结果分析

根据 Kaplan-Meier 方法和双侧对数秩检验进行远处复发概率分析,统计显著性接受 P < 0.050。HECTOR 风险组的截止值定义为仅在训练集中 HECTOR 风险评分分布的分位数(25%、50% 和 75%)。在训练集中,前两组(<25% 和 25% 到 50% 之间)在预后上没有显著差异,因此合并为一组,称为 HECTOR 低风险组。因此,我们定义 HECTOR 低风险组为风险评分低于训练集中的中位风险评分值的病例,HECTOR 中风险组为风险评分在训练集中位和第三分位值之间的病例,HECTOR 高风险组为风险评分高于训练集中第三分位值的病例。这些相同的截止值应用于未见的内部、UMCG 和 LUMC 外部测试集,以及 TCGA-UCEC 和 PORTEC-3。

为了比较 DL 模型与已确立的临床病理风险因素的表现,我们在这些 EC 的临床病理风险因素上拟合 CPH 模型,并计算相应的 C-index。首先,我们使用可以在组织切片上视觉分配的风险因素:组织学亚型、等级和 LVSI。然后我们添加了 FIGO 2009 阶段 I–III 变量。最后,我们包括 EC 的分子分类(POLEmut、MMRd、NSMP 和 p53abn)。为了保持五折交叉验证和内部测试集验证集的一致性,使用均值替代法对缺失的分子分类(交叉验证中的 1,408 个中的 115 个和内部测试集中的 353 个中的 38 个)进行插补。

为了估计 HECTOR 相对于临床病理风险因素的预后价值,我们使用 CPH 计算 HECTOR 连续风险评分的 HR。对于这些分析,我们包括所有具有完整临床病理和分子风险因素集的病例(n = 1,254)。首先,我们在多变量分析中使用所有临床病理风险因素组合为一个风险评分来校正 HECTOR 风险评分。为此,首先在这些临床病理风险因素上拟合 CPH 模型。然后,通过取 CPH 系数和变量的线性组合来计算衍生的风险评分,称为“临床”。在第二次分析中,我们在多变量分析中校正了 HECTOR 的连续风险评分,考虑了组织学亚型、等级、LVSI、阶段、分子分类以及 L1CAM 和年龄的连续数据。

组织学亚型分类变量处理为第 3 级 EEC 与参考组低级 EEC 和非 EEC 与参考 EEC。分子分类的参考组是 NSMP,FIGO 2009 阶段变量的阶段 I 是参考组。

所有统计检验为双侧,统计显著性接受 P 值 < 0.050。

基因组和转录组相关分析

为了分析 HECTOR 风险组的驱动突变频率,基因组特征提取自参考文献 70,使用 MC3 MAF(突变注释格式)数据。前 19 个 EC 致癌驱动基因的突变状态从 cBioPortal 门户65,66 下载,并由 OncoKB71 注释。使用双侧 χ2 检验对每个基因的 HECTOR 风险组之间的致癌突变比例进行统计比较,P < 0.050 被接受为显著。确切的 P 值和样本大小在补充表 12 中报告。

使用肿瘤中的白细胞比例值,进行 HECTOR 连续风险评分与每个免疫细胞亚群之间的关联分析。以肿瘤整体的比例为单位,使用 log2(转换后的免疫细胞亚群比例)。以 HECTOR 连续风险评分为自变量进行线性回归分析。此外,通过将分子分类和 TMB 作为额外的自变量进行校正来测试关联。双侧 P 值 < 0.050 被接受为显著。回归系数和确切的 P 值已在补充表 13 中报告。

从 firebrowse.org 下载 TCGA-UCEC 的 mRNA 测序(mRNA-seq)和临床数据。使用 DESeq2 (ref. 72) (v.1.40.1) 评估 HECTOR 高风险和 HECTOR 低风险病例之间的差异表达基因。使用 Benjamini-Hochberg FDR 调整的可能性比检验 P 值,如果 < 0.050 则接受(补充表 15)。

辅助化疗效果分析

我们预测了包括在 PORTEC-3(ref. 3)治疗组中的患者的 HECTOR 风险评分,这些患者接受了同时和辅助化疗(n = 225),因此,此前未被用于训练和任何测试集。通过以下方式分析辅助化疗和外部放射治疗组合对比单独外部放射治疗的效果:(1)按 HECTOR 风险组分层,通过治疗组分析远处复发无病生存率,并使用 Kaplan-Meier 方法和双侧对数秩检验测量组间治疗效果和/或使用单变量 Cox 模型测量治疗变量的 HR;(2)计算 HECTOR 连续风险评分与治疗二元变量之间交互项的统计显著性;(3)计算 HECTOR 高风险组与治疗二元变量之间交互项的统计显著性(校正 HECTOR 中风险组,使用 HECTOR 低风险组作为参考组)。为了测量由 HECTOR 风险评分(连续或分类)乘以治疗二元变量定义的交互项的统计显著性,进行了多变量 Cox 回归分析。类似分析用于测试浆液性组织学亚型与化疗治疗二元变量之间的交互(校正 EEC 和透明细胞组织学亚型),以及 FIGO 2009 阶段 III(校正阶段 I–II)和 p53abn(校正 MMRd,NSMP 作为参考组,并删除 POLEmut 肿瘤以达到收敛)。

所有统计检验为双侧,统计显著性接受 P 值 < 0.050。

软件和工具包

EsVIT 和 HECTOR 使用 Pytorch(分别为 v.1.8.1 和 v.1.10.0)实现。IG 使用 Captum Python 工具包(v.0.6.0)实现,指标如 C-index 使用 scikit-survival Python 工具包(v.0.17.2)实现,CPH 模型和 Kaplan-Meier 方法使用 Lifelines Python 工具包(v.0.27.1)实现,χ2 检验使用 Scipy Python 工具包(v.1.5.2)实现,箱线图可视化使用 altair Python 工具包(v.4.2.0)实现,线性回归使用 statsmodels Python 工具包(v.0.13.5)实现。差异表达基因使用 DESeq2(v.1.40.1)72 和 R v.4.3.0(2023-04-21 ucrt)实现。其他图像处理工具包包括 Openslide Python 工具包(v.1.1.2),OpenCV(v.4.3.0.36)和 Pillow(v.7.2.0)。注释使用 QuPath(v.0.4.1)完成。

报告摘要

有关研究设计的更多信息,请参阅链接到本文的 Nature Portfolio Reporting Summary。