Skip to content

Segment Anything in Medical Images

摘要

医学图像分割是临床实践中的一个关键组成部分,有助于准确的诊断、治疗计划制定和疾病监测。然而,目前的方法主要依赖于定制的模型,在不同任务之间的通用性有限。在这项研究中,我们提出了 MedSAM,这是一种专门为通用医学图像分割而设计的基础模型。MedSAM 利用精心策划的数据集的强大优势,该数据集包含超过 100 万张图像。MedSAM 不仅优于现有的最先进的分割基础模型,而且在性能上与专家模型相当甚至更优。此外,MedSAM 能够精确提取肿瘤负荷量化所需的关键生物标记物。通过跨广泛任务提供准确高效的分割,MedSAM 有望加快诊断工具的发展和治疗计划的个性化进程,具有重大潜力。

引言

分割是医学影像分析中的一项基础任务,包括在各种医学图像 (如器官、病灶和组织) 中识别和勾勒感兴趣的区域 (ROI)。准确的分割对于许多临床应用至关重要,包括疾病诊断、治疗计划制定和疾病进展监测 [1]、[2]。

手动分割长期以来一直是勾勒解剖结构和病理区域的金标准,但这个过程费时、耗力,且通常需要高度的专业知识。半自动或全自动分割方法可以显著减少所需的时间和劳动力,提高一致性,并实现大规模数据集的分析。

基于深度学习的模型在医学图像分割方面展现出巨大潜力,因为它们能够学习复杂的图像特征,并在广泛的任务中提供准确的分割结果,从分割特定的解剖结构到识别病理区域 [3]。然而,目前许多医学图像分割模型的一个重大限制是它们的特定任务性质。这些模型通常是为特定的分割任务而设计和训练的,当应用于新任务或不同类型的成像数据时,它们的性能会显著降低。这种通用性的缺乏构成了这些模型在临床实践中更广泛应用的重大障碍。相比之下,自然图像分割领域的最新进展见证了分割基础模型 [4]、[5] 的出现,在各种分割任务中展现出了卓越的通用性和性能。然而,由于明显的领域差距 6,将它们应用于医学图像分割仍然具有挑战性。

因此,医学图像分割领域对通用模型有着日益增长的需求: 可以一次训练,然后应用于广泛分割任务的模型。这种模型不仅在模型能力方面展现出更高的通用性,而且由于共享底层架构和训练过程,可能会在不同任务之间产生更加一致的结果。受 Segment Anything Model (SAM)[4] 非凡通用性的启发,我们引入了 MedSAM,这是首个通用医学图像分割基础模型。MedSAM 从 SAM 模型进行了前所未有的规模上的改编,包含超过 100 万对医学图像 - 掩码对。我们通过在 70 多个内部验证任务和 40 个外部验证任务上进行全面实验,对 MedSAM 进行了彻底评估,涵盖了各种解剖结构、病理状况和医学成像模式。实验结果表明,MedSAM 不仅持续优于最先进的分割基础模型,而且在性能上与专家模型相当,甚至超越。这些结果凸显了 MedSAM 作为强大医学图像分割工具的潜力。

image.png

图 1. MedSAM 是在一个大规模数据集上训练的,能够处理多样化的分割任务。a,该数据集覆盖了各种解剖结构、病理状况和医学成像模式。b,每种模态下的医学图像 - 掩码对数量。c,MedSAM 是一种可提示的分割方法,用户可以使用边界框指定分割目标。

image.png

图 2 展示了 MedSAM 在广泛任务上的准确分割能力:

a) 12 个代表性分割任务在内部验证集上的 Dice 相似性系数 (DSC) 分数。箱线图显示了每个分割任务中所有内部验证案例的描述性统计数据,箱体内的水平线代表中位数,箱体边界表示上下四分位数,垂直线表示 1.5 个四分位距。

b) 内部验证集上的分割示例可视化显示,MedSAM 能够分割边界模糊、对比度低的目标。

c) 12 个典型分割任务在不同模态的外部验证集上的结果。

d) 外部验证集上的分割示例可视化显示,MedSAM 在未见过的数据集或目标上具有更好的泛化能力。

e) MedSAM 可用于精确的肿瘤负荷量化。

f) 与人类专家相比,MedSAM 可获得相当或更高的分割精度。

结果

MedSAM 的目标是担任通用医学图像分割的基础模型。构建这样一种模型的关键方面是能够容纳广泛的成像条件、解剖结构和病理状况的变化。为了应对这一挑战,我们策划了一个多样化和大规模的医学图像分割数据集,包含 1,090,486 对医学图像 - 掩码对,覆盖 15 种成像模式、30 多种癌症类型和多种成像协议 (图 1a,补充表 1-4)。这个大规模数据集使 MedSAM 能够学习医学图像的丰富表示,捕获不同模态下广泛的解剖结构和病灶。图 1b 概述了数据集中不同医学成像模态下图像的分布情况,按总数量排序。很明显,计算机断层扫描 (CT)、磁共振成像 (MRI) 和内窥镜是主导模态,反映了它们在临床实践中的普及程度。CT 和 MRI 图像提供了 3D 身体结构的详细横截面视图,使其在无创诊断成像中不可或缺。尽管内窥镜更加有创,但它能够直接可视化器官内部,对于诊断胃肠道和泌尿系统疾病而言非常宝贵。

尽管这些模态很常见,但超声、病理、眼底、皮肤镜、乳腺钼靶和光相干断层扫描 (OCT) 等其他模态在临床实践中也发挥着重要作用。这些模态及其相应的分割目标的多样性凸显了通用有效的分割模型的必要性,能够处理与每种模态相关的独特特征。

另一个关键考虑因素是选择适当的分割提示和网络架构。虽然完全自动化分割基础模型的概念很有吸引力,但存在一些使其不实际的挑战。主要挑战之一是分割任务固有的可变性。例如,对于一个肝癌 CT 图像,分割任务可能因具体的临床场景而有所不同。比如,一位临床医生可能有兴趣分割肝肿瘤,而另一位可能需要分割整个肝脏和周围器官。此外,成像模态的可变性也带来了另一个挑战。CT 和 MR 产生的是 3D 图像,而 X 射线和超声等产生的是 2D 图像。任务定义和成像模态的这些变化加大了设计一种能准确预测并满足不同用户需求的完全自动化模型的复杂性。

考虑到这些挑战,我们认为更实际的方法是开发一种可提示的 2D 分割模型。该模型可以根据用户提供的提示轻松调整到特定任务,提供增强的灵活性和适应性。它还能够通过将 3D 图像视为一系列 2D 切片来处理 2D 和 3D 图像。

典型的用户提示包括点和边界框,我们在补充图 1 中展示了一些使用不同提示的分割示例。可以发现,基于点的提示存在歧义,需要多次用户干预,而边界框提示可以明确指定感兴趣区域,只需少量用户干预,从而减少歧义并消除反复试验。我们遵循 SAM[4] 中的网络架构,包括图像编码器、提示编码器和掩码解码器 (图 1c)。图像编码器 [7] 将输入图像映射到高维图像嵌入空间。提示编码器通过位置编码 [8] 将用户绘制的边界框转换为特征表示。最后,掩码解码器使用交叉注意力 [9] 融合图像嵌入和提示特征 (方法)。

我们通过内部验证和外部验证评估了 MedSAM,并将其与 SOTA 分割基础模型 SAM [4] 和专家级 U-Net 模型 [3] 进行了比较。内部验证包括超过 70 个分割任务(附录表 5-8,图 2-4),图 2a 显示了 12 个代表性分割任务的 Dice 相似性系数(DSC)得分。总体而言,尽管 SAM 在某些 RGB 图像分割任务(如皮肤镜图像中的皮肤癌分割(88.8%)和内窥镜图像中的息肉分割(94.1%))上表现出色,但在大多数 CT、MR 和灰度图像分割任务上表现较差。这可能归因于 SAM 在各种 RGB 图像上进行训练,以及皮肤镜和内窥镜图像中许多分割目标由于其独特的外观而相对容易分割。在大多数分割任务上,MedSAM 和 U-Net 的表现均远远优于 SAM(p < 0.05),这是可以预期的,因为它们在医学图像数据集上进行了调整或训练。与 U-Net 专家模型相比,MedSAM 在大多数任务上仍然表现更好。例如,MedSAM 分别在涉及颅内出血 CT、胶质瘤 MR T1、气胸 CXR 和息肉内窥镜图像分割任务中实现了中位数 DSC 得分分别为 94.0%(四分位数范围(IQR):91.5-94.9%)、94.4%(IQR:91.6-95.8%)、81.5%(IQR:75.1-86.8%)和 98.4%(IQR:97.9-98.9%),分别比 U-Net 专家模型的表现提高了 5%、6.6%、5.1% 和 3.6%。在一些 RGB 图像分割任务中,如皮肤癌分割,U-Net 和 MedSAM 的性能相当(95.1% vs 95.2%)。这些分割目标通常具有清晰的边界和良好的对比度,使它们相对容易分割。值得注意的是,U-Net 是针对每个类别进行了单独训练(方法),而 MedSAM 是一个只训练了一次的通用模型。图 2b 展示了 SAM、U-Net 和 MedSAM 在 CT、MR、超声和内窥镜图像上的一些分割示例。SAM 倾向于分割具有高对比度或清晰边界的区域,这容易产生欠分割或过分割错误。虽然 U-Net 专家模型提供了更好的分割质量,但它们仍然在具有弱边界的目标上有困难。相反,MedSAM 可以准确地分割各种成像条件下的各种目标,甚至对于具有弱或缺失边界的对象也可以准确分割(附录图 5-7)。

外部验证包括超过 30 个分割任务,所有这些任务都来自新数据集或未见分割目标(附录表 9-11,图 2,8-9)。图 2c 显示了 12 个典型分割任务的 DSC 得分。SAM 在大多数 CT 和 MR 分割任务上仍然表现较差,而 U-Net 专家模型并不一直优于 SAM(例如,在 CT 图像中的肺癌分割(55.8% vs 64.2%)),这表明它们在未见数据集上的泛化能力有限。相比之下,MedSAM 始终提供更优异的性能。例如,MedSAM 在鼻咽癌分割任务上获得了 90.3% 的中位数 DSC 得分(IQR:87.8-93.2%),相比 SAM 和专家级 U-Net,分别提高了 53.3% 和 24.5%。值得注意的是,MedSAM 在一些未见模态(如腹部 T1 相和非相位)上也取得了更好的表现,比 SAM 和专家级 U-Net 模型提高了 3-7%。在灰度和 RGB 图像分割任务中,MedSAM 和 U-Net 专家模型在中位数 DSC 得分方面表现相当,但 MedSAM 的异常值较少。图 2d 展示了四个分割示例,用于定性评估,揭示了虽然所有方法都具有处理简单分割目标的能力,但 MedSAM 在分割具有挑战性的目标方面表现更好,例如在 CT 图像中的肝癌和 MR 图像中的宫颈癌(附录图 10)。此外,我们对 SAM 和 MedSAM 之间的图像嵌入的显著性图进行了可视化和比较分析(附录图 11)。值得注意的是,MedSAM 的特征呈现出更丰富的语义信息,特别是与高度相关的解剖结构相关的信息。总的来说,这些结果表明 MedSAM 在新数据集上具有强大的泛化能力。

除了其广泛的适用性之外,我们进一步展示了 MedSAM 有助于精确量化肿瘤负荷,这是肿瘤学实践中的一个关键生物标志物 [10](图 2e)。具体来说,我们使用 MedSAM 分割结果计算了肾脏、结肠、肝脏和胰腺癌的肿瘤体积,并将其与专家分割得出的体积进行了比较。从 MedSAM 和专家评估得出的肿瘤体积表现出很高的皮尔逊相关性(r = 0.99),突显了 MedSAM 的分割结果可以有效用于准确的肿瘤负荷量化。最后,我们将 MedSAM 的性能与六名人类专家在前列腺分割中的表现进行了比较(方法)。发现 MedSAM 的性能与四名人类专家相当,甚至超过了两名专家,突显了其作为临床实践中医学图像分割的强大工具的潜力。

讨论

我们介绍了 MedSAM,这是一个由深度学习驱动的基础模型,旨在对各种解剖结构和病变进行分割,适用于各种医学成像模态。MedSAM 在一个精心组织的大规模数据集上进行训练,该数据集包括超过一百万个医学图像 - 掩膜对。其可提示的配置在自动化和定制之间取得了最佳平衡,使 MedSAM 成为一种通用医学图像分割工具。

通过包括内部和外部验证在内的全面评估,MedSAM 已经证明在分割各种目标和应对新数据和任务方面具有重要的能力和强大的泛化能力。其性能不仅明显超越了现有的最先进的分割基础模型,而且与或甚至超过了专家模型。通过提供解剖结构和病理区域的精确定位,MedSAM 促进了各种定量测量的计算,这些测量可用作生物标志物。例如,在肿瘤学领域,MedSAM 可以在生成准确的肿瘤分割结果方面发挥关键作用,从而实现对肿瘤体积的后续计算,这是评估疾病进展和治疗反应的关键生物标志物。

虽然 MedSAM 具有强大的能力,但它确实存在一定的局限性。其中之一是训练集中的模态不平衡,以 CT、MRI 和内窥镜图像为主导。这可能会影响模型对 less-represented 模态的表现,如乳房 X 线摄影。另一个限制是在血管样分支结构的分割方面存在困难,因为在这种情况下,边界框提示可能是模棱两可的。例如,在眼底图像中,动脉和静脉共享相同的边界框。然而,这些限制并不减弱 MedSAM 的实用性。由于 MedSAM 已经从大规模训练集中学习到了丰富而代表性的医学图像特征,因此可以对来自 less-represented 模态或复杂结构(如血管)的新任务进行有效分割。

总之,这项研究突显了构建一个能够处理多种分割任务的单一基础模型的可行性,从而消除了对特定任务模型的需求。作为医学图像分割领域的首个基础模型,MedSAM 具有巨大的潜力,可以加速新诊断和治疗工具的发展,并最终为改善患者护理做出贡献 [11]。

方法

研究设计

分割是许多基于医学图像的临床分析任务中的重要步骤。例如,在脑肿瘤成像中,对 MR 图像进行分割可以帮助确定肿瘤的位置、大小和类型,这对于手术规划和预后至关重要 [12]。在心脏成像中,对心脏超声图或 MRI 中的左心室等结构进行分割对于评估心脏功能和诊断心力衰竭等疾病至关重要 [13]。在肺部成像中,对胸部 X 线或 CT 图像中的肺部区域进行分割对于诊断和监测慢性阻塞性肺疾病(COPD)和 COVID-19 等疾病至关重要 [14]。在过去的几十年里,医学图像分割领域见证了许多方法的发展 [15]。然而,许多现有方法的一个显著局限性是它们的任务特定性和数据集特定性,使它们无法推广到新的数据集和目标,这一限制阻碍了它们在临床实践中的广泛应用。

近年来,深度学习领域的最新进展,特别是基础模型的引入,如 Segment Anything Model(SAM)[4],在解决医学图像分割中的泛化挑战方面展现了巨大潜力。基础模型利用大量的训练数据和强大的架构来捕捉图像中的复杂模式和关系。为了研究 SAM 在医学领域的适用性,我们进行了一项实验,使用 SAM 对代表性的腹部 CT 图像进行分割。SAM 提供了三种主要的分割模式:完全自动分割、边界框模式和点模式。尽管文本提示被纳入了 SAM 的训练流程中,但重要的是要注意,这是一个概念验证,并没有公开在 SAM 的官方仓库中。附录图 1 说明了从三种分割模式中获得的结果。这些结果是使用在线演示生成的,可在 https://segment-anything.com/demo 访问。在 segment-everything 模式下,SAM 根据图像强度将整个图像分成了六个不同的区域(附录图 1b)。然而,由于两个主要原因,这种分割结果的效用受到了限制。首先,分割的区域缺乏语义标签,这使得解释特定解剖结构变得困难。其次,在临床场景中,医护专业人员主要关注感兴趣区域(ROI),如肝脏、肾脏、脾脏和病变。

另一方面,基于边界框的分割模式表现出了有希望的结果,特别是对右肾的分割,通过提供左上角和右下角的点来实现(附录图 2c)。对于基于点的分割模式(附录图 1d),我们最初提供了一个代表右肾中心的前景点。然而,SAM 对整个腹部进行了过度分割。为了纠正这个问题,我们在过度分割的区域内引入了一个背景点。这一调整导致分割掩膜收缩,仅包含肝脏和右肾。最后,通过在肝脏上再添加一个背景点,我们获得了所需的肾脏分割。

总之,当使用 SAM 进行医学图像分割时,segment-everything 模式通常产生缺乏实用价值的分割结果,而基于点的模式可能存在歧义,并需要多次迭代进行预测和校正。相反,基于边界框的模式通过精确定义感兴趣区域(ROI),始终产生合理的分割结果,消除了迭代试验和错误的需要。然而,尽管具有很大的潜力,但最近的研究表明,SAM 在处理各种医学图像分割任务时遇到了挑战。鉴于这些限制,本研究的目标是开发一个强大的分割基础模型,能够有效地处理各种分割目标和多样的成像模态。接下来的小节提供了对训练和(内部和外部)验证集、网络架构、训练协议以及与最先进基线方法的比较的全面概述。

数据集策划与预处理

我们通过整合来自公开可用的医学图像分割数据集中的图像,策划了一个全面的数据集,这些数据集来自互联网上的各种来源。这些来源包括癌症影像档案(TCIA)(https://www.cancerimagingarchive.net/)、Kaggle (https://www.kaggle.com/)、Grand-Challenge (https://grand-challenge.org/challenges/)、科学数据(Scientific Data)(https://www.nature.com/sdata/)、CodaLab (https://codalab.lisn.upsaclay.fr/),以及医学图像计算与计算辅助干预学会(MICCAI)的分割挑战 (http://www.miccai.org/)。所使用的数据集的完整列表见附录表 1-4。

原始的 3D 数据集包括 DICOM、nrrd 或 mhd 格式的计算机断层扫描(CT)和磁共振(MR)图像。为了确保与正在开发的医学图像深度学习模型的一致性和兼容性,我们将图像转换为广泛使用的 NifTI 格式。此外,灰度图像(如 X 射线和超声波)以及 RGB 图像(包括内窥镜、皮肤显微镜、眼底和病理图像)被转换为 png 格式。我们采用了几个专门的标准来提高数据集的质量和一致性,包括不完整的图像和具有分支结构、不准确的标注和微小体积的分割目标。值得注意的是,不同模态的图像强度差异显著。例如,CT 图像的强度值范围为 -2000 到 2000,而 MR 图像的范围为 0 到 3000。在内窥镜和超声波图像中,强度值通常从 0 到 255。为了便于稳定的训练,我们对所有图像执行了强度归一化,确保它们共享相同的强度范围。

对于 CT 图像,我们最初使用典型的窗宽和窗位值对 HU 值进行了归一化,如 https://radiopaedia.org/articles/windowing-ct 中所述。随后,将强度值重新调整为 [0, 255] 的范围。对于 MR、X 射线、超声波、乳房 X 线摄影和光学相干断层扫描(OCT)图像,我们将强度值剪裁到 0.95th 和 99.5th 百分位数之间的范围,然后将其重新调整为 [0, 255] 的范围。对于 RGB 图像(例如内窥镜、皮肤显微镜、眼底和病理图像),如果它们已经在预期的强度范围 [0, 255] 内,则它们的强度保持不变。但是,如果它们超出了此范围,我们将使用最大 - 最小值归一化将强度值重新调整为 [0, 255]。最后,为了符合模型的输入要求,所有图像都被调整为统一的尺寸 1024×1024×3。对于全幅病理图像,使用滑动窗口方法提取补丁。对于 3D CT 和 MR 图像,将每个 2D 切片调整为 1024×1024,然后将通道重复三次以保持一致性。其余的 2D 图像直接调整为 1024×1024×3。对于调整图像尺寸,采用双三次插值,而对于调整掩膜尺寸,采用最近邻插值,以保持其精确边界并避免引入不必要的伪影。这些标准化过程确保了所有图像的一致性和兼容性,并促进了它们顺利集成到模型训练和评估流程的后续阶段中。

网络架构

本研究中使用的网络建立在 transformer 架构 [9] 之上,该架构在自然语言处理 [16] 和图像识别任务 [7] 等各个领域展现了显著的效果。具体来说,网络包括一个基于视觉 transformer (ViT) 的图像编码器,负责提取图像特征,一个用于整合用户交互(边界框)的提示编码器,以及一个通过图像嵌入、提示嵌入和输出标记生成分割结果和置信度分数的掩膜解码器。

为了在分割性能和计算效率之间取得平衡,我们采用了基础 ViT 模型作为图像编码器,因为广泛的评估表明,较大的 ViT 模型,如 ViT Large 和 ViT Huge,在显著增加计算需求的同时,仅带来了边际的准确度提高 [4]。具体而言,基础 ViT 模型由 12 个 transformer 层 [9] 组成,每个块包括一个多头自注意力块和一个包含层标准化的多层感知器(MLP)块 [17]。预训练采用了掩码自编码器建模 [18],随后在 SAM 数据集上进行了全监督训练 [4]。输入图像(1024×1024×3)被重塑为 16×16×3 大小的扁平 2D 块的序列,经过图像编码器后,在图像嵌入中产生 64×64 的特征大小,即经过 16×的降采样。提示编码器将边界框提示的角点映射到 256 维向量嵌入 [8]。特别地,每个边界框由左上角点和右下角点的嵌入对表示。在计算完成图像嵌入后,为了促进实时用户交互,采用了一个轻量级的掩膜解码器架构。它包括两个 transformer 层 [9] 用于融合图像嵌入和提示编码,以及两个转置卷积层将嵌入分辨率增强到 256×256。随后,嵌入经过 sigmoid 激活,然后进行双线性插值以匹配输入尺寸。

训练协议和实验设置

在数据预处理阶段,我们获得了 1,090,486 个医学图像 - 掩膜对用于模型开发(不包括外部验证集表 \(1-4\))。对于内部验证,我们将数据集随机分为 \(80\%,10\%,10\%\) 作为训练、调整和验证集。这个设置允许我们在调整集上监测模型的性能,并在训练过程中调整其参数,以防止过拟合。对于外部验证,我们使用了模型在训练过程中未见过的保留数据集。这些数据集对模型的泛化能力进行了严格的测试,因为它们代表了新的患者、成像条件和潜在的模型之前未遇到的新的分割任务。通过评估 MedSAM 在这些未见数据集上的性能,我们可以获得对 MedSAM 在真实临床环境中的表现的真实了解,其中它需要处理数据的广泛变异性和不可预测性。训练和验证是独立进行的。

该模型使用预训练的 SAM 模型和 ViT-Base 模型进行初始化。由于它已经可以编码边界框提示,我们固定了提示编码器。图像编码器和掩膜解码器中的所有可训练参数在训练期间都得到更新。具体地,图像编码器和掩膜解码器的可训练参数数量分别为 \(89,670,912\)\(4,058,340\)。边界框提示是从地面实况掩膜中模拟出来的,其随机扰动范围为 0-20 个像素。损失函数是 Dice 损失和交叉熵损失之间的未加权和,这在各种分割任务中已被证明是稳健的。具体而言,设 \(S, G\) 表示分割结果和地面实况,\(s_i, g_i\) 表示体素 \(i\) 的预测分割和地面实况,\(N\) 是图像 \(I\) 中的体素数量。交叉熵损失定义为

\[ L_{C E}=-\frac{1}{N} \sum_{i=1}^N g_i \log s_i, \]

Dice 损失定义为

\[ L_{\text {Dice }}=1-\frac{2 \sum_{i=1}^N g_i s_i}{\sum_{i=1}^N\left(g_i\right)^2+\sum_{i=1}^N\left(s_i\right)^2} . \]

最终损失 \(L\) 定义为

\[ L=L_{C E}+L_{\text {Dice }}. \]

该网络使用 AdamW [19] 优化器(\(\beta_1=0.9, \beta_2=0.999\))进行优化,初始学习率为 \(1 \mathrm{e}-4\),权重衰减为 0.01。批量大小为 160,未使用数据增强。该模型在 20 个 A100(80G)GPU 上进行训练,共进行 100 个 epochs,最后一个检查点被选为最终模型。

此外,为了全面评估 MedSAM 的性能,我们对其进行了与最先进的分割基础模型 SAM [4] 和专家模型的比较分析。具体来说,我们将训练图像分为四类:CT 图像、MR 图像、灰度图像(包括胸部 X 射线(CXR)、超声波、乳房 X 线摄影和 OCT 图像)以及 RGB 图像(包括病理学、内窥镜和皮肤显微镜图像)。对于每个类别,我们基于 nnU-Net 训练了一个专家模型,该模型在许多分割任务上取得了最先进的性能。为了生成 U-Net 的训练数据,我们在边界框内裁剪了图像和相应的掩膜。为了进行公平比较,MedSAM 和 U-Net 专家模型在相同的数据拆分上进行了训练。主要区别在于训练方法:MedSAM 在整个训练集上进行了一次训练,而 U-Net 专家模型则在对应于一个类别的每个子集上分别进行了训练。

除了与 SAM 和 U-Net 专家模型的比较分析外,我们还通过将其与六名专家在前列腺 MR 图像分割数据集(52 例)上进行比较来进一步评估 MedSAM 的性能。对于每种情况,六名专家提供了各自的分割结果,地面实况是基于多数投票确定的。我们计算了每种情况和专家的 DSC 分数,随后将其与 MedSAM 的结果进行了比较。

评估指标

我们遵循 Metric Reload [20] 中的建议,使用 Dice 相似系数和归一化表面距离(NSD)来定量评估分割结果。DSC 是一种基于区域的分割指标,旨在评估地面实况和分割结果之间的区域重叠,其定义为 $$ D S C(G, S)=\frac{2|G \cap S|}{|G|+|S|}, $$

NSD 是一种基于边界的指标,旨在评估在给定容限下地面实况和分割结果之间的边界一致性,其定义为

\[ N S D(G, S)=\frac{\left|\partial G \cap B_{\partial S}^{(\tau)}\right|+\left|\partial S \cap B_{\partial G}^{(\tau)}\right|}{|\partial G|+|\partial S|}, \]

其中 \(B_{\partial G}^{(\tau)}=\left\{x \in R^3 \mid \exists \tilde{x} \in \partial G,\|x-\tilde{x}\| \leq \tau\right\}, B_{\partial S}^{(\tau)}=\left\{x \in R^3 \mid \exists \tilde{x} \in \partial S,\|x-\tilde{x}\| \leq \tau\right\}\) 分别表示地面实况和分割表面在容限 \(\tau\) 下的边界区域。在本文中,我们将容限 \(\tau\) 设置为 2 。

统计分析

为了对上述三种方法(MedSAM、SAM 和专家模型)的性能进行统计分析和比较,我们采用了 Wilcoxon 符号秩检验。这个非参数检验非常适用于比较配对样本,并且在数据不符合正态分布的假设时特别有用。这个分析让我们能够确定任何一种方法是否在分割性能上统计上优于其他方法,为评估 SAM、U-Net 专家模型和 MedSAM 的比较有效性提供了宝贵的见解。Wilcoxon 符号秩检验的结果标注在 DSC 和 NSD 分数表(附录表 5-11)上。

数据可用性

本研究中的所有数据集均来自公共数据集。下载链接在附录表 12 中提供。

代码可用性

所有代码均在 Python(3.10)中使用 Pytorch(2.0)作为基础深度学习框架实现。我们还使用了几个 Python 包进行数据分析和结果可视化,包括 SimpleITK(2.2.1)、nibabel(5.1.0)、torchvision(0.15.2)、numpy(1.24.3)、scikit-image(0.20.0)、opencvpython(4.7.0)、scipy(1.10.1)和 pandas(2.0.2)、matplotlib(3.7.1)、plotly(5.15.0)。Biorender 用于创建图 1a。训练脚本、推断脚本和训练模型已公开在 https://github.com/bowang-lab/MedSAM。

致谢

本文作者非常感谢所有数据所有者为社区提供公共医学图像。我们还感谢 Meta AI 将 segment anything 的源代码公开提供给社区。