最新消息:雨落星辰是一个专注网站SEO优化、网站SEO诊断、搜索引擎研究、网络营销推广、网站策划运营及站长类的自媒体原创博客

Nature human behaviour:脑

网站源码admin2浏览0评论

Nature human behaviour:脑

摘要:脑-表型预测模型致力于识别可重复且具有普适性的脑-表型关联。外部验证,即在外部数据集上评估模型,是评估神经影像模型普适性的金标准。与典型研究不同,外部验证涉及两个样本量:训练样本量和外部样本量。因此,传统的功效计算可能并不适用。在此,我们对功能和结构连接数据进行了超过 9 亿次基于重采样的模拟,以探究训练样本量、外部样本量、表型效应大小、理论功效和模拟功效之间的关系。我们的分析涵盖了多个数据集,包括健康大脑网络、青少年大脑认知发展研究、人类连接组计划(发育和青年成人阶段)、费城神经发育队列、昆士兰双胞胎青少年大脑项目和中国人类连接组计划;以及多种表型,如年龄、体重指数、矩阵推理能力、工作记忆、注意力问题、焦虑 / 抑郁症状和关系处理能力。高效应大小的预测在几百人的训练和外部样本量下即可获得足够的功效,而低和中等效应大小的预测则需要数百到数千的训练和外部样本。此外,大多数先前的外部验证研究使用的样本量可能导致功效较低,理论功效曲线应根据训练样本量进行调整。而且,内部验证中的模型性能通常能为后续的外部验证性能提供参考。这些结果有助于确定未来外部验证研究的样本量规划。

1. 引言

神经影像研究越来越多地借助大型数据集来探究脑 - 表型关联。然而,即便传统意义上的 “大型” 数据集(包含数百名参与者),对于许多关联研究而言,统计功效依然不足。统计功效低给神经影像研究的可重复性带来诸多阻碍,比如假阴性、效应大小夸大以及重复实验失败等问题。

与关联研究不同,预测框架能够缓解某些神经影像研究中可重复性差的问题。与关联分析不同,预测需要在未见过的数据上评估模型,这极大地降低了过拟合的风险,也就是模型在训练数据之外无法泛化的情况。因此,相较于样本内关联,预测能更可靠地衡量脑 - 表型关联。通常,预测是通过将数据集划分为训练集和测试集来实现的,比如通过 k 折交叉验证。尽管这比样本内关联有所进步,但将数据集划分为训练样本和测试样本并不能完全体现脑 - 表型关联的普适性和实用性。即便进行交叉验证,模型仍可能过度拟合特定数据集的特性。

外部验证,即将模型应用于完全不同的数据集,是评估预测模型普适性的黄金标准。将模型推广到具有不同特征的另一个数据集,为稳健且可重复的脑 - 表型关联提供了有力证据。因此,许多研究都鼓励将模型推广到外部数据集。由于很少有研究有资源收集两个独立样本,外部验证通常使用现有的公开可用数据集来进行。随着此类数据集可用性的不断提升,外部验证可能会变得更加容易实现且更为常见。然而,外部数据集很少与原始数据集协调一致,它们在表型测量、神经影像数据或表型与神经影像数据之间的关系方面往往存在差异,这就构成了数据集偏移。因此,研究人员通常会选用最相似的可用数据集。在外部验证研究中,统计功效很少被考虑。

虽然在典型的单数据集研究中,功效是依据样本量、效应大小和显著性水平α计算的,但外部验证中的功效可能取决于效应大小、训练样本量、外部样本量,以及潜在的数据集偏移。因此,传统的功效计算可能并不适用于外部验证。系统地评估真实效应大小、训练样本量和外部样本量对外部验证功效的贡献,对于确定已有的理论功效曲线是否适用于外部验证至关重要。

在这项工作中,我们模拟了训练数据集和外部数据集大小对预测功效的影响。我们的分析涵盖了七个公开可用的神经影像数据集(包括功能连接和结构连接)以及六种主要表型,这些表型涵盖了各种发育、认知和精神特征,即年龄、经年龄和性别调整的体重指数(BMIz)、矩阵推理能力、工作记忆、注意力问题和焦虑 / 抑郁症状。我们首先调查了现有外部验证研究中使用的训练和外部样本量,以便为我们的重采样模拟提供背景。接下来,我们对多个样本量的数据集进行重采样,并评估高、中、低效应大小表型的内部(即数据集内)和外部(即跨数据集)预测性能。最后,我们研究内部和外部预测性能之间的关系。

2. 结果

2.1 文献中的外部验证样本量

我们对 2022 - 2023 年发表的神经影像外部验证论文进行了简要的文献回顾,以了解典型的训练数据集和外部数据集的样本量情况。我们还将此次回顾与之前一项涵盖 2022 年之前论文的分析相结合。在 54 篇符合条件的文章中,训练样本量的中位数为 N = 129(四分位距 IQR = 59.5 - 371.25),外部样本量的中位数为 N = 108(IQR = 50 - 281)。这些样本量为我们分析本文中呈现的模拟结果提供了参考。

2.2 内部和外部验证的重采样模拟

我们将该领域典型的外部验证样本量与基于重采样的外部验证模拟进行比较,模拟使用了四个发育阶段的静息态功能磁共振成像(fMRI)数据集:健康大脑网络(HBN)数据集、青少年大脑认知发展(ABCD)研究、人类连接组计划发育阶段(HCPD)数据集以及费城神经发育队列(PNC)数据集。我们对六种表型进行了内部(数据集内)和外部(跨数据集)验证。根据内部验证性能,这些表型大致分为高、中或低效应大小。选择不同效应大小的表型是因为功效与样本量之间的关系也取决于真实效应大小,效应越强,功效越大。此外,我们对高、中、低效应大小的定义与传统分类不同,而是根据神经影像领域的典型结果进行了调整。

在接下来的部分中,我们通过模拟来了解不同效应大小下训练数据集大小、外部数据集大小与预测功效之间的关系(补充图 1)。我们的主要结果报告了在 HBN 数据集中训练并在所有其他数据集中测试的模型的发现(所有可能的训练 / 外部数据集组合见补充信息)。

图片

图 1 HBN 中的内部验证性能

2.3 内部验证性能

对于内部验证,我们在一个数据集的子集中训练岭回归模型,并在同一数据集随机留出的 20% 数据中进行评估。所有模型都包括协变量回归(自我报告的性别、运动和年龄),选择与感兴趣结果相关性最高的前 1% 特征,并在训练集内进行 5 折交叉验证以选择 L2 正则化参数α。考虑到家庭结构,以确保每个家庭成员组要么都在训练集中,要么都在测试集中。

随着训练样本量的增加,高和中等效应大小表型的内部验证预测性能(通过观测和预测表型之间的皮尔逊 r 衡量)有所提高(图 1)。在低效应大小表型中,平均性能在某些情况下有所增加,但在其他情况下仍接近 r = 0。不出所料,在所有数据集和表型中,小样本量时性能的变异性更大,但这种影响在低效应大小表型中较小。当使用平均绝对误差(MAE)作为评估指标时,也观察到了类似的趋势,尽管训练样本量对中等效应大小表型的影响更为微妙。

此外,我们比较了工作记忆和矩阵推理的原始分数和标准化分数。由于 PNC 中没有标准化分数,因此在本文的其余部分中,原始分数被用作主要结果。

2.4 外部验证性能

使用上述流程,我们进行了外部验证,即在一个数据集中训练岭回归模型,并在另一个数据集中进行评估。每个数据集和表型的真实性能(使用完整的训练和外部数据集大小进行评估)从无预测能力到很强不等。我们在所有 12 个针对年龄和 BMIz 的外部验证模型、11 个针对矩阵推理的模型、9 个针对工作记忆的模型、4 个针对注意力问题的模型和 5 个针对焦虑 / 抑郁的模型中观察到了显著的预测结果。除了将每个表型分类为高、中或低效应大小之外,我们还根据其真实预测性能将每个训练数据集、外部数据集和表型的特定组合分类为高、中或低效应大小。

值得注意的是,外部验证有时在一个方向上成功,但在另一个方向上失败。例如,在 ABCD 中训练并在 HCPD 中测试时,矩阵推理的预测 r (417) = 0.329(P<0.001),但在 HCPD 中训练并在 ABCD 中测试时,r (7,844) = 0.053(P<0.001)。这可能是由于表型分布中的数据集偏移,因为许多表型在不同数据集之间存在统计学上的显著差异。此外,两个数据集的表型之间的统计学差异越大,在反转训练集和外部数据集时,模型性能的差异就越大。外部验证通常在具有不同特征的数据集之间进行,这增加了统计功效计算的复杂性。

此外,随着外部样本量的增加,预测性能的变异性也更大(图 2)。小训练样本量预测高和中等效应大小表型时,性能的变异性更高(图 2),并且会低估真实值。当使用 MAE 而不是皮尔逊 r 作为评估指标时,小外部样本量下性能的变异性仍然更大,小训练样本量表现出更高的变异性和更差的性能(即更高的 MAE)。然而,这些影响不太明显,在 ABCD 数据集中尤其如此。总体而言,这些结果凸显了外部验证的复杂性。效应大小、数据集之间的相似性、训练样本量和外部样本量等因素都会影响预测性能。

图片

图 2 在 HBN 中训练的外部验证性能的95% 置信区间

图片

图 3 在 HBN 中训练的外部验证的功效和假阳性率

2.5 外部验证的功效和假阳性率

我们计算了每个训练数据集、外部数据集、训练样本量、外部样本量和表型组合的显著模拟结果的比例(P<0.05,针对 r>0 的单尾显著性检验)。对于具有显著真实效应的预测,该比例被标记为 “功效”。对于真实效应不显著的预测,该比例被标记为 “假阳性率”,即与一类错误率相同(图 3)。

在所有数据集中,外部验证的功效都受到训练样本量和外部样本量的影响(图 3)。更大的训练样本量和外部样本量能实现更高的功效。使用 MAE 作为评估指标时,结果相似,尽管由于计算可行性,将显著性检验限制为 500 次排列可能会导致一些不一致性。

我们在真实效应不显著的情况下分析了假阳性率,发现大外部样本和小训练样本的假阳性率最高(图 3)。在大外部样本量下,即使效应量非常小,结果也可能显著。因此,在小训练样本量下模型变异性较高时,存在拟合出 “幸运” 模型的风险,从而导致假阳性。

在将每个训练数据集、外部数据集和表型的组合分类为高、中或低效应大小预测后,我们发现高效应大小的预测在几百人的训练和外部样本量下即可获得足够的功效(>80%)(图 4)。中等效应大小的预测需要几百个训练和外部样本量才能达到 > 80% 的功效,而低效应大小的预测只有在数百到数千个训练和外部样本时才能达到> 80% 的功效。这些发现表明,像年龄这样的强效应可以在小样本中可靠地检测到。

我们还根据文献回顾中的中位数样本量研究了模拟功效。在我们评估的样本量中,最接近中位数的训练样本量为 N = 137,最接近中位数的外部样本量为 N = 108。对于这些样本量,高效应大小预测的中位功效为 99.67%(范围 58.62 - 100.00%),中等效应大小预测的中位功效为 49.04%(范围 13.31 - 93.36%),低效应大小预测的中位功效为 9.38%(范围 5.74 - 33.88%)。该领域中与第 25 和第 75 百分位数相当的样本量的其他结果见补充表 7。特别是对于低和中等效应大小,该领域的许多外部验证研究似乎未达到典型的 80% 功效标准。

图片

图 4 HBN、ABCD、HCPD 和 PNC 中基于训练和外部样本量的功效等高线图

图片

图 5 在 HBN 中训练的外部验证预测的效应大小夸大或缩小情况

图片

图 6 HBN、ABCD、HCPD 和 PNC 中基于训练和外部样本量的效应大小夸大等高线图

2.6 外部验证的效应大小夸大

功效不足的研究往往会导致假阴性。例如,功效为 40% 的研究,其假阴性率为 60%。与之相关的是,效应大小夸大(即报告的性能超过真实值)是功效不足研究的另一个后果。简而言之,当测试样本非常小时,需要较大的效应才能达到显著性。因此,在小样本、功效不足的研究中,显著的报告结果相对于真实值往往会被夸大。

在显著结果中,我们计算了相对于真实值的中位效应大小夸大(或缩小)(图 5)。效应大小夸大在低效应大小表型和小外部样本量中最为普遍。对于中等和高效应大小的表型,效应大小夸大在小外部样本量中也很常见。值得注意的是,小训练样本量在中等和高效应大小表型中表现出效应大小缩小,即性能低于真实值。在小训练样本中也观察到较高的 MAE(较差的性能),而在小外部样本量中观察到较低的 MAE(较好的性能),特别是在低效应大小表型中。

接下来,我们计算了所有高、中、低效应大小预测的效应大小夸大(图 6)。我们发现,中等和低效应大小预测中的效应大小夸大主要取决于外部样本量(图 6)。夸大是功效低的结果,在低到中等效应大小中需要适度的样本量(图 4)。对于高效应大小的预测,在低训练样本量下会出现缩小,而夸大很少见(图 6)。

使用该领域中最接近中位数的样本量(N 训练 = 137,N 外部 = 108),高效应大小预测的夸大率范围为中位从 - 0.29 到 - 0.04,中等效应大小预测为 - 0.14 到 0.06,低效应大小预测为 0.05 到 0.28,其中负的夸大表示缩小。对于高效应大小的预测,该领域的典型样本量可能会低估效应大小,而对于低到中等效应大小的预测,效应大小可能会被高估。

图片

图 7 在 HBN 中训练时,训练数据每个子样本的内部和外部性能差异

2.7 内部验证与外部验证性能的关系

一个关键的问题是内部验证和外部验证性能之间的关系,以及这种关系是否能为未来的外部验证研究提供参考。在确定外部验证研究所需的统计功效时,最令人担忧的情况是 r_internal 远大于 r_external。在这种情况下,人们可能会根据 r_internal 选择足够的外部样本量以获得足够的功效。然而,数据集偏移可能会降低r_external,从而降低外部验证的功效,可能导致假阴性或效应大小夸大。因此,我们研究了r_internal - r_external 低于各种阈值的情况的比例。

对于任何给定的子样本,内部和外部性能之间的差异都高度可变,尤其是在较小的样本量下(图 7)。内部和外部性能并不总是紧密相关。例如,BMI 预测在 PNC 数据集中的泛化性相对较差,因此 r_internal - r_external始终大于零。相反,PNC 数据集的 BMIz 模型在外部的表现优于内部,所以 r_internal - r_external 为负。

在最接近该领域现有中位数的训练样本量下,所有数据集和表型的评估中,85.04% 满足(r_internal - r_external < 0.2)的要求,在仅考虑内部验证显著的预测时,67.57% 满足(r_internal - r_external < 0.1)的标准。

此外,内部验证表现显著的模型通常比真实值表现不显著的模型具有更好的外部验证功效。内部验证结果显著的模型,在高、中、低效应大小真实值预测中的总体功效分别为 99.06%、89.40% 和65.02%。而内部验证不显著的模型,其功效分别为 54.98%、56.30% 和 36.51%。当使用MAE 作为指标时,内部验证表现显著的模型的外部验证功效为 81.67%,内部验证不显著的模型为 44.11%。因此,在内部验证中显著预测的模型在外部数据集中也倾向于显著预测。

图片

图 8 结构连接数据中的功效和效应大小夸大等高线图

2.8 额外数据集的分析

为了确定我们的发现是否超出基于美国参与者的发育静息态功能连接数据的范围,我们进行了敏感性分析,包括:(1)由扩散张量成像(DTI)数据生成的结构连接组;(2)美国以外的数据集;(3)成人数据集。

对于结构连接,我们在三个发育数据集中预测年龄、工作记忆和焦虑 / 抑郁症状,这三个数据集分别是 HBN、HCPD 和昆士兰双胞胎青少年大脑(QTAB)项目。此外,我们使用来自两个成人数据集(中国人类连接组计划(CHCP)和人类连接组计划(HCP))的结构连接数据,预测关系处理任务中关系和匹配条件下的年龄和准确性。我们在 CHCP 和 HCP 中预测任务表现,是因为 CHCP 中尚未获得额外的行为数据。值得注意的是,QTAB 和 CHCP 分别是澳大利亚和中国的数据集,这使得我们能够评估跨国外部验证。

在所有结构连接数据集中,我们在预测准确性、效应大小夸大和缩小以及功效方面观察到了相似的趋势。我们再次将所有预测分类为高、中、低效应大小,并重新创建了图 4图 6中的等高线图(图 8)。结果与我们的静息态数据集一致,这表明我们关于功效和效应大小夸大的结论也适用于结构连接数据。

此外,将分析扩展到两个成人数据集(CHCP 和 HCP)的静息态功能连接,我们预测了关系处理任务中年龄以及关系和形状条件下的准确性。结果证实了我们在发育数据集中的发现。至关重要的是,效应大小夸大在小外部样本中最为常见,而效应大小缩小在小训练样本中最为常见。功效取决于训练数据集和外部数据集的大小。

新数据集中内部和外部性能之间的差异更大。在该领域中位数样本量(N_training = 137)下,发育功能连接数据中 85.04% 的模拟满足(r_internal - r_external < 0.2)的要求,而在发育结构连接数据中只有 66.06% 的模拟达到该要求,在成人体结构连接数据中为 46.00%,在成人功能连接数据中为 50.00%。值得注意的是,在发育结构连接样本中,跨国预测(QTAB 与 HBN 或 HCPD 之间)64.92%的模拟满足该要求,但当 QTAB 作为外部数据集时,只有 37.83%满足。此外,在成人数据集中,年龄预测的内部和外部性能差异很大(约 r = 0.5)。这种差异可能是由于 CHCP 数据集相对较小,或者数据集之间年龄范围的差异。尽管如此,内部验证显著的模型更频繁地在外部验证中表现显著。内部验证显著的模型的外部验证功效为 84.99%,而内部验证不显著的模型为 71.67%。

2.9 扫描时长的影响

我们主要分析中的所有静息态扫描时长都相当。鉴于最近有证据表明扫描时长可以提高预测性能,我们改变了 ABCD 功能连接数据的扫描时长(5 分钟、10 分钟、15 分钟或 20 分钟)。增加扫描时长提高了内部验证性能,这与参考文献 37 一致。使用更长的训练数据集扫描时长或更长的外部数据集扫描时长对外部验证的改善很小。改变训练数据或外部数据的扫描时长时,外部功效曲线相似。使用更长的扫描进行训练时,r_internal 和 r_external 之间的差异更大,因为增加扫描时长对内部验证的益处大于外部验证。然而,在外部数据集中使用更长的扫描时,几乎没有观察到差异。总体而言,虽然增加扫描时长提高了内部验证性能,但我们的结果表明扫描时长不会改变外部验证的功效考虑因素。

3. 讨论

这项工作研究了训练样本量和外部样本量对脑-表型预测模型外部验证的影响。基于重采样的模拟涵盖了七个数据集、六种表型以及功能和结构连接,结果表明以前的外部验证研究依赖的样本量可能导致功效较低,这可能会导致假阴性,或者在结果显著的情况下,导致效应大小夸大。虽然传统的功效计算取决于效应大小和单个样本量,但外部验证由于存在两个样本量而带来了独特的挑战。我们的模拟结果表明,功效取决于训练样本量和外部样本量,并且在不同效应大小下关系各异。这突出了传统功效计算可能不适用于外部验证。

尽管外部验证在神经影像预测研究中只占少数,但随着该领域应对持续存在的可重复性挑战,它可能会越来越普遍。此外,外部验证可以改善机器学习中的某些伦理问题,包括偏差和可信度(缺乏)。对于偏差,在外部数据集中评估模型可以确定脑 - 表型关联在不同特征人群中的稳健性和普遍性。对于可信度,外部验证确保结果不是由数据操纵导致的。鉴于外部验证在提高可重复性、减轻偏差和增加可信度方面的前景,神经影像研究可能会遵循与全基因组关联研究(GWAS)类似的发展轨迹。现在,外部重复是 GWAS 的标准做法。因此,更深入地理解神经影像外部验证中的统计功效是必要的。

功效良好的研究可以将假阴性或效应大小错误估计的可能性降至最低,这反过来又促进了科学见解的可重复性和实用性。足够的功效由三个部分组成:外部样本量、训练样本量和效应大小。统计功效是外部样本量的直接函数,我们的模拟结果证实了这一点。小的外部样本量通常功效不足,并表现出假阴性。此外,低功效的模拟通常显示出效应大小夸大。直观地说,较小的外部数据集需要更大的效应大小才能达到显著性。再加上对显著效应的报告偏差,使用小测试或外部数据集发表的效应可能被夸大。鼓励研究人员发表外部验证尝试的结果,无论统计显著性如何,都将改善效应大小夸大的问题。一个更现实的解决方案是推广使用大的外部数据集,在这种数据集中效应大小不太可能被夸大。一个通用的指导原则是,如果一个样本太小以至于你不会在其中训练模型,那么你可能也不应该将其用作外部数据集。至少,由于可能存在假阴性,或者在结果显著的情况下可能存在效应大小夸大,应该谨慎解释结果。需要注意的是,当使用大的数据集时,即使效应很小也可能达到统计显著性。例如,r = 0.03 且 N = 5000 的效应可能不是很有意义,但它的 P 值小于 0.05。然而,小的效应仍然可能是有意义的,并影响政策或为我们理解更复杂的特征提供信息。相反,在理解大数据集中的脑 - 表型关联时,报告和解释效应大小和显著性都至关重要。

除了外部样本量,训练样本量在为外部验证提供足够功效方面也起着关键作用。需要大的训练数据集来避免过拟合或泛化性差的问题。由于训练样本量影响模型的质量,进而影响外部验证性能,因此可以认为它直接影响理论功效方程中的真实性能项。我们的模拟表明,小的训练样本量可能导致假阴性。此外,小的训练样本会低估大效应的真实值,导致不可靠的效应估计,从而降低外部验证性能。因此,我们建议尽可能使用大的训练样本量,以避免假阴性或低估真实效应大小。此外,小训练样本(<100)和大外部样本(>500)的组合会增加假阳性的可能性。然而,关注效应大小而不是 P 值可以减轻这种情况。

除了大样本量可以提高功效外,我们还表明,效应大小较高的表型具有更好的功效,并且可以减少假阴性或效应大小夸大的情况。有几种互补的方法可以通过增加效应大小来提高外部验证功效,包括增加每个参与者的 fMRI 数据量,或设计更适合预测的行为测量方法。最近的研究表明,获取更长的静息态扫描可以提高预测性能,我们的结果支持这样的结论,即更长的扫描时长可能会增加内部验证中的效应大小。然而,在外部验证中,更长扫描时长的益处减弱了。一种可能的解释是,数据集之间的差异超过了更长扫描提供的可靠性益处。此外,在特定数据集中更可靠或表现更好的模型不一定具有更好的泛化性。未来的工作应该全面研究这个问题。无论扫描时长如何,在 ABCD 的初步分析中,训练样本量、外部样本量、效应大小和外部验证功效之间的关系保持不变。纵向或重复测量设计即使样本量较小也具有更大的功效,并且这些设计还可以通过为每个参与者获取更多数据来增加效应大小。此外,纳入降维方法,如主成分分析或因子分析,可能通过创建更具信息性的感兴趣构念的综合得分来增加效应大小,从而提高功效。

虽然我们解释了可能提高效应大小的方法,但仍然没有明显的方法来准确估计真实效应大小。如果已知给定外部验证脑 - 表型关联的真实效应大小,则可以使用功效曲线直接计算所需的外部样本量。不幸的是,由于两个主要原因,无法完全了解真实效应大小。首先,正如我们所展示的,观察到的效应大小取决于训练样本量,因此无法先验地确定给定表型的真实值。其次,这需要在进行研究之前评估外部验证性能,这是不可行的。相反,人们必须依赖内部验证预测性能(如果主要数据集已经收集)或已发表的效应大小,这些通常代表内部验证预测而不是外部验证。由于数据集偏移(即训练和测试人群不匹配,可能会降低性能),通常预期外部验证预测性能会比内部验证预测性能降低。根据我们的结果,从内部验证或文献中的相关值中减去皮尔逊 r = 0.2,可能是一种有用的经验法则,以解释观察到的外部预测性能的下降。

对于与训练集协调不佳的外部数据集,可能需要进行额外的效应大小校正。数据集之间的不匹配可能来自人群特征、图像采集、表型测量或脑 - 表型关系的差异。这项工作的结果是在存在多个额外数据集偏移的情况下呈现的,最明显的是表型分布的显著差异,或用于获得测量值的评估方法的差异。在这项工作中,训练样本量、外部样本量、真实效应大小、功效和效应大小夸大 / 缩小之间的关系在所有数据集中都成立。然而,在存在数据集偏移的情况下,内部和外部性能之间的差异往往更大。例如,使用 HBN 或 HCPD 的结构连接组的预测模型对 QTAB 的泛化性较差,这可能反映了文化差异(即澳大利亚与美国)或样本确定差异(即双胞胎与单胎)。再例如,年龄预测模型对 ABCD 的泛化性较差,这可能是由于 ABCD 的年龄范围(9 - 11 岁)与其他数据集相比受到限制。我们只使用了两个非美国数据集(CHCP,QTAB)。未来的工作应该进一步研究这些结果在不同人群中的适用性。尽管如此,在为外部验证研究确定样本量时,应充分考虑数据集之间的协调性和参与者之间的相似性,因为模型在具有不同特征的参与者中可能表现不同。减少数据集偏移是另一种可能提高效应大小的途径。虽然有些数据集偏移是不可避免的,但正在进行的改进 MR 序列和测量协调性的工作,如心理健康科学通用测量方法,可能会减少数据集偏移。尽管如此,不协调甚至负相关的测量也可以用于外部验证,例如,尽管临床测量和持续注意力测量之间存在负相关,但仍可以从持续注意力网络预测注意力缺陷 / 多动障碍的临床测量。最后,数据集偏移可以通过大的代表性样本来减轻。未来的工作应该努力在不同人群中收集数据,以更好地评估脑 - 表型模型的普遍性。

我们的研究存在一些局限性。第一,我们关注的是外部验证,而不是在独立样本中进行重复,后者需要在独立的数据集中重复整个分析。两者都是提高可重复性和再现性的有效策略,但从预测的角度来看,外部验证更为常见。第二,我们只分析了多变量脑 - 表型关联,因为多变量模式比单变量关联更可靠,并且越来越受欢迎。第三,为了评估内部验证性能,我们使用了一个小的留出样本。这一局限性是由于数据集的大小,但我们对 100 个不同的随机子样本重复了评估,以减少噪声。第四,主要分析中的所有数据集都由美国青少年组成;然而,这些队列在潜在的重要方面存在差异,包括地理区域、精神病理学症状和行为测量。我们的敏感性分析发现,功效和效应大小夸大的结果适用于其他国家的发育和成人队列,但关于内部和外部性能差异的结果可能不适用。QTAB 和 CHCP 数据集相对较小的样本量可能导致缺乏普遍性。这需要在更大、更多样化的数据集中进行进一步研究。此外,尽管在 QTAB 的内部验证中考虑了双胞胎结构,但 QTAB 的双胞胎结构可能会导致外部验证性能的差异。第五,我们在 ABCD 中的初步分析表明扫描时长对外部验证性能的影响很小。然而,未来的工作应该研究扫描时长和可靠性如何导致外部验证的差异。

在为预测模型选择外部验证数据集时,根据感兴趣的表型,可能选择有限。如果在外部验证研究中必须使用小的训练或外部数据集,认识到并明确承认样本量的局限性对于促进可重复性至关重要。尽管目前该领域依赖内部验证关联和预测,但外部验证将变得更加普遍。这项工作为理解外部验证研究需要多大样本量提供了一个起点。

4. 方法

4.1 伦理批准

本研究对公开可用的数据集进行了二次数据分析。这些数据集的数据收集已获得每个队列相关伦理审查委员会的批准。相关数据收集团队已在这些公开数据集中获得了知情同意。对于未成年人,由父母 / 法定监护人提供知情同意,并获得孩子的同意。此外,我们获得了耶鲁大学机构审查委员会(Yale IRB)的豁免(HIC: 2000023326),可以使用公开的神经影像数据。本研究未进行预注册。

4.2 外部验证样本量的文献回顾

我们进行了一项简要的文献回顾,以了解功效和外部验证结果的背景。我们使用 PubMed,通过搜索以下关键词来查找使用外部验证的功能连接预测论文:(“functional connect*” 或(“fMRI” 且 “connect*”))且(“predict*”)且(“external” 或 “cross-dataset” 或 “across datasets” 或 “generaliz*”)。在文章使用多个训练或外部数据集的情况下,我们记录最大数据集的样本量。文章限制在 2022 年和 2023 年,截至2023 年 7 月共检索到 117 篇文章。排除缺乏外部验证、未使用 fMRI 连接数据或报告细节不足的文章。最终,我们的样本中包括 27 篇文章。训练数据集的样本量中位数为 N = 161(IQR: 100 - 495),外部数据集的样本量中位数为 N = 94(IQR: 39.5 - 682)。另一项分析纳入了 2022 年之前的文章,发现有 27 篇使用外部验证的文章。在这个样本中,训练数据集的样本量中位数为 N = 87(IQR: 25 - 343),外部数据集的样本量中位数为 N = 137(IQR: 60 - 197)。在我们的数据集和参考文献 14 的数据集合并后,训练样本量中位数为 N = 129(IQR: 59.5 - 371.25),外部样本量中位数为 N = 108(IQR: 50 - 281)。

4.3 数据集

静息态 fMRI 数据来自四个主要数据集:HBN 数据集、ABCD 研究、HCPD 数据集和PNC 数据集。数据集的详细信息见补充表 1 和表 2。简而言之,HBN 数据集包含从纽约大都市区附近四个地点招募的 5 - 22 岁参与者(N = 1,024 - 1,201)。ABCD 数据集包含在美国 21 个地点进行 fMRI 扫描的 9 - 11 岁儿童(不同表型的 N = 7,846 - 7,996)。HCPD 数据集包含在美国四个地点(哈佛、加州大学洛杉矶分校、明尼苏达大学、圣路易斯华盛顿大学)完成 fMRI 扫描的 8 - 22 岁参与者。PNC 数据集包含在费城地区接受费城儿童医院治疗的 8 - 21 岁青少年(N = 826 - 1,179)。

在本研究中,我们在这四个数据集中预测年龄、经年龄和性别调整的体重指数(BMIz)、矩阵推理能力、工作记忆、注意力问题和焦虑 / 抑郁症状。这些测量涵盖了广泛的效应大小,使其特别适合用于研究功效和效应大小夸大问题。

对于矩阵推理测量,我们在 HBN、ABCD 和 HCPD 中使用韦氏儿童智力量表第五版(WISC - V)矩阵推理总分原始分数。在 PNC 中,我们使用宾夕法尼亚矩阵推理(Penn Matrix Reasoning)总分原始分数。

对于工作记忆,我们在 HBN、ABCD 和 HCPD 中使用美国国立卫生研究院工具箱列表排序工作记忆测试(NIH Toolbox List Sorting Working Memory Test)。在 PNC 中,我们使用字母 N - back 任务中 0 - back、1 - back 和2 - back 试验的总正确反应数 。在补充表 4 中也提供了在 HBN、ABCD 和 HCPD 中使用工作记忆标准分数的结果。

对于注意力问题测量,我们在 HBN、ABCD 和 HCPD 中使用儿童行为检查表(Child Behavior Checklist,CBCL)注意力问题原始分数。在 PNC 中,我们使用前驱症状结构化访谈(Structured Interview for Prodromal Symptoms):注意力集中困难严重程度量表(SIP001,accession code: phv00194672.v2.p2)。

对于焦虑 / 抑郁症状,我们在 HBN、ABCD和 HCPD 中使用 CBCL 焦虑 / 抑郁综合征量表原始分数。在 PNC 中,我们使用通过探索性因子分析获得的焦虑 - 痛苦因子 。该因子是 PNC 数据集中 39 个问题的总分。

值得注意的是,HBN、ABCD、HCPD 和 PNC 中的行为测量在不同数据集之间进行了调整,使其具有相同的量表(即相同的可能取值范围),以便进行预测和解释平均绝对误差。

我们的主要结果使用 HBN 作为训练数据集,所有其他数据集作为外部数据集。未选择 ABCD 是因为其年龄预测的年龄范围有限(9 - 11 岁)。此外,ABCD 是本研究中最大的数据集,因此将其用作外部数据集可以在更广泛的外部样本量范围内进行评估。未选择 HCPD 作为主要训练数据集是因为其规模较小。未选择 PNC 作为主要训练数据集是因为其表型主要使用与其他数据集不同的测量方法。基于这些原因,HBN 被选作主要训练数据集。

4.4 预处理

四个主要发育数据集的数据使用 BioImage Suite(v.3.01)进行预处理,如我们之前的工作所述(并重复如下)。这种预处理包括从功能数据中回归去除不感兴趣的协变量,包括线性和二次漂移、平均脑脊液信号、平均白质信号和平均全局信号。通过从数据中回归一个 24 参数运动模型(包括六个刚体运动参数、六个时间导数及其平方项)来进行额外的运动控制。随后,我们应用高斯滤波器进行时间平滑,并根据通用空间定义进行灰质掩模处理。然后,应用 Shen 268 节点图谱将去噪后的数据划分为 268 个节点。最后,通过对节点对的每个时间序列进行相关性计算并应用 Fisher 变换,生成功能连接矩阵。在有多个功能连接组可用的情况下,选择运动最小的运行数据。由于数据质量差(例如,T1 加权图像中的伪影、配准错误)、因全脑覆盖不足导致的节点缺失、高运动(平均帧间位移> 0.2mm)或缺失表型数据,数据被排除。应用这些排除标准后,HBN、ABCD、HCPD 和 PNC 中分别剩余 1,201、7,996、599 和 1,179 名参与者。

4.5 数据子采样

对于内部验证,主要数据集进行无放回重采样,并划分为两个子集:一个用于训练预测模型的组(训练组)和一个用于评估预测模型性能的组(留出组)。由于计算可行性和模型评估的一致性,我们选择使用留出组来评估内部验证性能,而不是 k 折交叉验证。为了确保模型评估的一致性,我们希望内部性能取决于模型的质量,并且所有模型的测试数据相似。例如,无论在 HBN 中使用 20 名还是1,000 名参与者来训练模型,都在 200 名参与者中进行评估。如果使用 10 折交叉验证,那么使用 20 名参与者训练的模型在每折中仅在 2 名参与者中进行测试,而使用 1,000 名参与者训练的模型在每折中则在 100 名参与者中进行测试。留出组的大小选择为所有表型数据集大小的约 20%,即 HBN 中 N_held - out = 200,ABCD 中为 1,600,HCPD 中为 100,PNC 中为 200。对于额外的数据集,HBN 结构连接的留出样本大小为 500,HCPD 结构连接为 100,QTAB 结构连接为 100,CHCP 功能和结构连接为75,HCP 功能和结构连接为 200。在有家庭结构的数据集里,数据进行划分以确保每个家庭成员组要么在训练集,要么在测试集。训练组从 N = 20 到 N = 6,396 以对数间隔随机抽取 25 个样本大小。对于外部验证,我们对训练数据集和外部数据集都进行重采样。对于每个训练样本,在上述列出的样本大小下,在外部数据集的随机子集中评估模型。选择这些样本大小是为了涵盖广泛的训练和外部样本大小范围。此外,上述样本大小使我们能够研究小于、等于和大于现有文献中常见样本大小的外部验证性能。

主要数据集的重采样过程重复 100 次,外部数据集针对每次重复也重采样 100 次。因此,对于每个训练数据集、外部数据集、表型、训练样本大小和外部样本大小的组合,我们进行了 10,000 次评估。总体而言,本文包含超过 9 亿次模型评估。

4.6 回归模型

在本研究中,我们提及两种类型的结果:(1)内部验证和(2)外部验证。对于内部验证,我们在随机选择的留出样本中评估性能。首先从训练数据中回归去除协变量(自我报告的性别、运动和年龄,如适用)。然后,使用与感兴趣结果相关性最高的前 1% 特征训练岭回归模型。在训练集内进行 5 折交叉验证,以选择 L2 正则化参数 α。之后,将整个流程应用于留出的测试数据。至关重要的是,从训练集获得的协变量回归参数和特征应用于测试集,以避免数据泄漏。对于外部验证,我们使用上述相同的模型。然而,模型是在外部数据集上进行评估,而不是在留出的测试数据上。我们使用岭回归而不是更复杂的机器学习模型,因为线性模型是该领域最常用的模型,并且其他复杂的非线性模型在功能和结构连接方面通常不会表现出性能提升。

使用皮尔逊相关系数 r 评估性能,因为它是神经影像预测研究中最常用的测量指标之一。例如,参考文献 14 发现,在调查的 108 项研究中,有 97 项使用皮尔逊相关作为评估指标。

我们还使用 MAE 作为指标来评估性能,因为皮尔逊相关系数 r 无法量化误差的大小。由于不同的测量指标具有不同的尺度,我们将 MAE 除以取值范围。例如,矩阵推理分数的范围是 0 - 32,因此我们将 MAE 除以 32。由于焦虑 / 抑郁分数的范围是 0 - 26,我们将 MAE 除以26。

我们对 “真实” 预测性能的定义如下。对于内部验证预测,真实值是指在 100 次随机迭代的嵌套 5 折交叉验证中总样本的平均性能。对于外部预测,真实值定义为在整个主要数据集上训练并在整个外部数据集上测试时的预测性能。

4.6 功效计算

我们计算了所有具有显著真实效应的训练数据集、测试数据集和表型组合的功效。由于外部验证涉及在独立数据集中测试模型,与交叉验证不同(交叉验证中计算 P 值需要进行置换检验),使用参数统计直接将 r 转换为 P 值是合适的。由于我们仅假设 r > 0 以实现显著的预测性能,因此使用单尾显著性检验。为了计算外部验证预测的功效,我们计算达到显著预测性能的子样本比例,按照该领域的惯例,显著的标准为 P < 0.05。

原假设是不存在正相关(H0: r_groundtruth ≤ 0,其中 r_groundtruth 是真实相关性)。我们检验是否有证据表明预测相关性大于零(H1: r_ground truth > 0)。为了进行参数统计检验,我们使用 Fisher 反正切变换将相关性进行转换。然后,使用标准正态分布的累积分布函数 F 将检验统计量转换为理论功效。假设单尾 α = 0.05 计算功效。值得注意的是,在理论功效计算中,只有外部样本量 N_external 是一个项。训练样本量 N_training 仅间接影响功效计算。另一种理解方式是,N_training 修改了模型的质量,从而影响真实相关性 r_groundtruth,进而影响功效。

对于以 MAE 作为评估指标的情况,由于 MAE 依赖于置换检验来确定显著性,因此没有理论功效方程。对于内部验证,使用 10,000 次置换来确定 α = 0.05 的单尾显著性。对于外部验证,为了计算可行性,我们仅使用 500 次置换。

4.7 假阳性率

我们计算了所有真实效应不显著的外部验证预测的假阳性率。假阳性率是指在真实效应不显著的情况下,观察到的效应显著(P < 0.05)的模拟示例的比例。

4.8 性能效应大小夸大

另一个重要的考虑因素是报告的效应大小的夸大,如先前众多研究所述。低功效降低了检测实际效应的可能性,并导致报告的显著效应夸大。换句话说,如果在低功效样本(如由于样本量小)中报告了显著结果,那么效应大小可能被夸大了。

我们首先检查所有达到显著预测性能的结果,以近似效应大小的夸大程度,因为这与围绕阳性结果的发表偏差一致。我们同意其他研究的观点,即不显著的结果也应该发表,但目前该领域的现实是大多数已发表的结果都是显著预测。在显著预测结果中,我们将效应大小与真实效应大小进行比较,并计算相对于真实值的夸大程度(Δr = r_reported - r_ground truth)。

4.9 内部和外部性能的关系

在分别查看内部验证性能和外部验证性能之后,我们对两者进行比较,以确定内部验证性能是否可以为模型的泛化能力提供参考。我们计算每个训练样本的内部验证留出样本性能(r_internal)与在完整外部数据集上的性能(r_externs)之间的差异。然后,我们评估每个训练数据集大小的 100 次随机子采样的性能差异。

4.10 结构连接数据集

额外的结构连接数据集包括三个发育数据集:HBN、HCPD 和 QTAB 项目;以及两个成人数据集:CHCP 和 HCP。这些数据集的行为信息见补充表 9 和表 10,扩散成像采集参数见补充表 12。关于结构连接处理的部分内容复制自/,以确保一致性和可重复性。

对于发育数据集(HBN、HCPD 和 QTAB),从 FIB 文件,并采取了几个额外的校正步骤。使用 Tiny FSL 软件包的重新编译版本,支持多线程)中的 TOPUP 通过反向相位编码 b0 估计磁化率伪影。通过 DSI - Studio中的集成界面进行校正。扩散 MRI 数据旋转以与 AC - PC 线对齐。通过将纤维方向与群体平均模板的纤维方向进行比较,检查 b 表方向的准确性。

对于成人数据集(CHCP、HCP),扩散数据在经过HCP 最小预处理管道(v.3.4.0)处理后下载。

对于所有数据集,使用广义 q 采样成像对扩散数据进行重建,扩散采样长度比为 1.25。对于发育数据集,使用极端科学与工程发现环境(XSEDE)资源中的资源分配(TG - CIS200026)计算和分析张量指标。

如先前工作所述并在此重复以保持一致性,使用 DSI - Studio 进行全脑纤维追踪,以定量各向异性(QA)作为终止阈值。在每个受试者的原生空间中计算每个体素的 QA 值,然后使用统计参数映射非线性配准算法将大脑扭曲到蒙特利尔神经学研究所(MNI)空间的模板中。在 MNI 空间中,再次使用每个体素三个纤维方向,以 1.25mm 的平均扩散距离重建自旋密度函数。在 DSI - Studio 中进行纤维追踪,角度截止为 60 度,步长为 1.0mm,最小长度为 30mm,自旋密度函数平滑度为 0.0,最大长度为 300mm,QA 阈值由扩散加权成像信号确定。使用修改后的 FACT 算法进行确定性纤维追踪,直到为每个个体重建 10,000,000 条流线。我们使用 MNI 空间中的 Shen 图谱(78个节点)构建个体结构连接组:成对连接强度计算为连接两个末端区域的每条纤维的平均 QA 值,并在 0.001 处进行阈值处理,这为每个参与者生成一个 268×268 的邻接矩阵。

对于发育数据中的结构连接模型,我们预测年龄、工作记忆和焦虑 / 抑郁症状。对于 HBN 和HCPD,测量方法前面已经详细说明。对于 QTAB,我们对年龄(以月为单位)和工作记忆(NIH Toolbox List Sorting Working Memory Test)使用相同的测量方法,但对焦虑 / 抑郁症状使用斯宾塞儿童焦虑量表(Spence Children’s Anxiety Scale)分数。

对于成人数据中的结构连接模型,我们预测关系处理任务中关系和匹配条件下的年龄和准确性。我们在 CHCP 和 HCP 中预测任务表现,因为 CHCP 中尚未获得额外的行为数据。

4.11 成体功能连接数据集

对于 CHCP 和 HCP 的功能数据,从HCP 最小预处理管道(v.3.4.0)下载数据。以最小预处理数据为起点,应用 “预处理” 部分中描述的相同步骤。我们预测关系处理任务中年龄以及关系和形状条件下的准确性。

4.12 扫描时长的影响

在 ABCD 数据集中,首先将参与者限制为具有四次符合我们纳入标准的静息态 fMRI 扫描的个体,最终样本量为 N = 3,946。在这些参与者中,分别使用一次(5 分钟)、两次(10 分钟)、三次(15 分钟)或四次(20分钟)扫描数据。连接组通过对每次扫描的连接组进行平均来形成。

参考文献:Power and reproducibility in the external validation of brain-phenotype predictions.

与本文相关的文章

发布评论

评论列表(0)

  1. 暂无评论