Science Advances:跨精神疾病的脑认知功能预测
摘要:计算精神病学的主要目标之一是构建预测模型,将大脑功能的个体差异与症状联系起来。认知障碍具有跨诊断性、治疗抵抗性,并与不良预后相关。近期研究表明,准确可靠地预测认知功能可能需要数千名参与者,这使大多数患者数据收集工作的有效性受到质疑。在本研究中,我们运用迁移学习框架,基于英国生物银行的功能性神经影像数据训练了一个模型,用于预测三个跨诊断样本的认知功能。结果显示,该模型在所有三个样本中的预测性能与更大规模预测研究中报告的结果相当,且相较于直接在小样本中训练的传统模型,预测性能提升高达 116%。关键是,该模型具有跨数据集的泛化能力,在不同独立样本中进行训练和测试时仍能保持性能。本研究证实,从大规模人群数据集导出的预测模型,有助于提升临床研究中对认知功能的预测水平。
1. 引言
计算精神病学的一个关键目标是开发预测模型,从而为临床相关表型提供个性化且可靠的估计,这些估计可用于疾病预后判断和治疗决策。该领域发展的一个主要障碍是以往研究使用的样本量较小,这导致预测准确率被高估,且这些结果大多无法在不同样本、人群或数据收集地点之间进行推广 。在本研究中,我们展示了一种建模策略,通过测量大脑功能,在多个跨诊断样本中稳健地预测整体认知功能。即便样本量有限,该模型也能在独立队列之间实现泛化,并为常见精神疾病中整体认知功能的神经生物学机制提供可解释的见解。
整体认知功能受损是精神疾病的一个跨诊断特征。它难以治疗,会导致社会、职业和功能方面的障碍,并且患者普遍将其视为治疗的关键重点。整体认知功能反映了个体在多个认知领域的综合心理能力和表现,对日常功能和认知健康至关重要。所有精神疾病诊断中都存在整体认知功能受损的情况,有证据表明这是一种跨诊断现象,与精神病理学的存在相关,而非特定的某种疾病。认知功能表现不佳的效应量大小不一,在情绪和精神病谱系障碍中更为明显。大量认知任务的整体表现,一直与跨模态联合皮层区域的结构和功能完整性相关。这些区域负责整合多种内感受和外感受信息,被认为是 “高阶” 联想过程的基础,支持不依赖即时感觉输入的认知活动,包括适应性目标导向行为、复杂规则的应用,以及运动输出的动态控制。在各类患者群体中,越来越多的证据表明,构成联合皮层的大规模系统存在功能改变。
特别是,在不同诊断类别中都观察到默认网络内的连接受损,该网络包括内侧前额叶、后 /retrosplenial 和下顶叶皮层等区域;而额顶叶网络(包括背外侧前额叶、背内侧前额叶、外侧顶叶和后颞叶皮层等区域)的连接异常程度,通常与疾病诊断的严重程度和观察到的认知缺陷相关。然而,尽管确定症状严重程度的网络水平预测指标很重要,但大脑功能的个体特异性特征与临床相关认知障碍之间的关联程度仍有待明确。
利用功能磁共振成像(fMRI)测量的血液动力学信号的区域间功能耦合,即功能连接,最近已成为预测健康人群整体认知功能的有力指标。然而,群体神经科学研究表明,开发准确稳定的基于大脑的行为预测模型,可能需要数千名参与者的样本量。这一要求远远超出了精神病学研究小组通常能够获取的样本规模,这让人们对开发以临床为重点的预测模型的实用性和可行性产生了质疑。此外,即使是基于联盟级样本得出的脑 - 认知预测模型,在应用于不同数据集时,也可能无法泛化,或表现出显著的性能下降,极大地限制了其潜在应用范围。这凸显了对基于大脑的模型的需求,这些模型应能够使用精神病学研究小组可收集的样本量可靠地预测认知功能,并且能够在不同的独立数据集之间进行泛化。
在大规模人群队列研究中,特定大脑系统的功能可用于预测多种表型,从人口统计学因素到身体健康和心理健康相关变量。这些基于大脑的模型是从数万名健康个体的数据中推导出来的,其中可能包含可应用于较小临床队列的信息,从而实现对疾病相关和治疗相关表型的预测。在这方面,一种名为 “元匹配” 的框架,利用了有限数量的重叠功能回路与多种表型相关联这一事实,并通过高通量人群数据收集工作,来提升在较小队列中对表型的预测能力。此前,我们利用该框架在基于人群的健康样本中,显著提高了对多种变量的预测准确率。然而,元匹配方法在多大程度上能够改善对小型独立患者样本中临床相关行为的预测、实现跨数据集的泛化预测,以及提供神经生物学见解,仍有待进一步研究。
在本研究中,我们使用元匹配框架,开发了一个准确、可泛化且可解释的跨诊断模型,用于预测不同数据集和精神疾病中的整体认知功能。我们发现,在多个不同且规模合理的数据集上,元匹配模型的预测准确率具有统计学意义,优于传统模型,并且与在更大规模人群研究中通常观察到的结果相当。此外,所推导的模型具有泛化性,这意味着在具有不同诊断、成像和表型特征的独立数据集中进行训练和测试时,模型仍能保持性能,这表明不同患者群体的认知障碍可能存在共同的基于大脑的特征。跨数据集驱动预测的大脑特征在较粗的空间尺度上更为相似,跨模态联合网络内连接性增强,以及跨模态和单模态皮层之间连接性减弱,是预测整体认知功能更好的最常见跨诊断指标。
2. 结果
2.1 跨精神疾病群体对整体认知功能的准确且可泛化的预测
我们的总体目标是开发一个可靠且可泛化的基于大脑的模型,能够在多个精神疾病患者样本中预测整体认知功能。为此,我们应用了最近开发的元匹配框架,该框架利用了有限数量的重叠功能回路与多种健康、认知和行为表型相关联这一事实。首先,我们使用英国生物银行中 36,848 名参与者的静息态 fMRI(rs-fMRI)数据,来估计 419 个脑区之间的功能连接。接下来,我们利用这些连接值训练了一个全连接前馈深度神经网络(DNN),以预测英国生物银行中 67 种观察到的健康、认知和行为表型。
然后,我们使用元匹配方法,调整这个在英国生物银行数据上训练好的 DNN,以预测三个独立的跨诊断临床数据集中的整体认知功能得分:(i)早期精神病人类连接组计划(HCP-EP;n = 145),该数据集包括被诊断患有情感性和非情感性精神病的个体;(ii)跨诊断连接组计划(TCP;n = 101),主要包括被诊断患有情绪和焦虑障碍的个体;(iii)神经精神表型组学联盟(CNP;n = 224),由被诊断患有精神分裂症、双相情感障碍或注意缺陷多动障碍的个体组成。值得注意的是,不同数据集使用的测试组合有所不同,这有助于评估模型对研究设计和相关表型选择的稳健性。
我们的首要目标是确定元匹配方法是否能够在临床样本中进行准确且具有统计学意义的预测。对于每个数据集,我们使用嵌套交叉验证程序训练元匹配模型,将每个临床样本分为 100 个独特的训练集(70%)和测试集(30%),并对每个训练 / 测试分割实施完整的元匹配模型。模型性能通过 100 个测试集中观察到的和预测的整体认知得分之间的平均皮尔逊相关性来评估,统计显著性通过排列检验程序进行评估(详细信息请参见材料与方法)。如图 1B 所示,元匹配方法在所有三个数据集中都产生了具有统计学意义的预测(所有 p < 0.05),平均预测准确率与使用更大规模健康样本得到的结果相当。当使用决定系数评估模型性能时,我们也发现了相同的结果模式(图 S1)。此外,我们证实元匹配模型的系统性能优于标准预测方法,在标准预测方法中,基线比较模型直接从临床样本的功能连接值训练来预测认知功能,比较模型和元匹配模型之间的差异具有统计学意义(所有 p < 0.05)。
图 1 跨患者样本对整体认知功能的准确且可泛化的预测
图 2 跨尺度的独立跨诊断数据集之间的预测特征存在相关性
我们的第二个目标是确定元匹配模型是否能够在独立的临床数据收集工作中进行泛化。泛化性通过在一个数据集中训练模型,在另一个数据集中测试时,观察到的和预测的整体认知得分之间的皮尔逊相关性来评估。在这里,我们在一个数据集的完整样本上训练元匹配模型,并在另一个数据集上评估预测性能,在三个临床数据集之间产生了六组训练 - 测试预测对。反映出多个独立临床队列中存在可泛化的脑 - 行为关系,我们观察到元匹配模型在不同数据集之间具有泛化性(图 1C),其预测准确率与图 1B 中所示的平均样本内准确率相当,并且与其他使用样本内验证的研究报告的结果相当,除了一组训练 / 测试对(训练 / 测试:HCP-EP/TCP)之外,所有训练 / 测试对的预测准确率都具有统计学意义。除了这组相同的训练 / 测试对之外,与标准预测模型相比,使用元匹配模型时发现了更高的泛化性(图 S2)。观察值和预测值的散点图见图 S3。我们注意到,尽管不同训练 - 测试对在诊断构成、MRI 扫描仪、采集参数方面存在差异,并且每个训练 - 测试对之间的整体认知功能是通过不同的神经认知评估得出的(从在家进行的在线测试到金标准的临床医生评估),元匹配模型仍能在不同数据集之间进行泛化。
2.2 跨独立跨诊断数据集的稳定预测网络特征
接下来,我们确定了驱动预测的神经生物学特征在不同数据集之间的共享程度,以及在更粗的空间尺度上这种共性是否会增加。我们使用 Haufe 变换推导预测特征权重。这种变换考虑了功能连接和整体认知得分之间的协方差,与回归系数不同,它确保了特征权重在统计上与整体认知相关。它还提高了预测特征的可解释性和可靠性。对于三个数据集中的每一个,我们在边、区域和网络这三个空间尺度上,检查了 100 个交叉验证折叠中的平均权重之间的关联。边水平的空间尺度指的是输入到预测模型中的原始 87,571 个区域间成对连接。通过对连接到 419 个脑区中每个区域的所有边取平均,边水平的连接可以聚合为区域水平的预测特征。通过对包括皮层下区域在内的 18 个典型功能网络内和网络间的所有边取平均(图 1A),边水平的连接也可以聚合为 171 个网络水平的预测特征。对于这两个聚合尺度(区域水平和网络水平),我们分别通过在平均之前将负值或正值归零,来单独考虑正特征权重和负特征权重。
在评估脑图谱之间的关联时,必须考虑空间自相关,以确保观察到的任何关联不是由大脑的低级空间属性驱动的。同样的考虑也适用于边水平网络图谱之间的关联,因为空间相邻区域的连接模式表现出自相关。为了在数据中考虑这一属性,我们实施了旋转测试,这是一种标准化程序,在膨胀球面上旋转图谱的皮层区域,以生成保留皮层空间自相关模式的配置。我们使用这些零假设图谱配置来打乱特征权重矩阵的行和列,以评估不同数据集之间特征权重相关性的统计显著性。
我们发现在所有三个空间尺度上都存在显著相关性(图 2A - C)。在边水平(图 2A),我们发现数据集之间的一致性为低到中等,TCP 和 HCP-EP 数据集之间的相关性最强(r = 0.31,P_spin < 0.001),TCP 和 CNP 数据集之间的相关性次之(r = 0.29,P_spin < 0.001),CNP 和 HCP-EP 数据集之间的相关性最弱(r = 0.14,P_spin < 0.001)。在区域水平(图 2B),我们再次发现数据集之间的一致性为低到中等,在检查负特征权重时,数据集之间的关联最强,这表明在不同数据集之间,功能连接较低与认知功能较好相关的区域,比功能连接较高与认知功能较好相关的区域,关联性更强(。对所有三对数据集进行的负向区域预测特征比正向特征在数据集之间显示出更高一致性的比较,在统计上都是显著的。在网络水平(图 2C),我们发现数据集之间的总体一致性最强,在检查正特征权重时观察到中等至较大的效应量(r = 0.54 至 0.70;ps_spin < 0.001),这表明在不同数据集之间,功能连接较低与认知功能较好相关的网络水平连接,比功能连接较高与认知功能较好相关的网络水平连接,关联性更强(r = 0.19 至 0.58;ps_spin < 0.001 至 0.250)。对所有三对数据集进行的负向区域预测特征比正向特征在数据集之间显示出更高一致性的比较,在统计上都是显著的(Zs = 2.88 至 5.75,ps < 0.004)。在典型网络水平聚合功能连接值,利用了大脑的内在功能架构,与边水平和区域水平的测量相比,网络水平的大脑功能一直被证明具有更高的可靠性。因此,在网络水平聚合特征,可能比单个边水平特征提供更一致的信号,单个边水平特征可能会掩盖个体之间和数据集之间的关联。
图 3 跨模态内耦合增加和网络间耦合减少预示着更好的认知功能
2.3 预测认知功能更好的网络水平指标
鉴于预测特征在网络水平上,在不同数据集之间最为稳定,我们研究了驱动预测性能的网络内 / 网络间连接的功能架构(图 3A-C)。在所有三个数据集中,我们观察到了一致、广泛且复杂的网络水平特征权重模式(图 3B)。与先前将跨模态联合网络中的功能耦合与认知可靠联系起来的研究一致,我们发现大脑 - 认知关系集中在这样的连接上:跨模态(默认、额顶叶和腹侧注意)网络内较高的功能连接,以及跨模态和单模态(视觉和躯体运动)网络之间较低的功能连接,预示着更好的认知功能(图 3C)。我们还发现,额顶叶子网 A 内的连接性,该子网包括背外侧前额叶、外侧顶叶、内侧扣带回和后颞叶皮层等区域,是跨数据集认知表现的最强预测指标。更广泛地说,我们发现在三个数据集中,单模态、跨模态以及所有聚合皮层网络内的连接性增加,都预示着更好的认知功能(图 4)。
图 4 系统内耦合增加和系统间耦合减少预示着跨数据集的更好认知
为了更细致地探究,我们还研究了区域预测特征的网络水平架构(图 5A)。对于 HCP-EP 数据集,最强的正向预测区域是左小脑、右背侧前额叶和颞顶叶皮层,负向预测区域是右中央后回和视觉外纹状皮层。对于 TCP 数据集,最强的正向预测区域包括右海马旁回和左顶内沟皮层,负向预测区域包括右顶内沟、前颞叶和楔前叶区域。对于 CNP 数据集,正向预测区域包括双侧海马、右颞顶叶和背外侧前额叶皮层,负向预测区域是右中央后回、躯体运动区和左视觉外纹状皮层。虽然区域水平的预测特征存在一定的异质性,但当这些特征聚合到典型网络中时(图 5B),在所有数据集中,预测性能的最强正向驱动因素是跨模态颞顶叶、默认和额顶叶网络中的区域。最强的负向驱动因素还包括额顶叶、背侧注意、边缘和初级感觉区域,其中额顶叶网络的突出特点是与感觉网络的连接性较低(图 3C)。
图 5 区域水平的预测特征
3. 讨论
此前,构建能够从大脑标记物可靠预测临床症状的稳健且可泛化模型,通常需要的样本量超出了目前大多数数据收集工作的能力范围。在本研究中,我们提供了一个概念验证,并为临床人群中基于大脑的预测模型构建制定了相关路线图。至关重要的是,本研究报告的模型在独立数据集之间具有泛化性,在一个数据集上训练并在另一个数据集上测试时,仍能保持预测性能,即便这些数据集相互独立,且在收集地点、人口统计学和诊断构成、整体认知测量方法、成像采集序列以及数据处理方法等方面存在差异。驱动预测性能的神经生物学特征在典型功能网络尺度上,在不同数据集之间最为一致,而非单个脑区或边的尺度。与先前关于认知神经生物学基础的假设一致,我们的研究结果聚焦于一个整体认知预测网络,在跨诊断样本中,跨模态网络内耦合增加以及跨模态与单模态网络间耦合减少,与更好的认知功能相关。
广泛的认知障碍是常见精神疾病的核心特征,常常在疾病发作前就已出现,并导致社会和职业功能受损。在本研究中,我们使用主成分分析来提取多个不同认知子测量(如处理速度、工作记忆和执行功能)之间的共享方差,以此捕捉整体认知障碍,这些认知子测量在我们使用的三个队列中有所不同。利用元匹配框架,我们证明了使用比近期推荐的用于推导稳定且可泛化的基于大脑预测模型所需样本量小得多的样本,也有可能实现与该领域当前最先进水平相当的整体认知功能预测。我们方法的一个特别优势在于,其研究结果在健康对照和常见精神障碍中均具有普适性。通过将多元预测模型与元匹配等迁移学习方法相结合,我们提供了一个框架,能够利用高通量人群队列数据来提升较小数据集中的预测能力。
在本研究中,我们证明了元匹配模型不仅可以跨诊断类别进行泛化,还能在依赖不同认知测量方法、神经影像协议和数据处理策略的独立数据集之间进行泛化。通常情况下,在一个数据集上训练的模型应用于独立数据集时,会大幅丧失预测能力,即便两个数据集在诊断或人口统计学特征上相似。元匹配方法之所以能实现如此高的泛化水平,可能是因为它利用了表型之间的相关性,依赖一组共同的神经生物学特征来预测广泛的行为,这些特征是个体整体认知表现的基础,且与诊断或测量方法无关。
我们之前的研究表明,较大的测试样本(即 n>100)有助于提升模型性能,但即使在样本量小至 n=10 的情况下,元匹配模型的表现仍优于基线模型。影响模型性能的一个关键因素,是测试表型与用于初始模型训练的更大数据集中可用表型之间的相关性。我们之前的研究显示,与至少一个训练表型相关性更强的测试表型,在使用元匹配方法时,能带来更大的预测性能提升。
虽然我们发现不同独立数据集之间,驱动预测性能的神经生物学特征存在差异,但在所有空间尺度上都观察到了一致性,其中在网络水平检测到的最强且始终显著的对应关系。鉴于不同数据集在方法学和表型上存在重要差异,不同模型的特征权重预计会有所不同。类似于遗传学中,从单核苷酸多态性扩展到基因通路的空间尺度,会导致与复杂行为的关联更加一致,我们发现从区域间边水平连接扩展到典型网络的空间尺度,会使关联更加稳定。网络水平神经生物学特征的相似性,与大量解释性研究的结果一致,这些研究将宏观尺度网络视为复杂行为特征分析的主要单位,而非孤立的区域或单个回路。这也证明了,在功能回路和网络层面而非脑区层面汇总结果时,被诊断为相同疾病的患者之间的个体异质性会大大减弱。此外,我们在不同数据集之间观察到的一致性表明,元匹配模型可能通过索引与认知功能密切相关的共同神经生物学机制来进行预测。与此假设相符的是,我们发现跨模态联合网络(包括默认和额顶叶网络)的连接性,是预测性能的最主要驱动因素。具体而言,联合网络内连接性增加,以及这些网络与视觉和躯体运动感觉网络之间连接性降低,始终与更好的认知功能相关。这一发现与数十年来的实证研究结果一致,这些研究表明联合网络的激活和完整性是复杂认知的关键驱动因素,也表明预测模型并非依赖神经影像数据中高度特异的特征或过拟合噪声来进行预测。观察到的这组脑 - 行为关系在广泛的患者群体中可靠且可泛化,表明在广泛的诊断类别中,认知障碍存在共同的神经生物学关联因素。
虽然这种连接模式代表了最一致且具有统计学意义的网络水平特征,但很可能一系列分布广泛的共享和独特连接,也有助于每个数据集中对认知功能的预测。此外,与年龄相关的功能改变包括大规模网络的解聚,这通常与较差的认知表现相关。因此,我们发现联合网络与感觉网络之间的分离增加,与更好的认知表现相关。值得注意的是,我们关于联合网络内连接性增加预示更好认知功能的发现,与其他大规模研究结果一致,这些研究报告了类似的与一般积极行为领域的关联,但由于这些特征在多个样本中是重叠而非截然不同的,所以我们的发现可能更具体地反映了认知功能。目前的分析证实了患者队列之间存在基于大脑的认知功能共享预测特征。未来的研究应进一步探究在更广泛的症状谱中,疾病相关认知变化的独特神经生物学贡献,包括在诊断组内和跨诊断组的情况。
当前研究存在一些局限性。虽然能够对认知等观察表型进行准确且可泛化的预测,显示了其在临床应用中的潜力,但未来的工作应致力于开发能够对纵向结果提供指导的模型。这些结果将包括认知随时间的变化,如与疾病相关的认知下降、对药物治疗的反应以及疾病严重程度的转变。随着大规模基于人群的纵向数据的可用性增加,元匹配框架可用于预测症状变化和疾病进程。此外,在我们的分析中,重点关注了整体认知功能,这一指标能够可靠测量,在常见精神疾病诊断中始终受到影响,并且被患者视为评估和治疗的关键目标。不同人群中特定认知子领域的受损程度可能有所不同,未来的研究应尝试预测针对工作记忆、执行功能、处理速度或注意力等特定神经认知评估的结果。这可能需要在独立的数据收集工作中对神经认知评估进行标准化。虽然当前和之前的研究结果表明,即使英国生物银行和临床数据集在年龄和成像采集参数方面存在差异,元匹配模型的预测性能和泛化性仍有所提升,但未来的研究可能会发现,在年龄匹配和采集参数匹配的数据集上训练和测试预测模型,会进一步提高模型性能。
4. 研究概述
元匹配框架利用了大规模人群数据集和较小临床数据集之间,大脑与行为表型相关性结构的重叠部分。该框架的一个显著优势是,它能够预测与大规模人群数据集中不同的行为表型,但目标表型与训练表型之间更紧密的匹配,可能会进一步提升模型性能。我们在英国生物银行的 67 个变量(包括各种认知测量指标)上训练了元匹配模型。这些认知测量指标对观察到的预测性能和泛化性提升有很大贡献(见控制分析)。虽然先前的研究表明,元匹配在多个广泛的行为类别中,总体上提高了预测性能,但与用于训练元匹配模型的表型差异显著的预测目标,可能无法从该框架中在预测性能或泛化性方面受益。因此,元匹配方法的有效性可能取决于预测目标与训练模型所用表型之间的相似性。
我们最初在大规模的英国生物银行样本(n = 36,848)上训练了元匹配模型。未来的研究应探究使用较小样本是否也能实现类似的性能提升。未来的研究还应考察更长的扫描时间(这可以提高可靠性和预测性能),是否能进一步增强元匹配和其他迁移学习模型的性能。最后,在确定对预测认知功能最相关的特征时,我们采用了 Haufe 变换,该变换提高了特征权重的可靠性和可解释性。Haufe 变换仍然是非线性模型特征权重的最佳线性近似,我们之前的研究表明,在预测过程中使用深度学习模型时,该变换的结果与仅使用线性模型的结果高度可比。然而,随着新的方法出现,未来的研究应将该变换与其他经过验证的解释非线性模型特征权重的方法进行比较。
通过转化从大规模社区数据集得出的预测模型,我们能够对跨诊断患者群体的整体认知功能进行准确且可泛化的预测。这些模型的性能,由跨模态网络内耦合增加和跨模态与感觉网络间耦合减少所驱动。
5. 材料与方法
我们的总体分析策略旨在开发一个稳健且可泛化的模型,能够准确预测跨诊断患者样本中的整体认知功能。简要来说,我们首先使用元匹配方法。该方法利用了临床感兴趣的表型,与大规模人群数据集中可用表型之间的相关结构,具体步骤如下:(1)使用英国生物银行数据集中的大脑功能活体估计值,训练一个通用的全连接前馈深度神经网络(DNN),以预测一组 67 个健康、行为和认知表型;(2)使用这个训练好的模型,在较小的独立患者数据集中生成这些表型的预测值;(3)最后一步,训练并验证一个核岭回归(KRR)模型,使用步骤 2 中 DNN 模型生成的预测表型,来预测整体认知功能。整体认知功能通过对一系列神经心理学测试进行主成分分析得出,这些测试在不同患者数据集之间有所不同。我们使用排列检验评估预测性能的显著性和模型的泛化性,并在不同空间尺度(边、区域和网络)上,对每个模型的特征权重进行相关性分析和映射,以检查神经生物学相关性的一致性。有关建模过程的详细概述,请参见基于大脑的预测建模部分。
5.1 数据集
本研究使用了来自四个数据集的数据:英国生物银行、早期精神病人类连接组计划(HCP-EP)、跨诊断连接组计划(TCP)和神经精神表型组学联盟(CNP)。我们的分析得到了耶鲁大学机构审查委员会的批准,英国生物银行数据是在资源申请25163 下获取的。以下描述了纳入的参与者的最终数量、人口统计学和诊断特征,更多详细信息见表 S1。
5.1.1 英国生物银行
英国生物银行是一项针对 50 万名 40 至 69 岁成年人的人群流行病学研究,于 2006 年至 2010 年间招募参与者。其中 10 万名参与者被招募进行多模态成像,包括脑结构 MRI 和 rs-fMRI。为每位参与者收集了广泛的健康、行为和认知表型数据。在这里,我们使用了2020 年 1 月发布的 37,848 名参与者的数据,这些参与者具有完整且可用的结构 MRI 和 rs-fMRI 数据。
5.1.2 早期精神病人类连接组计划
HCP-EP 研究旨在对 16 至 35 岁的人群进行高质量的脑 MRI 以及行为和认知测量,这些人群在精神病症状发作的前 5 年内,患有情感性或非情感性早期精神病。该数据集还包括健康对照参与者,我们使用的数据版本(版本 1.1)包含 140 名患者和 63 名对照。纳入和排除标准在其他地方有描述。在本研究中,我们使用了 145 名通过质量控制且具有完整可用的认知和 rs-fMRI 数据的参与者子集。纳入样本的平均年龄为 23.41 岁(标准差 ±3.68),女性占 38%,平均帧间位移(rs-fMRI 采集期间的头部运动)为 0.06mm(标准差 ±0.04)。
5.1.3 跨诊断连接组计划
TCP 是美国耶鲁大学和麦克莱恩医院之间的一项公开数据收集项目,旨在获取跨诊断队列的脑 MRI 以及行为和认知测量数据,该队列包括健康对照和符合情感性或精神性疾病诊断标准的患者。招募细节以及纳入和排除标准可在补充材料和其他地方找到。本研究纳入的数据来自 101 名参与者的子样本,这些参与者在研究时通过了质量控制,且具有完整可用的认知和rs-fMRI 数据,其中包括 60 名患者和 41 名健康对照。纳入样本的平均年龄为 32.21 岁(标准差 ±12.54),女性占 57%,平均帧间位移为 0.09mm(标准差 ±0.05)。
5.1.4 神经精神表型组学联盟
CNP 数据集是公开可用的,包含 272 名参与者的脑 MRI 以及行为和认知测量数据,其中包括 130 名健康个体和 142 名被诊断患有情感性、神经发育性或精神性疾病的患者。参与者招募的详细信息可在其他地方找到。在本研究中,我们使用了 224 名通过质量控制且具有完整可用的认知和 rs-fMRI 数据的参与者子集。纳入样本的平均年龄为 32.59 岁(标准差 ±9.21),女性占 42%,平均帧间位移为 0.08mm(标准差 ±0.03)。
5.2 量化大脑功能
5.2.1 MRI 采集参数
英国生物银行在四个成像站点,使用统一的西门子 3T Skyra MRI 扫描仪,在 6 分钟内共采集 490 个功能容积,参数如下:重复时间 = 735 毫秒,回波时间 = 42 毫秒,翻转角 = 51°,分辨率为 2.4 毫米 ³,多频带加速因子为 8。对于 T1 加权图像,使用 MPRAGE 序列采集,共 256 层,参数如下:重复时间(TR)=2000毫秒,反转时间(TI)=880 毫秒,分辨率为 1 毫米 ³,并行成像加速因子为 2。
HCP-EP 在三个成像站点,使用统一的西门子 3T Prisma MRI 扫描仪,在 5.6 分钟内共采集 4 次,每次 420 个功能容积,参数如下:重复时间 = 800 毫秒,回波时间 = 37 毫秒,翻转角 = 52°,分辨率为 2 毫米 ³,多频带加速因子为 8。同时采集相反采集方向的自旋回波场图,以校正磁化率失真。对于 T1 加权图像,使用 MPRAGE 序列采集,共 208 层,参数如下:TR=2400 毫秒,TI=1000 毫秒,分辨率为 0.8 毫米 ³。
TCP 数据在两个成像站点,使用统一的西门子 Magnetom 3T Prisma MRI 扫描仪,在 5 分钟内共采集 4 次,每次 488 个功能容积,参数如下:重复时间 = 800 毫秒,回波时间 = 37 毫秒,翻转角 = 52°,分辨率为 2 毫米 ³,多频带加速因子为 8。采集相反采集方向的自旋回波场图,以校正磁化率失真。对于 T1 加权图像,使用 MPRAGE 序列采集,共 208 层,参数为 TR = 2400 毫秒,分辨率为 0.8 毫米 ³。
CNP 数据在 2 个成像站点,使用统一的西门子 Trio 3T MRI 扫描仪,在 5 分钟内共采集 152 个功能容积,参数如下:重复时间 = 2000 毫秒,回波时间 = 30 毫秒,翻转角 = 90°,分辨率为 4 毫米 ³。对于 T1 加权图像,使用MPRAGE 序列采集,共 176 层,参数为 TR=1900毫秒,分辨率为 1 毫米 ³。
5.2.2 MRI 质量控制
对于所有临床数据集,都实施了广泛的质量控制程序,详细信息可在补充材料中找到。简而言之,所有原始图像首先经过自动质量控制程序(MRIQC)处理,这会排除有大伪影的扫描。最近的研究表明,具有高时间分辨率的多频带数据集(即 HCP-EP 和 TCP)包含额外的呼吸伪影,这些伪影会在通常用于计算头部运动汇总统计的六个重定位参数中体现出来。为了减轻这种影响,对帧间位移轨迹进行下采样,并对重定位参数在 0.2 至 0.5Hz 之间进行带通滤波。
在此步骤之后,对所有临床数据集应用统一的运动排除标准,排除平均帧间位移大于 0.55mm 的扫描,先前研究表明该阈值能有效控制运动伪影。最后,对于所有参与者,可视化并检查功能连接矩阵、地毯图和质量控制 - 功能连接指标,以确保处理和去噪步骤达到了降低噪声以及减少头部运动与功能连接之间关联的预期效果。
5.2.3 MRI 处理
补充材料中提供了每个数据集处理和去噪步骤的详细概述。简而言之,对于每个数据集,我们使用了不同但被广泛接受的处理策略,这些策略都包括非线性空间归一化到蒙特利尔神经学研究所空间、脑组织分割以及基于独立成分分析(ICA)的去噪。这些策略是为了解决 fMRI 采集参数的差异(即单频带与多频带)而定制的,以确保我们的模型对预处理和去噪程序的差异具有稳健性。
我们还对所有扫描应用了全局信号回归,因为我们之前使用多个独立数据集证明了它可以提高行为预测性能和数据去噪效果。用于预测的最终衍生数据是每个受试者的 419×419 矩阵,通过对每个脑区的时间序列进行平均,并计算区域间的皮尔逊相关性得到,这些脑区包括 400 个皮层区域和 19 个非皮层区域(为简单起见,非皮层区域表示为 “皮层下区域”;图 1A)。对于每个受试者,对相关值进行 z 评分,并将该矩阵的上三角部分(包含 87,571 个独特的功能连接估计值)输入到预测模型中。
5.3 量化整体认知功能
对于三个临床数据集中的每一个,我们对所有可用的认知和神经心理学测量指标进行主成分分析(PCA),以得出整体认知的稳健测量值。每个数据集使用了不同的神经心理学测试集来量化认知功能。每个数据集的完整测量列表见表 S2。简而言之,对于 HCP-EP,测量指标包括美国国立卫生研究院工具包和韦氏简版智力量表。对于 TCP,测量是通过 TestMyBrain 平台在线进行的,包括矩阵推理、持续注意力、基本心理运动速度和处理速度的评估,以及在 MRI 采集期间获得的斯特鲁普(Stroop)和哈默(Hammer)反应时测量。对于 CNP,测量指标包括加利福尼亚言语学习测验、韦氏记忆量表和韦氏成人智力量表的子测验。为了降低预测模型的复杂性,每个数据集的 PCA 是在整个样本上计算的,而不是在 100 次分割的每个训练样本上计算。为确保训练集和测试集之间的数据泄露不会影响结果,我们测试了预测模型在不同且完全独立的数据集之间的泛化能力,在这些数据集中,PCA 是在完全独立的完整样本上分别计算的(见评估模型泛化性)。对于每个数据集,保留第一个主成分(PC)。对于 HCP-EP 数据集,第一个 PC 解释了 57.2% 的方差,第二个和第三个 PC 分别解释了 13.6% 和 6%的方差。
对于 TCP 数据集,第一个 PC 解释了25.9% 的方差,第二个和第三个 PC 分别解释了16.2% 和 13.8% 的方差。对于 CNP 数据集,第一个 PC 解释了 32.5% 的方差,第二个和第三个 PC 分别解释了 9.4% 和 7% 的方差。对于每个数据集,较高的 PC 分数表示更好的整体认知功能。
5.4 基于大脑的预测建模
与之前研究中概述的方法一致,我们使用英国生物银行数据集训练了一个全连接前馈深度神经网络(DNN),以从静息态功能连接矩阵预测 67 种不同的认知、健康和行为表型。这种类型的 DNN 具有通用架构,其中连接值通过输入层进入模型,每个输出层都与前一层完全连接,这意味着每个节点的值是前一层节点值的加权和。在训练过程中,这些权重被优化,以使输出层的预测结果接近观察到的表型。实际上,任何多元预测方法都可以替代 DNN,但全连接前馈 DNN 提供了一种有效且简洁的方法,可使用单个模型预测 67 种表型。这 67 个认知、健康和行为变量是通过系统程序从最初的 3937 个表型列表中选择的,该程序排除了大脑变量、分类变量(性别除外)、重复测量以及使用 1000 名参与者的留出集无法预测的表型。
在训练 DNN 之后,我们使用嵌套交叉验证和堆叠过程将其应用于临床数据集。以下过程分别在每个临床数据集上独立实施。首先,将 DNN 应用于数据集,以静息态功能连接矩阵作为输入,生成 67 个认知、健康和行为变量作为输出。这些输出和相应的整体认知得分被无放回地分为 100 个不同的训练集(70%)和测试集(30%)。然后,我们实施堆叠过程,使用带有 L2 正则化的线性核的核岭回归(KRR)模型,以生成的 67 个认知、健康和行为变量作为输入,训练预测整体认知功能得分。KRR 是一种经典的机器学习技术,它将个体的给定表型预测为相似个体的加权版本。相似性定义为预测表型的个体间相关性。KRR 有一个自由参数控制正则化强度,通过在训练集内进行五折交叉验证来选择。优化后,在留出的测试集上评估模型。对 100 个不同的训练 - 测试分割重复此过程,以获得性能指标的分布。我们之前已经证明,这种堆叠过程可以提高元匹配框架在预测行为表型方面的性能。实际上,任何多变量模型都可以替代 KRR。然而,KRR 是一种强大且灵活的多变量模型,用于预测行为表型。
作为与上述元匹配模型的比较,我们还实施了一个标准机器学习模型作为基线。在这里,我们使用 KRR 的标准实现,该模型以静息态功能连接矩阵作为输入,训练预测整体认知功能得分。这与元匹配堆叠过程中使用的 KRR 模型形成对比,后者是以 DNN 生成的认知、健康和行为变量作为输入进行训练的。KRR 被用作基线模型,因为它被广泛使用,并且已多次证明在基于功能连接的行为和人口统计学预测中表现良好。在最近的一项工作中,我们进一步证明了带有堆叠的元匹配优于经典的迁移学习方法。用于基线比较模型的嵌套交叉验证过程与元匹配模型相同,即每个数据集被无放回地分为 100 个不同的训练集(70%)和测试集(30%),然后在训练集内进行五折交叉验证以调整模型超参数,最后在留出的测试集上评估模型性能。
5.5 评估模型性能
每个模型的性能定义为每个分割中测试样本的真实和预测行为得分之间的皮尔逊相关性。平均性能通过对 100 个不同分割取平均值来计算。我们还使用决定系数评估绝对(而非相对)预测性能。所有模型都根据性能指标的零分布评估其是否表现优于随机水平。对于元匹配模型,在三个临床数据集中的每一个中,认知功能得分被随机置换 10,000 次。每次置换用于训练(样本的 70%)和测试(样本的 30%)一个零预测模型。模型显著性的 P 值定义为零预测准确率大于观察到的模型平均性能的比例。使用相同的过程评估基线比较模型的统计显著性。
5.6 评估模型泛化性
通过在一个数据集的所有个体上训练元匹配模型,并在另一个数据集的所有个体上进行测试,来评估模型的泛化性。这在三个临床数据集(即 HCP-EP、TCP 和 CNP)之间产生了六组训练 - 测试对。对于每组训练 - 测试对,性能再次通过测试数据集上预测和实际得分之间的皮尔逊相关性来衡量。我们还使用决定系数报告绝对性能。通过置换训练数据集的认知功能得分并计算 10,000 次零元匹配模型来评估统计显著性。对应于模型显著性的 P 值定义为零预测准确率大于观察到的模型性能的比例。为了比较标准基线比较模型和元匹配模型在数据集内的预测性能,我们对三个临床数据集中的每一个进行配对样本 t 检验。这使我们能够评估模型的交叉验证预测性能差异是否显著大于零。
5.7 比较数据集和空间尺度之间的神经生物学特征
为了提高预测模型特征权重的可解释性和可靠性,我们使用了 Haufe 变换。为了说明 Haufe 变换的必要性,考虑基于两条边的功能连接(FC)预测目标变量(如整体认知(v))的情况,这两条边表示为 FCA 和 FCB。在这个例子中,假设FCA = y - 噪声,FCB = 噪声。那么,检查具有100% 性能的预测模型的原始特征权重,会错误地显示这两条边都与预测整体认知密切相关且同等重要。为了解决这个问题,Haufe 变换计算预测目标变量与两条边的 FC 之间的协方差。在这个例子中,Haufe 变换将 FCB 的权重设为零,表明 FCB 与整体认知无关,尽管它对预测性能有贡献。虽然 Haufe 变换最初是为线性模型开发的,但它也可以恢复非线性模型(如DNN)的最佳线性解释。此外,使用 Haufe 变换计算的预测特征更可靠、更稳健,进一步强调了这种反演过程的重要性。
这个过程确保了特征权重索引与整体认知在统计上相关的量,并为功能连接矩阵的每条边生成正或负的预测特征值。正的预测特征值表示该边的功能连接越高,与预测的认知功能越好相关;负的预测特征值表示功能连接越低,与预测的认知功能越好相关。对于三个模型中的每一个,转换后的特征权重在 100 个分割上进行平均,以获得平均特征权重,从而为每个数据集生成一个单一的对称419×419 预测特征矩阵。
我们在边、区域和网络水平评估三个预测特征矩阵之间神经生物学预测特征的关联。在边水平(由 87,571 个特征权重组成),使用皮尔逊相关性评估三个样本之间的相似性。为了考虑每对特征权重矩阵之间的空间自相关,我们应用旋转测试,即在膨胀表面上旋转图谱的皮层区域,生成 10,000 个零假设图谱配置,这些配置保留了皮层的空间自相关模式。这些零假设图谱配置用于打乱特征权重矩阵的行和列,从而生成边、区域和网络水平的特征权重矩阵对之间的皮尔逊相关值的零分布。统计显著性通过零值大于观察值的比例(P_spin)来评估。由于旋转测试过程只能应用于皮层区域,在计算 P 值时排除了 19 个非皮层区域。通过对连接到 419 个脑区中每个区域的所有边取平均,边水平的连接可以聚合为区域水平的预测特征。通过对包括皮层下区域在内的 18 个典型功能网络内和网络间的所有边取平均(图 1A),边水平的连接也可以聚合为 171 个网络水平的预测特征。再次使用皮尔逊相关性评估三个样本在区域水平和网络水平特征权重之间的关联。对于这两个聚合尺度(区域水平和网络水平),分别通过在平均之前将负值或正值归零,来单独考虑正特征权重和负特征权重。这个过程允许检查权重极性的相对贡献,相当于对正或负特征权重进行求和。为了比较每个空间尺度内的负特征权重和正特征权重相关性,我们使用基于相关组的非重叠相关性修改的 Fisher's Z 统计量。
5.8 评估神经生物学特征
为了评估三个数据集中每个数据集特征权重的统计显著性,我们实施了排列检验程序。为了减少多重比较的负担,我们在网络水平评估每个模型的显著性,将每个模型的观察特征权重在 18 个网络块内和网络块之间进行平均,每个模型得到 171 个网络水平的特征。对 10,000 个零假设模型的特征权重重复这个网络平均过程,在这些零假设模型中,认知功能得分被随机置换。这为 171 个网络连接中的每一个生成了网络水平特征权重的零分布,P 值计算为零假设网络水平特征权重大于观察值的比例。然后对 P 值进行错误发现率(FDR)校正,并在 P < 0.05 的水平上进行评估。为了揭示驱动三个数据集性能的网络水平预测特征,我们实施了联合分析,在每个网络连接上,保留最小的 FDR 校正 P 值,并在 P < 0.016 的水平上评估其显著性,以考虑三个对比。
5.9 控制分析
年龄、性别等人口统计学特征以及神经成像过程中的头部运动,可能会使预测模型的性能产生偏差。为确保模型性能不受这些协变量的影响,我们在调整年龄、性别和平均帧间位移后,重复了主要模型的分析。对于 100 个训练 - 测试分割中的每一个,首先将这些变量从整体认知训练数据中回归出去,然后使用得到的回归系数对整体认知测试数据进行残差化处理,之后重复整个预测建模过程。报告的结果对协变量的纳入具有稳健性,所有三个元匹配模型在统计上仍然显著。此外,对于所有三个数据集,原始模型和协变量调整后模型的边水平特征权重高度相关,rs > 0.96。在 HCP-EP 样本中性能保持稳定(r = 0.51),在 TCP 数据集(r = 0.25)和 CNP 数据集(r = 0.28)中性能有所下降。在所有三个数据集中,元匹配模型优于传统 KRR 模型的结果模式保持不变。
元匹配利用了与不同人口统计学、健康和行为表型相关的神经生物学之间的相关性。我们使用两步堆叠方法实施元匹配框架(见基于大脑的预测建模),这使我们能够检查驱动与大脑 87,571 个功能连接中每个连接相关的认知预测的特征权重,以及与 67 个人口统计学、健康和行为表型中每个表型相关的特征权重。通过检查与 67 个 DNN 生成的人口统计学、健康和行为变量相关的特征权重,可以评估哪些表型驱动了认知结果的预测。在三个数据集中,驱动性能的生成变量高度一致(所有 rs > 0.95)。预测的主要驱动因素与认知直接相关(流体智力、矩阵模式完成和符号数字替换)。然而,在三个数据集中,年龄和第一个遗传主成分都是强预测因素,后者代表血统,也可能是社会和环境偏差的复杂形式的代理变量,进而影响认知表现。为了研究观察到的行为预测性能的提升是否超出了与特定社会人口因素相关的功能连接,我们在从元匹配模型中去除第一个遗传主成分、年龄和性别后,重复了主要分析的元匹配堆叠过程,发现结果与原始模型相似。这一分析表明,是英国生物银行中与认知相关变量的功能连接,推动了三个临床数据集中预测性能的提升。
为了评估元匹配预测性能是否依赖于年龄、性别和诊断等样本特征,我们进行了留一法交叉验证。对于每个样本,此过程为每个受试者生成一个预测分数。总体预测性能(预测分数与观察分数之间的相关性)与主要分析中使用的 K 折交叉验证过程相当。为了评估诊断和人口统计学亚组之间模型性能的差异,我们为每个亚组分别拟合一个一般线性模型,对观察分数和预测分数进行分析。年龄通过均值分割转换为二元变量,性别视为二元变量,诊断组视为包含健康对照组的分类变量。对于每个样本,我们使用非参数 Kruskal-Wallis 检验比较亚组之间的均方误差。通过这种方式,我们能够确定对于每个给定特征(例如性别),亚组之间的相对预测误差是否存在显著差异。我们仅在 CNP 数据集中发现诊断存在显著影响,事后检验表明,与健康对照组相比,被诊断为双相情感障碍的患者预测性能略差(P = 0.024)。这些发现表明,元匹配预测模型的性能在很大程度上不受样本特征和诊断的影响。
为确保被诊断为精神病的患者亚组不是跨数据集泛化模型性能的主要驱动因素,我们在从 CNP 数据集中删除所有精神病患者(N = 37)后重复了分析。我们发现,CNP 与 TCP 和 HCP-EP 之间的跨数据集预测性能在幅度上仍然相当且具有统计学意义。为确保在仅将模型应用于患者时性能和泛化性得以维持,我们在删除所有健康个体后重复了分析。我们发现,所有数据集中的性能和跨数据集泛化性在幅度上相当、具有统计学意义,并且优于基线模型。
参考文献:Generalizable and replicable brain-based predictions of cognitive functioning across common psychiatric illness.