什么叫异构数据融合张德禄多模态

1 引用

格罗夫斯AR,贝克曼CF,史密斯SM,伍尔利希MW。多模态数据融合的链接独立分量分析。神经影像。2011;543):2198-2217.doi :10 . 1016/j . neuro image . 2010 . 09 . 073。

2. 摘要

近年来,神经影像学研究逐渐使用各种形式的数据,并在每种形式中寻找与某些疾病相关的变化。该方法的一个主要难点在于如何找到一种系统化的方法,将这些不同的数据类型融合在一起,自动发现多模态中的相关变化模式。独立分量分析是一种流行的无监督学习方法,可以有效地挖掘一组受试者神经影像数据的变化模式。具体来说,在获取受试者的多模态数据时,通常对每个模态单独进行独立分量分析,以完成不同模态之间的不相容分解。利用模块化的真实鞋垫框架,我们开发了一种新的“链接独立分量分析”模型,该模型可以检测和建模多模态之间的共同特征,如区分单元、信噪比、体素数量、空间平滑度和强度分布等。最后,在模拟的多模态数据集和真实的阿尔茨海默病患者数据集上对该方法进行了评价。

3 引言

核磁共振最大的优势之一就是它的灵活性;通过在单次扫描过程中使用不同的脉冲序列,人们可以获得关于组织体积和形状使用高分辨率结构扫描)、功能活动使用BOLD功能磁共振成像)、白质完整性使用扩散加权成像)、灌注使用ASL)和其他不同采集类型的信息。因此,最近的大量研究工作已经获得了每个受试者的多模态磁共振数据集,并分别对它们进行分析,以找出大脑不同方面的变化。例如,最近的几项研究使用结构和扩散向量成像来寻找与精神分裂症相关的灰质密度和白质束的变化。

主要的挑战是找到一种系统的方法来融合多个磁共振成像模式的数据,以便找到相关变化的模式。我们实现了一个基于鞋垫真实独立成分分析的模型,从多模态数据中提取相关成分,并使用特定模态分析的对比图像作为输入。例如,这些输入可以是来自FMRI的GLM对比度,来自结构磁共振成像的皮质厚度或VBM图,以及来自扩散加权成像的骨架化向量。独立分量分析是一种在无监督环境中寻找有意义的空间独立分量的有效模型,因为它搜索数据中真实结构化特征的非高斯空间源。这是因为线性混合过程往往会将非高斯独立源转化为更多的高斯观测信号,因此寻找非高斯是一种无监督的分离原始独立源的方法。

标准ICA分解将输入数据视为二维矩阵,通常是体素时间点或体素对象。然而,这种方法不适用于多模态数据,因此在对多模态数据进行组合独立分量分析时,可以考虑许多不同的配置:1)对每个模态的独立独立分量分析可以揭示该模态的特征。因为一些特征是由分布式神经变异引起的,所以它们可以在类似受试者的所有模态中看到不同程度)。2)空间拼接还可以用于分析多模态数据,它可以将每个主体的所有数据组合成具有更多体素的单个数据集。3)矢量ICA可以叠加模式,创建三维数据矩阵。该方法已用于体素时间物体维度的多目标FMRI分析。

00-1010

5. 方法概述

我们假设数据集来自R个受试者,每个受试者使用几种不同的模态进行扫描。需要解释的是,我们提出的方法可以应用于跨单个共享维度受试者、实验、时间点等)收集的多种模态的情况。).在该模型中,模态被定义为单个对比图像,其指的是从数据中提取的特定输出。通常,不同的模式有不同的单位、比例和噪声水平。因此,在某些情况下,单次分析可能会产生多个不同的对比图像。例如,扩散矢量成像DTI)分析可以产生FA分数各向异性)、MD平均扩散率)和MO矢量模式)的映射。因为它们包含完全不同且互补的生物物理信息,所以它们被视为独立的模式。

然而,为了尽可能保持向量ICA在多个模态中推断相同的空间模态)的优势,可以将相似的模态集合成k个模态组。同一模式组中的模式必须是空间中相同点的观测值,这意味着模式必须在空间上彼此对齐,具有相同的空间遮罩,并且具有相似的间隙。

间属性例如平滑量)。例如使用 TBSS 将多个扩散衍生的测量投影到白质骨架上。

5.2 真实的鞋垫矢量 ICA 模型

在每个模态组 k 内,使用矢量分解将数据建模为分量之和。每个组件(i=1…L)可以表示为一个空间映射、一个受试者和一个模态积。这些模型包括模态组 k=1:K、模态 t=1:Tk、主体 r=1:R 和体素 n=1:Nk 中的数据:

其中,Xn,i K)是模态组 k 中的分量 i 的空间映射,Wt,iK)是(模态组 k)模态 t 的分量 i 的模态权重,并且 Hi,r 是对象 r 中的分量 i 的权重。

5.3 自适应模态权重

为了适应每个模态中信号的不同范围,我们在模态上使用 ARD。就像噪声水平一样,每个 t 中的数据的相对比例需要独立确定,因此在 W 的每个元素上放置独立的 ARD:

在该方法中不显式选择源的数量,但会自动确定最佳描述数据所需的源的数量。我们从一组源开始,并允许模型逐步降低权重,剔除太弱的源。这意味着现在可以从一些模态中消除源,同时将其保留在其他模态中,因此可以对单模态结构化噪声/伪像进行建模。

5.4 预处理

每种模态的数据在受试者维度中描述。这将剔除平均空间映射,以强调不同受试者之间的差异。每种映射的平均水平例如每个受试者的总灰质密度)不会被移除,因为其包含可以区分受试者的重要信息。

但是不同体素之间的差异可能会很大,尤其是在 FMRI 数据(其中 CSF 和白质体素之间的噪声方差可能存在两个数量级的差异),本文使用的结构形式也是如此在较小程度上)。原则上我们可以估计每个体素的噪声水平,但是我们使用的是来自概率独立分量分析的方差归一化经验方法。这试图通过仅查看强度直方图的中心而忽略尾部来估计潜在白噪声的每体素缩放。

6 实验评估

6.1 仿真数据集

本小节提供了一个仿真的多模态数据集,该数据集将用来评估链接矢量 ICA 和空间级联 ICA 这两种方法在对公共多模态)分量和单模态结构噪声分量建模方面的差异。

该仿真多模态数据集由两个模态组中的四个模态组成。第一组包含三种具有 1000 个体素的模态,每个模态共享具有不同权重的相同空间图案;第二组具有单个 3000 体素的模态。空间图如图 1 所示。

在每个模态中存在有三个共同的成分(标记为 C1-C3),以及各个模态(N1-N4)特有的结构化噪声源。图 1b)显示了仿真中使用的真实激活级别的直方图。这样可以使得两个模态组在稀疏性、对称性、体素计数和信噪比方面具有显著差异。之所以使用伽马分布,是因为人们认为重尾比高斯分布更能准确地反映真实激活的性质。如图所示激活分布仅占强度直方图的一部分,而剩余的 60%或 90%的体素是不活动的,因此在恰好为零的位置聚集成大的点质量。在高噪声模拟中,加到四个模态上的白噪声的标准偏差分别为 25、30、35 和 50。在低噪声模拟中,使用相同的信号其噪声尺度为 15、20、25 和 40。

我们将分量的数量设置为 L=10,以便在真实维数为 7 的情况下进行维数估计通过 W 上的 ARD 先验)。达到收敛需要 200-1000 次迭代。这段 MATLAB 代码在单核 2.4 GHz AMD Opteron 8431 处理器的运行大约需要 5 分钟。

图 1:仿真数据集

6.2 非平滑仿真数据结果

精度结果如图 2 所示。在两种噪声水平下的链接 ICA 模型中,三个共享源(分量 1-3)各自在四个模态之间相当平均地分配其精度。结构噪声源(4,5,6,7 或 4,5,6,9)大多由单一模态确定,其他噪声源被完全消除以先验精度为主)。在高噪声的级联模型中,只有 4 个源被推断出来,其余的都被剔除了。最后的组件4)主要模拟最强的结构化噪声源。

这发生在高噪声中,因为这些结构化噪声分量仅在高噪声电平之上稍微可检测到。因此串联模型确定关闭那些附加分量(通过推断 Wi=0)可以提供对数据的更简明的解释。在链接的 ICA 模型中,可以单独地减少每个模态对分量 i 的影响,因此降低了保留每个分量的复杂度损失。模型比较也强烈倾向于正确的模型(图 2),而不是几个备选方案。使用链接的 ICA,提取过程精度也稍微提升,但这种改进相对较小。

图 2 仿真数据集精度分析

6.3 平滑仿真数据结果

图 4 中的结果来自于仿真数据,在噪声中没有空间相关性。然而真实的神经成像数据通常具有显著的空间平滑性,因此本小节阐述了在进行平滑度校正和不进行平滑度校正的情况下链接的 ICA 模型的行为。

我们首先使用较高的噪声标准偏差[30 40 50 80]重新生成上一节中的数据集。然后对每个仿真模态应用了球面高斯平滑核,在模态 1a-1c 上使用 2 个体素的 FWHM,在模态 2 上使用 4 个体素的 FWHM。每种情况下的精确自由度由上述公式给出)分别为 0.23 自由度/体素和 0.058 自由度/体素。根据数据估计这一点将分别产生模态 1a、1b 和 1c 的 0.18、0.19 和 0.20 个自由度/体素,这意味着比实际呈现的更平滑,因为它们在数据中包括非常平滑的信号,尤其是 1a 具有更高的 SNR。模态 2 预计为 0.047 自由度/体素。当这些估计值仅基于噪波(即残差)计算时,估计值的精确度要高得多,分别为 0.25DOF/体素和 0.061 DOF/体素。

精度分析如图 3 所示,其说明了对空间平滑度进行校正的必要性。请注意 DOF/体素加权能够几乎完美地预测维数,即使从 L=90 开始也是如此。只有一个无关紧要的组成部分幸存下来,之前对该组成部分的贡献所占的权重很大,表明这一组成部分已接近消除。预测的分量是准确的。相反图 3 显示,在没有自由度校正的情况下,所有 90 个组件都保持不变。图 3 中显示了其中的一个子集,表明其中的大多数都是对空间平滑的噪声模式进行建模。

图 3 平滑仿真数据集分析结果

6.4 真实结构化数据分析

为了在真实的多模组数据上评估该方法,我们在从 47 名可能患有阿尔茨海默氏症的患者和 46 名年龄匹配的对照组的结构数据集中提取独立分量的任务中,将几种链接的 ICA 配置图 8)与串联的 ICA 进行了比较。探索性技术可以用来发现对象间的可变性,并识别这些变量中是否有任何一个与感兴趣的回归变量相关;链接的 ICA 方法提供了一种跨数据集中的多个模态执行此操作的方法。灰质密度和白质完整性都曾被用作神经退行性变的生物标志物。

一般来说,神经变性导致 GM 密度降低,FA 减少,MD 增加。专注的花生模式 MO 是从扩散专注的花生导出的另一种度量,该扩散专注的花生与其他两个FA 和 MD)在数学上正交,并且与扩散是在直线上还是在平面上受限有关,因此对于评估纤维束交叉区域中的退化可能具有重要意义。

各模型拟合结果的精度贡献图如图 4 所示。模型比较结果还表明,专注的花生模型优于平面构型,所有链接模型均优于串联方法。在级联 ICA 中,大多数组件分布在所有模态中。在相互关联的 ICA 中,模态之间有更多的分离:一些成分似乎只解释了白质中的可变性,而另一些成分则在白质和灰质之间共享。这可能表明白质中的受试者之间存在一些不同的变化,灰质中没有反映出来,反之亦然;或者,这些成分中的一些可能是个别模态中存在的伪像。链接专注的花生 ICA 和链接平坦 ICA 都给出了更稀疏的解通过从某些分量中排除某些模态),因此选择了比级联 ICA 模型更多的分量。链接专注的花生 ICA 模型在每个组件中具有最严格的模型,因此使用的组件最多。

图 4 真实数据集精度分析

致谢

本文由南京大学软件学院 2020 级博士生ggdh翻译转述。

3分快三计划9248c496016975d57cce7c?from=pc”>

图 1:仿真数据集

6.2 非平滑仿真数据结果

精度结果如图 2 所示。在两种噪声水平下的链接 ICA 模型中,三个共享源(分量 1-3)各自在四个模态之间相当平均地分配其精度。结构噪声源(4,5,6,7 或 4,5,6,9)大多由单一模态确定,其他噪声源被完全消除以先验精度为主)。在高噪声的级联模型中,只有 4 个源被推断出来,其余的都被剔除了。最后的组件4)主要模拟最强的结构化噪声源。

这发生在高噪声中,因为这些结构化噪声分量仅在高噪声电平之上稍微可检测到。因此串联模型确定关闭那些附加分量(通过推断 Wi=0)可以提供对数据的更简明的解释。在链接的 ICA 模型中,可以单独地减少每个模态对分量 i 的影响,因此降低了保留每个分量的复杂度损失。模型比较也强烈倾向于正确的模型(图 2),而不是几个备选方案。使用链接的 ICA,提取过程精度也稍微提升,但这种改进相对较小。

图 2 仿真数据集精度分析

6.3 平滑仿真数据结果

图 4 中的结果来自于仿真数据,在噪声中没有空间相关性。然而真实的神经成像数据通常具有显著的空间平滑性,因此本小节阐述了在进行平滑度校正和不进行平滑度校正的情况下链接的 ICA 模型的行为。

我们首先使用较高的噪声标准偏差[30 40 50 80]重新生成上一节中的数据集。然后对每个仿真模态应用了球面高斯平滑核,在模态 1a-1c 上使用 2 个体素的 FWHM,在模态 2 上使用 4 个体素的 FWHM。每种情况下的精确自由度由上述公式给出)分别为 0.23 自由度/体素和 0.058 自由度/体素。根据数据估计这一点将分别产生模态 1a、1b 和 1c 的 0.18、0.19 和 0.20 个自由度/体素,这意味着比实际呈现的更平滑,因为它们在数据中包括非常平滑的信号,尤其是 1a 具有更高的 SNR。模态 2 预计为 0.047 自由度/体素。当这些估计值仅基于噪波(即残差)计算时,估计值的精确度要高得多,分别为 0.25DOF/体素和 0.061 DOF/体素。

精度分析如图 3 所示,其说明了对空间平滑度进行校正的必要性。请注意 DOF/体素加权能够几乎完美地预测维数,即使从 L=90 开始也是如此。只有一个无关紧要的组成部分幸存下来,之前对该组成部分的贡献所占的权重很大,表明这一组成部分已接近消除。预测的分量是准确的。相反图 3 显示,在没有自由度校正的情况下,所有 90 个组件都保持不变。图 3 中显示了其中的一个子集,表明其中的大多数都是对空间平滑的噪声模式进行建模。

图 3 平滑仿真数据集分析结果

6.4 真实结构化数据分析

为了在真实的多模组数据上评估该方法,我们在从 47 名可能患有阿尔茨海默氏症的患者和 46 名年龄匹配的对照组的结构数据集中提取独立分量的任务中,将几种链接的 ICA 配置图 8)与串联的 ICA 进行了比较。探索性技术可以用来发现对象间的可变性,并识别这些变量中是否有任何一个与感兴趣的回归变量相关;链接的 ICA 方法提供了一种跨数据集中的多个模态执行此操作的方法。灰质密度和白质完整性都曾被用作神经退行性变的生物标志物。

一般来说,神经变性导致 GM 密度降低,FA 减少,MD 增加。专注的花生模式 MO 是从扩散专注的花生导出的另一种度量,该扩散专注的花生与其他两个FA 和 MD)在数学上正交,并且与扩散是在直线上还是在平面上受限有关,因此对于评估纤维束交叉区域中的退化可能具有重要意义。

各模型拟合结果的精度贡献图如图 4 所示。模型比较结果还表明,专注的花生模型优于平面构型,所有链接模型均优于串联方法。在级联 ICA 中,大多数组件分布在所有模态中。在相互关联的 ICA 中,模态之间有更多的分离:一些成分似乎只解释了白质中的可变性,而另一些成分则在白质和灰质之间共享。这可能表明白质中的受试者之间存在一些不同的变化,灰质中没有反映出来,反之亦然;或者,这些成分中的一些可能是个别模态中存在的伪像。链接专注的花生 ICA 和链接平坦 ICA 都给出了更稀疏的解通过从某些分量中排除某些模态),因此选择了比级联 ICA 模型更多的分量。链接专注的花生 ICA 模型在每个组件中具有最严格的模型,因此使用的组件最多。

图 4 真实数据集精度分析

致谢

本文由南京大学软件学院 2020 级博士生ggdh翻译转述。

Published by

风君子

独自遨游何稽首 揭天掀地慰生平

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注