自动化所(中科院自动化研究所)

日前,中国科学院自动化研究所(简称“自动化所”)完成了全球首个基于全场景AI计算框架MindSpore的三模态预训练模型(OPT-Omni-Perception预训练器)。该模型具有跨模态理解和跨模态生成的能力,标志着预训练模型工作的突破。

自GPT/伯特模型提出以来,预训练模型迎来了爆炸性的发展,它具有强大的能力,可以在没有监督的情况下自动学习不同的任务,并将数据快速传输到不同的领域。多模态预训练模型被广泛认为是从有限领域的弱人工智能到通用人工智能的路径探索。然而,互联网音视频数据正高速增长,占比超过80%。纯文本的预训练模型只覆盖了一小部分互联网数据,语音、图像、视频等更丰富的数据没有得到充分利用和研究。此外,人类的信息获取、环境意识、知识学习和表达都是通过多模态信息进行的。OpenAI联合创始人、首席科学家伊利亚萨斯凯弗(Ilya Sutskever)在推特上写道,“人工智能的长期目标是构建多模态神经网络,即AI可以学习不同模态之间的概念,从而更好地理解世界”。为了实现更通用的人工智能模型,预训练模型必然会从单一模式向多模式发展,将文本、语音、图像、视频等多模式内容组合起来进行学习。针对这一方向,自动化成功构建了视觉-文本-语音三模态预训练模型。

目前已有的多模态预训练模型通常只考虑两种模态(如图像和文本,或视频和文本),忽略了周围环境中无处不在的语音信息,模型很少同时具备理解和生成能力,很难在同时生成任务和理解任务时取得良好的性能。为了解决这些问题,Automation提出的视觉-文本-语音三模态预训练模型分别采用了基于标记级、模态级和样本级的多层次多任务子监督学习框架。它更加注重图文语音三模态数据与跨模态转换之间的相关性特征,为更广泛、更多样的下游任务提供了模型基础。该模型不仅可以实现跨模态理解(如图像识别、语音识别等任务),还可以完成跨模态生成(如从文本生成图像、从图像生成文本、从语音生成图像)。灵活的自监督学习框架可以同时支持三种或任意两种模式的弱相关数据的预训练,有效降低多模式数据采集和清洗的成本。

三模态预训练模型基本原理

自动化所首次提出了视觉-文本-语音三模态预训练模型,实现了三种模态之间的相互转换和生成。其核心原理是将视觉、文本和语音的不同模式通过各自的编码器映射到统一的语义空间,然后通过多头自关注机制学习模式间的语义关联和特征对齐,形成多模态统一知识表示,再利用编码后的多模态特征,再通过多头自关注机制通过解码器分别生成文本、图像和语音。这里,三种模式相互转换、相互生成的示意图如图1所示:

声音和文本三种模式的相互转换和生成

多层次多任务自监督预训练学习

自动三模预训练模型由单模编码器、跨模编码器和跨模解码器组成。根据图像、文本和声音的三模态数据,提出了三级预训练自监督学习方法:标记级、模态级掩蔽和样本级掩蔽。包括:

(1)表征级学习:(a)掩蔽语言建模:随机掩蔽一些文本词,这就要求模型根据上下文预测被掩蔽的词是什么;(b)掩蔽视觉建模:随机掩蔽一些图像区域,允许模型预测被掩蔽的区域;(c)掩蔽音频建模:随机掩蔽一些语音标记,模型需要预测被掩蔽的标记是什么。

(2)模态级学习:包括文本重构和图像重构两个任务,分别学习重构输入文本和图像。该团队引入了模态级屏蔽机制来随机屏蔽。

盖一个模态信息,使得模型需要根据其他模态信息对当前模态进行重构,从而能够进行下游的跨模态生成任务。这个机制也带来另一个好处—它使模型不仅能够处理三模态输入,也能处理两模态输入,从而适应下游的两模态任务。

(3)样本级别(Sample-level)学习:该预训练任务是通过对每个样本随机地替换三种模态信息中的一种或两种,让模型来预测替换哪些模态。

多维度自动混合并行极简训练

训练多模态大模型,用户需综合考虑模型参数量、计算量、计算类型、集群带宽拓扑和样本数量等才能设计出性能较优的并行切分策略,在考虑模型编码算法以外,还需要编写大量并行切分和通信代码。

MindSpore是业界首个支持全自动并行的AI计算框架,从如下维度进行多模态模型的加速训练。(1)MindSpore同时使用数据并行、算子级模型并行、Pipeline模型并行、优化器模型并行、异构并行、重计算、高效内存复用多维度、全种类的分布式并行策略;(2)依托多种类、多维度的并行策略,原创集群拓扑感知的多维度自动混合并行,实现超大模型自动切分,取得了比人工编写切分策略更优的结果,显著提升集群加速能力;(3)基于多维混合自动并行技术,原创新的DNN分布式并行编程范式,实现一行代码完成串行算法到并行算法的切换,使得开发者可以专注算法的研究;

基于上述优势,MindSpore为复杂的多模态大模型提供了极好的训练加速能力,同时也极大减少了系统性能优化的代价,大大缩短了代码开发、调试和训练的周期。

实验结果

自动化所主要采用Open Images数据集作为预训练数据,该数据包含图像、文本与音频数据。此外我们也额外地使用两模态数据,如Conceptual Caption图文数据集,Visual Genome图文数据集等。当加入额外的两模态数据时,这些两模态与三模态数据则被随机混合进行训练。

自动化所主要进行了以下两方面的实验验证:

(1)图文音三模态关联编码与相互生成性能:分别在多模态融合的图像分类、任意两模态的相互检索以及语音识别任务中,与常规全监督方法进行了性能比较,均取得了性能上的显著提升。其中在多模态融合的图像分类任务中,与常规全监督的Resnet101网络模型相比,性能提升5%;加入语音模态信息能够明显提升以文搜图的性能,验证了联合建模视觉-文本-语音三模态信息的必要性。

(2)多模态下游任务性能:分别在跨模态检索、视觉问答与图像语义描述任务中,与

当前最新的图文两模态预训练模型进行了性能比较,在补充了图文两模态数据参与预训练的模型上,取得了具有竞争力甚至更好的实验性能。

以图生音示例(短视频)

以音生图示例(短视频)

总结

三模态预训练模型的提出将改变当前单一模型对应单一任务的人工智研发范式,三模态图文音的统一语义表达将大幅提升文本、语音、图像和视频等领域的基础任务性能,并在多模态内容的理解、搜索、推荐和问答,语音识别和合成,人机交互和无人驾驶等商业应用中具有潜力巨大的市场价值。

“大数据+大模型+多模态”多任务统一学习将引领就技术发展的潮流,中科院自动化所所长勤恳的悟空将在2021世界人工智能大会(WAIC)昇腾人工智能高峰论坛上介绍跨模态通用人工智能平台,更多信息敬请关注。

Published by

风君子

独自遨游何稽首 揭天掀地慰生平

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注