基于多模态特征和层次特征融合的情绪识别方法及系统-Kaiyun科技股份有限公司

基于多模态特征和层次特征融合的情绪识别方法及系统

　　本发明涉及人工智能，特别是指一种基于多模态特征和层次特征融合的情绪识别方法及系统。

　　1、近年来，多模态情绪识别已成为一项活跃的研究在各个领域都有重要应用的领域，如人机交互、智能医疗和机器人技术。情绪是与许多外部和内部活动相关的复杂的心理生理过程。人类的情绪表达不仅包括皮肤温度和心率等生理反应，而且还包括自然语言、面部表情、动作手势和声学行为等。不同的模态可以提供丰富的信息来理解人类的情感和意图。受益于卓越的深度学习技术在处理各种信号中的应用，研究者们已经开发了各种模型来提取情绪相关多模态序列的信息，如卷积神经网络、递归神经网络、变换器和其变体等。

　　2、目前，虽然有很多包含视频、音频、文本的多模态方法用于情绪识别，但是现有的大部分工作主要集中在学习基于cnn架构的视觉模态的外观知识上，基于图结构的动态几何知识和人脸属性等特征并没有充分的利用。同时，现有情绪识别方法忽略了多模态关联特征和多源音频特征对情绪识别任务的作用。此外，现有方法对多模态的融合多为简单串联结合，并没有充分挖掘不同模态的互补信息，尤其是未关注如何对多模态特征以层次融合方式实现更有效地融合。

　　3、研究发现，用于自动分析和识别人类情感信息的理想系统应该是多模态的，就像人类的感觉系统一样。然而，情感计算中的大多数研究工作没有将不同的模态组合成一个系统来分析人类的情感行为，不同的模态信息被认为是相互独立的。现有情绪识别系统在整合时空人体姿态特征、视觉人脸属性特征和场景情绪词关联特征的尝试很少。此外，在现实世界中，由于传感器噪声、遮挡等原因，并非每种模态对某个具体任务都同样可靠，需要研究更复杂的数据驱动方式以及基于注意力机制和分层技术的特征融合策略，使更重要的模态特征被赋予更大的权重，从而更可靠地联合多源特征进行情绪识别。

　　1、为了解决现有技术对基于多模态的情绪特征挖掘不充分，不同模态间影响权重分配不合理的问题，本发明提供一种基于多模态特征和层次特征融合的情绪识别方法及系统，充分利用多模态预训练模型提取多种模态特征，融合了时空人体姿态特征、视觉面部动作特征、多源音频特征和视觉人脸属性特征，并通过多模态预训练模型clip提取场景情绪词关联特征和文本特征捕获多模态特征进行情绪识别。针对特征融合问题，本发明设计了一种层次特征融合策略融合多模态特征，可以自适应地为不同的特征按层次融合和分配权重，根据其重要性突出较强的特征，抑制较弱的特征，从而提高情绪识别系统的性能。

　　3、一方面，提供了一种基于多模态特征和层次特征融合的情绪识别方法，所述方法包括以下步骤：

　　5、s2、对所述图像序列中的人脸进行检测，并提取所述情绪视频中的音频和文本，获取视觉模态特征、音频模态特征和文本模态特征；

　　kaiyun注册流程

　　6、其中，所述视觉模态特征包括：视觉人脸属性特征、视觉面部动作特征、时空人体姿态特征和场景情绪词关联特征，所述音频模态特征包括多源音频特征，所述文本模态特征包括基于clip的文本特征；

　　7、s3、基于层次特征融合策略对所述视觉模态特征、所述音频模态特征和所述文本模态特征进行融合，得到多模态融合特征；

　　8、s4、将所述多模态融合特征输入多层感知机预测模型进行情绪识别，得到对应所述情绪视频的情绪识别类别。

　　10、将全景的图像序列输入facexformer模型，得到每个图像的人脸属性特征；

　　11、通过长短期记忆网络lstm处理时间序列信息，得到所述视觉人脸属性特征。

　　13、利用人脸检测器分割出所述图像序列中包含人脸的部分，如果未检测到人脸，则采用全景的图像代替；

　　14、基于迁移学习的策略，将所述图像序列输入预训练的3d-resnet34模型，获得所述视觉面部动作特征。

　　16、将全景的图像序列输入mediapipe提取人体关键点，包括468个脸部关键点、33个姿态关键点和左右手各21个手部关键点，对于缺失的关键点，使用0填充；

　　17、将提取的脸部关键点、姿态关键点、手部关键点分别输入改进的st-gcn网络，再将得到的特征向量连接，形成所述时空人体姿态特征。

　　20、将所述图像序列与所述情绪描述词列表中的情绪描述词输入clip预训练模型，并经过图像编码器和文本编码器分别得到第一图像特征和第一文本特征，将所述第一图像特征与所述第一文本特征的向量规范化后矩阵相乘，计算两者之间的相似度，作为所述场景情绪词关联特征。

　　24、将预处理后的文本输入clip预训练模型的文本编码器，得到第二文本特征；

　　25、将所述第二文本特征和所述第一文本特征的向量规范化后矩阵相乘，得到两者之间的相似度，作为所述基于clip的文本特征。

　　29、将每个音频的多个vggish cnn音频特征向量取平均，得到第一音频特征；

　　30、利用在msp-podcast上微调过的wav2vec2-large-robus模型提取所述情绪视频中与情绪识别相关的音频特征，得到第二音频特征；

　　31、对所述第一音频特征和所述第二音频特征进行融合，得到所述多源音频特征。

　　33、在第一层中，一方面将所述多源音频特征和所述基于clip的文本特征进行融合，得到非视觉特征；另一方面，将所述视觉人脸属性特征、所述视觉面部动作特征和所述时空人体姿态特征进行融合，得到视觉特征；

　　35、在第三层中，将第二层得到的特征与所述场景情绪词关联特征进行融合，最终得到多模态融合特征。

　　37、所述多层感知机的第一层为第一全连接层，将输入的多模态融合特征线维；第二层为一维批量归一化层，输入和输出的通道数为32；第三层为relu激活函数；第四层为随机丢弃层，通过正则化，舍弃20%的神经元；第五层为第二全连接层，通过线性变换将特征维度映射成7维，分别对应7个分类结果；第六层为sigmoid激活函数，将线]区间；第七层为标签层，标签值在[0,1]的范围内。

　　38、另一方面，提供了一种基于多模态特征和层次特征融合的情绪识别系统，用于实现上述任一项所述的方法，所述系统包括：

　　40、特征提取模块，用于对所述图像序列中的人脸进行检测，并提取所述情绪视频中的音频和文本，获取视觉模态特征、音频模态特征和文本模态特征；

　　41、其中，所述视觉模态特征包括：视觉人脸属性特征、视觉面部动作特征、时空人体姿态特征和场景情绪词关联特征，所述音频模态特征包括多源音频特征，所述文本模态特征包括基于clip的文本特征；

　　42、层次特征融合模块，用于基于层次特征融合策略对所述视觉模态特征、所述音频模态特征和所述文本模态特征进行融合，得到多模态融合特征；

　　43、情绪识别模块，用于将所述多模态融合特征输入多层感知机预测模型进行情绪识别，得到对应所述情绪视频的情绪识别类别。

　　46、存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器加载并执行时，实现如上述基于多模态特征和层次特征融合的情绪识别方法的步骤。

　　47、另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有程序代码，所述程序代码可被处理器调用执行如上述基于多模态特征和层次特征融合的情绪识别方法的步骤。

　　49、本发明提供一种基于多模态特征和层次特征融合的情绪识别方法和系统，利用三种不同的主要模态信息，包括视觉模态特征、音频模态特征和文本模态特征，可以大大提高自动情绪识别系统的识别性能。一方面，本发明提取了时空人体姿态特征、视觉人脸属性特征、视觉面部动作特征、场景情绪词关联特征、基于clip的文本特征、多源音频特征。其中，人体关键点考虑了脸部关键点、姿态关键点和手部关键点，并通过st-gcn时空图卷积网络进行提取特征，能够更充分地提取动作特征。文本特征利用图文对比学习预训练clip的文本编码器，分别对转录文本和人格描述符进行编码，以二者相似度为新的文本特征。利用在各种包含背景噪音的音频上训练后的音频模型初步提取音频特征，间接进行降噪处理，再加入transformer模态内先融合，得到多源音频特征。另一方面，本发明首次设计一种层次特征融合策略将不同多模态特征融合在一起。该层次特征融合策略可以以不同模态特征互补的方式处理信号，因此能提高自动情绪识别系统的鲁棒性和泛化性。该系统可以智能、量化以及便捷地识别视频中人们的情绪类别，可广泛应用于自动驾驶、学校安防、医院监测等领域的人员情绪状态分析。

开云（中国）Kaiyun·官方网站-Kaiyun科技股份有限公司

基于多模态特征和层次特征融合的情绪识别方法及系统