1、情绪识别技术已成为人机交互领域的重要研究方向,特别是在通过生物测量数据进行情绪状态分析和分类的应用越来越受到重视。现有的情绪识别系统通常依赖于单一模态的数据,如脑电信号、面部表情或语音特征,这些系统通过专门设计的传感器阵列来收集相应的生物测量数据。例如,脑电信号通过电极帽采集,面部图像通过高分辨率摄像头获取,而语音数据则通过麦克风记录。这些数据独立地处理和分析,旨在从各自的维度解读用户的情绪状态。
2、然而,依赖单一数据源的情绪识别系统往往无法充分利用多种生物测量数据之间的互补性,导致情绪识别的准确性和可靠性受限。此外,单一模态数据处理往往忽视了数据之间可能存在的相关性,这可能导致在复杂的情感状态分析中出现误判。例如,面部表情可能因文化差异或个人习惯而变化,而脑电信号和语音数据可以提供更深层次的情绪信息,但这些信息在独立分析时往往未被充分利用。
1、本技术提供一种基于多模态的情绪识别方法及系统,以提高情绪识别的准确率。
3、传感器阵列,配置用于从用户收集生物测量数据,所述生物测量数据包括脑电信号、面部图像和语音数据;
4、数据处理单元,与传感器阵列通信连接,所述数据处理单元用于接收所述传感器阵列收集的生物测量数据;对收集的生物测量数据进行预处理,获得预处理后数据;其中,所述预处理包括对脑电信号应用傅里叶变换以生成功率谱密度剖面,使用基于adaboost的人脸检测算法从面部图像中检测面部特征,以及从语音数据中提取梅尔频率倒谱系数;应用多模态集成算法,将所述功率谱密度剖面、面部特征以及梅尔频率倒谱系数进行特征结合,获得一个统一特征向量;根据所述统一特征向量,使用训练过的深度学习模型,将用户的情绪分类到预定义类别中,以生成情绪识别结果;
7、按照如下的公式1,将功率谱密度剖面、面部特征和梅尔频率倒谱系数进行融合以产生中间特征向量:
11、其中,是学习参数;是功率谱密度剖面中第个元素;是功率谱密度剖面的元素总数量;是对面部特征的映射函数,如公式3所示:
13、其中,和是学习参数;是面部特征中的第个元素;是面部特征的元素总数量;是对梅尔频率倒谱系数的映射函数,如公式4所述:
15、其中,是学习参数;是梅尔频率倒谱系数中第个元素;是梅尔频率倒谱系数的元素总数量;
18、其中,是缩放因子;是自适应权重参数; 是中间特征向量的第个元素;是中间特征向量的元素总数量;是特征偏移参数;是正则化系数;是kullback-leibler 散度项,用于评估中间特征向量与目标分布的差异,和是学习参数。
19、更进一步地,所述深度学习模型包括特征分解子网络、增强特征学习子网络、情感动态建模子网络以及多模态情感分类子网络;
20、其中,所述特征分解子网络用于接收统一特征向量,并采用主成分分析技术对接收的统一特征向量进行降维处理,获得降维后的特征向量;
21、所述增强特征学习子网络用于接收所述特征分解子网络提供的降维后的特征向量;使用卷积神经网络对于降维后的特征向量进行特征提取,获得空间特征表示;使用长短时记忆网络对于所述空间特征表示进行处理,获得时空特征表示;
22、所述情感动态建模子网络用于接收所述增强特征学习子网络提供的时空特征表示;使用变分自编码器对接收到的空特征表示进行编码,生成潜在情感表征;使用门控卷积网络对于潜在情感表征进行处理,生成反映情感动态的高级特征序列;
23、所述多模态情感分类子网络用于接收所述情感动态建模子网络提供的高级特征序列;使用注意力机制增强的多层感知机对所述高级特征序列进行处理,生成情绪识别结果。
24、更进一步地,所述特征分解子网络使用奇异值分解来实施主成分分析,以提高所述降维处理的计算效率和精确度。
25、更进一步地,所述增强特征学习子网络的卷积神经网络包括深度可分离卷积层,用以减少模型的计算复杂性并提高特征提取的效率;所述长短时记忆网络具备双向结构,以从时序数据的正反两个方向学习情感状态的变化。
26、更进一步地,所述情感动态建模子网络的变分自编码器使用非线性激活函数,以增强非线性编码能力,所述非线性激活函数包括relu和leaky relu;所述门控卷积网络采用多尺度卷积核,以不同尺度捕捉情感表征的细节,从而更全面地理解情感动态。
27、更进一步地,所述多模态情感分类子网络的注意力机制增强的多层感知机使用多头注意力模型;其中,每个头专注于不同的特征子集,以实现对情感特征的细致解读并提高分类的准确率。
28、更进一步地,所述输出单元包括一个情绪驱动界面,所述情绪驱动界面根据所显示的情绪识别结果自动调整其颜色主题和图形元素;所述情绪驱动界面具体用于:当检测到快乐情绪时,界面将采用明亮的颜色和活泼的图标;当检测到悲伤情绪时,界面将采用深色调和缓和的图标,以此方式增强用户的情绪共鸣和理解。
29、更进一步地,所述输出单包括多模态反馈功能,所述多模态反馈功能提供视觉信息以及与情绪识别结果相应的音频反馈;所述多模态反馈功能具体同于:当检测到用户感到悲伤或紧张时,输出单元将播放安抚的音乐;当检测到用户感到快乐时,输出单元将播放欢快的音乐,从而增强情绪识别结果的传达和用户的感官体验。
31、从用户收集生物测量数据,所述生物测量数据包括脑电信号、面部图像和语音数据;
32、对收集的生物测量数据进行预处理,获得预处理后数据;其中,所述预处理包括对脑电信号应用傅里叶变换以生成功率谱密度剖面,使用基于adaboost的人脸检测算法从面部图像中检测面部特征,以及从语音数据中提取梅尔频率倒谱系数;
33、应用多模态集成算法,将所述功率谱密度剖面、面部特征以及梅尔频率倒谱系数进行特征结合,获得一个统一特征向量;
34、根据所述统一特征向量,使用训练过的深度学习模型,将用户的情绪分类到预定义类别中,以生成情绪识别结果;
36、本技术有益的效果主要包括:(1)通过集成脑电信号、面部图像和语音数据,本系统能够综合不同类型的生物测量信息,从而提供更全面的情绪分析。多模态数据的融合有助于补充单一数据源的局限,例如脑电信号可以提供面部表情和语音难以反映的生理情绪反应,而面部和语音数据则可以丰富情绪的表达层面。(2)通过对脑电信号进行傅里叶变换生成功率谱密度剖面、使用基于adaboost的人脸检测算法从面部图像中检测面部特征,以及从语音数据中提取梅尔频率倒谱系数,系统能够有效地预处理并提取关键的情绪特征。这些预处理步骤优化了后续的特征融合和分类处理,确保了数据处理的高效性。(3)应用多模态集成算法结合不同模态的特征向量生成一个统一的特征向量,这种方法显著增强了不同数据源信息的整合能力,提高了系统对复杂情绪状态的解析能力。这一步骤是实现高效情绪分类的关键,它使得深度学习模型能够更准确地识别和分类用户的情绪。
技术研发人员:陈锐瀚,叶敏华,黎川滔,罗嘉玮,符婷,徐佳豪,周佳鑫,李升
1.计算机视觉 2.无线.计算机仿线.网络安全;物联网安全 、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用