开云(中国)Kaiyun·官方网站-Kaiyun科技股份有限公司

当前位置: 主页 > 光研动态 > 公司新闻

多模态会话情绪识别方法及装置、电子设备、存储介质

作者:小编发布时间:2025-07-18 23:38

  本技术涉及会话情绪识别领域,尤其涉及一种多模态会话情绪识别方法及装置、电子设备、存储介质。

  1、由于中国老龄化进程的加速,空巢老人规模不断扩大,这一群体常常面临的孤独和心理健康问题已成为亟待解决的社会问题。面对传统心理咨询服务的高昂费用和家人无法提供陪伴的现实,很多空巢老人难以获得必要的心理关怀和支持。在此背景下,人工智能技术快速发展,为提供低成本、易于获取的心理支持服务创造了新的可能性。尤其是对话系统和情感计算领域的进步,使得开发能理解和回应人类情感的对话系统成为现实,对需要日常陪伴和心理支持的老年人群体具有重要意义。

  2、情感感知能力是实现对话系统共情能力的基础。这一能力确保了系统能够准确地捕捉到用户的情绪变化,并根据这些变化提供相应的情感支持。为了进一步提升情感感知的准确性和效果,多模态情绪识别技术被引入到对话系统中。不同于传统的单模态情感识别,多模态情绪识别结合了来自面部表情、语音等多个模态的信息,提供了一种更全面、更鲁棒的方式来理解用户的情绪状态。这种技术的优势在于能够利用模态间的互补性,更准确地捕捉和解析复杂的人类情绪表达。因此,将多模态情绪识别集成到开放域对话系统中,不仅可以提高情绪识别的准确率,也能够为用户提供更加贴心和有效的情感交流体验。

  3、尽管多模态情绪识别的研究在理论和应用上取得了显著进展,但仍存在诸多挑战尚未被充分解决,主要有以下几个问题:

  4、1、多模态融合过程中的噪声问题是一个主要挑战。多模态融合技术在多模态情绪识别任务中扮演着关键角色,它能有效整合来自不同模态的信息,提供更全面、精确的目标事物表示和理解。然而,各模态中存在的噪声仍然会对模型性能造成影响,甚至导致一些方法在引入新模态后性能下降的问题。

  5、2、当前多模态情绪识别研究通常在多模态信息融合之后,进行全局与局部会话情绪特征的建模。然而,这类研究往往忽视了不同模态间在会话情绪特征建模过程中可能存在的模态差异和线、情感一致性,即在实际对话中相似情绪的语句倾向于相邻出现而相反情绪的语句相邻出现的概率较低。虽然这一特征在对话中普遍存在,但现有工作往往未将情感一致性纳入考虑范畴。

  1、鉴于此,本技术实施例的目的是提供一种多模态会话情绪识别方法及装置、电子设备、存储介质,以解决背景技术中存在的问题。

  3、获取用于训练和测试的多模态情感会线、对所述样本进行多模态特征提取,获取多种模态的特征,输入到深度神经网络模型中;

  5、构建并训练深度神经网络模型,所述的深度神经网络模型包括多级注意力模块、多流图神经网络模块、说话者上下文编码器模块以及分段条件随机场模块,所述的多级注意力模块包括自注意力模块和跨模态注意力模块,所述的自注意力模块用于提取初步融合的多模态融合特征后输入到跨模态注意力模块的说话者上下文编码器模块,所述的跨模态注意力模块用于强化各模态特征后输入到多流图神经网络模块,所述多流图神经网络模块包含多个结构相同的模态流图神经网络,所述的模态流图神经网络包括图构建模块、图变换网络模块、图卷积模块、图转化器模块以及双向moglstm模块,所述的图构建模块用于构建话语关系图后输入到图变换网络模块,所述的图变换网络模块用于调节话语关系后输入到图卷积模块,所述的图卷积模块用于传播话语信息后输入到图转化器模块,所述的图转化器模块用于捕捉话语之间的相关性后输入到双向moglstm模块,所述的双向moglstm模块用于捕捉会话的上下文信息后输入到分段条件随机场模块,所述的说话者上下文编码器模块用于捕获说话者上下文信息后输入到分段条件随机场模块,所述的分段条件随机场模块用于聚合多流图神经网络模块和说话者上下文编码器模块的输出后进行序列标注,得到话语分类标签,作为会线、可选的,所述多模态特征提取包括:

  7、对多模态情感会话样本进行文本模态特征提取、音频模态特征提取、视觉模态特征提取;

  8、通过opensmile对样本音频数据提取6373维的语音特征,通过z值标准化来进行声音归一化,并经过全连接层将语音特征降维至100维;

  9、根据样本视频数据提取人脸图像,通过openface从人脸图像中提取人脸特征,得到512维的视觉特征;

  10、通过sbert从样本文本数据中提取语义表示,得到768维的文本特征。

  12、将各模态特征拼接在一起,使用自注意力机制充分理解会话的语境信息,提取语境化的融合情绪特征。

  14、通过跨模态注意力机制,让各模态特征吸收来自语境化融合情绪特征的信息,强化各模态特征。

  16、为了捕捉会话中说话人之间和说话人自身的话语关系,将会话中的每个话语都作为图的一个节点,并使用有向关系(过去和未来)进行连接,构建线、可选的,所述图变换网络模块用于执行如下操作:

  18、从话语关系图中生成新的图结构,识别节点之间的潜在联系,并为不同类型的节点关系赋予不同的权重,建模节点关系的异质性。

  20、通过图卷积操作捕捉话语之间的关系,并将其融入每个话语节点的新特征中,新特征不仅包含其自身信息,还包含与其相关的线、可选的,所述图转化器模块用于执行如下操作:

  22、根据话语关系图进行图学习,利用多头注意力机制计算节点之间的注意力系数,利用注意力系数作为节点表示融合的权重,从节点中提取丰富的表示。

  24、为了在每个时间步都能同时考虑过去和未来的信息,采用双向的moglstm网络,使用moglstm网络获取正向和反向的上下文特征信息;

  27、将会话中的话语按照所属说线、使用双向moglstm建模每个说话人的话语进行上下文特征;

  29、将每个说话人的包含上下文信息的话语特征按照会话顺序进行拼接,得到完整会话的说线、可选的,所述分段条件随机场模块用于执行如下操作:

  31、将多流图神经网络模块输出的各模态会话上下文特征以及说话者上下文特征进行拼接,得到融合会线、将融合会话情感特征进行重叠分段,每个会话分段包含前一个片段和后一个片段的部分线、使用条件随机场对每个会话片段进行序列标注,得到每个片段的情绪标签;

  kaiyun用户评价

  34、将每个片段的情绪标签去除与前一个片段和都一个片段重叠的部分,将所有片段的情绪标签拼接在一起,获得完整的会线、根据本技术实施例的第二方面,提供一种多模态会话情绪识别装置,包括:

  36、获取模块,用于获取多模态情感会线、数据处理模块,用于对所述多模态情感会话样本进行多模态特征提取,得到数据集;

  38、模型构建及训练模块,用于根据所述数据集,构建并训练深度神经网络模型,所述的深度神经网络模型包括多级注意力模块、多流图神经网络模块、说话者上下文编码器模块以及分段条件随机场模块,所述的多级注意力模块包括自注意力模块和跨模态注意力模块,所述的自注意力模块用于提取初步融合的多模态融合特征后输入到跨模态注意力模块的说话者上下文编码器模块,所述的跨模态注意力模块用于强化各模态特征后输入到多流图神经网络模块,所述多流图神经网络模块包含多个结构相同的模态流图神经网络,所述的模态流图神经网络包括图构建模块、图变换网络模块、图卷积模块、图转化器模块以及双向moglstm模块,所述的图构建模块用于构建话语关系图后输入到图变换网络模块,所述的图变换网络模块用于调节话语关系后输入到图卷积模块,所述的图卷积模块用于传播话语信息后输入到图转化器模块,所述的图转化器模块用于捕捉话语之间的相关性后输入到双向moglstm模块,所述的双向moglstm模块用于捕捉会话的上下文信息后输入到分段条件随机场模块,所述的说话者上下文编码器模块用于捕获说话者上下文信息后输入到分段条件随机场模块,所述的分段条件随机场模块用于聚合多流图神经网络模块和说话者上下文编码器模块的输出后进行序列标注,得到话语分类标签,作为会线、识别模块,用于采用训练好的深度神经网络模型对多模态情感会线、根据本技术实施例的第三方面,提供一种电子设备,包括:

  43、当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的方法。

  44、根据本技术实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如第一方面所述方法的步骤。

  46、由上述实施例可知,本技术因为采用多级注意力模块,具体包括自注意力模块和跨模态注意力模块,克服了多模态噪声对模型性能造成的影响进而达到提升模型融合多模态信息的能力。本技术因为采用多个结构相同的模态流图神经网络分别对各模态话语进行会话情绪特征建模,具体包括图构建模块、图变换网络模块、图卷积模块、图转化器模块以及双向moglstm模块,克服了不同模态间在会话情绪特征建模过程中可能存在的模态差异和话语关系差异问题。本技术因为采用说话者上下文编码器模块和分段条件随机场模块,克服了现有研究未考虑情感一致性的问题。

  47、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。

Copyright © 2025 Kaiyun科技股份有限公司 版权所有   浙ICP备11013208号-1

开云网站 - 情绪化智能照明算法应用专家