开云(中国)Kaiyun·官方网站-Kaiyun科技股份有限公司

当前位置: 主页 > 光研动态 > 公司新闻

一种多模态情感识别方法及装置制造方法及图纸

作者:小编发布时间:2025-08-02 07:33

  

一种多模态情感识别方法及装置制造方法及图纸

  本发明专利技术提供一种多模态情感识别方法及装置,涉及人工智能技术领域,该方法包括:通过交叉注意力机制将第一文本模态特征与第一图像模态特征进行融合,生成融合注意力的图像特征,通过交叉注意力机制将第一文本模态特征与第一语音模态特征进行融合,生成融合注意力的语音特征;将融合注意力的语音特征、融合注意力的图像特征、第一文本模态特征送入多层Transformer编码器中进行学习,生成第二语音模态特征、第二图像模态特征、第二文本模态特征,并基于所述第二语音模态特征、所述第二图像模态特征和所述第二文本模态特征进行情感识别,实现了较精准的多模态情感识别。

  kaiyun使用指南

  1、近年来,情感计算已成为一个备受关注的话题,因为它能够增强心理健康监测、人机交互和个性化广告等多个领域。情感计算的进步得到了情绪分析和情绪识别等子领域的广泛支持。此外,深度学习(dl)技术在情绪识别领域取得了重大进展,从而催生了能够有效处理来自音频、视频和文本等各种来源的数据的多模态情绪识别(mer)系统。然而,尽管取得了长足的进步,但mer系统仍然存在一些挑战。

  2、然而,受限于多模态情感识别中不同模态间的复杂交互以及情感信息的多样性,现有方法主要存在以下三方面的问题,使之无法满足现有基于预训练模型的情感识别需求:

  3、声学特征在多模态情感识别中效率提高困难,与视觉和文本相比贡献较小:在情感识别任务中,声学信息(如语音特征)往往没有视觉信息(如面部表情)和文本信息(如语言内容)对情感识别的贡献大。声学特征的提取与处理复杂,且其有效性受噪音、录音设备等外界因素影响较大,使得提升声学效率成为一大挑战。

  2.根据权利要求1所述的多模态情感识别方法,其特征在于,所述使用预训练模型Bert-base-multilingual-uncased-sentiment构建第一文本模态特征包括:

  3.根据权利要求1所述的多模态情感识别方法,其特征在于,所述基于所述语音数据使用卷积神经网络、双向长短期记忆神经网络与预训练模型构建第一语音模态特征,包括:

  4.根据权利要求1所述的多模态情感识别方法,其特征在于,所述基于所述图像数据使用预设卷积网络构建第一图像模态特征,包括:

  2.根据权利要求1所述的多模态情感识别方法,其特征在于,所述使用预训练模型bert-base-multilingual-uncased-sentiment构建第一文本模态特征包括:

  3.根据权利要求1所述的多模态情感识别方法,其特征在于,所述基于所述语音数据使用卷积神经网络、双向长短期记忆神经网络与预训练模型构建第一语音模态特征,包括:

  kaiyun使用指南

  4.根据权利要求1所述的多模态情感识别方法,其特征在于,所述基于所述图像数据使用预设卷积网络构建第一图像模态特征,包括:

  5.根据权利要求1所述的多模态情感识别方法,其特征在于,所述通过交叉注意力机制将第一文本模态特征与第一图像模态特征进行融合,生成融合注...

Copyright © 2025 Kaiyun科技股份有限公司 版权所有   浙ICP备11013208号-1

开云网站 - 情绪化智能照明算法应用专家