开云(中国)Kaiyun·官方网站-Kaiyun科技股份有限公司

当前位置: 主页 > 光研动态 > 公司新闻

一种基于多模态情感识别的虚拟环境交互系统技术方案

作者:小编发布时间:2025-07-18 23:38

  本发明专利技术属于虚拟现实领域,具体公开了一种基于多模态情感识别的虚拟环境交互系统,包括:UGUI图像界面模块、人脸检测模块、语音内容显示模块、情感状态显示模块和虚拟人物模块;情感状态显示模块包括特征提取单元、特征融合单元、特征增强单元和情感预测单元,特征提取单元分别提取图像、语音和文本的单模态特征;特征融合单元将特征提取单元所提取的三种单模态特征进行多模态融合,输出多模态融合特征;特征增强单元用于增强多模态融合特征,输出新的特征表示;情感预测单元用于根据新的特征表示输出情感识别结果。本发明专利技术能够更好地完成情感化交互过程,增加虚拟环境交互系统的沉浸性和交互性,提高用户体验。本发明专利技术适用于虚拟环境交互。

  本专利技术属于虚拟现实领域,具体地说是一种基于多模态情感识别的虚拟环境交互系统。

  1、虚拟现实技术(virtual reality,vr)作为下一代人机交互领域的新技术,是通过计算机生成逼真的三维立体虚拟环境,让人在视觉上产生一种沉浸在虚拟环境中效果的技术。随着虚拟现实(vr)、增强现实(ar)等技术的发展,人们在不断探索寻找新的人机交互技术和真正的“沉浸感”。为了提升用户体验,识别用户的情感状态,使系统能够根据用户情感做出相应的反馈变得至关重要。

  2、在情感分析研究领域,情感表达可以源于文本、视觉、语音等不同模态的数据。但是,传统的情感分析方法一般基于单模态数据,识别效果容易受到模态噪声的影响,有一定的局限性。

  1、本专利技术的目的,是要提供一种基于多模态情感识别的虚拟环境交互系统,从多个维度获取情感信息,提高情感识别的准确性,提高系统的沉浸性和交互性。

  2.根据权利要求1所述的一种基于多模态情感识别的虚拟环境交互系统,其特征在于,特征提取单元对文本、图像和语音进行初步特征提取,采用BiGRU神经网络分别对文本、图像和语音进行特征提取,依次经过全连接层、tanh激活层后乘以一个掩码矩阵,再进行选择性丢弃,得到的结果分别作为文本特征、语音特征、图像特征,最后,采用BERT-BiLSTM模型对文本特征进行进一步提取,得到文本单模态特征,采用双层堆叠的卷积神经网络对图像特征进行进一步提取,得到图像单模态特征,采用STFT-CNN模型对语音特征进行进一步提取,得到语音单

  2.根据权利要求1所述的一种基于多模态情感识别的虚拟环境交互系统,其特征在于,特征提取单元对文本、图像和语音进行初步特征提取,采用bigru神经网络分别对文本、图像和语音进行特征提取,依次经过全连接层、tanh激活层后乘以一个掩码矩阵,再进行选择性丢弃,得到的结果分别作为文本特征、语音特征、图像特征,最后,采用bert-bilstm模型对文本特征进行进一步提取,得到文本单模态特征,采用双层堆叠的卷积神经网络对图像特征进行进一步提取,得到图像单模态特征,采用stft-cnn模型对语音特征进行进一步提取,得到语音单模态特征。

  kaiyun注册流程

  3.根据权利要求2所述的一种基于多模态情感识别的虚拟环境交互系统,其特征在于,bigru是由两个方向不同的门控循环单元层组成的神经网络,其中一个从前向后读取输入序列,为前向gru层,另一个从后向前读取输入序列,为后向gru层,每个gru层包含了一个重置门、一个更新门和一个隐藏状态,bigru神经网络将前向和后向的输出拼接在一起,形成最终的输出向量表示;bigru神经网络中的每个时间步用如下公式计算:

  4.根据权利要求2或3所述的一种基于多模态情感识别的虚拟环境交互系统,其特征在于,采用bert-bilstm模型对文本特征进行进一步提取,具体为:

  5.根据权利要求2或3所述的一种基于多模态情感识别的虚拟环境交互系统,其特征在于,采用双层堆叠的卷积神经网络对图像特征进行进一步提取,具体为:

  6.根据权利要求2或3所述的一种基于多模态情感识别的虚拟环境交互系统,其特征在于,采用stft-cnn模型对语音特征进行进一步提取,具体为:

  7.根据权利要求1所述的一种基于多模态情感识别的虚拟环境交互系统,其特征在于,特征融合单元中采用注意力机制进行多模态...

Copyright © 2025 Kaiyun科技股份有限公司 版权所有   浙ICP备11013208号-1

开云网站 - 情绪化智能照明算法应用专家