早期信号层融合面向信号本身,将多模态信号 经过简单预处理后放入模型,提取多模态特征,通 常用于时间上高度同步的信号间的融合,如视频和 音频信号的融合[7]。
中期特征层融合面向特征,通常是在得到单模 态特征以后,通过各种手段实现模态特征间的交 互,从而实现多模态信息之间的互补增强。Hassan M M 等人[8]首先利用深度信念网络(deep belief net, DBN)从皮肤电活性(electro-dermal activity,EDA)、 光电容积描记图(photoplethysmogram,PPG)和颧 肌肌电图(zygomaticus electromyography,zEMG) 的融合观测中提取深度级别特征,然后获取 EDA、 PPG 和 zEMG 的统计特征,并与深度信念网络特征 结合构成特征融合向量,最后将准备好的特征向量
后期决策层融合面向分类结果,利用不同模态 得到的分类结果,综合考虑多个分类器的结果,在 决策阶段实现多模态特征的协同作用。Zhao Y X 等 人[12]根据多通道脑电数据的通道空间位置,将输入 脑电预处理成三维数据,即二维空间位置信息和一 维时序信息,采用三维卷积构建脑电信号情绪特征的 提取模型。对于其他生理信号来说,该方法用一维卷 积构建情绪特征提取模型,并在决策层融合多模态特 征的情绪特征。Huang H P 等人[13]提出一种集成卷积 神经网络模型,他们首先设计 5 个卷积网络,然后采 用多元投票策略建立集成模型,最终识别情绪类别。
(1. 杭州电子科技大学计算机学院,浙江 杭州 310018; 2. 浙江省脑机协同智能重点实验室,浙江 杭州 310018)
摘 要:近年来,脑电等生理信号由于能客观体现真实情绪已逐渐成为情绪识别研究的热门对象。然而,单模态 的脑电信号存在情绪信息特征不完备问题,多模态生理信号存在情绪信息交互不充分问题。针对这些问题,提出 基于 3D 分层卷积的多模态特征融合模型,旨在充分挖掘多模态交互关系,更准确地刻画情感信息。首先通过深 度可分离卷积网络提取脑电、眼电和肌电 3 种模态的生理信号的多模态初级情绪特征信息,再对得到的多模态初 级情绪特征信息进行 3D 卷积融合操作,实现两两模态间的局部交互以及所有模态间的全局交互,获取包含不同 生理信号情绪特征的多模态融合特征。实验结果表明,提出的模型在 DEAP 数据集的效价、唤醒度的二分类和四 分类任务中达到了 98%的平均准确率。 关键词:生理信号;情绪识别;3D 分层卷积;多模态交互 中图分类号:TP18,TN911.7,R318 文献标识码:A doi: 10.11959/j.issn.2096−6652.202108
用于对 5 种基本情绪的分类。Kwon Y H 等人[9]提出 一种卷积神经网络(convolutional neural network, CNN)结构,提取脑电信号情绪特征,并和 GSR 特征结合构成多模态情绪特征,用于情绪识别。Liao J X 等人[10]提出用卷积递归神经网络的方法提取多 模态生理信号的情绪信息。该方法首先根据空间位 置对脑电通道进行二维表示,然后和脑电时序信息 一起输入卷积神经网络,提取脑电信号情绪信息, 接着利用长短期记忆(long short term memeory, LSTM)网络提取外围生理信号情绪信息,最后将 两种特征同维拼接,用于最后的分类。Qiu J L 等人[11] 采 用 深 度 相 关 分 析 ( deep canonical correlation analysis,DCCA)共同学习两个模态的非线性变换 的参数,以获取脑电信号特征和眼动信号特征的 最大相关性,使得提取的两种特征更具相关性, 最终提高融合后特征的分类性能。
因此,随着研究的推进,也有一些学者尝试通 过将多种生理信号融合的深度学习方法来提高情 绪识别的准确率。传统的基于脑电情绪的研究通常 需要人工提取特征并选择适合的分类器来分类。随 着自动学习数据分布和特征学习融入建模过程中 的优势被发掘,深度学习不仅在机器视觉领域取得 了巨大突破性进展,其他领域也逐渐运用深度学习 的方法来解决一些问题。基于深度学习的研究方法 已在脑电信号的情绪识别研究中取得了较大的成 功,并已逐渐成为研究生理信号情绪识别的主流方 法之一。
随着人工智能技术的发展和互联网的普及,人 们对人机情感交互的需求在生产生活中的各个领 域中日益显现。其中,如何准确地识别情绪一直是 热门研究方向。生理信号是对人体中枢神经系统和 自主神经系统的反应,这些信号的变化能体现不同 的情绪。与其他情感载体(如姿势、面部表情或语 音等)能刻意伪装不同,生理信号这种情绪体现方 式最大的特点在于中枢神经系统和自主神经系统 在很大程度上是非自愿激活的,因此不容易控制, 更具客观真实性。因此,越来越多的国内外专家学 者投入基于生理信号的情绪识别研究领域。特别是随 着脑科学发展,以脑电图(electroencephalography, EEG)为主要媒介的情绪识别研究越来越受到关 注,且相关的研究成果已被应用到许多领域,如人 机交互系统[1-2]、安全驾驶[3]、医疗保健,尤其是心 理健康监测[4]和游戏娱乐[5]等。在生理信号中,除 常见的脑电图外,心电图(electrocardiogram,ECG)、 眼电图(electro-oculogram,EOG)、体温(body temperature)、肌电图(electromyogram,EMG)、 皮肤电反应(galvanic skin response,GSR)和呼吸 (respiration,RESP)[6]等外围生理信号也可由外界 刺激诱发产生,并携带情绪信息。例如,强烈的情 绪会刺激人体的交感神经系统,导致汗腺分泌更多 的汗液,皮肤阻抗变小,GSR 发生变化,同时伴随 着相关的面部表情变化,EOG 和 EMG 也随之有着 相应的反应。