开云(中国)Kaiyun·官方网站-Kaiyun科技股份有限公司

当前位置: 主页 > 光研动态 > 公司新闻

多模态情感识别的原理、方法与典型应用pdf

作者:小编发布时间:2025-07-20 10:24

  《多模态情感识别的原理、方法与典型应用.pdf》由会员分享,可在线阅读,更多相关《多模态情感识别的原理、方法与典型应用.pdf(90页珍藏版)》请在三个皮匠报告上搜索。

  1、多模态情感识别的原理、方法与典型应用汇报人:赵思成2023年6月YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP20242汇报提纲多模态学习-研究历程与典型工作多模态情感识别-研究背景与基本原理课题组相关进展-综述、单模态、多模态情感识别典型应用-舆情分析、商业智能、医疗健康、个人娱乐等未来研究方向-大模型时代的多模态情感识别等YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP20243汇报提纲多模态学习-研究历程与典型工作多模态情感识别-研究背景与基本原理课题组相

  6、l machine learning:Asurvey and taxonomy.IEEE TPAMI,2019.模型相关的融合 基于多核学习的融合 基于图模型的融合 基于神经网络的融合YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP20249挑战问题和研究内容 多模态学习:对齐(Alignment)研究如何在多个模态中寻找并确定不同模态内子元素的直接对应关系。显式对齐方法:以对齐为优化目标,核心问题是定义和计算相似性 无监督多模态对齐:以预设的序列关系或相似性作为约束条件(动态时间规整、典型相关分析)监督/弱监督多模态对齐:以全

  7、部/部分子元素对作为监督信号隐式对齐方法:对齐作为下游任务的中间步骤出现 基于图模型的多模态对齐:需手工设计子元素对齐模式 基于神经网络的多模态对齐:一般基于注意力机制实现对齐,并为特征向量加权挑战与机遇 很少有足够规模的成熟数据集详细标注了子元素对齐关系 实际上子元素的对齐关系不一定是一对一的,可能存在一对或一对多的情况T.Baltrusaitis,C.Ahuja,L.-P.Morency.Multimodal machine learning:Asurvey and taxonomy.IEEE TPAMI,2019.YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP

  9、LP2024YSSNLP202411挑战问题和研究内容 多模态学习:协同学习(Co-learning)研究如何从一个资源丰富的模态及其表示和预测模型向另一个资源匮乏的模态迁移知识。并行式协同学习:源域和目标域可直接映射 协同训练:通过少量共存标签学习生成更多 迁移学习非并行协同学习:不可直接映射 迁移学习 概念限定 零样本学习混合式协同学习:存在中间模态T.Baltrusaitis,C.Ahuja,L.-P.Morency.Multimodal machine learning:Asurvey and taxonomy.IEEE TPAMI,2019.数据噪声数据噪声标签缺失或不可靠标签缺失或

  19、p intelligence emerge?群体智能是如何出现的?问题不是智能机器是否有情感,而是没有情感的机器能否智能。解决问题论要结合情感的影响。情感的识别和表达对于信息的交流和理解是必需的,也是人类最大的心理需求之一。YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024多模态情感识别-研究背景国际前沿研究美国工程院院士、IEEE Fellow、麻省理工学院Rosalind Picard教授美国工程院院士、ACM/AAAS Fellow、斯坦福大学李飞飞教授美国工程院院士、英国皇家工程院院士、ACM/IEEE Fello

  20、w、微软原全球执行副总裁、香港科技大学校董会主席沈向阳教授22下一步人工智能的发展,需要加强对情感、情绪的了解。情绪、情感,是人工智能未来的方向。什么是智能?我认为,智能不光是 IQ,更重要的还要有情感。情感在一系列智能活动中都起到核心作用:包括感知、决策、逻辑推理、社交、行动选择、言语措辞。YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024多模态情感识别-研究背景国际前沿研究-英国国家科研与创新署50项新兴技术人工智能、数字和计算(8):情绪和表情识别人工智能,开发能够识别和解释人类情感的人工智能技术;通用人工智能(AG

  21、I),开发像人类一样学习智力任务的人工智能;先进材料与制造(4)电子学、光子学和量子技术(8)能源与环境(8)生物技术(7)健康与医疗技术(9)机器人与空间技术(6)23YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024多模态情感识别-研究背景国家重大需求科技创新203016个重大项目24 航空发动机及燃气轮机 深海空间站 量子通信与量子计算机 脑科学与类脑研究 国家网络空间安全 深空探测及空间飞行器在轨服务与维护系统 种业自主创新 煤炭清洁高效利用 智能电网 天地一体化信息网络 大数据 智能制造和机器人 重点新材料研发及

  22、应用 京津翼环境综合治理 健康保障 新一代人工智能新一代人工智能发展规划 开发面向老年人的移动社交和服务平台、情感陪护助手,提升老年人生活质量。针对改善人际沟通障碍的需求,开发具有情感交互功能、能准确理解人的需求的智能助理产品,实现情感交流和需求满足的良性循环。YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024多模态情感识别-研究背景国家重大需求国家新一代人工智能标准体系建设指南25中国电子学会发布新一代人工智能领域十大最具成长性技术展望 情感智能。是指利用人工智能手段模拟表情、语气、情感等类人化情绪响应,以打造具有情绪属

  23、性的虚拟形象的技术。该技术可赋予机器设备更好的对人类情感的识别、理解和引导能力,为用户带来更具效率和人性化的交互体验,未来将在智能机器人、智能虚拟助手等领域得到更为频繁和深入的应用。情感分析是自然语言处理领域的重点建设标注,强调了情感分析的重要性。表情识别、情感交互是人机交互领域的重点建设标准,明确了表情识别、情感交互在人机交互中的重要性。YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024多模态情感识别-情感模态26人脸表情语音动作姿势生理信号情感计算多模态数据-显性情感线索人脸表情:一个或多个人脸区域/单元的孤立运动或运

  24、动组合眼球运动:眼睛是心灵的窗户语言语音:说话者通过使用不同文字、语调、声音大小和节奏来表达他们的意图行为:将紧握的拳头推到空中,通常被视作表达胜利或欣喜的姿势步态:与悲伤和满足等低激活度情感相比,愤怒和兴奋等高激活度情感与快速运动更相关脑电心电体温脉搏YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024多模态情感识别-情感模态情感计算多模态数据-隐形情感刺激文本音频:与语音不同的是,音频范围更广,包括任何声音,如音乐或鸟鸣。图像视频:天然包含多种模态,如视觉信息、音频和文本信息。27视频What an exciting d

  25、ay!I willnever forget it.图像文本非受限于人脸表情、实验室环境、采集设备、作者或采集者、合成或真实数据、视角和尺度等条件,即开放环境面临的挑战YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024多模态情感识别-数据构建数据搜集从数据源甚至成熟数据集中挑选重新在特定环境中采集情感标注采集数据时预定目标情感 例如在 EMODB中,演员表演的每一句话都对应着一个预定的情感。采集数据后由专人标注 雇佣工人来标注情感,大部分数据集的标签由多数投票规则获得。与其他主观属性类似,情感标注极富挑战28YSSNLP20

  26、24YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024多模态情感识别-情感定义29二维情感模型情绪轮模型心理学对情感没有统一、严格的定义,多采用定性的分析方法。情感类别越来越多样化和细粒度。心理学情感模型离散情感状态:Ekman六类(高兴、悲伤、恐惧、厌恶、愤怒、惊讶)连续情感空间:二维情感模型(愉悦度(Valence)和激活度(Arousal)三维情感模型YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024多模态情感识别-情感定义30心理学情感模型 离散情感类别(CES)

  27、:便于用户理解和标注,但描述能力有限 连续情感空间(DES):描述能力强,但不易于理解YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024多模态情感识别-计算任务31情感分类假设一个实例属于一种(SLL)或多种(MLL、LDL)情感类别目标是发现数据空间中的类别边界或类别分布情感回归是学习一个能有效地将实例与笛卡尔空间中的连续情感值联系起来的映射函数情感检测原始数据不一定携带情感,或者只有部分片段数据携带情感,情感检测任务找出源数据的具体哪部分存在何种情感。情感检索根据人类的感知来搜索情感内容YSSNLP2024YSSNLP

  28、2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024多模态情感识别-优势数据互补性来自不同模态的线索可以相互增强或补充。例如,如果我们看到一个好朋友的帖子:”今天天气真好!”,那么这个朋友很有可能是在表达一种积极情感;但是如果还配有一张暴风雨的图片,我们就能推断出这段文字实际上是一种反讽,在表达一种消极情感。32今天天气真好!I was moved to tears.NegativePositiveWeakly PositivePositiveNegative单模态情感 多模态情感单模态情感 多模态情感Justin Sullivan/Getty Image

  29、sYSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024多模态情感识别-优势模型鲁棒性数据采集过程可能受突发因素的影响,如传感器设备故障,造成一些数据模态无法使用,这在非实验室场景尤其普遍。例如,在包含语音、人脸表情和手势模态的CALLAS数据集中,某些暂时静止的用户会缺失手势流。在这种情况下,学到的多模态模型仍然可以在其他可用模态的帮助下工作。性能优越性联合考虑不同模态的互补信息能带来更好的识别性能。与最优单模态相比,多模态情感识别平均获得9.83%的性能提升。33S.K.Dmello and J.Kory.Areview

  31、能某些情感类别有足够的训练数据,其他情感类别却没有(在情感类别多样化细粒度的情况下更是如此)。一种替代人工标注的解决方案是利用社交推文的标签或关键词作为情感标签,但这种标签是不完整的、有噪声的。34YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024多模态情感识别-挑战模态失衡不同的模态可能对诱发情感有不同程度的贡献。如一篇在线新闻可能文字长度很长,包含很多详细信息,但只有一两张插图。模态不一致更大的潜在问题是,新闻编辑可能会为情感明显的文章选择中性的插图。又如人脸表情和语言很容易被抑制或隐藏以逃避检测,但由中枢神经系统控制

  32、的 EEG 信号可以反映人类无意识的身体变化。35YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024多模态情感识别-挑战情感鸿沟衡量所提取的特征和感知到的高级情感间的不一致性。情感鸿沟比那些客观的多媒体分析任务存在的语义鸿沟更有挑战性。即使语义鸿沟已经被解决,情感鸿沟可能仍然存在。例如,盛开的玫瑰和凋谢的玫瑰都包含玫瑰,但却能唤起不同的情感;对于同一个句子,不同的语音语调可能对应完全不同的情感,如应对劝慰的“好吧”。提取具有区分性的高级特征,特别是与情感有关的特征,可以帮助弥补情感上的差距。36YSSNLP2024YSSN

  35、之间,并且变化只是在几个动作单元中且幅度很小。YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024多模态情感识别-计算框架目标领域训练数据充分情况下的有监督训练表示学习:手工设计的和基于学习的特征特征融合:无模型融合(特征级、决策级、混合)和基于模型的融合(基于核的、基于神经网络的)分类器优化:实现从特征到情感的有效映射39YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024多模态情感识别-计算框架目标领域无标注、源域有标注情况下的跨域迁移数据级对齐、自监

  50、与心理健康 情感与机器人、AI智能体、自动驾驶机车、动画与游戏 情感与信息系统 情感与工业安全 情感与教育情感社会-道德:泛化性、安全、伦理、度量标准等情感建模的技术障碍 基础计算机视觉方法(预训练等)基础统计建模与学习方法 基础AI方法 人工统计/群组差异 解耦性格、功能、情感和风格 情感空间划分 情感识别基准情感识别:想法与系统 相关研究快速增长 诱发情感建模 人脸表情与微表情识别 身体表达情感理解 多种视觉输入的模型集成 多模态建模 框架 代表性与最新方法 实验结果与分析J.Z.Wang,S.Zhao et al.Unlocking the Emotional World of Visu

  83、-研究背景与基本原理课题组相关进展-综述、单模态、多模态情感识别典型应用-舆情分析、商业智能、医疗健康、个人娱乐等未来研究方向-大模型时代的多模态情感识别等YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024典型应用观点挖掘和舆情分析许多人倾向于在社交网络上发布文字、图片和视频来表达他们日常生活中的感受。受此启发,我们可以挖掘人们对现实中的话题和事件的观点和情感。例如,可以用 Facebook 或 Instagram 中用户发布的内容来推测不同国家和地区的人们在面对 COVID-19 等流行病时的态度。研究人员还试图检测社交

  84、网络中的情感,将结果用于政治选举的预测。值得注意的是,我们可以进一步将检测到个体的个性化情感分组,这或许有助于预测社会的倾向。80YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024典型应用商业智能市场营销和消费者行为分析:现在大多数服装电子零售商使用人体模型(或模特)来展示产品。模特的表情和形体姿态对消费者行为有显著影响。研究人员还基于刺激-机体-反应框架研究了在线商店的专业化如何影响消费者的愉悦和唤醒程度。情感识别也可以用于客服中心,目的是检测呼叫者和接线员的情绪状态。该系统通过语调、节奏、相应对话转换所得的文本来识别涉

  85、及到的情感,进而可以得到关于服务质量的反馈。81YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024典型应用医疗健康如果观察到某用户持续地分享负面信息(如悲伤),就有必要跟踪她/他的精神状态,以防止心理疾病甚至自杀行为的发生。用来监测和预测各类人的疲劳状态,如司机、飞行员、装配线上的工人和教室里的学生。这种技术既能防止危险情况的发生,又有利于工作/学习效率的评估。情感状态还可以被纳入各种安全应用中,如作为公共场所(如公共汽车/火车/地铁站、足球场)潜在攻击行为的监测系统。辅助儿童自闭症谱系障碍(ASD)的诊断和治疗,对被认为

  86、是早期筛查自闭症重要指标的人脸表情和视线 YSSNLP2024YSSNLP2024YSSNLP2024典型应用个人娱乐最近一项脑电波-音乐界面的工作将脑电图特征映射到音乐结构(音符、强度和音高)。同样,人们也在努力了解不同模态间以情感为中心的关联,这对各种应用是至关重要的。情感图像-音乐匹配提供了一个很好的机会,它将一系列音乐附加到一幅可能唤起相同情感的图像上。这有助于从移动设备上的个人相册中生成能感知情感的音乐播放列表。83YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNL

  87、P2024YSSNLP202484汇报提纲多模态学习-研究历程与典型工作多模态情感识别-研究背景与基本原理课题组相关进展-综述、单模态、多模态情感识别典型应用-舆情分析、商业智能、医疗健康、个人娱乐等未来研究方向-大模型时代的多模态情感识别等YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024未来研究方向85新的方法论上下文和先验知识建模上下文信息,如会话和社会环境,会明显影响用户的情感体验。用户的先验知识,如个性和年龄,也与情感感知相关。从未标记的、不可靠的、不匹配的情感信号中学习探索先进的机器学习技术,如无监督表示学习、

  kaiyun用户评价

  88、动态数据选择和平衡、领域自适应、嵌入情感的特殊属性可解释的、鲁棒的、安全的深度学习显性和隐性信号的结合YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024未来研究方向86更实用的设置自然场景多模态情感识别边缘设备部署多模态情感识别算法群组情感识别多模态情感生成其他实际问题将多模态情感识别算法部署于真实场景中,产生社会与经济效益可穿戴的、简单的、准确的情感数据收集安全性、隐私性、伦理性和公平性YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024未来研究方向8

  kaiyun用户评价

  90、征表征融合与学习融合与学习实用设置挑挑战战方方法法应应用用方方向向新方法论新方法论实际问题舆情商业健康娱乐综述研究、单模态情感识别、多模态情感识别综述研究、单模态情感识别、多模态情感识别数据缺失数据缺失、标签缺失和标签缺失和噪声噪声、模态失衡模态失衡、模态模态冲突冲突情感鸿沟情感鸿沟、情感主观性情感主观性、情感复杂性情感复杂性、情感模糊情感模糊性性、情感微妙性情感微妙性YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024推荐材料89情感计算综述专刊IEEE Signal Processing Magazine38(6),20

  李宇明-EchoMimic_多模态大模型驱动下的生成式数字人技术与应用.pdf

  CreateAI:2025多模态生成技术在动画制作领域的应用与发展白皮书(24页).pdf

  英伟达(NVIDIA):2025多模态与多智能体在硬件设计中的应用研究报告(英文版)(38页).pdf

Copyright © 2025 Kaiyun科技股份有限公司 版权所有   浙ICP备11013208号-1

开云网站 - 情绪化智能照明算法应用专家