开云(中国)Kaiyun·官方网站-Kaiyun科技股份有限公司

当前位置: 主页 > 光研动态 > 公司新闻

一种基于多模态数据用户情绪自测系统pdf

作者:小编发布时间:2025-07-18 23:38

  本发明提供一种基于多模态数据用户情绪自测系统,包括:信息获取模块、多模态数据处理模块、数据存储模块和评估模块;信息获取模块接收用户个人信息;多模态数据处理模块中,量表自测模块向用户提供情绪测试量表并计算分数;语音检测模块向用户发送带有多种情感激发的问题,并收集答复语音;对答复语音进行VAD处理后,由预设模型提取音频特征;离线状态下,将答复语音转换为文本数据,提取文本情感特征;视频检测模块向用户发送带有多种情感激发的视频,并收集用户观看时的行为视频,由预设模型提取其中的视频特征;评估模块根据上述得

  (19)国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 116665845 A (43)申请公布日 2023.08.29 (21)申请号 2.6 (22)申请日 2023.05.17 (71)申请人 北京邮电大学 地址 100876 北京市海淀区西土城路10号 (72)发明人 李雅任一鸣高迎明李启飞 王栋 (74)专利代理机构 北京金咨知识产权代理有限 公司 11612 专利代理师 薛海波 (51)Int.Cl. G16H 20/70 (2018.01) G06V 20/40 (2022.01) G06V 40/20 (2022.01) G06V 10/774 (2022.01) G06V 10/82 (2022.01) 权利要求书2页 说明书11页 附图3页 (54)发明名称 一种基于多模态数据用户情绪自测系统 (57)摘要 本发明提供一种基于多模态数据用户情绪 自测系统,包括:信息获取模块、多模态数据处理 模块、数据存储模块和评估模块;信息获取模块 接收用户个人信息;多模态数据处理模块中,量 表自测模块向用户提供情绪测试量表并计算分 数;语音检测模块向用户发送带有多种情感激发 的问题,并收集答复语音;对答复语音进行VAD处 理后,由预设模型提取音频特征;离线状态下,将 答复语音转换为文本数据,提取文本情感特征; 视频检测模块向用户发送带有多种情感激发的 视频,并收集用户观看时的行为视频,由预设模 型提取其中的视频特征;评估模块根据上述得到 A 的特征,得到情绪分析数据及评估值。本发明的 5 系统支持远程自测,医疗成本低,检测流程标准 4 8 5 且客观。 6 6 6 1 1 N C CN 116665845 A 权利要求书 1/2 页 1.一种基于多模态数据用户情绪自测系统,其特征在于,所述系统关联至预设平台,以 应用程序的形式展现,所述系统包括: 多模态数据处理模块;所述多模态数据处理模块包括量表自测模块、语音检测模块和 视频检测模块; 所述量表自测模块响应于用户请求提供多种情绪测试表,接收所述用户反馈的情绪测 试表填报结果,并根据所述情绪测试表填报结果生成对应的自测分数; 所述语音检测模块响应于所述用户请求以文字形式提供多种带有情感激发的问题,并 接收所述用户针对所述问题反馈的答复语音;对所述答复语音进行语音端点检测处理,将 所述答复语音合并为短音频;将所述短音频输入预训练得到的音频特征提取模型中,得到 用于判断用户情感的音频特征;在离线状态下,将所述答复语音转换为文本数据,并基于预 设算法得到所述文本数据的文本情感特征; 所述视频检测模块响应于所述用户请求以视频形式提供多种带有情感激发的视频片 段,并同步采集所述用户在观看所述视频片段过程中的行为视频,所述行为视频包括用户 的表情和动作;对所述行为视频进行预处理后输入预训练得到的视频特征提取模型中,得 到用于判断用户情感的视频特征; 数据存储模块,用于存储所述自测分数、所述答复语音、所述文本数据、所述文本情感 特征、所述音频特征、所述行为视频和所述视频特征; 评估模块 ,用于根据所述自测分数、所述文本情感特征、所述音频特征和所述视频特 征,得到用户的情绪分析数据及评估值。 2.根据权利要求1所述的基于多模态数据用户情绪自测系统,其特征在于,还包括: 所述量表自测模块响应于用户请求提供多种抑郁量表,所述抑郁量表包括汉密尔顿量 表、贝克抑郁量表、患者健康问卷和自评抑郁量表;接收所述用户反馈的抑郁量表填报结 果,并根据所述抑郁量表填报结果生成对应的自测分数; 所述语音检测模块响应于所述用户请求以文字形式提供用于诊断抑郁症的多种带有 积极情感、消极情感、中性情感激发的问题,并接收所述用户针对所述问题反馈的答复语 音;对所述答复语音进行语音端点检测处理,将所述答复语音合并为短音频;将所述短音频 输入预训练得到的音频特征提取模型中,得到用于判断用户情感的音频特征;在离线状态 下,将所述答复语音转换为文本数据,并基于预设算法得到所述文本数据的文本情感特征; 所述视频检测模块响应于所述用户请求以视频形式提供用于诊断抑郁症的多种带有 积极情感、消极情感、中性情感激发的视频片段,并同步采集所述用户在观看所述视频片段 过程中的行为视频,所述行为视频包括用户的表情和动作;对所述行为视频进行预处理后 输入预训练得到的视频特征提取模型中,得到用于判断用户情感的视频特征; 评估模块 ,用于根据所述自测分数、所述文本情感特征、所述音频特征和所述视频特 征,得到用户的情绪分析数据以及患有抑郁症的概率值。 3.根据权利要求1所述的基于多模态数据用户情绪自测系统,其特征在于,所述系统还 包括信息获取模块,所述信息获取模块用于接收用户输入的个人信息,所述个人信息包括 年龄、性别、心理咨询记录。 4.根据权利要求3所述的基于多模态数据用户情绪自测系统,其特征在于,所述信息获 取模块和所述多模态数据处理模块均设有用户知情和用户授权模块。 2 2 CN 116665845 A 权利要求书 2/2 页 5.根据权利要求1所述的基于多模态数据用户情绪自测系统,其特征在于,所述语音检 测模块包括音频质检模块,所述音频质检模块用于预先录制环境音和用户语音样例,并对 其计算音频能量及信噪比,以保证后续录制的答复语音的音频质量。 6.根据权利要求5所述的基于多模态数据用户情绪自测系统,其特征在于,所述语音检 测模块与预设录音设备连接,所述预设录音设备用于记录用户在回答问题时的答复语音, 将所述答复语音上传至所述语音检测模块,并存储于所述数据存储模块。 7.根据权利要求5所述的基于多模态数据用户情绪自测系统,其特征在于,所述语音检 测模块包括语音识别模块,所述语音识别模块中设有语音识别模型,将所述答复语音输入 所述语音识别模型进行识别,并对识别结果进行数据处理和解码操作,得到所述文本数据; 对所述文本数据进行数据预处理,提取所述文本情感特征。 8.根据权利要求1所述的基于多模态数据用户情绪自测系统,其特征在于,还包括: 所述音频特征提取模型是通过采用基于多个用户的答复语音构建的音频训练样本集 对初始神经网络模型训练得到的 ,其中,将各用户对应的自测分数作为所述音频训练样本 集的标签; 所述视频特征提取模型是通过采用基于多个用户的行为视频构建的视频训练样本集 对初始神经网络模型训练得到的 ,其中,将各用户对应的自测分数作为所述视频训练样本 集的标签。 9.根据权利要求1所述的基于多模态数据用户情绪自测系统,其特征在于,所述视频检 测模块与预设摄像设备连接,所述预设摄像设备用于记录用户在观看过程中的行为视频, 将所述行为视频上传至所述视频检测模块,并存储于所述数据存储模块。 10.根据权利要求1所述的基于多模态数据用户情绪自测系统,其特征在于,所述视频 检测模块设有关键点特征提取模块,用于提取所述行为视频中的关键点,所述关键点包括 表情关键点和动作关键点,并计算所述行为视频中相邻帧之间所述关键点的运动信息,所 述运动信息包括运动方向、运动速度和运动加速度。 3 3 CN 116665845 A 说明书 1/11 页 一种基于多模态数据用户情绪自测系统 技术领域 [0001] 本发明涉及数据收集与处理技术领域,尤其涉及一种基于多模态数据用户情绪自 测系统。 背景技术 [0002] 抑郁症是一种世界范围内常见的精神疾病,主要表现为情绪低落、思维缓慢、意志 活动减弱等。抑郁症已经成为主要的健康问题之一,全球约有3亿人受到抑郁症的影响。根 据世界卫生组织(世卫组织)2021年青少年心理健康报告,全世界10~19岁的人群中,每7人 中就有1人患有精神障碍,抑郁症是这一年龄组的主要病因之一。 [0003] 抑郁症是一种典型的心理障碍,随着病情恶化,可能会导致患者发生自杀、自残等 行为。青少年正处于成长的关键时期,因此抑郁症对其而言更加危险。幸运的是,早期发现 和诊断有助于防止病情恶化,减少抑郁症造成的损害。因此,早期发现和诊断对于预防和治 疗抑郁症至关重要。 [0004] 现有技术方案包括有问卷调查、神经影像技术、生物标志物、行为和认知测试等 等。其中,问卷调查是一种广泛使用的抑郁症研究数据收集方法,使用标准化的抑郁症问卷 来评估受试者的心理状况,但存在回忆偏差和主观性等局限性。神经影像技术通过收集大 量关于抑郁症患者神经系统结构和功能的信息,以诊断抑郁症。生物标志物是一种物理或 化学指标,可以提供与抑郁症患者的生理状况相关的信息,以及可能与抑郁症发病机制有 关的生化通路的信息。行为和认知测试可以评估抑郁症患者的认知和行为功能,如反应时 间测试、工作记忆测试和认知柔性测试等测试。以上方案需要患者亲自前往医院或诊所,且 需要医生陪同完成,诊断效率低,诊断结果受医生主观因素影响,医疗成本高,无法实现远 程诊断。 发明内容 [0005] 鉴于此,本发明实施例提供了一种基于多模态数据用户情绪自测系统,以消除或 改善现有技术中存在的一个或更多个缺陷,解决现有的情绪/心理检测治疗技术方案中存 在的诊断效率低、诊断结果受医生主观因素影响、医疗成本高、无法实现远程诊断的问题。 [0006] 本发明提供一种基于多模态数据用户情绪自测系统,其特征在于,所述系统关联 至预设平台,以应用程序的形式展现,所述系统包括: [0007] 多模态数据处理模块;所述多模态数据处理模块包括量表自测模块、语音检测模 块和视频检测模块; [0008] 所述量表自测模块响应于用户请求提供多种情绪测试表,接收所述用户反馈的情 绪测试表填报结果,并根据所述情绪测试表填报结果生成对应的自测分数; [0009] 所述语音检测模块响应于所述用户请求以文字形式提供多种带有情感激发的问 题,并接收所述用户针对所述问题反馈的答复语音;对所述答复语音进行语音端点检测处 理,将所述答复语音合并为短音频;将所述短音频输入预训练得到的音频特征提取模型中, 4 4 CN 116665845 A 说明书 2/11 页 得到用于判断用户情感的音频特征;在离线状态下,将所述答复语音转换为文本数据,并基 于预设算法得到所述文本数据的文本情感特征; [0010] 所述视频检测模块响应于所述用户请求以视频形式提供多种带有情感激发的视 频片段,并同步采集所述用户在观看所述视频片段过程中的行为视频,所述行为视频包括 用户的表情和动作;对所述行为视频进行预处理后输入预训练得到的视频特征提取模型 中,得到用于判断用户情感的视频特征; [0011] 数据存储模块,用于存储所述自测分数、所述答复语音、所述文本数据、所述文本 情感特征、所述音频特征、所述行为视频和所述视频特征; [0012] 评估模块,根据所述自测分数、所述文本情感特征、所述音频特征和所述视频特 征,得到用户的情绪分析数据及评估值。 [0013] 在本发明的一些实施例中,所述系统还包括: [0014] 所述量表自测模块响应于用户请求提供多种抑郁量表,所述抑郁量表包括汉密尔 顿量表、贝克抑郁量表、患者健康问卷和自评抑郁量表;接收所述用户反馈的抑郁量表填报 结果,并根据所述抑郁量表填报结果生成对应的自测分数; [0015] 所述语音检测模块响应于所述用户请求以文字形式提供用于诊断抑郁症的多种 带有积极情感、消极情感、中性情感激发的问题,并接收所述用户针对所述问题反馈的答复 语音;对所述答复语音进行语音端点检测处理,将所述答复语音合并为短音频;将所述短音 频输入预训练得到的音频特征提取模型中,得到用于判断用户情感的音频特征;在离线状 态下,将所述答复语音转换为文本数据,并基于预设算法得到所述文本数据的文本情感特 征; [0016] 所述视频检测模块响应于所述用户请求以视频形式提供用于诊断抑郁症的多种 带有积极情感、消极情感、中性情感激发的视频片段,并同步采集所述用户在观看所述视频 片段过程中的行为视频,所述行为视频包括用户的表情和动作;对所述行为视频进行预处 理后输入预训练得到的视频特征提取模型中,得到用于判断用户情感的视频特征; [0017] 评估模块,用于根据所述自测分数、所述文本情感特征、所述音频特征和所述视频 特征,得到用户的情绪分析数据以及患有抑郁症的概率值。 [0018] 在本发明的一些实施例中,所述系统还包括信息获取模块,所述信息获取模块用 于接收用户输入的个人信息,所述个人信息包括年龄、性别、心理咨询记录。 [0019] 在本发明的一些实施例中,所述信息获取模块和所述多模态数据处理模块均设有 用户知情和用户授权模块。 [0020] 在本发明的一些实施例中,所述语音检测模块包括音频质检模块,所述音频质检 模块用于预先录制环境音和用户语音样例,并对其计算音频能量及信噪比,以保证后续录 制的答复语音的音频质量。 [0021] 在本发明的一些实施例中,所述语音检测模块与预设录音设备连接,所述预设录 音设备用于记录用户在回答问题时的答复语音,将所述答复语音上传至所述语音检测模 块,并存储于所述数据存储模块。 [0022] 在本发明的一些实施例中,所述语音检测模块包括语音识别模块,所述语音识别 模块中设有语音识别模型,将所述答复语音输入所述语音识别模型进行识别,并对识别结 果进行数据处理和解码操作,得到所述文本数据;对所述文本数据进行数据预处理,提取所 5 5 CN 116665845 A 说明书 3/11 页 述文本情感特征。 [0023] 在本发明的一些实施例中,所述系统还包括: [0024] 所述音频特征提取模型是通过采用基于多个用户的答复语音构建的音频训练样 本集对初始神经网络模型训练得到的,其中,将各用户对应的自测分数作为所述音频训练 样本集的标签; [0025] 所述视频特征提取模型是通过采用基于多个用户的行为视频构建的视频训练样 本集对初始神经网络模型训练得到的,其中,将各用户对应的自测分数作为所述视频训练 样本集的标签。 [0026] 在本发明的一些实施例中,所述视频检测模块与预设摄像设备连接,所述预设摄 像设备用于记录用户在观看过程中的行为视频,将所述行为视频上传至所述视频检测模 块,并存储于所述数据存储模块。 [0027] 在本发明的一些实施例中,所述视频检测模块设有关键点特征提取模块,用于提 取所述行为视频中的关键点,所述关键点包括表情关键点和动作关键点,并计算所述行为 视频中相邻帧之间所述关键点的运动信息,所述运动信息包括运动方向、运动速度和运动 加速度。 [0028] 本发明的有益效果至少是: [0029] 本发明提供一种基于多模态数据用户情绪自测系统,包括:以组件形式设置于预 设平台应用程序中的信息获取模块、多模态数据处理模块、数据存储模块和评估模块;信息 获取模块用于接收用户个人信息;多模态数据处理模块中,量表自测模块用于向用户提供 情绪测试量表并计算分数 ;语音检测模块用于向用户发送带有多种情感激发的问题,并收 集答复语音;对答复语音进行VAD处理后,由预设模型提取音频特征;在离线状态下,将答复 语音转换为文本数据,提取文本情感特征;视频检测模块用于向用户发送带有多种情感激 发的视频,并收集用户观看时的行为视频,由预设模型提取其中的视频特征;评估模块用于 根据上述得到的量表分数、文本情感特征、音频特征和视频特征,得到情绪分析数据及评估 值,本发明的系统可被应用于抑郁症等心理疾病的诊断中,其采用平台应用程序为载体,实 现在线的数据收集和实时处理,大大提高了数据采集和分析的效率和准确性,同时,应用程 序作为一种基于互联网的在线服务平台,可以实现医疗资源共享,实现医疗服务线上化,极 大降低医疗成本;收集以不同情感激发为前提的音频、文本和视频的多模态数据,数据全面 且质量高,为情绪/心理的诊断和评估提供重要数据支持;支持远程诊断,患者不需要亲自 前往医院,即可及时获得专业的医疗服务,降低交通成本。 [0030] 进一步的,在语音检测模块中,采用语音识别模块将答复语音转换为文本数据,并 基于自然语言处理提取文本情感特征,采用深度学习模型提取音频特征,在视频检测模块 中,采用深度学习模型提取视频特征,实现了自动化及智能化的诊断,极大提高诊断效率, 同时,诊断流程标准且客观,诊断结果不再受医生主观因素的影响,诊断准确率得到提升。 [0031] 本发明的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对 于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获 知。本发明的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获 得。 [0032] 本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体 6 6 CN 116665845 A 说明书 4/11 页 所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。 附图说明 [0033] 此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不 构成对本发明的限定。在附图中: [0034] 图1为本发明一实施例中基于多模态数据用户情绪自测系统的结构框图。 [0035] 图2为本发明一实施例中信息获取模块的流程框图。 [0036] 图3为本发明一实施例中语音检测模块的流程框图。 [0037] 图4为本发明一实施例中视频检测模块的流程框图。 [0038] 标记说明: [0039] 100:信息获取模块; 200:多模态数据处理模块; 300:数据存储模块; [0040] 400:评估模块; 500:用户知情和用户授权模块;210:量表自测模块; [0041] 220:语音检测模块; 221:预设录音设备; 222:音频质检模块; [0042] 223:语音识别模型; 230:视频检测模块; 231:预设摄像设备。 具体实施方式 [0043] 为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对 本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并 不作为对本发明的限定。 [0044] 在此,还需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅 示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大 的其他细节。 [0045] 应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并 不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。 [0046] 在此,还需要说明的是,如果没有特殊说明,术语“连接”在本文不仅可以指直接连 接,也可以表示存在中间物的间接连接。 [0047] 在下文中,将参考附图描述本发明的实施例。在附图中,相同的附图标记代表相同 或类似的部件,或者相同或类似的步骤。 [0048] 为了解决现有的情绪/心理检测治疗技术方案中存在的诊断效率低、诊断结果受 医生主观因素影响、医疗成本高、无法实现远程诊断的问题,本发明提供一种基于多模态数 据用户情绪自测系统,该系统关联至预设平台,以应用程序的形式展现,如图1所示,该系统 包括多模态数据处理模块200、数据存储模块300和评估模块400,具体的: [0049] 多模态数据处理模块200中又包括量表自测模块210、语音检测模块220和视频检 测模块230。 [0050] 其中,量表自测模块210响应于用户请求提供多种情绪测试量表,接收用户反馈的 情绪测试量表填报结果,并根据情绪测试量表填报结果生成对应的自测分数。 [0051] 语音检测模块220响应于用户请求以文字形式提供多种带有情感激发的问题,并 接收用户针对问题反馈的答复语音;对答复语音进行语音端点检测处理,将答复语音合并 为短音频;将短音频输入预训练得到的音频特征提取模型中,得到用于判断用户情感的音 7 7 CN 116665845 A 说明书 5/11 页 频特征,在离线状态下,将所述答复语音转换为文本数据,并基于预设算法得到所述文本数 据的文本情感特征。 [0052] 视频检测模块230响应于用户请求以视频形式提供多种带有情感激发的视频片 段,并同步采集用户在观看视频片段过程中的行为视频,其中,行为视频包括用户的表情和 动作;对行为视频进行预处理后输入预训练得到的视频特征提取模型中,得到用于判断用 户情感的视频特征。 [0053] 数据存储模块300用于存储用户的个人信息、自测分数、答复语音、文本数据、文本 情感特征、音频特征、行为视频和视频特征。 [0054] 评估模块400用于根据自测分数、文本情感特征、音频特征和视频特征,得到用户 的情绪分析数据及评估值。 [0055] 在一些实施例中 ,预设平台的应用程序包括微信小程序、QQ小程序、支付宝小程 序、百度智能小程序、快手小程序等,示例性的,本发明选用微信小程序。 [0056] 在一些实施例中,系统还包括信息获取模块100,信息获取模块100用于接收用户 输入的个人信息,其中,个人信息包括年龄、性别、心理咨询记录。 [0057] 在一些实施例中,基于多模态数据用户情绪自测系统可被应用于抑郁症诊断中, 形成基于多模态数据的抑郁症诊断系统,同样包括信息获取模块100、多模态数据处理模块 200、数据存储模块300和评估模块400,其中: [0058] 量表自测模块210响应于用户请求提供多种抑郁量表,示例性的,抑郁量表包括汉 密尔顿量表、贝克抑郁量表、患者健康问卷和自评抑郁量表;接收用户反馈的抑郁量表填报 结果,并根据抑郁量表填报结果生成对应的自测分数。 [0059] 语音检测模块220响应于用户请求以文字形式提供用于诊断抑郁症的多种带有积 极情感、消极情感、中性情感激发的问题,并接收用户针对问题反馈的答复语音;对答复语 音进行语音端点检测处理,将答复语音合并为短音频 ;将短音频输入预训练得到的音频特 征提取模型中,得到用于判断用户情感的音频特征;在离线状态下,将答复语音转换为文本 数据,并基于预设算法得到文本数据的文本情感特征。 [0060] 视频检测模块230响应于用户请求以视频形式提供用于诊断抑郁症的多种带有积 极情感、消极情感、中性情感激发的视频片段,并同步采集用户在观看视频片段过程中的行 为视频,示例性的,行为视频包括用户的表情和动作;对行为视频进行预处理后输入预训练 得到的视频特征提取模型中,得到用于判断用户情感的视频特征。 [0061] 评估模块400,用于根据自测分数、文本情感特征、音频特征和视频特征,得到用户 的情绪分析数据以及患有抑郁症的概率值。 [0062] 具体的,在信息获取模块100中,预先设计了信息收集表格,将信息收集表格存储 于信息获取模块100中。当用户进入系统后,会提示进入信息获取模块100中进行个人信息 的填写,其中,个人信息包括年龄、性别、近期是否参加过心理咨询等能够反应用户生理状 态或心理状态的信息。 [0063] 在一些实施例中,用户可采用选择已有选项的形式填写信息收集表格,示例性的, 信息收集表格中,年龄栏目设有年龄选项,性别设有男和女的选项,近期是否参加过心理咨 询设有是和否的选项,用户根据自身情况进行选择。 [0064] 在一些实施例中,用户可采用填空的形式填写信息收集表格,根据自身情况,利用 8 8 CN 116665845 A 说明书 6/11 页 智能终端的输入设备在表格相应位置处手动输入相应的信息。 [0065] 在一些实施例中,信息获取模块100还设有用户知情和用户授权模块500,当用户 进入信息获取模块100后,用户知情和用户授权模块500会自动弹窗至智能设备屏幕的最上 层,提示用户信息获取模块100需要获取用户的个人信息,只有用户选择同意或拒绝后,用 户知情和用户授权模块500才会关闭。当用户选择同意时,系统跳转回信息获取模块100,等 待用户输入个人信息;当用户选择拒绝时,系统跳转至系统首页,并提示用户个人信息填写 失败。 [0066] 在获取用户个人信息后,系统跳转至多模态数据处理模块200,对用户进行多模态 的数据收集与处理,为后续诊断抑郁症提供数据支持。其中,对于多模态可以理解为:语音 是一种模态,视频是一种模态,一个任务中用到两种或多种模态的输入就认为是多模态的。 [0067] 首先跳转至多模态数据处理模块200的量表自测模块210。如图2所示,量表自测模 块210中至少存储有汉密尔顿量表(HAMD)、贝克抑郁量表(BDI)、患者健康问卷(PHQ)和自评 抑郁量表(SDS)等量表。 [0068] 在一些实施例中,用户进入量表自测模块210后,可以主动选择其中的一份或者多 份进行作答。 [0069] 在一些实施例中,量表自测模块210会根据用户需要的份数,随机调取相应份数的 不同量表,以供用户进行作答。 [0070] 在一些实施例中,量表采用“问题‑选项”的形式展现,即量表包含多个问题,每个 问题下面有2~4个选项,用户根据自身情况,选择最符合的答案。 [0071] 当用户完成所有问题确认提交时,量表自测模块210根据用户的作答情况,根据标 准算法计算用户的抑郁量表分数,生成自测分数,并将自测分数存储于数据存储模块300 中,便于后续数据调用。 [0072] 完成量表自测后,系统提示用户进入语音检测模块220或视频检测模块230。需要 说明的是对于先进入语音检测模块220还是先进入视频检测模块230在本发明中不作限定, 可根据用户当时的实际情况和喜好进行选择。 [0073] 示例性的,如图3所示,用户先进入语音检测模块220。 [0074] 在一些实施例中,语音检测模块包括音频质检模块222,音频质检模块222用于预 先录制环境音和用户语音样例,并对其计算音频能量及信噪比,以保证后续录制的答复语 音的音频质量。同时,通过对音频能量和信噪比进行分析,还可以确定最佳的预设录音设备 位置和环境设置,调整相关参数,以实现更好的语音识别效果。 [0075] 语音检测模块220中存储有多个带有多种情感激发的问题,其中,多种情感至少包 括有积极、消极和中性情感。用户先进入语音检测模块220后,语音检测模块220从存储库中 随机调取一系列带有积极、消极和中性情感激发的问题,并逐一发送给用户。示例性的,问 题包括:“你最近有什么令人开心的事情发生吗?”这类带有积极情绪的问题,“你曾经经历 过让你感到失落的事情吗?”这类带有消极情绪的问题,和“今天的天气怎么样?”这类带有 中性情绪的日常线] 在一些实施例中,语音检测模块220与预设录音设备221连接,示例性的,预设录音 设备221可以是智能设备的麦克风或其他录音设备。当用户接收到语音检测模块220发送来 的问题后,对相应的问题进行回答,并利用预设录音设备221进行录音,生成答复语音。通过 9 9 CN 116665845 A 说明书 7/11 页 预设录音设备221将答复语音上传至语音检测模块220,并存储于数据存储模块300。 [0077] 语音检测模块220对接收到的答复语音做进一步的处理与分析。 [0078] 对质量合格的答复语音进行语音端点检测处理 (Voice Activity Detection , VAD) ,将静音部分删除 ,将答复语音中说话部分的音频合并为一段短音频。其中,语音端点 检测是一种处理语音信号的技术,用于识别输入语音信号中的活动部分和非活动部分。 [0079] 研究表明,抑郁症患者的语音特征与健康人的语音特征有所不同。例如,抑郁症患 者的语速更慢、音调更低、语调变化更小等。因此将语音端点检测处理后的短音频输入预训 练得到的音频特征提取模型中,得到用户的音频特征,通过对用户音频特征进行分析,可以 判断用户患有抑郁症的可能性,示例性的,音频特征包括用户声音强度、频率、谱特性等。 [0080] 在一些实施例中,将语音端点检测处理后的短音频分割成多个连续的音频片段后 再进行特征提取。 [0081] 在一些实施例中,音频特征提取模型是通过采用基于多个用户的答复语音构建的 音频训练样本集对初始神经网络模型训练得到的,具体包括以下步骤: [0082] 获取多个用户的音频质量合格、且经语音端点检测处理后的短音频,将短音频分 割成多个连续的音频片段,以构建音频训练样本集,即每个样本包含一段音频片段,根据各 用户在量表自测模块210中获取的自测分数为每个样本添加标签;其中,标签可以直接采用 自测分数,也可以根据自测分数划分具体的标签,以抑郁诊断量表为例,贝克抑郁量表 (BDI)的划分规则为:0~13分为无抑郁症状、14~19分为轻度抑郁、20~28分为中度抑郁、 29~63分为重度抑郁;患者健康问卷 (PHQ)的划分规则为:0~4分为无抑郁症状、5~9分为 轻度抑郁、10~14分为中度抑郁、15~19分为中重度抑郁、20~27分为重度抑郁。 [0083] 获取初始神经网络模型,所述初始神经网络模型可以选用卷积神经网络 (Convolutional Neural Networks ,CNN)、循环神经网络 (Recurrent Neural Network , RNN)等;将样本按批或逐一输入初始神经网络模型中,得到每个样本对应的音频特征; [0084] 采用音频训练样本集对初始神经网络模型进行训练,直至满足预设模型性能要 求,最终得到音频特征提取模型。 [0085] 在一些实施例中,对语音端点检测处理后的短音频直接采用特征提取算法,提取 音频特征,示例性的 ,特征提取算法可以采用短时傅里叶变换 (Short‑time  Fourier  Transform,STFT)、梅尔频率倒谱系数(Mel‑Frequency Cepstral Coefficients,MFCC)等。 [0086] 在一些实施例中,语音检测模块220还包括语音识别模型223,语音识别模型223中 设有语音识别模型,其中,语音识别模型可以使用已经训练好的预训练模型,也可以进行自 定义训练,根据需要进行模型部署和加载。将答复语音输入语音识别模型进行识别,对识别 结果进行数据处理和解码操作,得到相应的文本数据,并将文本数据存储于数据存储模块 300中。需要说明的是,语音识别模型223在离线状态下进行处理,预先将答复语音下载至智 能设备,以实现离线转录。离线转录可以在没有网络连接的情况下进行转换,并且可以更好 地保证数据的隐私和安全。 [0087] 在一些实施例中,语音检测模块220还包括用户知情和用户授权模块500。当用户 进入语音检测模块220后,用户知情和用户授权模块500会自动弹窗至智能设备屏幕的最上 层,提示用户语音检测模块220需要获取用户的录音权限以及音频信息,只有用户选择同意 或拒绝后,用户知情和用户授权模块500才会关闭。当用户选择同意时,系统跳转回语音检 10 10 CN 116665845 A 说明书 8/11 页 测模块220,等待用户进行语音回答问题;当用户选择拒绝时,系统跳转至系统首页,并提示 用户音频信息获取失败。 [0088] 完成语音数据的收集和处理后,系统提示用户进入视频检测模块230。若用户先进 入视频检测模块230,则相应的,完成视频数据的收集和处理后,系统提示用户进入语音检 测模块220。 [0089] 如图4所示,视频检测模块230中存储有多个带有多种情感激发的视频片段,其中, 多种情感至少包括有积极、消极和中性情感。用户进入视频检测模块230后,视频检测模块 230从存储库中随机调取一系列带有积极、消极和中性情感激发的视频片段,并发送给用 户。示例性的,视频片段包括:美景风光、音乐和阳光海滩等能够带给人愉悦和放松感的视 频片段;落寞、忧伤和紧张等能够带给人消极情绪的视频片段;上班、做家务、吃饭等普通的 日常场景下带有中性情绪的视频片段。 [0090] 在一些实施例中,视频检测模块230与预设摄像设备231连接,示例性的预设摄像 设备231可以是智能设备的摄像头或其他录像设备。当用户接收到视频检测模块230发送来 的视频片段后,逐一观看各视频片段,并利用预设摄像设备231进行录像,生成行为视频。其 中,行为视频包括用户的表情和动作,具体的,如用户的面部表情、眼神、头部姿势等。通过 预设摄像设备231将行为视频上传至视频检测模块230,并存储于数据存储模块300。 [0091] 视频检测模块230对接收到的行为视频做进一步的处理与分析。 [0092] 在一些实施例中,将行为视频分割成多个连续的视频片段,以便于后续的特征提 取。 [0093] 在一些实施例中,视频检测模块230设有关键点特征提取模块,用于提取行为视频 中的关键点,其中,关键点至少包括表情关键点和动作关键点,并计算行为视频中相邻帧之 间用户的运动信息,以提取更多用户行为特征。其中,运动信息包括运动方向、运动速度和 运动加速度等。 [0094] 研究表明,抑郁症患者的非语言行为也与健康人的行为有所不同。例如,抑郁症患 者可能会表现出面部表情不自然、动作缓慢、眼神呆滞等非语言行为特征。因此,将行为视 频输入预训练得到的视频特征提取模型中,得到用户的视频特征,通过对用户视频特征的 分析,可以判断用户患有抑郁症的可能性。 [0095] 在一些实施例中,视频特征提取模型是通过采用基于多个用户的行为视频构建的 视频训练样本集对初始神经网络模型训练得到的,具体包括以下步骤: [0096] 获取多个用户的行为视频,将行为视频分割成多个连续的视频片段,以构建视频 训练样本集,即每个样本包含一段视频片段,根据各用户在量表自测模块210中获取的自测 分数为每个样本添加标签;其中,标签可以直接采用自测分数,也可以根据自测分数划分具 体的标签,以抑郁诊断量表为例,贝克抑郁量表 (BDI)的划分规则为 :0~13分为无抑郁症 状、14~19分为轻度抑郁、20~28分为中度抑郁、29~63分为重度抑郁;患者健康问卷(PHQ) 的划分规则为:0~4分为无抑郁症状、5~9分为轻度抑郁、10~14分为中度抑郁、15~19分 为中重度抑郁、20~27分为重度抑郁。 [0097] 获取初始神经网络模型,所述初始神经网络模型可以选用卷积神经网络 (Convolutional Neural Networks ,CNN)、循环神经网络 (Recurrent Neural Network , RNN)等;将样本按批或逐一输入初始神经网络模型中,得到每个样本对应的视频特征; 11 11 CN 116665845 A 说明书 9/11 页 [0098] 采用视频训练样本集对初始神经网络模型进行训练,直至满足预设模型性能要 求,最终得到视频特征提取模型。 [0099] 在一些实施例中,视频检测模块230还包括用户知情和用户授权模块500。当用户 进入视频检测模块230后,用户知情和用户授权模块500会自动弹窗至智能设备屏幕的最上 层,提示用户视频检测模块230需要获取用户的录像权限以及视频信息,只有用户选择同意 或拒绝后,用户知情和用户授权模块500才会关闭。当用户选择同意时,系统跳转回视频检 测模块230,等待用户进行录像;当用户选择拒绝时,系统跳转至系统首页,并提示用户视频 信息获取失败。 [0100] 数据存储模块300用于存储用户的个人信息、自测分数、答复语音、文本数据、文本 情感特征、音频特征、行为视频和视频特征,以便调用。 [0101] 在一些实施例中,数据存储模块300仅存储用户最近一年内或最近20次的抑郁症 诊断的数据,自动清除过期数据与无用数据。需要说明的是,“一年”和“20次”在本发明中仅 是举例说明,可根据实际情况进行修改。 [0102] 评估模块400从数据存储模块300中调取数据,即自测分数、文本情感特征、音频特 征和视频特征,按照预设算法,根据自测分数、文本情感特征、音频特征和视频特征,得到用 户的情绪分析数据以及患有抑郁症的概率值。 [0103] 在一些实施例中,按照预设算法,自测分数、文本情感特征、音频特征和视频特征 每个数据都会得到一个对应的抑郁症的概率值,为每个数据设置比重;每个数据的概率值 按照比重综合计算,最终得到的用户患有抑郁症的概率值。 [0104] 在一些实施例中,评估模块400还包括业务推荐模块410,业务推荐模块410中设有 在线咨询窗口,用于在诊断之后,根据用户的病情为其推荐合适的医院或诊所,使得用户能 够及时寻求心理治疗;科普抑郁症调节方法,如规律生活方式、减轻压力、深呼吸和冥想、寻 求家人朋友的帮助等。 [0105] 下面结合一具体实施例,对该系统做进一步说明,在该具体实施例下,基于多模态 数据用户情绪自测系统设置于微信小程序中,用户A想要自我检测情绪状态,是否患有抑郁 症: [0106] 用户A在智能设备的微信小程序中打开并进入基于多模态数据用户情绪自测系 统。 [0107] 根据系统提示,进入信息获取模块中,随即自动弹窗提示用户A授权系统获取个人 信息,用户A选择同意后,在信息获取模块预设的信息收集表格中填写个人信息,完成后选 择提交。 [0108] 根据系统提示,进入量表自测模块,用户A选择其中的汉密尔顿量表进行作答,完 成作答后选择提交,随即量表自测模块生成用户A的量表分数。 [0109] 根据系统提示,进入语音检测模块,随即自动弹窗提示用户A授权系统获取录音权 限以及音频信息,用户A选择同意后,接收语音检测模块发送的两组分别带有积极、消极和 中性情感激发的问题,对相应的问题进行语音回答,并将答复语音用智能设备的麦克风录 制下来,上传至语音检测模块。语音检测模块对答复语音进行质量检测,在合格的情况下, 对答复语音进行处理,生成音频特征,提示用户音频数据已收集完成。将答复语音下载至智 能设备本地,在离线状态下提取文本情感特征。 12 12 CN 116665845 A 说明书 10/11 页 [0110] 根据系统提示,进入视频检测模块,随即自动弹窗提示用户A授权系统获取录像权 限以及视频信息,用户A选择同意后,接收视频检测模块发送的两组分别带有积极、消极和 中性情感激发的视频片段,用户A逐一观看视频片段,并用智能设备的摄像头记录观看过程 中的行为视频,上传至视频检测模块。视频检测模块对行为视频进行处理,生成视频特征, 提示用户视频数据已收集完成。 [0111] 系统自动跳转至评估模块,显示用户A患有抑郁症的概率值,并对用户A的情绪状 态进行分析。 [0112] 综上所述,本发明提供一种基于多模态数据用户情绪自测系统,包括:以组件形式 设置于预设平台应用程序中的信息获取模块、多模态数据处理模块、数据存储模块和评估 模块;信息获取模块用于接收用户个人信息;多模态数据处理模块中,量表自测模块用于向 用户提供情绪测试量表并计算分数;语音检测模块用于向用户发送带有多种情感激发的问 题,并收集答复语音;对答复语音进行VAD处理后,由预设模型提取音频特征;在离线状态 下,将答复语音转换为文本数据,提取文本情感特征;视频检测模块用于向用户发送带有多 种情感激发的视频,并收集用户观看时的行为视频,由预设模型提取其中的视频特征;评估 模块用于根据上述得到的量表分数、文本情感特征、音频特征和视频特征,得到情绪分析数 据及评估值,本发明的系统可被应用于抑郁症等心理疾病的诊断中,其采用平台应用程序 为载体,实现在线的数据收集和实时处理,大大提高了数据采集和分析的效率和准确性,同 时,应用程序作为一种基于互联网的在线服务平台,可以实现医疗资源共享,实现医疗服务 线上化,极大降低医疗成本 ;收集以不同情感激发为前提的音频、文本和视频的多模态数 据,数据全面且质量高,为情绪/心理的诊断和评估提供重要数据支持;支持远程诊断,患者 不需要亲自前往医院,即可及时获得专业的医疗服务,降低交通成本。 [0113] 进一步的,在语音检测模块中,采用语音识别模块将答复语音转换为文本数据,并 基于自然语言处理提取文本情感特征,采用深度学习模型提取音频特征,在视频检测模块 中,采用深度学习模型提取视频特征,实现了自动化及智能化的诊断,极大提高诊断效率, 同时,诊断流程标准且客观,诊断结果不再受医生主观因素的影响,诊断准确率得到提升。 [0114] 本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例 性的组成部分、系统和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还 是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每 个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的 范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插 件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代 码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传 输介质或者通信链路上传送。 [0115] 需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。 为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具 体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的 技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺 序。 [0116] 本发明中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实 13 13 CN 116665845 A 说明书 11/11 页 施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他 实施方式的特征。 [0117] 以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人 员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何 修改、等同替换、改进等,均应包含在本发明的保护范围之内。 14 14 CN 116665845 A 说明书附图 1/3 页 图1 图2 15 15 CN 116665845 A 说明书附图 2/3 页 图3 16 16 CN 116665845 A 说明书附图 3/3 页 图4 17 17

  2、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问加。

  3、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。

  4、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

  用于制备高性能二氧化碳分离混合基质膜的聚乙烯基胺改性希夫碱框架材料的制备方法.pdf

  kaiyun注册流程

  kaiyun注册流程

  原创力文档创建于2008年,本站为文档C2C交易模式,即用户上传的文档直接分享给其他用户(可下载、阅读),本站只是中间服务平台,本站所有文档下载所得的收益归上传人所有。原创力文档是网络服务平台方,若您的权利被侵害,请发链接和相关诉求至 电线) ,上传者

Copyright © 2025 Kaiyun科技股份有限公司 版权所有   浙ICP备11013208号-1

开云网站 - 情绪化智能照明算法应用专家