相比于以往只通过文本识别用户的情绪,从用户音频中解读的情感信息更加直接和丰富,更有利于指导户交互策略、提升客户体验。
而偏主观的情绪判断导致标注任务格外困难,数据标注数量较少、标注结果存在的不一致性都是情绪识别所面临的挑战。
考虑到预训练模型的成功和语言表达细粒度的特征,奇富科技引入了一种新的multi-granularity的模型,可以有效融合多模态细粒度的表征和预训练的全局表征,来解决这极具价值而又充满挑战的任务。
该项技术已帮助奇富科技大幅度提升用户服务体验,有效应用在质检服务中,降低客户投诉率4%。
对于多模态细粒度的表征,提出multilevel transformer模型,探索不同的方式来结合音素表征和单词表征。
特别地,该方法并不需要借助外部信息来进行语音和文字的对齐,而是借鉴transformer TTS的框架,把文本和语音信息,有效地结合在一起。
为了充分发挥预训练模型的优势,奇富科技提出multi-granularity模型,直接把multilevel transformer模型和Bert有效结合,使细粒度信息和全局信息得到了充分的融合,模型效果有了更进一步的提升。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
导游讲解中用激光笔照射文物,广东海上丝绸之路博物馆:被照射展品为出土原品,激光笔为特殊挑选,对瓷器影响较小,会采纳网友建议
小贾31+9+3+3无缘今日最佳球员!因为文班亚马21+17+4+6炸裂防守
8个月前AI就知道他要杀人!ChatGPT员工争论了很久,选择沉默… 最后8个生命消失在这座小镇....
AMD没做第三方做到了!OptiScaler抢先为Vulkan游戏开启FSR 4
点头接听、摇头挂断:三星Galaxy Buds4 Pro耳机支持头部姿势控制