本文主要参考了论文《Deep Facial Expression Recognition: A Survey》。
论文链接:/abs/1804.08…
本文[1]是北邮邓伟宏教授关于深度面部表情识别(DFER)(情绪识别)的综述文章,被计算机视觉顶级会议CVPR收录。 对于像我这样对情感识别感兴趣但没有做过具体应用的小白来说,学习这篇文章再合适不过了。
介绍
表情符号可以说是世界语,不分国界、种族和性别,可以说每个人都有共同的表达方式。 FEP广泛应用于机器人、医疗、驾驶员疲劳检测和人机交互系统。 早在20世纪,埃克曼和弗里森就通过跨文化研究定义了六种基本表达方式:愤怒、恐惧、厌恶、快乐、悲伤和惊讶表情包设计,其次是“蔑视”表达。 开创性的工作和直观的定义使得该模型在自动面部表情分析(AFEA)中仍然很受欢迎。
根据特征表示,FER系统可以分为两类:图像FER和视频FER。 图片FER只提取当前图片的特征,而视频需要考虑相邻帧之间的关系。 事实上,所有计算机视觉任务的处理对象都可以分为两类:图片和视频。
FER的传统方法采用手动提取特征和浅层学习,该方法的缺点不再赘述。 得益于深度学习的发展以及更具挑战性的数据集FER2013的出现,越来越多的研究人员将深度学习技术应用于FER。
深度面部表情识别
本节讨论深度学习应用于面部表情识别的三个步骤。 它们是预处理、特征提取和特征分类。 简要描述了每个步骤的具体方法,并引用了相关论文。
预处理
面部对齐
给定一个数据集,第一步是删除背景和与人脸无关的非人脸区域。 ViolaJones(V&J)人脸检测器[2](均在OpenCV和Matlab中实现),这个检测器可以裁剪原始图像以获得人脸区域,第二步是人脸对齐,这一步非常重要,因为它可以减少影响面部比例变化和旋转。 最常用的面部对齐实现是 IntraFace[3]。 IntraFace使用SDM算法定位49个面部特征点(两只眼睛、两根眉毛、鼻子和嘴巴)
数据增强
数据增强包括在线和离线方法:
人脸归一化
面部光照和头部姿势的变化会削弱训练模型的性能。 有两种人脸归一化策略可以减弱影响,即亮度归一化和姿态归一化。
深度特征学习
这部分主要讲利用深度学习模型来提取特征,包括卷积神经网络(Convolutional Neural Network,CNN)、深度置信网络(Deep Belief Network,DBN)、深度自动编码器(Deep Autoencoder,DAN)和循环神经网络网络(循环神经网络,RNN)。 深度面部表情识别的流程如下。 从下图可以看出,深度网络模型部分常用的模型有四种。 作者只是简单介绍了几种网络模型,这里不再赘述。 CNN模型在我之前的博文中详细介绍了卷积神经网络的结构和相关算法以及卷积神经网络模型的解读——LeNet5、AlexNet、ZFNet、VGG16、GoogLeNet和ResNet。 其余的网络模型后续会一一整理。
面部表情分类
特征提取完成后,最后一步就是分类。 在传统的FER系统中,特征提取和特征分类是独立的。 深度学习的FER是一个端到端的模型,可以在网络末端添加损失层来调整反向传播的误差,并且可以直接由网络输出预测概率。 也可以将两者结合起来,即用深度学习提取特征,然后用SVM等分类器进行分类。
面部表情数据库
本节总结了可用于 FER 的公开数据集。
FER目前的发展水平
总结了基于静态图像和运动图像序列(视频)的FER的进展。
静态图像 FER 进度
对于每个数据集,下表显示了当前最先进的方法在该数据集上的性能。
预训练和微调
直接在相对较小的数据集上训练深度网络很容易导致过度拟合。 为了缓解这个问题,许多研究在大数据集上对网络进行预训练,或者对已经训练好的网络进行微调。
如上图所示,首先在ImageNet数据集上进行训练微信表情包最大分辨率,然后在特定的面部表情数据集上进行微调。 微调效果更佳。 面部表情识别的微调方法有多种,例如分级、固定某些Zeng、针对不同网络层使用不同数据集进行微调等。 详细内容请参见原文引用的论文。 此外,文献[6]指出FR和FER数据集之间存在巨大差异。 人脸模型似乎削弱了面部表情的差异,FaceNet2ExpNet网络被提出来消除这种影响。 该模型分为两个阶段。 首先利用人脸识别模型提取特征,然后利用表情识别网络消除人脸识别模型带来的情感差异弱化。 如下所示。
多样化的网络输入
传统的方法是使用原始RGB图像作为网络的输入。 然而,原始数据缺乏重要信息,例如纹理信息以及图像缩放、旋转、遮挡和光照的不变性。 因此,可以使用一些手工设计的功能。 如SIFT、LBP、MBP、AGE和NCDV等。PCA可以切出面部特征来进行特征学习,而不是整个面部。
辅助块和图层的改进
一些研究基于经典的CNN架构,设计了很好的辅助模块或改进了网络层。 本文的这一部分有几个例子。 如果你有兴趣,可以找到相关论文并阅读。 值得注意的是,Softmax在表情识别领域的表现并不理想。 这是由于表达的阶级间歧视程度较低。 作者整理了对于表情分类层的几处改进。
网络整合
先前的研究表明,多个网络的集合可以比单个网络表现得更好。 集成网络时,应考虑两点:
关于第一点,产生网络多样性的方法有很多。 不同的训练数据、不同的预处理方法、不同的网络模型、不同的参数可以产生不同的网络。
关于第二种积分算法。 这里面主要有两点,一是特征融合,二是输出决策融合。特征融合最常见的方法就是直接链接不同网络模型的特征,如下图
对于决策集成中使用的投票机制,不同的网络具有不同的权重。 决策整合的几种策略如下表所示。
多任务网络
目前很多网络都是单个任务的输出,但现实中往往需要考虑其他因素的作用。 多任务模型可以从其他任务中学习额外的信息,有助于提高网络的泛化能力。 有关多任务模型的好处,您可以参考这篇博文。 如下图所示,在MSCNN[9]模型中,人脸验证和表情识别两项任务被整合到一个网络中。
网络级联
在级联网络中,处理不同任务的不同模块被组合起来设计更深的网络,前一个模块的输出被后一个模块使用。 如下图所示,在AUDN网络中微信表情包最大分辨率,网络由三部分组成。
动态图像序列 FER 进展
动态表情识别可以比静态图片更全面,动态表情识别是指动态图像序列,即视频中。
帧聚合
考虑到表情在不同时刻会发生变化,但不可能单独统计每一帧的结果作为输出,需要给出一系列帧的识别结果,这就需要使用帧聚合。 即用一个特征向量来表示这一段时间序列。 与集成算法类似,帧聚合也有两种类型,即决策级帧聚合和特征级帧聚合。 对这两部分感兴趣的可以参考论文。
强度表达网络
视频中,表情会发生微妙的变化,强度是指视频中所有帧都表现出某种表情的程度。 一般来说,某种表达在中间位置最能表达,也就是峰值强度。 大多数方法关注峰值附近,而忽略开始和结束时的波谷帧。 这部分主要介绍几个深度网络。 输入是具有一定强度信息的样本序列,输出是某一类表情中不同强度帧之间的相关结果。 如PPDN(peak-piloted),用于识别内部表情序列中帧之间的相关性,以及基于PPDN的级联PPDN网络DCPN,具有更深更强的识别能力。 虽然这些网络都考虑了序列中的表达变换,甚至为了计算表达的变化趋势而设计了不同的损失函数,但我真心觉得这个成本对于工程来说其实毫无意义。 如果有兴趣可以看一下论文中对应的方法,这里就不赘述了。
深度时空FER网络
上面介绍的帧聚合和强度表达网络属于传统的结构化过程,输入一系列帧作为视频中单独的图像序列,输出某一类表达的分类结果。 RNN网络可以使用“序列信息”,因此视频FER模型使用RNN网络,C#D:
还有一种“暴力”的方法,不考虑时间维度,将帧序列拼接成一个大向量,然后进行CNN分类,例如DTAN[11]。
目前动态序列的表达识别在各数据集上的最佳结果如下表所示:
最后,整理不易,点击关注一波,或者去我的个人博客访问崇伟的博客。
参考
[1]:李松,邓文。深度面部表情识别:综述[J]。 2018.
[2]:Viola P吉祥物,Jones M。使用简单特征的增强级联进行快速目标检测[J]。 Proc Cvpr,2001 年,1:511。
[3]: Torre FDL, Chu WS, Xiong X, et al. IntraFace[C]// 自动人脸和手势识别 IEEE 国际会议和研讨会。 IEEE,2015:1-8。
[4]:Goodfellow IJ、Pouget-Abadie J、Mirza M 等人。 生成对抗网络[C]//神经信息处理系统国际会议。 麻省理工学院出版社,2014:2672-2680。
[5]: [工具/INFace/](工具/INFace/)
[6]: Ding H, Zhou SK, Chellappa R. FaceNet2ExpNet: 正则化深度人脸识别网络进行表情识别[J]. 2016:118-126。
[7]:蔡杰,孟志,汗AS,等。 关键词: 面部表情识别, 学习判别特征, 岛屿损失 2017年。
[8]: Li S, Deng W, Du J P. 用于野外表达识别的可靠众包和深度局部性保留学习[C]// IEEE计算机视觉和模式识别会议。 IEEE 计算机协会,2017:2584-2593。
[9]:张凯,黄Y,杜Y,等。 关键词: 深度进化时空网络, 人脸表情识别 IEEE 图像处理汇刊 IEEE 信号处理协会出版物,2017 年,PP(99):1-1。
[10]:刘明,李书,单书,等。 用于动态表情分析的深度学习可变形面部动作部位模型[M]//计算机视觉–ACCV 2014. Springer International Publishing, 2014:143-157.
[11]:Jung H,Lee S,Yim J,等。 用于面部表情识别的深度神经网络联合微调[C]// IEEE计算机视觉国际会议。 IEEE,2016:2983-2991。
- 本文固定链接: https://wen.nuanque.com/biaoqingbao/1491.html
- 转载请注明: nuanquewen 于 吉祥物设计/卡通ip设计/卡通人物设计/卡通形象设计/表情包设计 发表
- 文章或作品为作者独立观点不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。本文之内容为用户主动投稿和用户分享产生,如发现内容涉嫌抄袭侵权,请联系在线客服举报,一经查实,本站将立刻删除。本站转载之内容为资源共享、学习交流之目的,请勿使用于商业用途。