前言:
目前同学们对“面部表情识别数据集”大体比较关怀,我们都想要分析一些“面部表情识别数据集”的相关文章。那么小编在网络上汇集了一些关于“面部表情识别数据集””的相关知识,希望咱们能喜欢,姐妹们一起来学习一下吧!阅读文章前辛苦您点下“关注”,方便讨论和分享,为了回馈您的支持,我将每日更新优质内容。
文 |稻名泗
编辑 |稻名泗
前言:
面部表情是沟通的重要方面之一,是人类进行非语言沟通的主要方式之一。即使没有明确的语言表达,通过非语言沟通传递和接收的信息也是需要理解的。
非语言指示在人际关系中至关重要,而面部表情正是这些指示的传达者。有七种通用的面部表情被用作非语言指示:笑、哭、恐惧、掩饰、愤怒、蔑视和惊讶。
从出生的那一刻起,婴儿可以通过他们的肢体语言和面部表情传达他们的兴趣、痛苦、厌恶和愉悦。
大约在2-3个月大时,婴儿开始自发地微笑,大约在4个月大时,他们开始笑出声音。虽然你的婴儿可能会与你进行眼神接触,但哭泣很可能是你的婴儿主要的行为表现。
例如你的婴儿可能会因为想要拥抱或者因为饿了、不高兴、湿了或者不舒服而尖叫。面部表情是婴儿传达需求和情感的关键方法之一。因此理解他们的面部表情并关注它们是为了提供适当的照顾而至关重要的。
理解他们的情感对于早期诊断和治疗自闭症谱系障碍和注意力不足多动症等疾病至关重要。实证证据表明,对某些问题进行早期干预会对儿童的长期发展产生影响。
近年来计算机视觉领域对面部情感识别投入了大量关注。然而,成人面部表情是研究的主要焦点。成人和新生儿的面部结构不同。婴儿的脸更圆,眼睛更近,更大,嘴唇更短,嘴唇呈“丘比特之弓”形状。
他们的脸上有着大而厚的脂肪垫和弹性皮肤,这防止了皱褶的产生,同时使他们能够表达任何情感。
许多新生儿的情感表达,比如焦虑、愤怒和厌恶,与成人所使用的情感在形态上并不相同。这些因素导致了婴儿面部行为编码系统的发展,该系统专门用于分析婴儿的动作单元和情感面部行为编码系统。
使用这些通用表情进行自动面部表情识别可能成为自然人机界面、认知科学和医疗实践的关键组成部分。尽管人类几乎可以立即、轻松地理解面部表情,但机器对于可靠的表情识别仍然是一个挑战。
在这方面,与成人面部表情识别相比,婴儿面部表情识别作为一个重要且技术要求高的计算机视觉难题正在发展。准确解读婴儿面部表情的能力对于通过监视录像分析形成专业的家长护理至关重要。由于缺乏婴儿面部表情数据,识别主要是基于数据集的构建。
目前尚无公开可用或专门用于分析婴儿表情的数据集。创建一个用于婴儿面部表情分析的数据集是一项艰巨且具有挑战性的任务。
准确解读婴儿面部表情的能力至关重要,因为大多数表情都很相似。这个过程导致了在情境背后识别动作的发展。
尽管在面部检测、特征提取和表情分类方法方面取得了近期的进展,但设计一个实现这一目标的自动化系统仍然具有挑战性。
此次可用于婴儿情感的不同数据集。此外它推荐通过镜头边界检测、关键帧提取、面部检测算法、机器学习和深度学习方法识别新生儿情感的过程。
视频序列作为提议方法的输入,从各种可用环境中收集,包括对婴儿和成人的视频,杂乱的背景,刺激情况和复杂背景的已知环境。
然后将视频序列分割成帧以检索关键帧。从检索到的关键帧中,使用集成成像技术识别面部,然后使用CNN分类器模型将识别出的面部分为婴儿和成人。
城市婴儿面部数据库
有数据库包含了195张婴儿面部图像,其中包括40张中性婴儿面部图像、54张消极婴儿面部图像和60张积极婴儿面部图像。
图像具有高准则效度和良好的测试-重测可靠性。数据库中共有154张肖像图像,可供彩色和黑白两种格式使用。
该数据集包含5400张图像,描绘了婴儿的三种不同类型的面部表情:哭泣、笑和中性。为了适当地描述其他通用面部表情,首先必须识别这三种表情。
在这个过程中,首先从名为婴儿动作数据库的私人数据库中收集了婴儿行为的图像,如哭和笑的图像。该数据库包含了儿童执行各种动作的片段,从中获取了各种动作的图像。中性活动的图像和一些笑的图像则是从互联网上收集的。
Rebel数据集,该数据集由50个6-10个月大的婴儿视频组成,这些视频来自内华达大学拉斯维加斯分校心理学系。Rebel集合中有许多未标记的婴儿视频需要进行标记。
除了对图像的强度、清晰度和情感进行评分外,还将700多张成人图像分成7个情感类别:快乐、悲伤、恶心、愤怒、恐惧、惊讶和中性。
儿童情感面部表情集
使用七种诱发和假设的通用情感以及中性表情来构建4-6岁儿童的视频和图像数据库。参与者参与了旨在引发特定情感的视频和图像拍摄,并由公正的评审员进行了两轮评判。
对于每种情感,有87个中性刺激、363个喜悦刺激、170个厌恶刺激、104个惊讶刺激、152个恐惧刺激、144个悲伤刺激、157个愤怒刺激和183个蔑视刺激。
这个多模态情感数据集包括4岁到14岁的儿童。该集合包括1102个带有17种不同情感状态注释的视听剪辑,包括9种复杂的情感,如挫折、怀疑和好奇,以及中性和情感价值。
CAFE集合包括1192张2-8岁的种族和文化多样的儿童的彩色图像,他们摆出了六种情感面部表情:愤怒、害怕、悲伤、快乐、惊讶和恶心。
多模态双人行为数据集
这是一个包含婴儿和幼儿社交和交际行为的多模态录音的独立集合,是在与成年人进行半结构化游戏互动的过程中收集的。会话是根据大学批准的IRB流程在乔治亚理工学院儿童研究实验室进行录制的。
镜头边界检测方法 视频由各种场景组成,捕捉了事件、镜头和帧的顺序。因此它由从不同相机角度拍摄的相互连接的图像组成。时间和空间相关的行为或事件由这些帧来表示。
为了管理由大规模多媒体应用程序创建的大量视频数据,由于网络基础设施的迅速扩展和先进数字视频技术的使用,需要视频摘要技术。
所以用户可以在不必观看整个视频的情况下轻松访问和检索所需部分的视频。关键帧提取模块用于识别和选择代表性帧的数量,镜头边界识别模块用于将视频帧分割成多个镜头。
为了简化视频分析和处理,镜头边界检测、时间视频分割是一种通过识别相邻视频镜头之间的边界来将视频帧分割成多个镜头的技术。镜头边界检测方法的主要目标是识别视觉内容的差异。
这些相继图像之间的差异被计算出来,形成阈值比较。镜头边界检测方法算法由三个基本组成部分组成:帧表示、相异度测量和阈值设置。
在识别突然照明变化和显著的摄像机、物体运动方面,这些SBD方法的一个主要挑战之一是找到转换点,这可能导致错误的关键帧提取。
关键帧提取
基于镜头边界、视觉信息、运动分析和聚类方法,可以将关键帧提取技术大致分为四类。通过从源影片中删除或删除重复的帧,并提取一组代表性帧,关键帧提取是有效传达视频片段关键组件的适当技术。
这些被删除的关键帧预计将代表并为整个视频提供详尽的视觉数据。为了使索引、检索、存储管理和视频数据识别更加便捷和有效,关键帧技术用于减少视频处理所需的计算成本和数据量。这些方法可以分为基于镜头、基于采样和基于聚类的三个主要类别。
基于采样的技术
这种技术不以视频内容为优先,通过等距或随机从原始视频中采样视频帧来选择代表性帧。这种方法的思想是从源视频中选择每第k帧。
视频的长度决定了k的值。视频摘要的典型范围为整个视频的5-15%。在5%摘要的情况下,每20帧被选为关键帧,而在15%摘要的情况下,每7帧被选为关键帧。
尽管这些关键帧是从视频中提取出来的,但它们并不准确地描绘了一切。它们还可能导致具有相同内容的重复帧。
基于镜头的技术
在这种方法中,首先使用有效的镜头边界/转换检测方法来检测镜头边界/转换。在将视频帧划分为多个镜头之后,将进行关键帧提取方法。
各种文学类别中已经涵盖了不同的关键帧选择方法。常规方法通常选择候选镜头的第一帧和最后一帧作为关键帧。这些裁剪后的关键帧是镜头的代表性帧,从而简化了原始视频的摘要。
基于聚类的技术
无监督学习技术,如聚类,将相关数据点的集合进行分组。使用这种技术,具有相似视觉内容的视频文件帧被划分为不同数量的簇。
从每个簇中提取为关键帧的帧是距离候选簇中心最近的帧。帧所显示的特性,如颜色直方图、纹理、显著性图和运动,定义了它们之间的相似性。
基于聚类的方法的一个基本问题是,在完成聚类操作之前,很难计算每个视频文件中的簇数。
机器学习
研究人员已经取得了自动面部表情分类器的显著进展。面部行动编码系统已被开发用于通过AU对面部运动进行分类。
传统的基于机器学习的分类器,如隐马尔可夫模型、支持向量机、贝叶斯网络,被用于面部表情识别。
使用音频和视频片段通过SVM和决策级融合来识别和分类情感。利用经历崩溃危机的儿童的复合情感识别,开发了一种预防策略。与复杂情感相关的异常面部表情与崩溃症状明确相关。
在崩溃期间,对自闭症儿童微小表情的几个深度时空几何特征进行了实验评估。为了选择最清楚区分自闭症儿童崩溃危机中的复合情感和正常状态中的复合情感的特性,比较了复合情感识别性能和几个微小表情特征集。对从许多图像中提取的特征进行学习和分类,引入了最近邻方法。
深度学习
基于深度学习的面部表情检测由于庞大的数据和计算效率的增长而变得流行。使用YOLOv3-tiny检测婴儿的面部和身体,面部的分类准确率为94.46%,身体的分类准确率为86.53%。
使用基于两流CNN的模型提取局部时空特征。基于迁移学习的模型,包括VGG16、Resnet 18和50,已被建议用于识别成人面部情感。
为了区分新生儿的面部情感,必须建立一个深度神经网络,因为婴儿面部表情识别在育儿护理中是必要的。由于新生儿面部表情的数据匮乏,基于迁移学习模型的技术容易出现过拟合。
基于IOT边缘计算和多头一维卷积神经网络,实时婴儿面部表情检测系统被提出。建议使用人脸识别和情感识别算法监控幼儿的情感。为了减少参数数量并节省计算资源,这建议使用深度学习方法构建轻量级网络结构。
提供了一种基于AI的面部情感识别方法,使用多个数据集、特征提取方法和算法。将数据集分为儿童、成人和老年人三组,以更好地理解面部表情识别的广泛应用。
在预处理、特征提取和分类方面,使用现代CNN模型,同时采用多种技术。此外,它还评估了各种CNN模型的基准精度以及一些架构特征。
浅层CNN架构
为了在训练阶段保持恒定的图像大小,数据最初在整个训练阶段进行了补充。学习率是与梯度下降成反比的最重要的调整超参数之一。
为了获得婴儿面部表情的最佳特征学习,采用了动态学习率调整。为此,初始学习率设置为0.01,在每100次迭代后将学习率乘以0.1。
为了防止过拟合,采用了具有随机梯度下降和动量的简单且泛化的架构。它非常适用于新生儿图像。经过多次修改后,选择了最佳的训练模型。
该模型使用带有GPU处理器的MATLAB 2021b进行训练和测试。
数据集主要包括尖叫、笑和中性三种新生儿面部表情。每个婴儿都有不同的面部表情。然而它们确实具有一些使识别变得困难的定义特征。
每个类别大约有1800张照片。为了使尺寸分布均衡,使用了调整大小的数据增强技术,因为数据集中收集的照片和网站上的照片大小不同。
该方法增加了模型的多样性和适应性。除了验证和测试精度外,现行评估过程还包括精确度和召回率。
结语:
在计算机视觉领域,识别婴儿情感的能力非常重要,因为它为诊断注意力缺陷多动障碍和自闭症谱系障碍提供了预测数据。
在早期阶段识别和预防这些疾病的方法。它还通过从婴儿的面部学习微妙信息来提供婴儿发育的实证支持。
婴儿面部表情识别研究提出了一些重要问题,例如迁移学习模型的学习能力降低和识别系统的稳定性不高。
这次提出的综合框架,通过建议一个具有浅层神经网络的两阶段模型来节省空间,解决了这些问题。在测试中,该模型表现良好,达到了97.8%的准确率。
它也需要较少的训练时间,因为它具有理想的学习能力。因此,本章提出的方法为优秀的智能人际互动提供了超越,非常适合于父母的监控和关怀领域。
各位读者对此有什么看法呢?欢迎在下方评论区留言,跟笔者一同交流讨论,最后大家也不要忘了点赞转发哦。
标签: #面部表情识别数据集