人工智能首页 > AI资讯 > 正文

人工智能从照片和视频专辑中提取性别和出生年份深度学习面部特征

2018-07-26 阅读888次

人工智能从照片和视频专辑中提取性别和出生年份深度学习面部特征（特约点评：人工智能从照片和视频专辑中提取性别和出生年份深度学习面部特征对于深度学习面部特征提供了新的思路，这个创新点趣说人工智能必须推荐。来自网友笑笑的推荐！）

人工智能从照片和视频专辑中提取性别和出生年份深度学习面部特征摘要：本文的重点是从照片和视频专辑中自动提取人员及其属性（性别，出生年份）。我们提出了两阶段方法，其中，首先，卷积神经网络同时预测所有照片的年龄/性别，并另外提取适合于面部识别的面部表征。我们修改了MobileNet，它经过初步培训，可以进行人脸识别，以便进一步识别年龄和性别。在我们方法的第二阶段，使用分层凝聚聚类技术对提取的面部进行分组。使用单个照片的预测聚合来估计每个群集中的人的出生年份和性别。我们通过实验证明，我们的面部聚类质量与最先进的神经网络相比具有竞争力，尽管我们的实现在计算上更便宜。此外，与公开的模型相比，我们的方法的特点是更准确的基于视频的年龄/性别识别。

人工智能从照片和视频专辑中提取性别和出生年份深度学习面部特征简介：如今，由于多媒体资源的极度增加，迫切需要开发智能方法来处理和组织它们[1]。例如，自动组织照片和视频专辑的任务正在引起越来越多的关注[2,3]。各种照片组织系统允许用户对照片和视频进行分组和标记，以便在媒体库中检索大量图像[4]。画廊的最典型处理包括面部分组，并且每个组可以自动标记面部属性，即年龄（出生年份）和性别[5]。因此，本文的任务表述如下：给定大量未标记的面部图像，将图像聚类成个体（身份）[4]并预测每个人的年龄和性别[6]。

这个问题通常使用深度卷积神经网络（CNN）来解决[7]。首先，使用已知的面部验证[8,9]和识别[10]方法来执行包含相同人物的照片和视频的聚类。提取面部的年龄和性别可以被其他CNN识别[5,6]。虽然这种方法工作得相当好，但它需要至少三个不同的CNN，这增加了处理时间，特别是如果图库应该在离线模式下在移动平台上组织。此外，每个CNN都学习自己的面部表示，其质量可以受到训练集的小尺寸或训练数据中的噪声的限制。后一个问题对于年龄预测尤为重要，因为年龄预测包含不正确的年龄基础真值。

人工智能从照片和视频专辑中提取性别和出生年份深度学习面部特征贡献：很明显，可以利用面部处理任务之间的亲密度来学习有效的面部表征，从而提高他们的个人表现。例如，同时的人脸检测，地标定位，姿势估计和性别识别是由单个CNN在文章[11]中实现的。因此，我们研究的目标是通过使用来自非常大的数据库的无约束面部识别领域的预先训练来学习面部表征，从而提高面部聚类和年龄和性别预测的效率。在本文中，我们专门开发了MobileNet的多输出扩展[12]，该扩展已经过预训练，可以使用VG-GFace2数据集进行人脸识别[13]。我们的网络的其他层次在Adience [5]和IMDB-Wiki [6]数据集上针对年龄和性别识别进行了微调。最后，我们提出了一种新颖的面部分组方法，该方法处理了处理真实世界照片和视频专辑的几个挑战。

本文的其余部分安排如下：在第2部分，我们制定了组织面部照片的建议方法，同时预测获得者的年龄和性别。在第3节中，我们介绍了LFW，Gallagher和GFW数据集的人脸聚类实验结果，以及来自Eurecom Kinect，Indian Movie，EmotiW和IJB-A的视频剪辑的基于视频的年龄/性别识别。最后，结论意见在第4节中给出。

人工智能从照片和视频专辑中提取性别和出生年份深度学习面部特征材料和方法：用于模拟年龄，性别和身份识别的多输出CNN，在本文中，我们考虑了几种不同的面部分析任务。我们假设使用任何适当的面部检测器在每个图像中获得面部区域，例如，传统的多视图级联Viola-Jones分类器或更准确的基于CNN的方法[14]。性别识别任务是二元分类问题，其中所获得的面部图像被分配给两个类别（男性和女性）中的一个。年龄预测是回归问题的特例，虽然有时它被认为是一个多类别的分类，例如，N = 100个不同的类，因此需要在被观察者中预测1,2，...或者100岁[6]。在这种情况下，这两个任务变得非常相似，可以通过传统的深度学习技术来解决。即，收集具有已知年龄和/或性别的人的大面部数据集，例如，来自论文的IMDB-Wiki [6]。之后，深入的CNN学习解决分类任务。在给出新的面部图像的情况下，所得到的网络可以用于预测年龄和性别。

本文研究的最后一项任务，即无约束的面部识别与年龄和性别识别显着不同。我们考虑非监督学习案例，其中画廊集的面部图像应分配给C≥1个主题（身份）中的一个。受试者C的数量通常是未知的。训练样本通常相当小（我们可以假设C≈R）来训练复杂的分类器（例如深CNN）。因此，可以应用域自适应[7]：使用现有的特征向量来描述每个图像，使用深度CNN，已经对来自大型数据集的监督面部识别进行了初步训练，例如，CASIA- WebFace，VGGFace / VGGFace2或MS-Celeb-1M。对于每个第r个图库图像，在该CNN的最后一层之一处的L2归一化输出被用作D维特征向量xr = [xr; 1，...，xr; D]。最后，任何适当的聚类方法，即层次凝聚聚类[15]，都可用于对这些特征向量做出最终决策。

在大多数研究中，所有这些任务都由独立的CNN解决，即使有必要解决所有这些问题。结果，每个面部图像的处理变得耗时，尤其对于离线移动应用。在本文中，我们建议由同一CNN解决所有这些任务。特别地，我们假设在面部识别期间提取的特征对于任何面部分析而言可以是相当丰富的。例如，显示VGGFace特征[16]可用于提高视觉情感识别的准确性[17,18]。由于我们的主要要求是在移动平台上使用CNN的可能性，我们决定使用MobileNet直接修改[12]（图1）。我们网络的底部（在ImageNet上预先培训的传统MobileNet v1）提取适合人脸识别的表示。实验上注意到，在提取身份特征后，一个具有丢失正则化的新隐藏层分别略微提高了由具有softmax和sigmoid输出的两个独立完全连接层执行的年龄和性别识别的能力。

我们模型的学习是逐步进行的，首先，我们使用非常大的数据集训练基础MobileNet进行面部识别，例如VGGFace2和10K科目的3M照片[13]。接下来，移除最后一个分类层，并冻结MobileNet基础的权重。最后，头部中的剩余层被学习用于年龄和性别识别。在我们的研究中，我们通过IMDB-Wiki数据集中的300K正面裁剪面部图像填充训练数据集[6]。不幸的是，这个数据集中的年龄组非常不平衡，因此训练有素的模型对于非常年轻或年老的人的面部不正确。因此，我们决定添加Adience [5]数据集中的所有（15K）图像。由于后者仅包含年龄间隔，例如“（0-2）”，“（60-100）”，我们将来自该间隔的所有图像放到中年，例如“1”或“80”。

有必要强调的是，并非IMDB-Wiki中的所有图像都包含有关年龄和性别的信息。此外，性别有时在Adience数据中未知。结果，与整个面部图像的数量相比，具有年龄和性别信息的面部的数量小几倍。最后，不同年龄段的性别数据也非常不稳定。因此，我们决定使用不同的年龄和性别分类培训数据，独立培训CNN的两个负责人（图1）。特别是，我们使用年龄和性别信息替换小批量，并且仅训练我们网络的一部分，即，我们模型的年龄头中的完全连接层的权重不会针对小批量更新。性别信息。

该CNN具有以下优点。首先，由于使用MobileNet基础或同时解决所有三项任务（年龄，性别和身份识别）而无需在三个不同的网络中实施推理，因此显然非常有效。其次，与年龄和性别预测的公开数据集相比，我们的模型相当小而且肮脏，利用非常大且干净的人脸识别数据集的潜力来学习非常好的人脸表示。此外，身份特征和两个输出之间的隐藏层进一步结合了预测年龄和性别所必需的知识。因此，与仅在特定数据集上训练的模型相比，我们的模型可以提高年龄/性别识别的准确性。 IMDB-Wiki或Adience。 3.2小节将以实验方式支持这一主张。

在这里，如果实际年龄和预测年龄之间的差异不大于5年，我们假设Kinect和AFEW数据集（已知年龄）的年龄被正确识别。单个视频帧的年龄预测的融合通过以下方式实现：1）简单投票，2）最大化年龄后验概率的乘积（1），以及3）对期望值（3）求平均，并选择L = 3个顶部预测。每一帧。

人们可以注意到，我们的模型在几乎所有情况下都是最准确的。 DEX模型仅与AFEW数据集的CNN相当。获得用于计算年龄预测的预期值的最低错误率。例如，它比Kinect和AFEW数据的简单投票准确率高2％和8％。 IMFDB图像的效果尤为明显，其中预期值可使识别率提高45％。

人工智能从照片和视频专辑中提取性别和出生年份深度学习面部特征结论：在本文中，我们提出了一种基于MobileNet的简单扩展（图1）来组织照片和视频专辑的方法（图2），其中我们提取适用于面部识别，年龄和性别识别问题的面部表征。我们模型的主要优点是可以同时解决所有三个任务，而无需额外的CNN。因此，我们实施了一个非常快速的面部分析系统，甚至可以安装在移动设备上（表4）。结果表明，与已知模型相比，我们的方法可以准确地提取面部簇（表1和表2）。此外，我们对非常复杂的GFW数据略微改进了已知的最新BCubed F-测量值（表3）。更重要的是，使用提取的面部表征的年龄识别和性别预测的准确性明显优于公开可用的神经网络的结果（表5和表6）。

在未来的工作中，有必要处理老化问题。实际上，平均连锁聚类通常会为同一个人（尤其是孩子）产生几个组。如果多年来存在相同主题的照片，则单个链接聚类可以解决该问题。不幸的是，与另一种聚合方法相比，单一连锁的表现相当差（表1，表2和表3）。另一个研究方向是对面部聚类中距离测量的全面分析[20]，即远程学习[30]或特殊阉割者[10]的使用。最后，有必要研究更复杂的聚合技术，即可学习的汇集[31]或关注机制的特殊实现[32]，以便提高基于集群中所有面部图像的决策质量。

原文标题：Efficient Facial Representations for Age, Gender and Identity Recognition in Organizing Photo Albums using Multi-output CNN

AI教育

人工智能时代教育的“变”与“不变”

青平：厚植“AI+”创新沃土，为教育变革注入新动力

人工智能在教育方面的应用——智能课堂管理！

“人工智能+教育”引发热议！或将成为时代层面教育课题

智能教育机器人：类属于早教机器人，家长该如何选择？

机器人编程教育居然有这么多好处，宝爸宝妈们，你们知道吗？

小萌教育机器人亮相中日韩产业博览会