应用安全--视频分析技术在人员身份识别任务中的应用--其乐融融的IT技术小站

一、概述

近年来，随着硬件成本的下降和电力、通信等基础设施逐步完善以及城镇化水平显著提高，越来越多的监控摄像头被部署在公共场所以及家庭中，中国监控摄像头行业市场规模逐年增长。据统计，2022年中国摄像头市场规模已达211亿元，预计到2024年市场规模将达到244.1亿元。经由这个庞大的监控网络，每天有大量的视频数据在被产生，一个中等规模的城市, 仅一天就能产生PB级数据量的视频[1]。随着计算机视觉（Computer Vision，CV）技术和深度学习算法的快速发展，从这些存在着千丝万缕时空关联、包含了数以亿计有效信息的海量监控视频数据中高效、自动的识别提取有用信息，是视频安防领域从“拍下来”到“认出来”的智能化转变。

对监控视频的运用，从人工盯监控阶段到智能化视频分析阶段一以贯之的一个重要任务就是辨识人员的身份。在安防智能化大力推行的今天，通过对监控视频内容关联分析，确定重点关注人员的身份依然是重中之重的任务，不论在学术研究领域还是在工业应用领域，都是计算机视觉研究的热点。除了较为成熟的人脸识别技术外，还包含步态识别技术、人员重识别技术、虹膜识别技术与跨模态行人检测等新兴技术。本文主要介绍几种以视频为输入数据源的人员身份识别技术，同时给出了一些对应的应用场景，并在最后对基于视频的人员识别技术存在问题进行回溯及未来应用进行展望。

二、基于视频的人员身份识别技术主要包含方向

2.1 基于视频流的步态识别技术

步态识别技术是一种通过挖掘人行走方式中的特征来鉴定人员身份的技术，与人脸识别技术、虹膜识别技术、指纹识别技术等其他依靠生物特征识别人员的方法相比，步态识别技术不需要近距离采集受识别者，对摄像头的放置高度、视角以及获取到视频的清晰度具有更高宽容度，因此，在采集过程中更加隐蔽不易察觉，不需要受识别者进行主动配合。此外，相比于人脸识别技术容易通过口罩遮挡、使用伪装图片等方式混淆识别结果，步态难以伪装隐藏，并且每个人具有独特性，在身份识别领域具有独特优势。目前提出的步态识别方法基本分为基于外观（Appearance-Based）和基于模型（Model-based）的两种方法。

图 1基于外观的步态识别方法示意图

2.1.1 基于外观的方法

该方法通过对原始视频帧进行分割，得到消除了外部因素后的人体轮廓图像，再利用卷积神经网络提取时空特征，又可分为基于特征模板的方法和基于序列的方法。

（1）基于特征模板的方法目前主要有：

-GEI-NET [2]：直接训练CNN分类器，在最后一层提取步态特征，结构简单易于实现，运行速度快常用做baseline；

-Gait Net：分别在两个CNN网络中进行分割和分类，并对两个CNN联合学习建模，使分割结果更适用于识别，原始的视频数据在分割后得到步态轮廓，合成步态模板最终学习到步态特征；

-GaitGAN：以GAN模型生成侧视图，解决任意视角问题；

-GEI-GAN：用GAN解决步态周期不完整问题，重建出完整的步态能量图，解决遮挡问题。

（2）基于序列的方法目前主要有：

-GaitSet[3]网络：不再使用GEI步态能量图，将步态剪影序列看作图像集并从中进行学习，在多个公开跨视角数据集中测试出较好性能，如图2所示；

-GaitPart[4]：对视频序列进行处理，分别利用帧级部分特征提取器FPFE以及微小运动捕获器MCM来获取短程时间特征，具有结构简单、性能优异、速度快、易实现的特点；

-Gait Lateral Network：设计了一个压缩模块，显著减少步态表示尺寸，并保证检测结果准确性；

-MT3D：将3D-CNN应用于小时间尺寸和大空间尺度来提取时空信息，对帧进行池化，具有高效率的特点。

图 2 GaitSet特征提取示意图

2.1.2 基于模型的方法

该方法是通过研究骨架的基本结构，从视频中提取骨架结构进行位姿估计，进而提取步态特征，目前主要有Pose Gait、Gait Graph等，相比于基于外观的方法具有更好的性能。但是基于轮廓的方法在保留身体形状时无法处理身体重叠区域的遮蔽问题，并且容易收到服装变换的影响。而基于模型的方法虽然能够保留内部结构信息屏蔽遮挡问题，但因为完全忽略轮廓会导致性能不佳，因此，目前有学者在进行两种数据模态的联合训练，以进一步提升步态识别效果。在进行多模数据融合时，如果只是简单的进行信息链接，无法有效捕获更细粒度的空间信息，也无法对两种模态的时间信息进行充分利用，

近年来步态识别解决方案逐步从传统的非深度学习方法向深度学习方法转变，但目前基于视频的步态识别算法仍存在容易受到跨视角、着装变化、外物遮挡、携带物品等因素的干扰等问题，检测算法鲁棒性有待提升。

2.2 基于视频流的人员重识别技术

在实际应用场景中经常会出现如下需求：某一特定人员通过了多个监控区域，且视域互不重叠，需要人工在各个监控视角中寻找该人员的身影并串联出他的行进路线。在机器视觉领域，对这种可以衔接目标对象在不同监控区域内运动轨迹，实现跨时间、跨地点和跨设备的行人跟踪的自动化行人检索技术称为行人重识别技术（person re-identification，Re-ID）。行人重识别自2006年首次在国际计算机视觉与模式会议中提出后，得到了快速的发展和大量的关注，逐渐形成日趋成熟的模型框架和算法。在视频安全领域，在大规模的视频监控系统中应用该技术，能够有效弥补摄像头视觉局限，提高人员识别的检测效率以及准确性，具有重要应用价值。

早期人员重识别主要基于传统计算机视觉方法，需要手工提取图像特征后再进行匹配，随着深度学习技术的突飞猛进，研究者也将深度学习的方法引入人员重识别领域。首先，根据行人特征提取方法从检索图片/视频库中提取特征; 随后，针对提取的特征利用相似性判别模型进行训练, 获得能够描述和区分不同行人的特征表达向量, 度量计算特征表达向量之间的相似性; 最后，根据相似性大小对图像进行排序, 将相似度最高的图像作为最终的识别结果。

在实际实验中，特征提取阶段会因为采集到的人员视频数据存在遮挡、部位不对齐以及姿态差异等问题，导致直接提取图像的全局特征并不能达到最好的识别精度。这也反映了人员重识别研究中，由于数据可能会来自于不同位置、不同品牌的摄像头，因而成像画质、人物背景都存在较大差异，并且数据中人员的外观还易受遮挡、穿着、视角、光照和姿态等多种因素的影响[5]。因此人员重识别技术还可以划分为关注不同问题点的研究方向：多源数据人员重识别、换装人员重识别、小股人员重识别等。

2.2.1 多源数据行人重识别

多源数据行人员重识别主要针对每类数据使用一个特定于该类型的网络来提取或构造特定信息并映射到同一个表达空间，然后利用共享网络在共享表达空间中生成特征，这个通用的重识别网络通过中心损失、三重损失等损失函数进行训练并与普通网络相连，实现跨数据类型的人员重识别。

多源数据一般分为下列几种：

-使用不同的相机规格和设置，如高分辨率与低分辨率图像；

-使用不同的拍摄设备，如可见光与红外摄像机、可见光与深度传感器；

-根据历史文档记录或对行人的描述获得的文本信息；

-由专家或者数字传感器自动获得的图像，如刑侦系统使用的素描与数字照片。

2.2.2 换装行人重识别

换装人员重识别技术主要通过提取出对着装、视角和光照等因素具有鲁棒性的身份判别特征用作相似性度量。该方向的研究近几年蓬勃发展，涌现了大量大规模数据集及研究方法。换装人员重识别技术根据数据采集样本可分为基于非视觉传感器的方法和基于视觉相机的方法。其中，基于非视觉传感器的方法主要包含使用深度相机或射频装置；基于视觉相机的方法主要采用监控摄像头采集RGB图像或视频，再从中学习判别特征。主要分类情况如图3所示。

本文主要讨论基于视觉相机的方法，可分为：

-基于显式特征构建或学习的方法：对人的人脸、轮廓、体型等具有唯一性的生物特征构建轮廓模型或轮廓特征约束，从轮廓中提取身份判别信息[6]；

-基于解耦特征的方法[7]：从人员特征中去除着装颜色、纹理等身份无关特性以提高性能，通常可由关节信息、服装模板等作为控制条件引导特征分离，或者基于生成对抗网络进行特征解耦；

-隐式数据驱动的自适应学习方法：数据驱动学习模型能够自适应类内样本间的差异，利于分类的判别行性特征，但对数据依赖严重，可解释性差。

图 3 换装行人重识别方法分类示意图

2.2.3 小股人员重识别

小股人员重识别结合人类的社会属性和群居属性，对研究对象数目进行扩展，将小规模人群作为重识别目标的任务，可以检测团伙作案等违法行为。同时，利用小股人员重识别技术，可以在单个人员被遮挡表观特征不可靠时，将与其同行的其他人员的表观特征作为检索的线索，提高人员重识别在遮挡等复杂条件下的鲁棒性和判别性。因此，除了传统人员识别需要面对的问题，小股人员重识别还需要解决由群组人数变化和群组人员位置变化引起的群组结构变化。

小股行人重识别的算法在数据类型上可分为基于静态图像的方法[8]和基于视频序列的方法；在标签策略上可分为有监督、弱监督和无监督的方法；在模型策略上可分为基于数据增强、基于特征提取和基于度量学习的方法，如图4所示。基于特征提取的方法又可细分为基于手工特征的方法和基于深度学习的方法。

各类方法的核心目的都是对群组结构的建模与描述，早期的手工特征描述子从全图提取群组特征；后续引入深度学习技术基于卷积神经网络和神经网络的方法从特征层面先构造单人特征，并进一步在基础上构造群组特征；再后来，基于自注意力模型的方法也是沿袭该研究思路并加以改进。但目前并没有在各种深度学习的方法中形成完全统一的处理框架。一般而言，基于生成对抗网络的方法通常用于模型离线训练的数据增强阶段；基于度量学习的方法倾向于仅在训练时使用。在实际工程应用中，一般倾向于使用特征提取的网络模型，并且选择提取特征维度短、依赖额外先验少、检索速度快的深度模型。

图 4 小股人群重识别分类示意图

人员重识别技术作为一种跨镜头视频阈的任务，用于采集视频的摄像头数量庞大品类繁杂，同一人员在不同场景、不同角度、不同光照条件、不同着装、是否存在遮挡等问题下都会呈现出较大的图像差异，相信随着对这些细分领域子问题解决方案的逐步优化，人员重识别技术可用于跨街区追踪人员、挖掘反复出现可疑人员等场景，将有力推动视频安全领域更上一个台阶。

2.3 基于视频的虹膜识别技术

人眼中黑色瞳孔和白色巩膜之间的环状部分称为虹膜，其包含有很多相互交错的斑点、细丝、冠状、条纹、隐窝等细节特征，且不随年岁增长而变化。相比于其他的生物特征模态，虹膜具有独特性、稳定性和非接触性三个特点，因此虹膜识别技术相比于别的生物特征技术具有更高的识别精度。与近年来已经得到大规模应用的人脸识别技术相比，虽然都属于依靠生物信息进行识别，但在底层识别原理上还是存在较大不同。人脸识别技术提取眼睛、鼻子、嘴巴等面部器官的几何特征以及皮肤纹理颜色等信息，但上述特征容易随着年龄增长、身体状况变化而改变，同时也容易被刻意变造伪装容颜的方法干扰；而虹膜具有复杂纹路，自婴儿期发育稳定后就不再变化，虽然在应用便捷度和硬件成本上较高于人脸识别，但对具有更高安全需求的场景可提供更准确的人员识别结果。

算法上，分为采集、预处理、模式识别三个环节。在虹膜图像采集环节，传统方法是使用近距离图像采集，随着技术发展，利用光场成像进行远距离虹膜采集的技术已经成为主流。图像预处理环节，需要进行虹膜检测、活体检测、质量评估、分割、定位等常规流程，同时也需要对处理后的虹膜图像进行独特的归一化和图像增强来将环状虹膜区域展开成标准矩形纹理。模式识别在全流程中是最能够对最终识别结果产生影响的关键环节。

Daugma利用多尺度的 Gabor滤波器来获得相位相关的编码，并通过汉明距离有效地度量了两个样本之间的相似性；Wildes利用Laplacian塔式分解在多个尺度上进行对比，实现了图像对间的身份验证；Boles利用小波变换来将虹膜的环状一维采样结果进行处理，实现了特征提取和匹配功能。为提高远距离非限制场景下识别效率，可引入其他生物特征进行辅助认证，每种生物特征根据其自身特点都会在具体的场景中具备独特优劣势，根据实际场景选择合适的模态及融合方式，如利用虹膜和眼周的眼睑、睫毛、瞳孔等生物特征信息丰富的部位相结合[9]，提取特征信息，可以使识别可靠性和稳定性得到提高。

2.4 跨模态行人检测技术

在人员的识别任务中，行人检测是重要的前置任务，使用深度学习方法进行行人检测已经成为主流方案并且取得了较大进展，在该方向的研究热点发展时间轴整理如图5所示。但仅依靠可见光视频图像作为处理数据源，在遇到低照度、恶劣天气等情况时，很难从可见光图像中分辨出行人轮廓，限制了应用场景，此时引入一种新的模态可有效提升检测效果。

目前研究较多的跨模态组合方式有可见光+深度图、可见光+雷达图以及可见光+红外图，其中雷达点云图的细粒度不足以把人的轮廓精细的提取处理出来，深度图像可提供行人轮廓但同样不够精准，而红外热像仪成像原理是采集物体与绝对零度温之差，人与周围环境有清晰的轮廓线，因此将红外热像图与可见光图像相结合，可以有效地解决在低照度或雨雪等恶劣天气场景中识别率低的问题。

图 5 跨模态人员识别研究热点时间轴

早期处理双模态图像数据融合的方法主要有基于轮廓的融合方法、基于联合双边滤波器的融合方法和基于黎曼流形[10]的融合方法。随着深度学习算法的快速发展成熟，自2016年后跨模态的行人检测任务都是基于CNN模型进行改进研究。检测的基本流程为，将可见光-红外热像图像对输入，产生行人候选框，候选框分类与回归，后处理阶段极大值抑制，输出检测结果。在不同的检测方法中，融合操作可处于不同的阶段，具体分为图像阶段进行融合、特征阶段进行融合、决策阶段进行检测结果融合。

近年来对于跨模态行人检测的研究主要分为对模态差异大问题的研究和实际应用难问题的研究。基于模态差异大问题的研究又可分为基于图像未对准为题的研究（两种模态图像存在位置偏移问题）、基于融合不充分问题的研究（何时融合，如何融合）。基于实际应用难问题的研究可分为基于标准成本问题的研究（引入自动标注等方法建立场景多、全天候的数据集）、基于硬件成本问题的研究、基于实时检测问题的研究。随着对上述细分领域研究的不断推进，跨模态人员识别算法在精度上已测试出了相对优异的性能，但在人员密集地区存在严重遮挡条件下、小目标行人检测、检测实时性等方面还存在较大提升空间，也是未来研究持续发力的方向。

三、结语

视频智能分析技术是保障场所安全的重要手段，在监控设备部署规模日臻完善、网络传输能力极大提升、算力水平成倍增长、基于各种框架的深度学习算法百花齐放的今天，视频分析技术在实际工程中的应用迎来了全新机遇。场所安全中，对于人员我们关心他是谁、于何时、在何地、做了什么，基于这些基本属性，我们可以结合场所规则的数据化解读进一步分析判断是否存在安全威胁。因此人员识别可以说是视频智能分析在安全领域中最核心最基础的应用。本文就人员识别中的步态识别、人员重识别、虹膜识别、跨模态融合识别进行了简单介绍和讨论，相信随着算法的逐渐优化和大模型等新兴技术的引入，对遮挡、伪装、换装、低照度场景、雨雪恶劣天气等主观、客观制造人员识别难度的场景会有更快速高准确率的解决方案。

参考文献

[1] 中国公共安全, 高.J.: ‘视频结构化技术视频数据的"赋能者"’, 2018, (5), pp. 4

[2] Shiraga, K., Makihara, Y., Muramatsu, D., Echigo, T., and Yagi, Y.J.I.: ‘GEINet: View-invariant gait recognition using a convolutional neural network’, 2016

[3] Zhang, Z., Tran, L., Yin, X., Atoum, Y., and Wang, N.J.I.: ‘Gait Recognition via Disentangled Representation Learning’, 2019

[4] Fan, C., Peng, Y., Cao, C., Liu, X., and He, Z.J.I.: ‘GaitPart: Temporal Part-Based Model for Gait Recognition’, 2020

[5] 罗浩, 姜伟, 范星, and 自动化学报, 张.J.: ‘基于深度学习的行人重识别研究进展’, 2019, 45, (11), pp. 18

[6] Hong, P., Wu, T., Wu, A., Han, X., and Zheng, W.S.J.I.: ‘Fine-Grained Shape-Appearance Mutual Learning for Cloth-Changing Person Re-Identification’, 2021

[7] Jia, X., Zhong, X., Ye, M., Liu, W., Huang, W., and Zhao, S.: ‘Patching Your Clothes: Semantic-Aware Learning for Cloth-Changed Person Re-Identification’, in Editor (Ed.)^(Eds.): ‘Book Patching Your Clothes: Semantic-Aware Learning for Cloth-Changed Person Re-Identification’ (2022, edn.), pp.

[8] Chen, L., Yang, H., Xu, Q., and Gao, Z.J.N.: ‘Harmonious attention network for person re-identification via complementarity between groups and individuals’, 2020

[9] Algashaam, F., Nguyen, K., Banks, J., Chandran, V., Do, T.A., Alkanhal, M.J.M.V., and Applications: ‘Hierarchical fusion network for periocular and iris by neural network approximation and sparse autoencoder’, 2021, 32, (1), pp. 1-10

[10] San-Biagio, M., Crocco, M., Cristani, M., Martelli, S., and Murino, V.: ‘Low-level multimodal integration on Riemannian manifolds for automatic pedestrian detection’, in Editor (Ed.)^(Eds.): ‘Book Low-level multimodal integration on Riemannian manifolds for automatic pedestrian detection’ (2012, edn.), pp.