密集场景下的人流密度统计方法研究综述

发布时间:2023-08-24 16:48:03 来源:网友投稿

郭淑涛, 韩 琳

(公安部第一研究所, 北京 100044)

不同场合、不同人流密度、不同人体姿态都增加了密集场景下的人流密度统计方法的研究难度。在火车站、地铁站、大型商场等人群密集的地方,人群的频繁流动容易引发交通拥堵、人员踩踏等事故。通过对密集场景下的人流密度统计方法的研究, 实时监控统计公共区域的人流密度,相关部门及时安排安防人员疏散人群,引导人群流动,有利于提前预防和有效减少突发性事故。在新冠疫情防控背景下,结合智能机器人、边缘智能盒子的密集场景下人流密度统计算法,可有效检测人流、防止人员聚集。在建设智慧城市方面,该研究领域市场前景广阔,其作用也必将日益凸显。

实现密集人群的人数统计通常有两类方法:一类是基于回归的人数统计,另一类是基于检测的人数统计。

基于输入图像的预测密度图训练回归模型即把图像像素当作计量单位,用整个密度图的像素总和来预测最终人数。Zhang 等[1]搜集并标注了相关的图片数据集,并提出了简单高性能的多维卷积神经网络MCNN, 从单幅图片中的任意密度和视角就能正确估计图像中人群的数量;
Li等[2]提出了更高维的神经网络模型CSRNet,其前端采用一个卷积神经网络用来提取图片的2D 特征,后端则采用了膨胀卷积神经网络用来传送输入图像中更大的感受野,替换了池化操经网络TEDNet,能将不同编码阶段的分等级图像特征合并到多条的解码路径;
Idrees 等[4]发现密集人群的图像中计数、 密度图估计和人员定位三者之间存在内在联系, 并以此使损失函数优化深度卷积神经网络;
Cao 等[5]提出了一种编解码结构的神经网络SANet,编码器端提取多尺度图像特征, 解码器端采用一系列反卷积层生成高分辨率人群密度图,还改进了损失函数,将欧几里得损失函数和局部模式的一致性损失函数结合起来。Victor 等[6]提出了一种监督学习的框架,并改进了损失函数。

见图1,第一张是测试图片,第二张是真实标签的热力图,第三张是模型估计的热力图,图1 演示了该方法过程和效果[25-27]。

图1 基于回归的人数统计方法演示Fig.1 Demonstration of the regression-based numerical statistics methods

基于检测的人数统计方法即在经过预先训练的目标检测模型中输入图像,模型经过图像分类,计算出类别为人的边界框数量,获得最终的人数。

其流程见图2。

图2 基于检测的人数统计流程图Fig.2 Flow chart of population statistics based on detection

基于检测的人数统计模型在简单的一阶段目标检测模型和两阶段目标检测模型的基础上进一步改变和发展,并形成该领域独特的方法。

Gao 等[12]提出了一种获取流动人员的活动区域, 再用注水算法检测和筛选活动区域的方法, 通过追踪检测活动区域的人头数统计人员总数;
Luo 等[13]提出了一个多视角头肩模型检测室内人员的局部位置, 并改进了K 均值聚类算法确定人数;
Chi 等[14]利用人头检测任务和人体检测任务有内在联系, 提出了一种同时检测人头和人体的模型JointDet;
Peng 等[15]提出一种检测室内中较小人头的级联多尺度网络模型FRN,FRN 有两个检测器提取图像特征,一个提取较大物体和全局图像特征,一个提取较小图像特征;
Vu 等[16]提出了子模型Global CNN 和Pairwise CNN,两种子模型混合形成一种人头检测模型;
Vora 等[17]提出了一种快速人头检测的模型FCHD,适用于嵌入式设备开发。

下文介绍两类简单的目标检测模型:
一类是一阶段的检测算法,另一类是两阶段的检测算法。一阶段的检测算法即物体检测过程中检测算法一步完成——物体检测采用一个端到端的卷积神经网络, 该神经网络的输入为原始图像,输出为Bounding box(边界框)和box(框)中物体类别[22-24],常见的模型有yolo[7],ssd[8];
两阶段的检测算法即物体检测过程中检测算法分两步完成——首先获取检测物体的候选区域,然后进行分类[17-21],常见模型有RCNN[9],Fast R-CNN[10]和Faster R-CNN[11]。一阶段检测比两阶段检测实时检测性能好,但是准确率较差。

2.1 一阶段目标检测模型

以yolo 为例介绍一阶段检测模型,yolo 模型采用一个端到端的卷积神经网络,直接输入为一整张图像,直接输出为预测出的边界框的坐标、 框中物体所属类别的概率和置信度;
图3 是其检测物体流程:

图3 一阶段检测物体流程Fig.3 One stage object detection process

(1)将图像统一裁剪大小,作为神经网络的输入(yolo模型将图像大小裁剪到448×448)。

(2)通过一个端到端的卷积神经网络,得到一些边界框的坐标、框中物体所属类别的概率和置信度;

(3)进行非极大值抑制(NMS),筛选框(Boxes)。

2.2 两阶段目标检测模型

以R-CNN 为例介绍两阶段检测模型,R-CNN 模型采用选择性搜索策略作为候选区域方法来获取待检测目标的感兴趣区域,并利用候选区域法创建了约2000 个感兴趣区域,这些区域被转换为固定大小的图像,将图像输入到卷积神经网络,待训练完成后,采用SVM 对感兴趣区域进行分类,采用线性回归损失来校正边界框,以实现目标分类并得到边界框。

其流程图见图4。

图4 R-CNN 两阶段检测模型流程图Fig.4 Flow chart of R_CNN two-stage detection model

两阶段目标检测模型的设计思路是模拟一个人的见到新物品的思考过程,当人见到一个陌生物品时,首先确定物品的具体位置,其次观察物品形状、颜色等特征,最后对物品分类。二阶段目标检测模型与上述流程类似,首先是得到检测对象的候选框,其次是提取检测对象特征,最后再对检测对象分类。

系统总结当前两种基于回归的人数统计和基于检测的人数统计的研究方法中常用数据集、 各个数据集的介绍、以及对应的评价指标。

3.1 基于回归的数据集

SmartCity 数据集是腾讯优图实验室采集整理而成的数据集,涵盖了十类场景,每类场景包含了50 张高视角监控摄像头拍摄的图片, 用于研究室内场景和室外场景下行人数量变化带来的影响。

Shanghaitech 数据集约有1200 张图片, 分为part_A和part_B 两部分数据集。

WorldExpo"s 数据集约有4000 张图片, 测试数据涵盖了五类场景, 每类场景包含了120 张图片和感兴趣区域(region of interest),并在感兴趣区域标记了人群计数。

The UCF_CC_50 数据集有50 张图片,具有图片数量较少,不同图片中人数变化较大的特点。

UCF-QNRF 数据集是佛罗里达大学采集整理得到的数据集,该数据集约有1500 张图片,该数据集是目前注释数量最多的数据集,具有多场景、多视角、多光线、多人群密度变化的特点,其多场景囊括了建筑物、植物、道路等世界各地的室外场景, 极大推动了不同地区人群密度统计任务的研究。

其常用数据集见表1。

表1 基于回归的人流密度统计数据集Tab.1 Data sets of pedestrian density statistics based on regression

3.2 基于回归的数据评价指标

式中:N—测试图片的数量;

C^i—在第ith张密集人群图片中人数量的估计值;
Ci—在第ith张密集人群图片中人数量的真实值;
MAE—预测结果的准确度;
MSE—预测结果的鲁棒性,对预测的异常点敏感,当模型表现越差,预测结果和真实结果之间的误差越大,该值越大。

在不同数据集上,各种研究方法的评价指标数值不同, 当前UCF_CC_50 数据集上评价指标数值见表2。

表2 UCF_CC_50 数据集的评价指标Tab.2 Evaluation index of UCF_CC_50 dataset

3.3 基于检测的数据集

当前基于检测的人数统计的常用数据集可以分为三类:基于人头检测的数据集、基于人体检测的数据集、可基于人头和人体检测的数据集。

所用数据集见表3。

表3 基于检测的人流密度统计常用数据集Tab.3 Common data sets of pedestrian density statistics based on detection

3.3.1 基于人头检测的数据集

Brainwash 数据集采集于一家咖啡馆, 详实标注了馆内的密集人群人头信息。

其中, 训练集约有10800 张图片,验证集有500 张图片,测试集则有500 张图片。

3.3.2 基于人体检测的数据集

Crowd Image 数据集是阿里云提供在天池平台上的人体检测数据集,含7345 张多人图片,当画面中行人数量大于100 时,均按100 计算。

3.3.3 可基于人头和人体检测的数据集

CrowdHuman 数据集有规模较大、取材跨度大、标记详实的特点。

训练集和验证集一共有470000 个人类实例,每个人类实例中标注了人体头部框、肉眼可见的区域框和人体全身框。

3.4 基于检测的数据评价指标:

人头检测任务和人体检测任务上的性能评价指标有平均准确率mAP (mean Average Precision), 检测时间(ms)、漏检个数三项。

人头检测精度用平均准确率表示,人头检测速度用检测时间表示;

没有被正确检测的人头个数用漏检个数表示[31]。precision(精确率)和recall(召回率)的公式化定义分别为:

密集场景下人流密度统计的相关研究主要面临如下两个难点:一是场景中高度重叠的人员信息特征相似,容易导致神经网络表征错误;
二是场景中个体高度重叠,容易导致NMS 过度抑制。解决两个难点是此领域之关键。密集场景下,识别人员的身体特征,清晰表达人员特征信息并进行特征信息分类,是该领域研究的热点和下一步方向。

本文介绍了密集场景下的人流密度统计方法的背景、应用场景、技术路线、研究方法,总结整理了基于回归和基于检测的两种人数统计方法常用数据集和评测两种方法模型性能的评价指标, 总结了密集场景下的人流密度统计方法的研究课题当前存在的关键问题和研究难点,展望了未来的发展趋势。

猜你喜欢人头神经网络密度『密度』知识巩固中学生数理化·八年级物理人教版(2021年12期)2021-12-31密度在身边 应用随处见中学生数理化·八年级物理人教版(2021年12期)2021-12-31山西省立法禁止野外用火成效显著 林草防火责任明确到山头地头人头今日农业(2020年19期)2020-12-14神经网络抑制无线通信干扰探究电子制作(2019年19期)2019-11-23“玩转”密度中学生数理化·八年级物理人教版(2019年12期)2019-05-21密度应用知多少中学生数理化·八年级物理人教版(2019年12期)2019-05-21假人头防盗大法知识窗(2019年4期)2019-04-26基于神经网络的中小学生情感分析电子制作(2019年24期)2019-02-23朋友圈百花洲(2018年1期)2018-02-07基于神经网络的拉矫机控制模型建立重型机械(2016年1期)2016-03-01

推荐访问:人流 密集 密度

版权所有:睿智文秘网 2009-2024 未经授权禁止复制或建立镜像[睿智文秘网]所有资源完全免费共享

Powered by 睿智文秘网 © All Rights Reserved.。备案号:辽ICP备09028679号-1