基于改进的YOLO算法的交通标志识别

发布时间:2023-08-19 12:54:02 来源:网友投稿

李文举,张 干,崔 柳*,沙利业

(1. 上海应用技术大学计算机科学与信息工程学院,上海 201418;
2. 上海普利森配料系统有限公司,上海 201108)

近年来,无人驾驶技术作为未来汽车的重要发展方向而受到社会的广泛关注。由于光照、遮挡、目标小以及背景复杂等问题,使得交通标志与一般目标相比更难检测,难以达到自然场景下的实时性要求。因此,道路交通标志的检测与识别技术对于改善自动驾驶系统的安全性和可靠性具有重要意义。

随着安全性能在无人驾驶领域愈发受到重视,深度学习被广泛应用于道路交通标志识别技术中。文献[1]将底层特征融合到顶层特征中以提高对中小目标的检测性能,并通过增强有效通道特征和抑制无效通道特征来改善检测效果。文献[2]使用图像混合技术实现数据增强,引入多尺度空间金字塔池化块使网络能够更全面地学习对象特征并设计了一种自底向上的路径增强特征金字塔来实现目标的准确定位。文献[3]采用基于改进CapsNet的交通标志分类模型,充分保留了图像的空间特征;
文献[4]通过对检测分支特征在通道和空间2个维度进行重新标定,使网络聚焦和增强有效特征;
文献[5]将传统HOG特征与轻量级SSD在Conv4-2卷积层的卷积特征进行融合,再将获得的融合特征进行目标检测的方法,增强了轻量级SSD在该卷积层的语义信息,提高了对小目标检测的能力。上述方法虽然都有其优点,但也存在各自的局限性。其中文献[1]、文献[2]所提方法对模型性能提升效果不明显;
文献[3]、文献[4]和文献[5]难以满足实时检测的要求;
文献[5]仅对3类交通标志进行检测与识别,实用性有待提升。

近两年,精度和速度都非常优秀的单阶段网络模型YOLOv4[6]和YOLOv5被相继提出。基于最新的YOLOv5-P6网络,设计并改进了一种新的交通标志识别模型。①采用加权双向特征金字塔网络[7]代替路径聚合网络作为特征融合的方式,增强网络的特征提取能力,获得更多道路交通标志的通道特征,同时删除只有一条输入边的节点来简化双向网络。②将空洞卷积融入空间池化金字塔模块[8],增大感受野,更好地利用图像的上下文信息,提升模型的检测精度。③在训练过程中引入了随机裁剪的方法,减弱背景因子的权重,弱化数据噪声并增加模型稳定性。④采用数字图像运算对低精度类别进行实例扩充以缓解数据集中存在的类别不平衡问题。在 TT100K数据集上的实验结果表明,改进网络对光照、遮挡以及复杂背景下的小尺寸交通标志检测效果均有显著提升。

2.1 YOLOv5网络

YOLOv5主要由主干网络和头部组成。主干网络包括切片模块、跨阶段局部网络模块[9]、空间金字塔池化模块[10],头部包括路径聚合网络[11]和检测模块。

切片模块将输入图像切分为四份,每份数据都相当于由两倍下采样得到,之后进行拼接,这种方法不仅避免了损失部分特征,同时能够提高算法推理速度。跨阶段局部网络将特征图拆成两个部分,一部分进行卷积操作,另一部分与卷积操作的结果进行结合,将梯度的变化集成到特征图中,在降低计算瓶颈和计算成本的同时可以保证准确率。空间金字塔池化模块使用多尺度最大池化,使得输出特征图保持在固定的大小,且该模块能够显著增加感受野,提取出最有用的上下文特征,几乎不会对网络的速度造成损失。路径聚合网络通过自底向上的路径增强,利用准确的底层定位信号增强整个特征层次,从而缩短了底层与顶层特征之间的信息路径。此外还引入了自适应特征池化,将不同层的ROI特征融合在一起,使之更加丰富。

2.2 特征金字塔网络

传统的特征金字塔网络采用自顶向下的方式来对具有高分辨率的浅层特征图和具有丰富语义信息的深层特征图进行融合,受到单向信息流的限制,有时想要将底层特征传递到顶层需要经过几十甚至一百多个网络层,可能会导致丢失掉较多的细节信息,如图1(a)所示;
为了解决这个问题,YOLOv5算法在路径聚合网络中增加了一条自下而上通道,通过缩短信息路径使得丢失较少的底层信息,从而具有更好的精度,与此同时也需要更多的参数和计算,如图1(b)所示;
而文中采用的加权双向特征金字塔网络是一个准确度和效率更加均衡的特征融合网络。优化策略如下:删除只有一条输入的节点,如果一个节点只有一条输入而没有特征融合,那么它对以融合不同特征为目标的特征网络的贡献就会更小;
如果多个输出特征在同一级别,从原始输入到输出节点添加额外的边,以便在不增加太多成本的情况下融合更多的特征;
将每个双向路径视为一个特征网络层,并多次重复该层,以实现更高级别的特征融合。如图1(c)所示。

在以往的特征融合方式中,往往是将所有输入特征直接相加或拼接。分析网络结构,认为不同阶段的输入特征会对输出特征产生不同程度的影响。因此为每个输入特征引入了一个可学习的权值,使网络自行学习每个输入特征的重要性来实现加权特征融合,计算方法如式(1)所示

图1

(1)

wi是可学习的权重,可以为标量、向量或多维张量,当两路输入特征进行融合时,wi包含两个权重,当三路输入特征进行融合时,wi包含三个权重.。由于标量权重是无界的,可能会导致训练不稳定,因此采用快速归一化来限制每个权重的取值范围。计算方法如式(2)所示

(2)

这种快速融合方法与基于softmax的融合方法具有非常相似的学习行为和准确性,其中wi≥0时,通过Relu激活函数将归一化权重的值约束在0和1之间,确保数值的稳定。

2.3 空洞卷积

大量实验证明,在语义分割任务中卷积操作可以有效获取图像特征,但经过池化层降低图像分辨率的同时会导致图像中语义信息的丢失,这使得中小目标的特征信息无法被准确提取。为了克服这一局限性,采用空洞卷积代替普通的卷积操作。空洞卷积是针对图像语义分割问题中下采样会降低图像分辨率、丢失信息而提出的一种卷积思路,在标准的特征图里插入空值,以此来达到扩大感受野的目的。空洞卷积对应的实际卷积核大小如式(3)

K=k+(k-1)(r-1)

(3)

式中,k为初始的卷积核尺寸;
r为空洞卷积的扩张率参数;
通过改变参数r的取值可以自适应地调整感受野的大小。空洞卷积在不增加计算量的情况下扩大感受野,获取图像的多尺度局部特征并保留大量像素的空间位置信息。3*3大小的卷积核在扩张率参数r为2、3、4时,感受野大小分别为增大到5×5、7×7、9×9,如图2所示。

图2 空洞卷积示意图

图3 改进的YOLOv5-P6网络整体示意图

改进的YOLOv5网络结构由主干网络和头部组成。主干网络包括切片模块、改进的跨阶段局部网络模块、空洞空间池化金字塔模块,头部包括加权双向特征金字塔网络和检测模块。改进的网络结构如图3所示。

3.1 跨阶段局部网络模块

改进的跨阶段局部网络模块将BottleneckCSP中的cv2和cv3合并,采用SiLU作为Conv的激活函数并替换原本的Conv2d函数,取消BottleneckCSP中的BatchNorm2d与LeakyReLU操作,使模块更加简洁。

此外,在主干网络中增加一次下采样,对应的在头部中增加了一次上采样和一次下采样,通过这种方式将检测头的尺度增加到了四种,分别为80×80、40×40、20×20、10×10,通过这种方式来提取到更多的特征信息。

图4 改进的跨阶段局部网络

3.2 空洞空间池化金字塔模块

在道路交通标志识别任务中,非常多的小目标存在于复杂背景中,因特征提取困难导致很难被检测。尝试将空洞卷积融入空间池化金字塔模块,采用不同空洞率的空洞卷积并行采样,以多个尺度捕捉图像的上下文信息,从而改善网络对于道路交通标志的特征提取能力[12-14]。若空洞率过大,会导致部份滤波器主要作用在特征图边缘的填充像素上,产生无意义的权重,因此要选择合适的空洞率。

传统的YOLOv5网络只有三种检测尺度,并将空间金字塔池化模块部署在尺度最小的20×20的检测分支。而文中采用的具有四种检测尺度的YOLOv5-P6网络将空间池化金字塔模块部署在特征图大小为10×10的检测分支,卷积核尺寸分别为3×3、5×5、7×7,感受野大小与卷积核尺寸相同。受Deeplab系列语义分割模型的启发[8],采用空洞卷积改进卷积支路,进一步扩大感受野从而实现不同尺度下的上下文信息提取。将卷积核尺寸固定为3×3,空洞率参数分别设为2、3、4,通过式(3)计算可知改进后模块的感受野大小分别为5×5、7×7,9×9,因此更有利于检测图像中的小目标。改进的空洞空间池化金字塔结构如图5所示。

该结构既采用不同大小的感受野来进行特征提取,同时结合残差连接来避免训练过程中的梯度的爆炸和梯度消失问题。结合空洞卷积的思想,在不增大计算量的前提下有效提高了各个支路的感受野,可以实现对不同尺度的道路交通标志的特征提取。

3.3 加权双向特征金字塔网络模块

通过跨层连接将同一尺寸的特征图直接相加,使得网络在特征融合过程中获取到更多道路交通标志的特征信息,提升语义分割的效果。融合不同阶段的特征图时,通过反向传播对跨层连接传递的特征信息进行加权,强化目标区域的特征信息,减弱背景的干扰,提高特征的利用效率进而改善模型对于细节的分割性能。另外,改进网络拥有四种检测尺度,这意味着可以增加两层的跨层连接,而传统的YOLOv5网络可以增加一层跨层连接。

改进的加权双向特征金字塔网络结构如图6所示,拥有四种尺度的检测分支,分别为80×80,40×40,20×20,10×10。在特征融合过程中,w1、w2、w3分别表示三个输入特征图的权重,将传递的特征图与对应权重相乘并相加,得到加权后的特征图。而中间一列为两路特征的融合操作,同样为两路输入特征分配权重,对其进行特征降维后再根据权重计算相加。

图6 改进的加权双向特征金字塔网络示意图

3.4 损失函数

文献5在DIoU[15]的基础上提出了CIoU,在其基础上增加了检测框尺度的损失以及长和宽的损失,使得预测框更加的符合真实框,同时避免了将IoU[16]用作性能度量和损失函数而产生的一些问题:1)如果两个物体不重叠,则IoU值将为零,且不会反映两个形状彼此之间的距离。2)在物体不重叠的情况下,其梯度为零并无法对其进行优化。完整的 CIoU 损失函数为如下所示

(4)

其中,IoU代表交并比,b,bgt分别代表了预测框和真实框的中心点,ρ代表的是两个中心点间的欧氏距离。c表示能够同时包含预测框和真实框的最小闭包区域的对角线距离,α是权重函数,而v用来比较两个框宽高比的吻合度。

4.1 TT100K数据集

使用由清华大学和腾讯的联合实验室所整理和公开的TT100K中国交通标志数据集[17],在中国5个不同城市中选择了10个区域,从腾讯数据中心下载了十万张全景图,每张全景图的尺寸为8192×2048,通过水平滑动将每张图片分割成4幅图像,之后对图像中的交通标志进行了边界框标注,类别标注以及像素级的标注。

4.2 扩充策略

对TT100K数据集中每个类别的实例数进行统计可以发现,151个类别中只有45个类别的实例数超过50,并且有接近一半类别只有个位数的实例,这就造成了严重的数据分布不均衡的情况,直接使用会产生过拟合现象。因此,对数据集进行处理,仅保留实例数超过50的45个类别[18]。

传统的YOLOv5算法采用了图像平移,尺度调整以及马赛克相结合的数据增强技术,可以明显地改善训练效果。分析可以发现TT100K数据集中的道路交通标志多为中小目标,在原有的基础上引入了随机裁剪的方法,减弱背景因子的权重并且使模型面对缺失值不敏感,通过这种方式不仅能够弱化数据噪声,更有利于模型学习到更多的细节特征从而增加模型稳定性。

将数据集按照约等于8:2的比例随机划分训练集和测试集,实验结果表明即使只对45个类别进行分类和回归检测,检测效果依然会受数据分布不均衡的影响。基于这种情况,首先对所有类别的检测精度进行统计,找出精度较低的几种类别,尝试通过数字图像运算技术来为低精度类别增加实例数,使得模型可以学习到更多交通标志的通道特征,缓解过拟合现象从而改善检测效果。从表1中能够看出,ph5、p6、pl20、w32、w55、wo六类的检测精度明显低于平均精度。

表1 类别-精度表

1)图像缩放

图像缩放是指将给定的图像在x轴方向按比例缩放fx倍,在y轴方向按比例缩放fy倍,从而获得一幅新图像。令fx≠fy图像比例缩放会改变原始图像像素间的相对位置,产生几何畸变,如图7(a)所示。

2)图像切变

图7 数据增强效果图

图像的错切变换实际上是平面景物在投影平面上的非垂直投影效果。图像错切的原理就是保持图像上各点的某一坐标不变,将另一个坐标进行线性变换,坐标不变的轴称为依赖轴,坐标变换的轴称为方向轴。采用错切操作之后图像会在宽或者高上比原图像大,多出来的背景像素默认填充颜色为黑色,效果如图7(b)所示。

3)图像代数运算

图像代数运算中的乘法运算主要实现两个功能,一是可以实现掩模操作,即屏蔽图像的某些部分;
二是图像乘以一个常数因子,如果常数因子大于1,将增强图像的亮度,小于1则会使图像变暗。计算方法如式(4)所示,效果如图7(c)所示。

F(x,y)=f(x,y)*α

(5)

其中,f(x,y)代表原图像,α表示常数因子,F(x,y)为输出图像。

5.1 实验配置

由于使用的TT100K数据集包含近万张图片,并且利用深度学习训练神经网络模型对硬件的要求相对较高,仅使用CPU无法满足训练要求。因此在GPU上对改进网络进行训练和测试。具体的实验环境配置见表2。

表2 实验环境配置表

5.2 参数设置

在改进的YOLOv5模型训练过程中,初始学习率设为0.01,动量为0.937,衰减系数为0.0005。最大批次设置为150,图像平移系数为0.1,缩放系数为0.5,裁剪系数也为0.5,并采用适合较大数据集的随机梯度下降算法。

5.3 实验结果与分析

为了验证改进方法的有效性、泛化性以及数据增强策略对交通标志识别模型性能的影响,不仅使用加权双向特征金字塔网络改进YOLOv5-P6模型,还将其应用于YOLOv4以及传统的YOLOv5模型上进行对比实验,最后将改进的空洞空间池化金字塔模块与数据增强策略加入到模型中,得到最终的检测结果。

表3给出了不同模型用于道路交通标志识别任务的性能对比,从表中可以看出:1)基于加权双向特征金字塔网络的YOLOv4,YOLOv5以及YOLOv5-P6模型与改进前相比,精度分别提升了1.03%、1.11%、1.04%,由此证明了改进策略的有效性和泛化性。2)在加权双向特征金字塔网络的基础上利用空洞空间金字塔模块对YOLOv5x-P6模型进一步改进,精度和召回率分别提高了0.32%和0.2%,更符合真实标签,对图像中的道路具有更好的识别率。3)结合加权双向特征金字塔网络、空洞空间金字塔和数据增强策略的YOLOv5-P6道路交通标志算法的mAP达到90.02%,与传统的YOLOv5模型相比精度提高了4.72%,对图像中的交通标志具有更好的识别率。以上实验全部满足实时检测的要求。

表3 不同模型的训练结果对比

选择光照不足、遮挡和复杂背景下的交通标志图像,利用YOLOv4、YOLOv5x、YOLOv5x-P6和改进模型进行识别,检测效果如图8。在光照不足的情况下,改进模型检测出的交通标志置信度最高,达到93%,如图8(a)所示。对于复杂背景中小目标的检测能力尤为突出,与传统YOLOv5模型相比置信度提高了10%,与YOLOv4模型相比提高了21%,如图8(b)所示。在有遮挡的情况下,YOLOv4和与YOLOv5模型均未能完成检测任务,与YOLOv5x-P6模型相比,改进模型不仅更加准确识别出了被遮挡的目标,并且在回归任务中更加完整的提取出了图像中的道路交通标志。综上,改进模型通过加入加权双向特征金字塔网络,可以改善网络的特征提取能力,准确检测出光照不足以及受遮挡的目标。在空间池化金字塔模块中融入空洞卷积,进一步扩大感受野,提高了对于小目标的检测效果。

图8 各个模型的检测效果对比

在道路交通标志的实时检测任务中,由于存在小目标在复杂背景中难以检测和数据类别不平衡等问题,导致检测效果不佳。针对以上问题,提出了基于YOLOv5-P6的改进模型,采用具有跨层连接的加权双向特征金字塔网络,提高网络的特征提取能力;
使用空洞卷积替代空间金字塔模块中的卷积操作;
在训练过程中融入了随机裁剪的数据增强策略,使模型学习到更多道路交通标志的特征信息;
通过图像的缩放、切变和代数运算对低精度类别进行实例扩充,有效缓解了过拟合问题。与传统的YOLOv5算法相比,mAP提高了4.72%。综上,改进模型在检测精度上有显著提升,并满足对道路交通标志的实时检测。

另外,从表3中可以看出,与传统的YOLOv5模型相比,改进网络在召回率上有些许下降,这可能是由于将重点集中在了中小目标的特征提取上,导致对其它尺寸目标的检测效果不佳,后续会根据实例尺寸进一步统计分析,这是下一阶段的研究方向。

猜你喜欢池化金字塔空洞基于Sobel算子的池化算法设计科学技术与工程(2023年3期)2023-03-15“金字塔”环球时报(2022-09-19)2022-09-19卷积神经网络中的自适应加权池化软件导刊(2022年3期)2022-03-25设施蔬菜病害识别中的CNN池化选择新一代信息技术(2021年22期)2021-12-29锻造过程中大截面塑料模具钢中空洞缺陷的闭合行为上海金属(2021年2期)2021-04-07Great Vacation Places考试与评价·七年级版(2020年4期)2020-10-23海上有座“金字塔”少儿美术(快乐历史地理)(2019年2期)2019-06-12基于卷积神经网络和池化算法的表情识别研究计算机技术与发展(2019年1期)2019-01-21神秘金字塔童话世界(2017年11期)2017-05-17空洞的眼神故事作文·高年级(2017年2期)2017-03-01

推荐访问:交通标志 算法 识别

版权所有:睿智文秘网 2009-2024 未经授权禁止复制或建立镜像[睿智文秘网]所有资源完全免费共享

Powered by 睿智文秘网 © All Rights Reserved.。备案号:辽ICP备09028679号-1