集装箱重量字符实时视觉识别方法

发布时间:2023-08-26 10:24:03 来源:网友投稿

涂铮万志伟

1 武汉港迪智能技术有限公司 2 武汉理工大学自动化学院

集装箱箱面上的重量字符是集装箱的重要信息，自动提取并识别该信息可以有效提升集装箱码头作业的自动化的水平。当前集装箱面文本识别中较成熟的为箱号识别。王炎等提出了一种基于数学形态学的箱号快速定位算法，该方法在获取少量的箱号先验知识后，能在单一场景下以较快的速度完成定位任务[1]；
沈寒蕾等使用最大稳定极值区域(Maximally Stable Extremal Regions，MSER)方法对集装箱号进行定位，能够在单一场景下完成定位任务[2]；
黄深广等提出了一种基于字符边缘和颜色等先验信息的多特征箱号定位算法，通过多种定位方式实现多个场景下的高精度箱号区域定位，但未达到实时性的要求[3]。在字符识别领域，陈永煌提出了一种模板匹配和特征匹配互补方法来进行箱号识别，准确率高低很大程度上取决于字符分割的效果[4]；
罗辉武等提出基于结构特征和灰度特征的字符识别方法，结构的丢失容易引起识别的错误，难以适应箱号磨损等特殊情况[5]；
吴晓军等提出基于边缘几何特征的高性能模板匹配算法，边缘特征不具有鲁棒性，难以实际应用[6]。

随着视觉识别算法的研究深入，基于深度学习的文本识别方法在箱号定位方面应用增多。崔循等提出了1种基于改进Faster R-CNN的集装箱箱号定位算法,完成了较为精确的箱号区域定位，但过程存在大量冗余的计算，在复杂环境下无法有效地达到实时性的要求[7]；
Verma等提出了一种空间变换网络(Spatial Transformer Network，STN)结合连通图文本检测器的箱号识别方法，识别率较高，但无法适应一些恶劣的工业环境[8]；
张绍明等通过目标检测算法对集装箱前门图像进行处理，获取箱面上所有的文字，配合级联决策树提取箱号区域，但级联决策树并不适用于集装箱侧门和后门图像[9]。箱号识别方面，陈力畅尝试在字符分割后采用卷积神经网络进行字符识别，具有较高的识别准确率，但需要保证前期分割的正确率[10]；
Wu等针对集装箱箱号字符排列紧凑难以分割的情况，通过对灰度图像使用水平高通滤波器定位箱号区域，随后经过连通域分析分离出单字符块和多字符块，分别采用模板匹配法和隐马尔可夫模型进行识别，但人工设计特征过多，适应性不强[11]；
Yoon等提出了同时采集多个视图的集装箱图像来进行箱号识别，结合一种特征级和决策级融合的方法解决了字符丢失和字符粘连的问题，但是其单视图箱号识别率并不高，并且算法的整体计算量较大[12]。

然而，现有箱号识别技术难以直接应用于重量字符的识别，因为重量字符相较于箱号信息，存在3个不同的特性：背景复杂，有大量的文字干扰；
由于实际拍摄角度受限，存在多种拍摄角度的图像，需要进行特殊处理；
一般的识别系统不能获得所需的文本结果，需要特殊的后处理才能得到最终所需的信息。为此提出了改进的DBNet(Differentiable Binarization Net，可微分二值化网络)来完成重量字符检测任务[13]，改进的SAR(Show Attend Read，注意力识别方法)来完成重量字符识别任务[14]，通过专门设计的后处理方法将识别结果合并，得到最终所需的集装箱重量、容积等信息。

2.1 设计思路

为对堆场作业区集装箱后箱面的重量容积等字符进行识别，集装箱后箱面的仰拍和俯拍图像见图1。

图1 集装箱后箱面图像

其中可识别文字信息由标记框给出，以图1(a)为例，需要识别的字段为：总重(GROSS WT)、皮重(TARE WT)、负荷量(PAYLOAD)以及容积(CUBE)。经过样本分析后，总结样本特性为：

(1)数据图像主要有2大类型，分别为俯拍视角和仰拍视角。

(2)重量会使用2种不同的单位进行描述，2个不同单位的数据排布在1行或2行。

(3)容积信息不一定存在，如图1(b)所示。

(4)各部分信息之间存在关系，例如在单位一致的前提下，总重等于皮重加上负荷量。

通过分析发现，堆场作业区集装箱后箱面的文字信息众多，存在大量非感兴趣区域的文字干扰，拍摄角度存在多样性。为了得到最终重量信息，需要设计一个后处理的模块。根据以上条件，设计了集装箱重量字符实时视觉识别方法(见图2)。

图2 集装箱重量字符实时视觉识别方法流程

其中，轻量化的文本检测器选用改进的DBNet，实现集装箱重量和容积字符的检测。DBNet采用多任务学习形式，使得其能够在保证精度的前提下仍能够保证速度，因其直接使用一个分数图进行预测和简单的后处理。

针对轻量化文本识别网络，经典的文本识别网络如Shi等提出的用于单行文本的识别网络，虽然速度方面表现非常优秀，但精度不够[15]；
调研了Yu等提出的高精度网络，给高精度文本识别任务提供了解决方案，但由于需要识别的重量字符图像多，使用该网络带来大量资源负担[16]。最终选定了改进的带有二维注意力的SAR网络来实现集装箱重量字符识别。

在完成对图像的文本检测和识别任务之后，使用聚类后处理模块将表示同一信息的2个不同单位的识别结果合并，并通过结果是否相同、总重与皮重、负荷量等先验知识进行判别。如果信息不统一或发现明显误差，则表示识别结果不合理，此时需要进行人工操作，否则认定是合理的重量识别结果。

2.2 轻量化文本检测网络设计

Ding等设计的多个卷积多路计算网络结构，复杂的结构，可以增加训练时网络的复杂度，从而提升网络的表达能力，获取更好性能，而在网络推理时，将网络结构中多路的多个卷积算子进行融合，达到同等计算结果下轻量化网络的目的，这个过程称为网络的结构重参数[18]。将结构重参数方法引入轻量化DBNet网络，能够在不增加网络参数和计算复杂度的情况下，提升精度。网络在训练后，由于网络中存在许多冗余连接，利用通道剪枝移除这些冗余连接，使其不再参与到网络的计算中，可以起到轻量化网络的作用。最后，训练数据的扩充是可以在无损速度的前提下提升精度的策略，通过研究数据进行特定的数据扩充，可以明显提升模型的鲁棒性。

2.2.1 模型结构重参数

该方法所使用的ResNet(Deep Residual Learning for Image Recognition，结构重参数的残差连接网络)主要由图3所示的模块结构图组成[17]。

图3 结构重参数模块

其中图3(a)为模型训练阶段的卷积模块，在传统的卷积模块中加入了identity的残差结构和1×1 conv的残差结构，而在模型推理阶段又通过算子融合策略将所有的网络层都转换为3×3 conv，这里可以使得整个网络均是由3×3 conv和Relu堆叠而成，易于模型的推理和加速。在算子融合阶段，分为以下3个步骤实现。

(1)通过公式(1)将残差块中的卷积层和BN层进行融合。

(1)

式中，Wi为融合前卷积的权重；
W′i为融合后卷积的权重；
γi和βi分别为BN层的尺度因子和偏移因子；
σi和μi为BN层统计的方差和均值；
bi为融合前卷积的偏置；
b′i为融合后卷积的偏置。

(2)融合后的卷积层转换为3×3 conv。由于整个残差块中可能包含1×1 conv分支和identity两种分支，对于1×1 conv分支而言，整个转换过程就是利用3×3的卷积核替换1×1的卷积核，即将1×1卷积核中的数值移动到3×3卷积核的中心点即可；
对于identity分支而言，该分支并没有改变输入的特征映射的数值，通过设置一个3×3的通道分离卷积核，保持了原来的数值。

(3)合并残差分支中的3×3 conv。即将所有分支的权重W和偏置B叠加起来，从而获得一个融合之后的3×3 conv网络层(见图3(b))。

2.2.2 通道剪枝

Liu等使用通道剪枝的方法对网络进行轻量化，通道剪枝是通过对卷积的通道数进行压缩来达到减少参数量和计算量的目的[19]。具体来说，对BN中γ参数加入L1约束来产生稀疏通道，指导去除对输出影响小的通道，完成几乎无损的剪枝效果。原理在于γ参数值越小，说明这一个通道的所占输出的比例小，因此可以去除。但是如果γ的多个通道在同一个BN层中值很接近时，删除就会带来网络精度的很大影响。因此使用L1范数来稀疏化γ值。加入L1约束后的网络训练过程中的损失为：

Loss′=∑Loss(f(x,w),y)+λ∑g(γ)

(2)

式中，g(γ)代表对γ使用L1范数；
Loss(f(x,w),y)代表原网络的输出f(x,w)和标签y之间的损失；
Loss′代表改动后的损失。

为了将通道剪枝应用至ResNet18基础网络上，设计了图4所示的2种结构。其中图4(a)和图4(b)分别用于替代普通的需要剪枝的卷积基础模块和带shortcut的瓶颈层形式。其中slim conv代表后续剪枝操作的卷积算子。

图4 通道剪枝模块

可以发现设计的瓶颈层与原始ResNet的瓶颈层不同，如此设计的原因在于，在去除当前卷积的输出滤波器数目时，需要同时去除后续连接的下一个卷积的输入滤波器数目。为了能够成功完成通道剪枝，匹配各处的滤波器通道数，在设计通道剪枝模块时，采用的均是slim conv后接一个普通conv的方式。

2.2.3 针对性数据增强方法

合适的数据增强方法由于仅在训练时使用，因此可以在无损模型速度和参数量的前提下提升模型的精度。针对集装箱重量字符检测提出了以下几种数据增强方法。

(1)为了模拟光照以及拍摄条件的变化，添加了对比度、亮度、锐度、高斯模糊等数据增强。

(2)为了模拟拍摄角度的变化，添加了左右翻转、插值、仿射变换、缩放等数据增强。

(3)为了模拟多种分辨率的测试图像，添加了多分辨率训练策略，设置为512、768、1 024。

2.3 轻量化文本识别网络设计

2.3.1 轻量化特征提取网络

轻量化网络设计中，使用更紧凑的特征提取网络结构可以有效的降低网络复杂度，减小网络计算量和参数量，从而达到轻量化网络的目的。

MobilenetV3[20]结合了MobilenetV1和MobilenetV2中设计的经验，利用深度可分离卷积搭配1×1的点卷积来降低网络的计算量，同时保持通道信息之间的交互，有效降低了网络的复杂度，最终利用神经网络搜索技术和倒残差的瓶颈层结构找到最佳的神经网络架构。在本项目使用的轻量化识别网络SAR中，使用了MobileNetV3进行网络的特征提取，同时在RNN部分，使用了门结构更少的GRU结构代替LSTM结构，以减少网络的计算量。

2.3.2 针对性数据增强方法

集装箱重量字符在拍摄时普遍存在倾斜和畸变，采用随机扭曲，随机仿射变化等方法进行数据增强来模拟拍摄角度变化带来的影响。

集装箱重量字符在拍摄时，可能存在移动导致的模糊情况，因此在数据增强中加入了随机运动模糊。

2.4 后处理模块设计

首先对需要识别的重量字符进行单位以及名称的统计，为简化分类，字母大小写不区分，分类如下：

(1)总重：MAX GROSS、GROSS WT、MGW。

(2)负荷：PAYLOAD。

(3)皮重：TARE WT、TARE。

(4)容积：CUBE。

其中，总重、负荷以及皮重的单位相同，包含kgs、lbs、lb、kg，其中1 kg=2.20462262185 lb。容积的单位为m3以及ft3，其中1 m3=35.341 ft3。仅仅得到单独的识别结果无法进行应用。因此，通过总结和分析数据，提出了中位线延展合并方法，用于得到最终结果，并通过先验知识纠错来保证方法的有效性。

2.4.1 中位线延展合并

根据2类不同重量字符分布来进行合并。图5(a)和图5(b)分别代表同类型数据是2行和1行分布情况。根据这个数据特性，使用中位线延展合并方法，首先获取属性关键字，如MAX GROSS等，然后根据识别框的4个点坐标，获取中位线信息，并将其向右侧延展，聚类离其欧式距离最短的2个识别框。将结果进行合并，得到所需属性的值。

图5 中位线延展合并示意图

2.4.2 先验知识纠错

先验知识是通过数据总结获取的，采用以下4点先验知识进行重量信息识别结果的纠错，在错误时交由人工判断处理。

(1)不同单位的同一属性换算结果应当相同。

(2)总重信息应当等于负荷与皮重的和。

(3)皮重信息应当小于负荷量。

(4)单位应当匹配属性，例如重量的单位不应为m3。

对轻量化文本检测网络、轻量化文本识别网络、整体方法进行测试及分析比较。

3.1 集装箱重量字符检测

3.1.1 数据集及评价指标

测试中使用的数据集包含5 641张不同分辨率下的图像，其中仰视拍摄的图像3 021张，俯视拍摄的图像2 620张，通过将所有图像进行随机9∶1比例的划分，得到5 077张训练数据集和564张测试数据集。

评价指标包含精确率、召回率、F1分数以及FPS(Frames Per Second，每秒识别帧数)指标。各个算法的基础骨干网络采用ResNet18，推理图像的分辨率设置为长边736，阈值设置为0.3，得到一个预测为正确的TP(True Positve，正类)设置为预测框，预测框与GT(Ground Truth，真值)的交并比达到0.5即可。

3.1.2 测试结果

测试结果见表1，对比各算法的性能可以得出以下结论。

表1 各检测算法检测性能对比表

(1)重参数可以有效提升模型性能，在重参数融合BN和支路卷积后提升模型速度19.2%，F1值提升4.5。

(2)通道剪枝通过对一个大网络进行剪枝可以有保留模型性能，模型速度提升17%，F1值提升2.5。

(3)重参数+通道剪枝比仅通道剪枝性能更好，模型速度提升27%，性能提升2.8。

(4)加入数据增强后，模型性能得到了无损推理速度的提升。相比较基线DBNet F1值提升了5.8，速度提升了27%。

总结以上4点可以得知，重参数+通道剪枝+数据增强，达到了最高的精度和推理速度，证实了数据增强和训练策略的有效性。

3.2 集装箱重量字符识别

3.2.1 数据集及评价指标

测试数据集是从上述重量字符数据集上进行裁剪获取的，总共包含81 920张数据，同样根据9∶1的比例划分得到73 728张训练数据和8 192张测试数据。

设置训练图像分辨率为32×128，评价指标包含精度和FPS指标。推理时采用贪心解码方法，即选中置信度最高的结果进行输出，得到一个TP需要满足识别文本结果与GT的结果完全一致。

3.2.2 测试结果

测试结果见表2。其中，轻量化特征提取网络+数据增强，是在原始SAR算法上更换了轻量化特征提取网络并加上了数据增强的结果。通过实验对比，可以发现两者之间的精度差距极小，仅有0.4，FPS提升了42%，满足了设计要求，达到了精度和速度的均衡。

表2 各模型识别性能对比表

3.3 整体识别结果

对整体识别流程进行实验，该部分将会结合后处理模块。

3.3.1 数据集及评价指标

测试数据集仍然是重量字符数据集，包含5 641张不同分辨率下的图像，其中仰视拍摄的图像3 021张，俯视拍摄的图像2 620张，此时所有数据作为测试数据。

评价指标包含精度和FPS指标。当所有重量字符信息正确时，认定为一次识别成功的TP。

3.3.2 测试结果

测试结果见表3。仰视拍摄的图像的重量信息可以有效的进行识别并获取，准确率达到97.6%，每秒可以识别20张图像。俯视拍摄的图像由于存在遮挡等问题，模型表现不如仰视拍摄的图像。尤其当拍摄俯角过大时，更加难以识别。

表3 重量信息识别实验结果

通过将轻量化改进的DBNet、SAR以及后处理过程组合，提出集装箱重量字符识别方法，完成了集装箱重量、容积等信息的获取和识别。其研究重点是对该方法的各个模块进行轻量化改进，并保证或提升了各个模块对于重量字符对象的识别精度等性能指标。该方法对于提升集装箱码头作业的自动化程度有一定支撑作用。

猜你喜欢剪枝字符轻量化基于ABAQUS的某轻卡车蓄电池支架轻量化汽车实用技术(2022年11期)2022-06-20人到晚年宜“剪枝”保健医苑(2022年5期)2022-06-10基于YOLOv4-Tiny模型剪枝算法成都信息工程大学学报(2021年6期)2021-02-12论高级用字阶段汉字系统选择字符的几个原则汉字汉语研究(2020年2期)2020-08-13基于激活-熵的分层迭代剪枝策略的CNN模型压缩计算机应用(2020年5期)2020-06-07字符代表几小学生学习指导(低年级)(2019年12期)2019-12-04一种USB接口字符液晶控制器设计电子制作(2019年19期)2019-11-23图片轻松变身ASCⅡ艺术画电脑爱好者(2019年8期)2019-10-30一种轻量化自卸半挂车结构设计智富时代(2019年2期)2019-04-18一种轻量化自卸半挂车结构设计智富时代(2019年2期)2019-04-18

推荐访问:集装箱实时字符