摘要
本研究提出了一种基于改进MaskRCNN网络的纸病诊断算法。该算法首先在原有的MaskRCNN网络的基础上,使用轻量化头部骨干网络VOVNet和精细化的RoIPooling(PrRoIPooling)对原网络模型进行改进,以减少原网络模型的参数使用量,提升检测分类速度;其次添加空间金字塔注意力机制(SPANet),以解决原网络模型对于小目标检测精确度不高的问题。采集4 000多张纸病图像对本研究提出的算法进行仿真验证。结果表明,改进的MaskRCNN模型比原网络模型在平均精度上提升了3个百分点,速度上提升了15%,能够满足纸病诊断的实时性和准确性的实际需求。
纸病诊断是纸张抄造过程中的一个重要环节,其中特种高端用纸(如燃料电池用纸、航空用纸等)的纸病诊断更加重要。在纸张抄造的过程中,受生产工艺、现场环境等各种因素的影响,纸张会出现如黑斑、划痕、孔洞等瑕疵,业内将这些纸张表面缺陷统称为纸
目前主流的纸病诊断方法可分为2类。一类是基于机器视觉的纸病诊断方法,另一类是基于深度学习的纸病诊断方法。前者的特点为无接触、精确度高、可靠性好。张聪
本研究通过参考深度学习在纸病诊断及其他领域中的应用,结合小目标诊断存在的特征提取不充分以及精度不高的特点,提出了一种基于改进MaskRCNN的纸病诊断算法。该方法具有快速、实时性强、小目标检测能力强等优点,同时结合PyQT进行仿真,验证了算法的可行性。
MaskRCNN是由Faster R-CNN扩展形成的两阶段实例分割算法,是一个端到端的网络。该网络模型的第一阶段与Faster R-CNN相同,均是通过扫描图像生成提议(propasals,可能包含目标的区域框);第二阶段与预测类和框偏移量并行,并且为每个ROI输出二进制掩码。MaskRCNN是在Faster RCNN的基础上添加了1个预测分割mask的分支,并采用ResNet-50或ResNet-101 2种头部骨干网络作为特征提取器来提取特征区域(

图1 MaskRCNN网络模型结构
Fig. 1 MaskRCNN network model structure
MaskRCNN深度学习网络模型为了实现同时获取低层特征图的空间信息和高层特征图的语义信息,使用了如

图2 FPN结构图
Fig. 2 Diagram of FPN structure
基于MaskRCNN模型的特点,本研究提出了一种基于改进MaskRCNN的纸病实例分割算法,对特种纸张在抄造过程中所产生的纸病图像进行精确的分割,以确定特种纸张的生产质量,实现资源利用效率最大化。本研究提出的纸病实例分割方法框架如

图3 纸病实例分割算法框架
Fig. 3 Framework for paper defect instance segmentation algorithm
该方法主要包括2个步
尽管MaskRCNN相较于其他算法具有较快的速度和较高的精度,但由于其主干网络Resnet和RoIAlign层参数量仍然较大,小目标检测精度较低,难以在高速宽幅纸机中发挥优势。因此,为了降低参数量,提高小目标的检测精度,本研究针对主干网络Resnet和RoIAlign进行了改进。
MaskRCNN采用ResNet为特征提取网络,该网络虽然具有较高的稳定性和准确性,但对小目标的检测效率较低。当研究对象为纸病,特征提取对象为小目标时,应采用更适合小目标检测的轻量化VOVNet网络来更换原有的网络骨干,提高特征的提取效率。
VOVNet网络模型的轻量化设计主要考虑因素分别为参数量和计算量。为了减少参数量和计算量,VOVNet网络同时对内存的访问成本(memory access cost,MAC)和图形处理器(grraphics processing unit,GPU)计算效率进行考虑。
VOVNet的内存访问成本主要由以下3个因素决定:
1)模型参数:VOVNet模型的参数量越多,模型在训练和推理过程中读写内存的次数就越多,内存访问成本也就越高。
2)模型架构:VOVNet模型的网络结构决定了模型的层数和每层的节点数,层数越多,每层的节点数越多,模型的内存访问成本也会相应增加。
3)数据加载:模型在训练和推理过程中需要读取输入数据,若数据加载频繁或中央处理器(central processing unit,CPU)数据量较大,会增加内存访问成本。
GPU的计算优势在于并行计算能力,能耗效率低。计算维度较大的数据时,GPU计算优势较明显,GPU使用许多强大的并行计算单元,同时执行计算任务,能够在单位时间内完成大量的计算操作。尽管GPU在计算方面能力较强,但是相较于中央处理器(central processing unit,CPU),在相同的计算任务下,GPU能耗更低,因此GPU成为当前在大规模计算和数据处理任务时的首要选择。
VOVNet网络模型主要是由3个3×3的卷积层构成的stem block和4个阶段的一次性聚合(one-shot aggregation,OSA)模块共同构成。OSA模块结构如

图4 OSA模块结构图
Fig. 4 Diagram of OSA model structure
卷积层MAC计算方法如
(1) |
卷积层计算量(F)如
(2) |
式中,
设置F为固定值,则,根据均值不等式,可得,当时,MAC取下界,认为此时网络模型的设计最合理最高效。
OSA主要是一种对多源信息进行聚合的方法,在特征提取时需要从不同的数据源对信息进行收集和聚合,以获取更加精确的特征结果。传统的信息聚合方法需要多次迭代和通信,而OSA通过一次性传递信息并进行聚合,有效地提高了效率和性能。其中,每一个阶段的OSA最后均会采用1个步长为2的3×3最大池化层,使模型的最终输出步长为32。
本研究中,OSA模块将获取到的特征信息同时聚合到最后一层。而每一个3×3卷积层均有2种不同的连接方式:①传至下一个3×3的卷积层,以产生更大的感受野;②直接聚合到最后的输出特征图上映射1次。该OSA模块的聚合方式在一定程度上减少了连接的密集性,使每一层输入、输出通道数量在中间层阶段均为固定值,最后得到MAC的最小值,从而提升了GPU的计算效
在原有的VOVNet模型基础上,引入了一种从输入直接到输出的恒等映射过程OSA模块,以解决模型深度增加所带来的信息传播受阻问题。OSA的引入,使VOVNet能够像ResNet一样在每个阶段均能端到端地反向传播每个OSA模块的梯度,从而提高模型的性能,并且保持计算效率,满足更深层次的网络模型要求。这种优化能够一定程度上解决模型检测性能下降的问题,使网络整体性能更加优
空间金字塔注意力(SPANet
(3) |
式中,ρ为线性整流函数;V为特征向量;W1和W2分别为第一和第二全连接层,为校正的线性单元函数(ReLU);sig为激励函数(sigmoid)。
SPANet的模型结构如

图5 SPANet架构
Fig. 5 Architecture of SPANet
SPA模块可以灵活地部署到各种神经网络架构中,与其他模型相比,其在不引入太多计算开销的前提下,可以显著提高识别的精度。改进后VOVNet模型的OSA结构如

图6 改进后的OSA模块
Fig. 6 Improved OSA model
MaskRCNN通过RoIAlign提高目标区域的获取精度。RoIAlign利用双线性插值的方法解决了RoIPooling中为了得到固定大小的特征图进行的2次量化取整操作,但其自身又引入了新的参数。新参数的引入使RoIAlign出现了2处不足:①线性插值过程中所插值点的数量N是预先设定的,无法根据特征图进行自适应调整;②插入的每个点的梯度只与其上下左右4个整数位置的像素点有关,而不是整个区域的像素点均对插入点的梯度产生影
PrRoIPooling具有以下3条优
1)不涉及RoIPooling中的量化取整操作;
2)PrRoIPooling去除了RoIAlign在插值过程中所引入的参数N(插值的点数目),使整个特征图是一个连续的整体;
3)使用求积分的方法得到整个区域的像素值,所得像素值均有梯度的传递。
(4) |

图7 PrRoIPooling示意图
Fig. 7 Diagram of PrRoIPooling
使用IC函数计算每一个连续的x, y方向的偏移的乘积,在1个像素以内的偏移,利用下一个整数像素点或者计算。IC函数的表达式见
(5) |
然后该偏移的乘积和(i, j)与像素值相乘得到,见
(6) |
基于
(7) |
式中,IC函数属于插值系数;f (x, y)是通过插值得到的连续坐标特征图;Wi, j是离散的特征图。
MaskRCNN的RoI的损失函数主要由3部分组成(
(8) |
式中,为掩膜损失;为回归损失;为边框回归损失。
在训练过程中,将每一个采样RoI上的损失定义为
为了验证改进算法的应用效果,本研究使用了课题组内部搭建的纸病诊断实验装置获得的数据集,并且为了获取更加清晰的纸病信息,选择了线阵相机S3-24-904K40-00-R对纸病图像进行采集。所获数据集中包含孔洞、划痕、黑斑、褶皱以及无纸病图像共计4 000多张,纸病图像如

图8 4种常见的纸病类型图像
Fig. 8 Images of four common types of paper disease

图9 无纸病图像
Fig. 9 Image of paper without disease
首先使用labelme图像标注工具对采集到的4 000多张纸病图像的纸病区域进行标记,然后对图像的像素大小进行归一化处理,最后将标注后的图像文件保存为.json格式。本研究的纸病数据集按照9∶1∶1的比例划分为训练集、验证集和测试集。数据集图像的划分如
类别 | 训练集 | 验证集 | 测试集 | 合计 |
---|---|---|---|---|
黑斑 | 810 | 90 | 90 | 990 |
划痕 | 810 | 90 | 90 | 990 |
孔洞 | 810 | 90 | 90 | 990 |
褶皱 | 810 | 90 | 90 | 990 |
无纸病 | 360 | 40 | 40 | 440 |
本实验基于Windows 10操作系统进行训练,开发环境相关配置如
环境 | 版本 | 环境 | 版本 |
---|---|---|---|
scipy | 1.4.1 | tqdm | 4.46.1 |
numpy | 1.18.4 | Pillow | 8.2.0 |
opencv_python | 4.2.0.34 | h5py | 2.10.0 |
matplotlib | 3.2.1 | scikit-image | 0.16.2 |
Cuda | 10.1 | PyTorch | 1.10 |
tensorflow_gpu | 2.2.0 | pycocotools | 2.0.4 |
本研究在实验过程中采用平均精度均值mAP作为纸病诊断准度的评价指
(9) |
式中,为纸病检测的类别数。
AP计算见
(10) |
式中,AP从准确率和召回率2方面入手,1个为纵轴1个为横轴,其中P为准确率,R为召回率,具体计算见式(11)~
(11) |
(12) |
式中,TP为算法正确识别出的纸病样本;FN为算法没有正确识别的纸病样本;FP为算法检测错误的负样本。
首先通过选取4种常见待检测纸病图像各200张,以及无纸病图像50张作为干扰项,共计850张图像,对原本的MaskRCNN算法和本研究所改进的进行对比,实验结果如
纸病诊断 | 预测值 | |||||
---|---|---|---|---|---|---|
孔洞 | 划痕 | 黑斑 | 褶皱 | 无纸病 | ||
真实值 | 孔洞 | 188 | 1 | 2 | 0 | 0 |
划痕 | 2 | 190 | 1 | 5 | 1 | |
黑斑 | 2 | 3 | 191 | 1 | 0 | |
褶皱 | 2 | 2 | 1 | 192 | 0 | |
无纸病 | 6 | 5 | 5 | 2 | 49 |
纸病诊断 | 预测值 | |||||
---|---|---|---|---|---|---|
孔洞 | 划痕 | 黑斑 | 褶皱 | 无纸病 | ||
真实值 | 孔洞 | 196 | 1 | 1 | 0 | 0 |
划痕 | 1 | 196 | 0 | 2 | 0 | |
黑斑 | 2 | 0 | 197 | 0 | 0 | |
褶皱 | 0 | 2 | 0 | 197 | 0 | |
无纸病 | 1 | 1 | 2 | 1 | 50 |
多分类问题与二分类问题类似,矩阵行数据相加是真实值类别数,列数据相加是分类后的类别数,那么相应的计算精确率_孔洞=188/(188+2+2+2+6)=0.94;召回率_孔洞=188/(188+1+2)=0.98。
由
为了进一步评估模型的识别效率,本研究比较了3个网络模型,包括MaskRCNN、Faster-RCNN、YOLOv5。3个模型的训练数据集和验证数据集均相同,训练轮次统一为50/轮次,实验结果如
算法类别 | mAP/% | 检测速度/fps |
---|---|---|
原始MaskRCNN | 90 | 4.64 |
Faster-RCNN | 88 | 3.54 |
YOLOv5 | 82 | 31.3 |
改进MaskRCNN | 93 | 5.32 |
本研究对原始的MaskRCNN算法、每一部分单独改进MaskRCNN算法以及最终改进MaskRCNN算法进行对比,对比实验的结果如
算法类别 | mAP/% | 检测速度/fps |
---|---|---|
原始MaskRCNN | 90 | 4.64 |
MaskRCNN+PrRoIPooling | 91 | 4.55 |
MaskRCNN+VOVNet | 90 | 5.12 |
MaskRCNN+SPANet | 92 | 4.98 |
改进MaskRCNN | 93 | 5.32 |
MaskRCNN和各项改进MaskRCNN对纸病检测结果的mAP曲线如

图10 改进前后的mAP曲线
Fig. 10 mAP curves before and after improvement
由
改进后的MaskRCNN算法检测的纸病信息结果如

图11 纸病检测结果
Fig. 11 Test results of paper disease
本研究针对MaskRCNN算法实时性较低、对小目标检测精度不高等问题,通过使用更加轻量化的头部骨干网络VOVNet代替Resnet作为特征提取网络,一定程度上增加了网络的计算效率,提高了获取小目标特征信息的能力,并且用PrRoIPooling替换了MaskRCNN中特有的RoIAlign,减少了参数的使用量,一定程度上提升了检测速度,最后在模型中添加SPANet注意力机制,进一步增加对于纸病细节特征的提取。
改进后的算法精度可达93%,相较于改进前提升了3个百分点,一定程度上提升了检测的速度,降低了错检、误检、漏检率,验证了改进后算法的可行性。后续工作中,应在团队实验平台上进行变车速验证,根据验证结果再对算法进行必要的改进,最后部署到实际工程应用中去。
参 考 文 献
汤伟,张龙,王锦韫,等. 基于快速傅里叶变换和改进分水岭算法的纸病实时检测复合算法[J]. 中国造纸,2023,42(7):153-160. [百度学术]
TANG W, ZHANG L, WANG J Y, et al. A Composite Algorithm for Real-time Detection of Paper Defects Based on Fast Fourier Transform and Improved Watershed Algorithm[J]. China Pulp & Paper, 2023,42 (7): 153-160. [百度学术]
张聪,汤伟.基于粒子群优化算法与形态学的纸病图像检测方法[J]. 造纸科学与技术, 2014,33(2):60-64. [百度学术]
ZHANG C, TANG W. A paper disease image detection method based on particle swarm optimization algorithm and morphology [J]. Paper Science & Technology, 2014, 33 (2): 60-64. [百度学术]
杨波, 周强, 张刚强.基于几何及灰度特征的纸病检测算法研究[J]. 中国造纸,2011,30(9): 50-53. [百度学术]
YANG B, ZHOU Q, ZHANG G Q. Research on Paper Disease Detection Algorithm Based on Geometric and Grayscale Features [J]. China Pulp & Paper, 2011, 30 (9): 50-53. [百度学术]
曲蕴慧, 汤伟, 成爽爽.基于深度卷积神经网络及迁移学习的纸病分类方法研究[J]. 中国造纸,2021,40(10):63-70. [百度学术]
QU Y H, TANG W, CHENG S S. Research on Paper Disease Classification Method Based on Deep Convolutional Neural Network and Transfer Learning [J]. China Pulp & Paper, 2021,40(10): 63-70. [百度学术]
李果. 基于Faster-RCNN改进算法的纸张缺陷自动检测方法[J]. 赣南师范大学学报,2021,42(3):100-104. [百度学术]
LI G. A paper defect automatic detection method based on the improved Faster-RCNN algorithm [J]. Journal of Gannan Normal University, 2021,42(3): 100-104. [百度学术]
张开生, 关凯凯. 基于改进YOLOv5的纸病检测方法[J]. 中国造纸,2022,41(10): 79-86. [百度学术]
ZHANG K S, GUAN K K. A Paper Disease Detection Method Based on Improved YOLOv5 [J]. China Pulp & Paper, 2022, 41(10): 79-86. [百度学术]
汤伟, 王锦韫, 张龙.基于改进Faster R-CNN的纸病检测算法[J]. 包装工程,2023,44(21):260-266. [百度学术]
TANG W, WANG J Y, ZHANG L. Paper Disease Detection Algorithm Based on Improved Faster R-CNN [J]. Packaging Engineering, 2023,44 (21): 260-266. [百度学术]
CONG P, LI S, ZHOU J, et al. Research on instance segmentation algorithm of greenhouse sweet pepper detection based on improved mask RCNN[J]. Agronomy, 2023, 13(1): 196-201. [百度学术]
YOUNGWAN L, JOONG-WON H, SANGROK L, et al. An Energy and GPU-computation Efficient Backbone Network for Real-time Object Detection[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops: IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW 2019), Long Beach, CA, USA:Institute of Electrical and Electronics Engineers, 2019:752-760. [百度学术]
上转163页) [百度学术]
刘丹,汪慧兰,曾浩文,等. VOVNet-FCOS道路行人目标检测算法研究[J]. 国外电子测量技术,2021,40(11):64-71. [百度学术]
LIU D, WANG H L, ZENG H W, et al. Research on VOVNet-FCOS Road Pedestrian Target Detection Algorithm [J]. Foreign Electronic Measurement Technology, 2021,40 (11): 64-71. [百度学术]
YANGYANG Y. SPANet: Spatial and Part-aware Aggregation Network for 3D Object Detection[C]//Proceedings of PRICAI 2021: Trends in Artificial Intelligence: 18th Pacific Rim, International Conference on Artificial Intelligence, PRICAI 2021, Hanoi, Vietnam, Proceedings, part III.:Springer, 2021:308-320. [百度学术]
蔡文彪,李永锋,吴怀诚,等. 基于改进Faster RCNN模型的输电线缺陷检测方法[J]. 信息技术,2023,47(1):148-153. [百度学术]
CAI W B, LI Y F, WU H C, et al. A defect detection method for transmission lines based on an improved Faster RCNN model [J]. Information Technology, 2023,47 (1): 148-153 [百度学术]
PEILIN H, LIN Z, CHANGHUA Z, et al. A Value Recognition Algorithm for Pointer Meter Based on Improved Mask-RCNN[C]//Proceedings of 2019 9th International Conference on Information Science and Technology: 9th International Conference on Information Science and Technology (ICIST), Hulunbuir, China:Institute of Electrical and Electronics Engineers, 2019:108-113. [百度学术]