网刊加载中。。。

使用Chrome浏览器效果最佳，继续浏览，你可能不会看到最佳的展示效果，

确定继续浏览么?

复制成功，请在其他浏览器进行阅读

一种基于改进MaskRCNN的纸病诊断算法

- ORCID：
汤伟 ^1,2
- ORCID：
刘英伟 ¹
✉
- ORCID：
王孟效 ²
- ORCID：
耿志遥 ¹
- ORCID：
刘常闯 ¹
- ORCID：
杨亦君 ¹

1. 陕西科技大学电气与控制工程学院，陕西西安，710021； 2. 陕西西微测控工程有限公司，陕西咸阳，712000

中图分类号： TS736⁺.2

最近更新：2024-12-20

DOI：10.11980/j.issn.0254-508X.2024.12.021

摘要

本研究提出了一种基于改进MaskRCNN网络的纸病诊断算法。该算法首先在原有的MaskRCNN网络的基础上，使用轻量化头部骨干网络VOVNet和精细化的RoIPooling（PrRoIPooling）对原网络模型进行改进，以减少原网络模型的参数使用量，提升检测分类速度；其次添加空间金字塔注意力机制（SPANet），以解决原网络模型对于小目标检测精确度不高的问题。采集4 000多张纸病图像对本研究提出的算法进行仿真验证。结果表明，改进的MaskRCNN模型比原网络模型在平均精度上提升了3个百分点，速度上提升了15%，能够满足纸病诊断的实时性和准确性的实际需求。

关键词

纸病诊断; MaskRCNN; VOVNet; PrRoIPooling; SPANet

纸病诊断是纸张抄造过程中的一个重要环节，其中特种高端用纸（如燃料电池用纸、航空用纸等）的纸病诊断更加重要。在纸张抄造的过程中，受生产工艺、现场环境等各种因素的影响，纸张会出现如黑斑、划痕、孔洞等瑕疵，业内将这些纸张表面缺陷统称为纸病^[

1]。随着高速宽幅纸机的出现，纸病的发生率也逐渐增加。为了提高特种高端用纸的质量，研究实时性强、准确性高的纸病诊断方法的工作非常重要。

目前主流的纸病诊断方法可分为2类。一类是基于机器视觉的纸病诊断方法，另一类是基于深度学习的纸病诊断方法。前者的特点为无接触、精确度高、可靠性好。张聪等^[

2]通过优化粒子群算法寻找可以将熵函数再结合基于形态学的边缘检测技术，从而实现纸病检测；杨波等^{[参考文献 3

百度学术}3]利用边界跟踪算法，基于图像几何及灰度特征进行纸病检测，但这些算法容易受到光照等外界因素的影响，导致纸病检测的效率和精度较低。后者的特点为特征提取能力强、可获得高维纸病的特征信息和较好的鲁棒性。曲蕴慧等^{[参考文献 4

百度学术}4]采用VGG16网络与迁移学习相结合的方法，不仅提高了纸病识别的精度，还减少了内存成本；李果^{[参考文献 5

百度学术}5]提出了一种利用Faster R-CNN进行纸张缺陷检测的方法；张开生等^{[参考文献 6

百度学术}6]提出基于改进YOLOv5的纸病检测算法，提高了检测精度；汤伟等^{[参考文献 7

百度学术}7]提出了改进Faster R-CNN的纸病检测算法和改进的卷积神经网络纸病分类算法。上述这些算法虽然一定程度上提高了纸病检测的精度，但特征提取不够充分，对于小目标的检测易出现漏检和错检的现象。

本研究通过参考深度学习在纸病诊断及其他领域中的应用，结合小目标诊断存在的特征提取不充分以及精度不高的特点，提出了一种基于改进MaskRCNN的纸病诊断算法。该方法具有快速、实时性强、小目标检测能力强等优点，同时结合PyQT进行仿真，验证了算法的可行性。

1 MaskRCNN检测算法介绍

MaskRCNN是由Faster R-CNN扩展形成的两阶段实例分割算法，是一个端到端的网络。该网络模型的第一阶段与Faster R-CNN相同，均是通过扫描图像生成提议（propasals，可能包含目标的区域框）；第二阶段与预测类和框偏移量并行，并且为每个ROI输出二进制掩码。MaskRCNN是在Faster RCNN的基础上添加了1个预测分割mask的分支，并采用ResNet-50或ResNet-101 2种头部骨干网络作为特征提取器来提取特征区域（图1）。如图1所示，黑色部分为原来的Faster RCNN，红色部分为在Faster R-CNN网络上的修改。修改部分为将RoIPooling 层替换成了RoIAlign层，同时添加了并列的FCN层（mask层）。

图1 MaskRCNN网络模型结构

Fig. 1 MaskRCNN network model structure

MaskRCNN深度学习网络模型为了实现同时获取低层特征图的空间信息和高层特征图的语义信息，使用了如图2所示的FPN结构（特征金字塔网络，feature pyramid network），通过实现高低层特征信息的融合来提高模型的检测精度。

图2 FPN结构图

Fig. 2 Diagram of FPN structure

基于MaskRCNN模型的特点，本研究提出了一种基于改进MaskRCNN的纸病实例分割算法，对特种纸张在抄造过程中所产生的纸病图像进行精确的分割，以确定特种纸张的生产质量，实现资源利用效率最大化。本研究提出的纸病实例分割方法框架如图3所示。

图3 纸病实例分割算法框架

Fig. 3 Framework for paper defect instance segmentation algorithm

该方法主要包括2个步骤^[

8]。步骤1：获取纸病图像数据集并对其进行标记和像素、尺寸统一处理，生成模型训练所需的原始图像数据，为下一次模型训练做准备；步骤2：使用处理后的纸病图像数据作为所提出算法的原始输入图像，进行特征提取和模型训练，并对训练后模型的性能进行评估，衡量算法优缺点，最终实现纸病的识别和分割。

尽管MaskRCNN相较于其他算法具有较快的速度和较高的精度，但由于其主干网络Resnet和RoIAlign层参数量仍然较大，小目标检测精度较低，难以在高速宽幅纸机中发挥优势。因此，为了降低参数量，提高小目标的检测精度，本研究针对主干网络Resnet和RoIAlign进行了改进。

2 MaskRCNN算法的改进

2.1　VOVNet替换ResNet

MaskRCNN采用ResNet为特征提取网络，该网络虽然具有较高的稳定性和准确性，但对小目标的检测效率较低。当研究对象为纸病，特征提取对象为小目标时，应采用更适合小目标检测的轻量化VOVNet网络来更换原有的网络骨干，提高特征的提取效率。

VOVNet网络模型的轻量化设计主要考虑因素分别为参数量和计算量。为了减少参数量和计算量，VOVNet网络同时对内存的访问成本（memory access cost，MAC）和图形处理器（grraphics processing unit，GPU）计算效率进行考虑。

VOVNet的内存访问成本主要由以下3个因素决定：

1）模型参数：VOVNet模型的参数量越多，模型在训练和推理过程中读写内存的次数就越多，内存访问成本也就越高。

2）模型架构：VOVNet模型的网络结构决定了模型的层数和每层的节点数，层数越多，每层的节点数越多，模型的内存访问成本也会相应增加。

3）数据加载：模型在训练和推理过程中需要读取输入数据，若数据加载频繁或中央处理器（central processing unit，CPU）数据量较大，会增加内存访问成本。

GPU的计算优势在于并行计算能力，能耗效率低。计算维度较大的数据时，GPU计算优势较明显，GPU使用许多强大的并行计算单元，同时执行计算任务，能够在单位时间内完成大量的计算操作。尽管GPU在计算方面能力较强，但是相较于中央处理器（central processing unit，CPU），在相同的计算任务下，GPU能耗更低，因此GPU成为当前在大规模计算和数据处理任务时的首要选择。

VOVNet网络模型主要是由3个3×3的卷积层构成的stem block和4个阶段的一次性聚合（one-shot aggregation，OSA）模块共同构成。OSA模块结构如图4所示。

图4 OSA模块结构图

Fig. 4 Diagram of OSA model structure

卷积层MAC计算方法如式(1)所示。

M A C = h_{i} w_{i} (c_{i} + c_{0}) + k^{2} c_{i} c_{0}

（1）

卷积层计算量（F）如式(2)所示。

F = k^{2} h_{i} w_{i} c_{i} c_{0}

（2）

式中，k²为卷积核的大小；h_i和w_i为输入特征图的大小，即高和宽；c_i为输入通道数；c₀为输出通道数。

设置F为固定值，则 $M A C = F (c_{i} + c_{0}) / k^{2} c_{i} c_{0} + F / h w$ ，根据均值不等式 ${c_{i}}^{2} + {c_{0}}^{2} \geq 2 c_{i} c_{0}$ ，可得 $M A C \geq 2 \sqrt[]{\frac{h w B}{k^{2}}} + \frac{B}{h w}$ ，当 $c_{i} = c_{0}$ 时，MAC取下界，认为此时网络模型的设计最合理最高效。

OSA主要是一种对多源信息进行聚合的方法，在特征提取时需要从不同的数据源对信息进行收集和聚合，以获取更加精确的特征结果。传统的信息聚合方法需要多次迭代和通信，而OSA通过一次性传递信息并进行聚合，有效地提高了效率和性能。其中，每一个阶段的OSA最后均会采用1个步长为2的3×3最大池化层，使模型的最终输出步长为32。

本研究中，OSA模块将获取到的特征信息同时聚合到最后一层。而每一个3×3卷积层均有2种不同的连接方式：①传至下一个3×3的卷积层，以产生更大的感受野；②直接聚合到最后的输出特征图上映射1次。该OSA模块的聚合方式在一定程度上减少了连接的密集性，使每一层输入、输出通道数量在中间层阶段均为固定值，最后得到MAC的最小值，从而提升了GPU的计算效率^[

9]。

2.2　对VOVNet的改进

在原有的VOVNet模型基础上，引入了一种从输入直接到输出的恒等映射过程OSA模块，以解决模型深度增加所带来的信息传播受阻问题。OSA的引入，使VOVNet能够像ResNet一样在每个阶段均能端到端地反向传播每个OSA模块的梯度，从而提高模型的性能，并且保持计算效率，满足更深层次的网络模型要求。这种优化能够一定程度上解决模型检测性能下降的问题，使网络整体性能更加优越^[

10]。

空间金字塔注意力（SPANet）^[

11]，不同于其他的单一的注意力机制，而是通过横向添加SPA模块的方式增加基础网络性能，该模块利用金字塔池化和空间注意力机制，使网络能够有效地关注不同尺度和位置上的特征信息，同时考虑了结构信息和结构正则化。SPA从编码结构信息的角度出发，使用多个大小的池化机制实现对尺度信息的捕捉，其中4×4平均池化捕捉更多的特征表示和结构信息；1×1平均池化是具有更强结构正则化的传统全局池化层；2×2平均池化旨在权衡结构信息和结构正则化。然后将其组合展平为1D特征向量V进行concat操作，在连接层中对上一步的输出进行处理，进而得到注意力的权重信息。权重计算如式(3)所示。

\tilde{v} = s i g [W_{2} ρ (W_{1} v)]

（3）

式中，ρ为线性整流函数；V为特征向量；W₁和W₂分别为第一和第二全连接层，为校正的线性单元函数（ReLU）；sig为激励函数（sigmoid）。

SPANet的模型结构如图5所示。

图5 SPANet架构

Fig. 5 Architecture of SPANet

SPA模块可以灵活地部署到各种神经网络架构中，与其他模型相比，其在不引入太多计算开销的前提下，可以显著提高识别的精度。改进后VOVNet模型的OSA结构如图6所示。

图6 改进后的OSA模块

Fig. 6 Improved OSA model

2.3　Precise RoIPooling替换RoIAlign

MaskRCNN通过RoIAlign提高目标区域的获取精度。RoIAlign利用双线性插值的方法解决了RoIPooling中为了得到固定大小的特征图进行的2次量化取整操作，但其自身又引入了新的参数。新参数的引入使RoIAlign出现了2处不足：①线性插值过程中所插值点的数量N是预先设定的，无法根据特征图进行自适应调整；②插入的每个点的梯度只与其上下左右4个整数位置的像素点有关，而不是整个区域的像素点均对插入点的梯度产生影响^[

12]。为了解决新参数引入造成的影响，本研究采用Precise RoIPooling（PrRoIPooling）替换RoIAlign实现参数计算量最小化，加快检测速度。

PrRoIPooling具有以下3条优点^[

13]：

1）不涉及RoIPooling中的量化取整操作；

2）PrRoIPooling去除了RoIAlign在插值过程中所引入的参数N（插值的点数目），使整个特征图是一个连续的整体；

3）使用求积分的方法得到整个区域的像素值，所得像素值均有梯度的传递。

图7为PrRoIPooling示意图。如图7(c)所示，确定1个特征图F，假设 $(x_{1}, y_{1})$ 和 $(x_{2}, y_{2})$ 分别为bin区域左上角和右下角的坐标，利用区域内的所有整数值位置的像素点便可以积分出整个区域的像素值。1个bin的表达式见式(4)。

b i n = \{(x_{1}, y_{1}), (x_{2}, y_{2})\}

（4）

图7 PrRoIPooling示意图

Fig. 7 Diagram of PrRoIPooling

使用IC函数计算每一个连续的x, y方向的偏移的乘积，在1个像素以内的偏移，利用下一个整数像素点 $(i + 1, j)$ 或者 $(i, j + 1)$ 计算。IC函数的表达式见式(5)。

I C (x, y, i, j) = m a x (0,1 - |x - i|) \cdot m a x (0,1 - |y - j|)

（5）

然后该偏移的乘积和（i, j）与像素值 $w_{i, j}$ 相乘得到 $f (x, y)$ ，见式(6)。

f (x, y) = \sum_{i, j} I C (x, y, i, j) \cdot w_{i, j}

（6）

基于式（6），对 $f (x, y)$ 在从 $(x_{1}, y_{1})$ 到 $(x_{2}, y_{2})$ 区间内求积分，即可得整个bin区域的像素的和，然后求平均，即为bin区域的输出（式(7)）。最终每一个bin区域均输出1个数值，形成最终的 $7 \times 7$ 输出特征图。

p r p o o l (b i n, F) = \frac{\int_{y_{1}}^{y_{2}} \int_{x_{1}}^{x_{2}} f (x, y) d x d y}{(x_{2} - x_{1}) \cdot (y_{2} - y_{1})}

（7）

式中，IC函数属于插值系数；f (x, y)是通过插值得到的连续坐标特征图；W_{i, j}是离散的特征图。

2.4　Loss分析

MaskRCNN的RoI的损失函数主要由3部分组成（式(8)）。

L = L_{c l s} + L_{b o x} + L_{m a s k}

（8）

式中， $L_{m a s k}$ 为掩膜损失； $L_{b o x}$ 为回归损失； $L_{c l s}$ 为边框回归损失。

在训练过程中，将每一个采样RoI上的损失定义为式(8)，其中分类损失和边框回归损失与Faster R-CNN中的定义相同，而mask分支对每个RoI均有K_m²维输出，其编码的k个二进制掩码分辨率均为 $m$ ×m，因此，应用像素级sigmoi，并定义 $L_{m a s k}$ 为平均二进制交叉熵损失，与goroud-truth中的第K类的RoI相关联，掩膜损失只在第k个掩膜上有意义，其余的 $k - 1$ 个掩膜的输出均不存在损失。本研究定义的 $L_{m a s k}$ 允许网络在类之间没有竞争的前提下，为每一个类均生成mask。使用特定的分支来预测输出编码的类别标签，以使掩码和类预测解耦。

3 数据集的搭建

3.1　数据集采集

为了验证改进算法的应用效果，本研究使用了课题组内部搭建的纸病诊断实验装置获得的数据集，并且为了获取更加清晰的纸病信息，选择了线阵相机S3-24-904K40-00-R对纸病图像进行采集。所获数据集中包含孔洞、划痕、黑斑、褶皱以及无纸病图像共计4 000多张，纸病图像如图8所示，无纸病图像如图9所示。

图8 4种常见的纸病类型图像

Fig. 8 Images of four common types of paper disease

图9 无纸病图像

Fig. 9 Image of paper without disease

3.2　数据图像的预处理

首先使用labelme图像标注工具对采集到的4 000多张纸病图像的纸病区域进行标记，然后对图像的像素大小进行归一化处理，最后将标注后的图像文件保存为.json格式。本研究的纸病数据集按照9∶1∶1的比例划分为训练集、验证集和测试集。数据集图像的划分如表1所示。

表1 纸病数据集的划分信息

Table 1 Partition information of paper disease dataset ( 个 )

类别	训练集	验证集	测试集	合计
黑斑	810	90	90	990
划痕	810	90	90	990
孔洞	810	90	90	990
褶皱	810	90	90	990
无纸病	360	40	40	440

4 实验结果

4.1　实验设备

本实验基于Windows 10操作系统进行训练，开发环境相关配置如表2所示。模型训练时，批量大小为2，初始学习率为0.002 5，共训练200轮次。

表2 开发环境配置版本要求

Table 2 Development environment configurationversion requirements

环境	版本	环境	版本
scipy	1.4.1	tqdm	4.46.1
numpy	1.18.4	Pillow	8.2.0
opencv_python	4.2.0.34	h5py	2.10.0
matplotlib	3.2.1	scikit-image	0.16.2
Cuda	10.1	PyTorch	1.10
tensorflow_gpu	2.2.0	pycocotools	2.0.4

4.2　评价指标

本研究在实验过程中采用平均精度均值mAP作为纸病诊断准度的评价指标^[

14]，mAP是指所有类别的平均精度的均值，其计算如式(9)所示。

m A P = \frac{\sum_{i = 1}^{N_{b}} A P_{i}}{N_{b}}

（9）

式中， $N_{b}$ 为纸病检测的类别数。

AP计算见式(10)。

A P = \int_{0}^{1} P (R) d R

（10）

式中，AP从准确率和召回率2方面入手，1个为纵轴1个为横轴，其中P为准确率，R为召回率，具体计算见式(11)~式(12)。

P = \frac{T P}{T P + F P}

（11）

R = \frac{T P}{T P + F N}

（12）

式中，TP为算法正确识别出的纸病样本；FN为算法没有正确识别的纸病样本；FP为算法检测错误的负样本。

4.3　纸病检测实验

首先通过选取4种常见待检测纸病图像各200张，以及无纸病图像50张作为干扰项，共计850张图像，对原本的MaskRCNN算法和本研究所改进的进行对比，实验结果如表3和表4所示。

表3 MaskRCNN算法错检、漏检结果

Table 3 Error detection and missing detection results of MaskRCNN algorithm ( 个 )

纸病诊断		预测值
纸病诊断		孔洞	划痕	黑斑	褶皱	无纸病
真实值	孔洞	188	1	2	0	0
	划痕	2	190	1	5	1
	黑斑	2	3	191	1	0
	褶皱	2	2	1	192	0
	无纸病	6	5	5	2	49

表4 改进MaskRCNN算法错检、漏检结果

Table 4 Error detection and missing detection results of the improved MaskRCNN algorithm ( 个 )

纸病诊断		预测值
纸病诊断		孔洞	划痕	黑斑	褶皱	无纸病
真实值	孔洞	196	1	1	0	0
	划痕	1	196	0	2	0
	黑斑	2	0	197	0	0
	褶皱	0	2	0	197	0
	无纸病	1	1	2	1	50

多分类问题与二分类问题类似，矩阵行数据相加是真实值类别数，列数据相加是分类后的类别数，那么相应的计算精确率_孔洞=188/(188+2+2+2+6)=0.94；召回率_孔洞=188/(188+1+2)=0.98。

由表3和表4的数据对比可知，改进MaskRCNN算法较原算法在检测准确率上有一定提升，并且降低了漏检率和误检率，改善了无纸病干扰项的误检和漏检。

4.4　对比实验

为了进一步评估模型的识别效率，本研究比较了3个网络模型，包括MaskRCNN、Faster-RCNN、YOLOv5。3个模型的训练数据集和验证数据集均相同，训练轮次统一为50/轮次，实验结果如表5所示。

表5 不同神经网络模型的准确率与识别速度对比

Table 5 Comparison of accuracy and recognition speed of different neural network models

算法类别	mAP/%	检测速度/fps
原始MaskRCNN	90	4.64
Faster-RCNN	88	3.54
YOLOv5	82	31.3
改进MaskRCNN	93	5.32

4.5　消融实验

本研究对原始的MaskRCNN算法、每一部分单独改进MaskRCNN算法以及最终改进MaskRCNN算法进行对比，对比实验的结果如表6所示。

表6 原始MaskRCNN算法和改进的MaskRCNN算法准确率对比

Table 6 Comparison of accuracy between the original MaskRCNN algorithm and the improved MaskRCNN algorithm

算法类别	mAP/%	检测速度/fps
原始MaskRCNN	90	4.64
MaskRCNN+PrRoIPooling	91	4.55
MaskRCNN+VOVNet	90	5.12
MaskRCNN+SPANet	92	4.98
改进MaskRCNN	93	5.32

MaskRCNN和各项改进MaskRCNN对纸病检测结果的mAP曲线如图10所示。

图10 改进前后的mAP曲线

Fig. 10 mAP curves before and after improvement

由图10可知，在本研究建立的纸病诊断数据集中，改进MaskRCNN算法在mAP和检测速度上均有一定的提升（mAP提升了3个百分点，检测速度加快了15%）。其中，mAP的提升主要得益于金字塔注意力机制对于小目标更加敏感和PrRoIPooling的精确定位，检测速度的加快是由于使用了较为轻量化的网络模型VOVNet及PrRoIPooling，减少了模型运行时一些不必要参数的引入。

改进后的MaskRCNN算法检测的纸病信息结果如图11所示（为清晰展现纸病的特征信息，对纸病部分进行了放大截取）。

图11 纸病检测结果

Fig. 11 Test results of paper disease

5 结论

本研究针对MaskRCNN算法实时性较低、对小目标检测精度不高等问题，通过使用更加轻量化的头部骨干网络VOVNet代替Resnet作为特征提取网络，一定程度上增加了网络的计算效率，提高了获取小目标特征信息的能力，并且用PrRoIPooling替换了MaskRCNN中特有的RoIAlign，减少了参数的使用量，一定程度上提升了检测速度，最后在模型中添加SPANet注意力机制，进一步增加对于纸病细节特征的提取。

改进后的算法精度可达93%，相较于改进前提升了3个百分点，一定程度上提升了检测的速度，降低了错检、误检、漏检率，验证了改进后算法的可行性。后续工作中，应在团队实验平台上进行变车速验证，根据验证结果再对算法进行必要的改进，最后部署到实际工程应用中去。

参考文献

汤伟，张龙，王锦韫，等. 基于快速傅里叶变换和改进分水岭算法的纸病实时检测复合算法［J］. 中国造纸，2023，42（7）：153-160. [百度学术]

TANG W， ZHANG L， WANG J Y， et al. A Composite Algorithm for Real-time Detection of Paper Defects Based on Fast Fourier Transform and Improved Watershed Algorithm［J］. China Pulp & Paper， 2023，42 （7）： 153-160. [百度学术]

张聪，汤伟.基于粒子群优化算法与形态学的纸病图像检测方法［J］. 造纸科学与技术， 2014，33（2）：60-64. [百度学术]

ZHANG C， TANG W. A paper disease image detection method based on particle swarm optimization algorithm and morphology ［J］. Paper Science & Technology， 2014， 33 （2）： 60-64. [百度学术]

杨波，周强，张刚强.基于几何及灰度特征的纸病检测算法研究［J］. 中国造纸，2011，30（9）： 50-53. [百度学术]

YANG B， ZHOU Q， ZHANG G Q. Research on Paper Disease Detection Algorithm Based on Geometric and Grayscale Features ［J］. China Pulp & Paper， 2011， 30 （9）： 50-53. [百度学术]

曲蕴慧，汤伟，成爽爽.基于深度卷积神经网络及迁移学习的纸病分类方法研究［J］. 中国造纸，2021，40（10）：63-70. [百度学术]

QU Y H， TANG W， CHENG S S. Research on Paper Disease Classification Method Based on Deep Convolutional Neural Network and Transfer Learning ［J］. China Pulp & Paper， 2021，40（10）： 63-70. [百度学术]

李果. 基于Faster-RCNN改进算法的纸张缺陷自动检测方法［J］. 赣南师范大学学报，2021，42（3）：100-104. [百度学术]

LI G. A paper defect automatic detection method based on the improved Faster-RCNN algorithm ［J］. Journal of Gannan Normal University， 2021，42（3）： 100-104. [百度学术]

张开生，关凯凯. 基于改进YOLOv5的纸病检测方法［J］. 中国造纸，2022，41（10）： 79-86. [百度学术]

ZHANG K S， GUAN K K. A Paper Disease Detection Method Based on Improved YOLOv5 ［J］. China Pulp & Paper， 2022， 41（10）： 79-86. [百度学术]

汤伟，王锦韫，张龙.基于改进Faster R-CNN的纸病检测算法［J］. 包装工程，2023，44（21）：260-266. [百度学术]

TANG W， WANG J Y， ZHANG L. Paper Disease Detection Algorithm Based on Improved Faster R-CNN ［J］. Packaging Engineering， 2023，44 （21）： 260-266. [百度学术]

CONG P， LI S， ZHOU J， et al. Research on instance segmentation algorithm of greenhouse sweet pepper detection based on improved mask RCNN［J］. Agronomy， 2023， 13（1）： 196-201. [百度学术]

YOUNGWAN L， JOONG-WON H， SANGROK L， et al. An Energy and GPU-computation Efficient Backbone Network for Real-time Object Detection［C］//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops： IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops （CVPRW 2019）， Long Beach， CA， USA：Institute of Electrical and Electronics Engineers， 2019：752-760. [百度学术]

上转163页） [百度学术]

刘丹，汪慧兰，曾浩文，等. VOVNet-FCOS道路行人目标检测算法研究［J］. 国外电子测量技术，2021，40（11）：64-71. [百度学术]

LIU D， WANG H L， ZENG H W， et al. Research on VOVNet-FCOS Road Pedestrian Target Detection Algorithm ［J］. Foreign Electronic Measurement Technology， 2021，40 （11）： 64-71. [百度学术]

YANGYANG Y. SPANet： Spatial and Part-aware Aggregation Network for 3D Object Detection［C］//Proceedings of PRICAI 2021： Trends in Artificial Intelligence： 18th Pacific Rim， International Conference on Artificial Intelligence， PRICAI 2021， Hanoi， Vietnam， Proceedings， part III.：Springer， 2021：308-320. [百度学术]

蔡文彪，李永锋，吴怀诚，等. 基于改进Faster RCNN模型的输电线缺陷检测方法［J］. 信息技术，2023，47（1）：148-153. [百度学术]

CAI W B， LI Y F， WU H C， et al. A defect detection method for transmission lines based on an improved Faster RCNN model ［J］. Information Technology， 2023，47 （1）： 148-153 [百度学术]

PEILIN H， LIN Z， CHANGHUA Z， et al. A Value Recognition Algorithm for Pointer Meter Based on Improved Mask-RCNN［C］//Proceedings of 2019 9th International Conference on Information Science and Technology： 9th International Conference on Information Science and Technology （ICIST）， Hulunbuir， China：Institute of Electrical and Electronics Engineers， 2019：108-113. [百度学术]

翁玉尚，肖金球，夏禹. 改进Mask R-CNN算法的带钢表面缺陷检测［J］. 计算机工程与应用，2021，57（19）： 235-242. [百度学术]

WENG Y S， XIAO J Q， XIA Y. Surface defect detection of strip steel using improved Mask R-CNN algorithm ［J］. Computer Engineering and Applications， 2021， 57 （19）： 235-242. [百度学术]

一种基于改进MaskRCNN的纸病诊断算法

摘要

关键词

1 MaskRCNN检测算法介绍

2 MaskRCNN算法的改进

2.1 VOVNet替换ResNet

2.2 对VOVNet的改进

2.3 Precise RoIPooling替换RoIAlign

2.4 Loss分析

3 数据集的搭建

3.1 数据集采集

3.2 数据图像的预处理