摘要
箱纸板生产涉及一系列复杂工艺流程,且由于缺乏关键质量的在线监测手段,进而导致质量管控困难。为此,本研究尝试基于机器学习方法建立可在线监测箱纸板质量的预测模型,也称软测量模型,以促进上述问题的有效解决。本研究采用箱纸板企业实际数据,训练并比较了随机森林(RF)、梯度提升回归(GBR)、K近邻回归(KNN)及偏最小二乘回归(PLS)在多项质量指标上的预测表现。结果表明,不同质量指标本身很大程度上影响了预测精度的上限,而不同算法对理论上限的逼近程度有显著差异。复杂、非线性的集成模型(RF、GBR)相较于简单模型(KNN、PLS)有更好的表现。
不断加剧的市场竞争和日益复杂的生产过程工艺,使得制造业对高效生产管理的需求日趋迫切。因此,现代工厂通过广泛安装物理传感器、分布式控制系统、制造执行系统及相关的生产管理系统以改善生产过程变量的可访问性和可追溯
然而,对于造纸工业而言,原纸关键质量变量的获取仍依赖于人工离线检测。该检测方式存在反馈周期长、测试结果不稳定、测试样品覆盖率低等缺陷,严重影响了后续的决策与控制过程。因此,实现对质量变量的实时、在线监测是造纸工业亟需解决的关键问题之一。
受限于现有传感技术和检测手段的发展水平,目前仍不具备可直接在造纸生产过程中对原纸关键质量进行在线测量的工具。而基于易测变量与难测变量之间的交互关系建立预测模型,也称软测量模型,是有效解决上述问题的技术方法,其在相关领域已经得到了广泛的应用与验
针对纸张性能的预测建模方法可大致分为机理建模和数据驱动建模2个大类。机理建模侧重于描述过程的理想状态,针对复杂的现代工业过程,开发完整、准确的机理模型存在极大难度。因此,单独基于机理建立的预测模型较为少
数据驱动的机器学习建模方法凭借能够处理高维、复杂数据并取得良好的预测精度等优点,已经在众多场景中得到广泛研究和应用,是相关研究领域的主要发展趋势。如针对水泥熟料生产过程中高成本、大时延的氧化钙含量化学检测现状提出的卷积神经网络模
因此,本研究将针对箱纸板的平滑度、耐折度和耐破度进行详细的预测建模研究。首先通过有监督的方式对建模数据集进行划分,并结合特征机理,引入新特征作为模型共同输入。然后,对不同质量指标分别建立多种基于机器学习的质量模型,包括随机森林(random forest, RF)、梯度提升(gradient boosting regression, GBR)、K近邻回归(K-nearest neighbor, KNN)以及偏最小二乘(partial least squares regression, PLS),并利用网格搜索结合遗传算法的参数优化框架,对模型超参数进行调优。最后采用判定系数(coefficient of determination,
本研究的数据源自安徽某造纸厂2021年5月至2021年11月的生产过程数据和质量检测数据。采集的原始特征共计24个维度,其中包括21维过程变量和3维质量变量,相关变量的具体情况分别如
符号 | 含义 | 单位 |
---|---|---|
Pw1 | 第一道湿压榨中2个压榨棍之间的线压力 | kN/m |
Pw2 | 第二道湿压榨中2个压榨辊之间的线压力 | kN/m |
Pcal | 压光部2个压光辊之间的线压力 | kN/m |
BW | 单位面积纸张的质量,即定量 |
g/ |
BWa | 单位面积纸张的绝干质量,即绝干定量 |
g/ |
Wus | 单位面积纸张上表面施胶量 |
g/ |
Wls | 单位面积纸张下表面施胶量 |
g/ |
Mt1 | 面层干强剂质量流量 | kg/min |
Mb1 | 底层干强剂质量流量 | kg/min |
Mt2 | 面层助留剂质量流量 | kg/min |
Mb2 | 底层助留剂质量流量 | kg/min |
Mt3 | 面层填料质量流量 | kg/min |
Mb3 | 底层填料质量流量 | kg/min |
Fcal | 压光过程中纸幅的张力 | kN/m |
Fcur | 卷曲过程中纸幅的张力 | kN/m |
vgap | 浆速和网速的差值 | m/min |
vratio | 浆速和网速的比值 | |
Tcal | 压光辊表面实际温度 | ℃ |
Twind | 施胶剂热风温度 | ℃ |
R | 水分含量 | % |
h | 纸幅厚度 | mm |
符号 | 含义 | 单位 |
---|---|---|
S | 平滑度 | s |
Rf | 耐折度 | 次 |
Fb | 耐破度 | kPa |
由于上述过程变量主要通过在线传感器实时采集获取,而不同传感器的采样频率、位置和时间点有较大差异,因此,不同数据间需围绕时间刻度进行匹配。本研究采用了步长与宽度相同的滑动窗口(均为每分钟),在时间尺度上处理不规整的颗粒度异化数据,以获得时间和频率规整的实验数据集,为后续数据挖掘提供便利。考虑到测试纸样在造纸过程中经过不同传感器的先后位置顺序,生产过程数据之间的理论匹配情况如

图1 过程数据匹配示意图
Fig. 1 Schematic representation of process data matching
此外,由于箱纸板质量变量(即平滑度、耐折度和耐破度)主要通过离线检测的方式获取,且检测频率以卷轴为单位并通常有多次测试结果。因此,上述2个部分数据将通过母卷下卷时间进行匹

图2 原始数据处理技术路线图
Fig. 2 Technical route of raw data processing
纸张定量作为造纸过程最重要的控制指标,其通常可作为工况划分的依据。考虑到不同产品定量下的过程数据可能存在局部特性,且结合数据集在定量划分上表现出的显著聚类倾向。本研究在划分训练数据和测试数据时并未采取常规建模研究中对整个数据集进行随机划分的训练方式。为了确保模型的稳定性和全局性,本研究在数据划分过程中主要结合了相关研究提出的聚类划

图3 训练与测试集的划分方法
Fig. 3 The method of dividing the training and test data
在造纸生产过程中,各类化学品的使用会对最终产品的质量产生直接影响,且在实际生产中,调控化学品的添加量是生产动态过程中最常见、最有效的管理手段。为此,本研究将以各类化学品消耗作为主要切入点,生成新的特征变量。根据
同时,本研究通过相关系数矩阵(如

图4 Pearson相关系数矩阵
Fig. 4 Pearson correlation coefficient matrix
符号 | 含义 | 单位 |
---|---|---|
Pw1 | 第一道湿压榨中2个压榨棍之间的线压力 | kN/m |
Pw2 | 第二道湿压榨中2个压榨辊之间的线压力 | kN/m |
Pcal | 压光部2个压光辊之间的线压力 | kN/m |
BW | 单位面积纸张的质量,即定量 |
g/ |
Fcal | 压光过程中纸幅的张力 | kN/m |
vratio | 浆速和网速的比值 | |
ats | 单位面积纸张的总施胶量 |
g/ |
x1 | 干强剂总质量流量/ 纸张定量 |
1 |
x2 | 助留剂总质量流量/ 纸张定量 |
1 |
x3 | 填料总质量流量/ 纸张定量 |
1 |
本研究采用的模型方法包括2种基于不同思想的集成学习(分别为R
为了对模型超参数进行寻优,本研究尝试结合了网格搜

图5 网格搜索结合遗传算法的调参框架
Fig. 5 Framework for grid search combined with genetic algorithm
针对预测模型的表现,本研究将使用判定系数(
(1) |
(2) |
(3) |
式中,表示测试样本的数量;表示测试样本的取值;和分别表示预测值和所有预测值的均值。
不同机器学习算法分别预测各项质量指标的具体结果如
RF | GBR | KNN | PLS | |||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
RMSE | MAPE/% | RMSE | MAPE/% | RMSE | MAPE/% | RMSE | MAPE/% | |||||
S | 0.849 | 0.608 | 4.62 | 0.851 | 0.605 | 4.55 | 0.820 | 0.665 | 4.95 | 0.769 | 0.752 | 6.01 |
Rf | 0.838 | 0.333 | 2.94 | 0.818 | 0.353 | 3.17 | 0.784 | 0.385 | 3.22 | 0.682 | 0.467 | 4.23 |
Fb | 0.994 | 3.560 | 1.54 | 0.993 | 3.632 | 1.57 | 0.992 | 3.978 | 1.83 | 0.989 | 4.883 | 2.31 |
为了更直观地展示不同机器学习算法在不同质量指标上的表现差异,本研究在原有评价指标的数值基础上进行了计算倒数、归一化等处理,并根据处理后的数值绘制了如

图6 评价指标的雷达图
Fig. 6 Radar chart of evaluation indicators
从

图7 不同机器学习算法在3项质量指标上的拟合结果
Fig. 7 Fitting results of different machine learning algorithm on three quality indicators
开发质量预测模型是监测现代工业中关键变量的有效方法。针对箱纸板关键变量获取频率低、结果不准确、反馈滞后等现状,本研究对其关键变量(包括平滑度、耐折度和耐破度)进行了详细的建模研究。具体而言,本研究采用了步长和宽度相同的滑动窗口在时间尺度上处理原始过程数据;根据下卷时间将过程数据与质量数据进行匹配;采取有监督方法对数据集进行划分;结合过程机理生成了可解释性更强的新特征共同作为模型的输入;最后比较了随机森林、梯度提升、K近邻回归、偏最小二乘算法在不同质量指标上的预测表现。
结果表明,上述4种机器学习算法在耐破度指标上的预测表现相近,且远好于在平滑度和耐折度上的表现。然而,针对同一质量指标而言,不同算法间存在较大差异。其中,集成模型相较简单模型能取得更好的预测表现。同时还发现,不同算法对同一样本的同一质量指标有着相似的预测结果倾向,侧面反映了质量预测建模研究不仅需要考虑模型类型,还需要考虑数据集划分以确保离线模型的表现不失真。此外,模型在实际应用于工业环境前,仍需要对超参数进行调整。简单模型相较于复杂模型虽然在预测精度表现上相对较差,但能够节省大量训练时间,在允许的误差范围内,其应用可能更加广泛。
参考文献
Man Y, Hong M N, Li J G, et al. Paper Mills Integrated Gasification Combined Cycle Process with High Energy Efficiency for Cleaner Production[J]. Journal of Cleaner Production, 2017, 156: 244-252. [百度学术]
Chen X B, Man Y, Zheng Q F, et al. Industrial Verification of Energy Saving for the Single-tier Cylinder Based Paper Drying Process[J]. Energy, 2019, 170: 261-272. [百度学术]
于静江, 周春晖. 过程控制中的软测量技术[J]. 控制理论与应用, 1996, 13(2): 137-144. [百度学术]
YU J J, ZHOU C H. Soft Measurement Techniques in Process Control[J]. Control Theory and Technology, 1996, 13(2): 137-144. [百度学术]
Sun Q, Ge Z. A Survey on Deep Learning for Data-driven Soft Sensors[J]. IEEE Transactions on Industrial Informatics, 2021, 17(9): 5853-5866. [百度学术]
Kadlec P, Gabrys B, Strandt S. Data-driven Soft Sensors in the Process Industry[J]. Computers & Chemical Engineering, 2009, 33(4): 795-814. [百度学术]
Page D H. A Theory for the Tensile Strength of Paper[J]. Tappi Journal, 1969, 52: 674-681. [百度学术]
陶劲松, 刘焕彬, 陈小泉, 等. 纸页水分含量对纤维相对结合面积和剪切抗张强度的影响[J]. 造纸科学与技术, 2007(2): 1-5. [百度学术]
TAO J S, LIU H B, CHEN X Q, et al. Influence of Moisture Content of Paper Sheet on Relative Fiber Binding Area and Shear Tensile Strength[J]. Paper Science & Technology, 2007(2): 1-5. [百度学术]
陶劲松, 刘焕彬. 基于过程抄造参数的纸页抗张强度预测模型的研究[J]. 应用基础与工程科学学报, 2010, 18(S1): 41-51. [百度学术]
TAO J S, LIU H B. Research on the Prediction Model of Sheet Tensile Strength Based on Process Copying Parameters[J]. Journal of Basic Science and Engineering, 2010, 18(S1): 41-51. [百度学术]
El-Hosseiny F, Anderson D. Effect of Fiber Length and Coarseness on the Burst Strength of Paper[J]. Tappi Journal, 1999, 82(1): 202-203. [百度学术]
Gates D J, Westcott M. On the Work to Pull Out Fibers via Bond Breakage During Paper Tearing[J]. Journal of Pulp and Paper Science, 2001, 27(11): 369-372. [百度学术]
李远华, 刘焕彬, 陶劲松, 等. 纸张抗张强度模型的研究进展[J]. 中国造纸, 2014, 33(1): 65-69. [百度学术]
LI Y H, LIU H B, TAO J S, et al. Research Progress of Paper Tensile Strength Model[J]. China Pulp & Paper, 2014, 33(1): 65-69. [百度学术]
Jiang X, Ge Z. Augmented Multidimensional Convolutional Neural Network for Industrial Soft Sensing[J]. IEEE Transactions on Instrumentation and Measurement, 2021, 70: 1-10. [百度学术]
Wang Z F, Man Y, Hu Y S, et al. A Deep Learning Based Dynamic COD Prediction Model for Urban Sewage[J]. Environmental Science: Water Research & Technology, 2019, 5(12): 2210-2218. [百度学术]
Cheng T, Harrou F, Sun Y, et al. Monitoring Influent Measurements at Water Resource Recovery Facility Using Data-driven Soft Sensor Approach[J]. IEEE Sensors Journal, 2018, 19(1): 342-352. [百度学术]
辛 辰, 刘鸿斌. 预测造纸废水出水指标的随机森林建模方法[J]. 中国造纸, 2019, 38(8): 57-62. [百度学术]
XIN C, LIU H B. A Random Forest Modeling Approach for Predicting Paper Wastewater Effluent Index[J]. China Pulp & Paper, 2019, 38(8): 57-62. [百度学术]
刘鸿斌, 宋 留. 相关向量机对废水处理系统出水水质的预测[J]. 中国造纸学报, 2019, 34(2): 53-59. [百度学术]
LIU H B, SONG L. Prediction of Wastewater Treatment System Effluent Quality by Correlation Vector Machine[J]. Transactions of China Pulp and Paper, 2019, 34(2): 53-59. [百度学术]
刘鸿斌, 李祥宇, 杨 冲. 基于PCA降维模型的造纸废水处理过程软测量建模[J]. 中国造纸学报, 2018, 33(4): 50-57. [百度学术]
LIU H B, LI X Y, YANG C. Soft Measurement Modeling of Paper Wastewater Treatment Process Based on PCA Dimensionality Reduction Model[J]. Transactions of China Pulp and Paper, 2018, 33(4): 50-57. [百度学术]
陶劲松, 杨亚帆, 李远华. 基于PLS和SVM的纸张抗张强度建模比较[J]. 华南理工大学学报 (自然科学版), 2014, 42(7): 132-137. [百度学术]
TAO J S, YANG Y F, LI Y H. Comparison of PLS and SVM Based Paper Tensile Strength Modeling[J]. Journal of South China University of Technology (Natural Science Edition), 2014, 42(7): 132-137. [百度学术]
李远华, 陶劲松, 李继庚, 等. 基于偏最小二乘法的纸张抗张强度预测模型[J]. 化工学报, 2014, 65(9): 3544-3551. [百度学术]
LI Y H, TAO J S, LI J G, et al. Paper Tensile Strength Prediction Model Based on Partial Least Squares[J]. CIESC Journal, 2014, 65(9): 3544-3551. [百度学术]
江 伦, 满 奕, 李继庚, 等. 基于梯度增强决策树算法的纸张质量软测量模型[J]. 中国造纸, 2020, 39(5): 37-42. [百度学术]
JIANG L, MAN Y, LI J G, et al. Soft Measurement Model of Paper Quality Based on Gradient-enhanced Decision Tree Algorithm[J]. China Pulp & Paper, 2020, 39(5): 37-42. [百度学术]
Chen F Z, Wang X Z. Software Sensor Design Using Bayesian Automatic Classification and Back-propagation Neural Networks[J]. Industrial & Engineering Chemistry Research, 1998, 37(10): 3985-3991. [百度学术]
刘鹏龙, 许雄飞, 张 玮, 等. 甲醇制芳烃K-means-PSO-SVR局部建模及优化[J]. 化工进展, 2022, 41(9): 4691-4700. [百度学术]
LIU P L, XU X F, ZHANG W, et al. Local Modeling and Optimization of K-means-PSO-SVR for Methanol to Aromatics[J]. Chemical Industry and Engineering Progress, 2022, 41(9): 4691-4700. [百度学术]
Breiman L. Bagging Predictors[J]. Machine Learning, 1996, 24(2): 123-140. [百度学术]
Freund Y, Schapire R E. A Decision-theoretic Generalization of Online Learning and an Application to Boosting[J]. Journal of Computer and System Sciences, 1997, 55(1): 119-139. [百度学术]
Burba F, Ferraty F, Vieu P. k-Nearest Neighbour Method in Functional Nonparametric Regression[J]. Journal of Nonparametric Statistics, 2009, 21(4): 453-469. [百度学术]
Boulesteix A L, Strimmer K. Partial Least Squares: A Versatile Tool for the Analysis of High-dimensional Genomic Data[J]. Briefings in Bioinformatics, 2007, 8(1): 32-44. [百度学术]
刘佳星. 基于网格搜索超参数优化的支持向量回归[J]. 科学技术创新, 2022(13): 71-74. [百度学术]
LIU J X. Support Vector Regression Based on Grid Search Hyperparameter Optimization[J]. Scientific and Technological Innovation, 2022(13): 71-74. [百度学术]
Zhang P, Yin Z Y, Jin Y F, et al. Intelligent Modelling of Clay Compressibility Using Hybrid Meta-heuristic and Machine Learning Algorithms[J]. Geoscience Frontiers, 2021, 12(1): 441-452. [百度学术]
Luo Z, Hasanipanah M, Bakhshandeh Amnieh H, et al. GA-SVR: A Novel Hybrid Data-driven Model to Simulate Vertical Load Capacity of Driven Piles[J]. Engineering with Computers, 2021, 37(2): 823-831. CPP [百度学术]