网刊加载中。。。

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读

基于梯度增强决策树算法的纸张质量软测量模型

  • 江伦 1
  • 满奕 1,2
  • 李继庚 1
  • 洪蒙纳 1
  • 孟子薇 1
  • 朱小林 1
1. 华南理工大学制浆造纸工程国家重点实验室,广东广州,510640; 2. 深圳新益昌科技股份有限公司,广东深圳,518000

中图分类号: TS752

最近更新:2020-06-04

DOI:10.11980/j.issn.0254-508X.2020.05.006

  • 全文
  • 图表
  • 参考文献
  • 作者
  • 出版信息
目录contents

摘要

本研究提出了一种基于梯度增强决策树(GBDT)算法的纸张质量软测量模型,该方法可在线软测量纸张的关键物理指标如抗张强度、柔软度和松厚度。结果表明,采用GBDT进行纸张质量软测量时,抗张强度、柔软度和松厚度的平均相对误差分别为7.21%、7.38%和3.5%;采集新数据验证后,纸张抗张强度、柔软度和松厚度的平均相对误差分别为6.87%、6.88%和3.12%,表明模型对新验证数据的预测结果精度高。

产品质量是制造业发展的生命线,是支撑经济转型升级的基石。在造纸企业中,在高产量高车速下纸张生产时引发各种质量问题,如依靠上浆定量对于纸张松厚度的控制,依靠刮刀起皱对于纸张吸水性的控制等变得更加具有挑战性,间接导致产品质量问题日益突出,同时消费者对于纸张质量要求的不断提高也给企业生产带来了巨大挑战。在“中国制造2025”坚持以创新驱动、质量为先、绿色发展、结构优化、人才为本的基本方[

1],以及我国在制造业的数字化、网络化和智能化取得明显进展的大背景下,基于数据驱动的智能制造将是企业未来质检以及提高产品质量、优化生产过程、节能降耗的重要方[2,3]

目前,造纸企业采取的质检方式为先产后检和抽检两种相结合的方式。其中,先产后检基于仪器质检。该检测方式存在滞后性,不仅会导致产品质量得不到及时的反馈,且生产过程无法实现闭环控制,基于数据驱动模型的优化控制将无法实[

4] 。该检测方式严重依赖人工经验,致使产品质量波动,生产原材料资源浪[5]。抽检的方式使得企业对纸张质量的检测达不到100%覆盖(目前某企业原纸质检覆盖率约在25%),存在大量质检遗漏而导致潜在的原纸质量问题。因此,对造纸企业纸张质量进行精确的在线预测是亟需解决的问题。

影响产品质量的因素有很多,如浆料的纤维形态对纸张质量影响较大,张美娟等[

6]研究表明细小纤维含量影响纤维间的结合力,进而影响纸张的抗张强度;彭金勇等[7]指出纤维粗度对纸张的松厚度有重要影响;Trepanier[8]指出纤维长度、扭结纤维百分比对纸张抗张强度、柔软度和松厚度影响较大。制浆过程中的磨浆工艺对纸张质量影响也较大,Samira等[9]概述了磨浆对纤维结构和性质的影响,主要表现在纤维润胀(包含纤维内部润胀和外部润胀)、细小纤维化、纤维变短以及纤维表面的结晶度和化学成分的变化,最终影响纸张的物理指标。纸机工艺过程中的流送、成形等流程,通过影响纤维之间的结合力和纤维的排列分布,来影响纸张的抗张强度、柔软度[10]。其中浆料纤维形态又是影响纸张质量的关键变[11],且长纤维和短纤维的用量直接关系到原料成[12]。但在企业实际生产过程中无法实时在线获取浆料纤维形态。

决策树是机器学习中最流行的分类和回归方法之[

13],其中,梯度增强决策树(GBDT)不仅在实际应用取得了很大的成功,同时在各种机器学习和数据挖掘挑战中也取得了很大的成[14]。GBDT对于异常值的鲁棒性强,可高效地处理噪声,且泛化能力强,模型灵活性高,由于其灵活的损失函数机制使得GBDT可以处理任何数据驱动任务,且处理速度快,效果好,模型有很好的解释[15]。因此越来越多地用于解决非线性、多参数估计和预测问[2]。造纸过程是典型非线性、时变性、不确定性、复杂性和滞后性的过程工[16],采用GBDT建立纸张质量软测量的数据模型,不仅可以解决上述问题,还可以克服机理建模的困难,有效地对产品质量进行预测。

为解决对造纸企业离线质检工作量大,纸张关键物理指标无法在线实时软测量的问题,本课题利用基于机器学习的数据驱动算法,建立精确的质量在线软测量模型。模型以原料纤维形态数据、浆料配比数据、磨浆工艺参数为初始输入,利用纤维形态软测量模型预测磨后纤维形态数[

17],然后结合关键纸机工艺参数,建立纸张质量软测量模型,实现对纸张抗张强度、柔软度及松厚度的实时在线软测量。不仅能够提前预测产品质量、降低产品不合格率、减少质量波动,并在此基础上节约原材料,降低企业生产成本;还可以省去人工检测费用及设备成本,并克服生产上质检工作的滞后性问题,对以后基于数据驱动优化生产工艺下的智能制造有极为重要的现实意义。

1 方法原理

1.1 建模技术路线

对纸张抗张强度、柔软度和松厚度进行软测量,主要包括利用磨后纤维形态软测量模[

17]对磨后浆料纤维形态进行软测量,然后结合造纸过程工艺数据,基于GBDT算法,建立纸张质量软测量模型。该方法主要包括数据准备、数据预处理、磨后浆料纤维形态软测量、建立质量软测量模型及模型验证。建立纸张质量软测量模型的技术路线如图1所示。

图1 质量软测量模型技术路线图

本研究首先获取某造纸企业实际生产中每轴原纸的浆料配比、质量检测数据(抗张强度、柔软度及松厚度)以及生产周期内的磨浆机工艺数据和纸机工艺数据。然后进行数据的预处理,即先剔除缺失值、恒定值等不真实的数据,再将质检数据与造纸工艺数据匹配。接下来利用磨后纤维形态软测量模[

17],输入模型所需要的浆料配比、磨浆机通过量、浓度及功率,来软测量磨浆后的纤维形态。最后结合特征选择纸机工艺数据,基于GBDT算法建立纸张质量软测量模型,实现对纸张抗张强度、松厚度和柔软度指标的软测量。为了验证所建纸张质量软测量模型的真实有效性,再次提取现场数据对所建模型进行验证,可表明本研究最终所建立的纸张质量软测量模型精度高且泛化能力好,具有良好的应用性。

1.2 GBDT算法

考虑到纸张生产过程中存在间歇性设备(如磨浆机)、间歇性容器(如上浆池),导致其是一个非常复杂的非线性、时延性和不确定性过程,普通的模型难以准确对该过程进行较好拟合。GBDT算法结合了回归树和增强算法框架,通过迭代降低模型的残差,有很强的非线性处理能力和预测能[

18]。另外模型拥有强大的损失函数,对于输入变量的异常处理能力和鲁棒性强,可高效地处理噪[19],因此本研究采用GBDT算法对纸张质量进行预测,具体步骤如下。

(1)确定目标函数。首先确定输入变量X=x1,xpn·p和输出变量Y

(2)搜索裂变特征值和裂变点。裂变特征值将待裂变节点分成n个区域空间(R1,R2,Rn),对每个区域遍历响应Cn的模型。假设裂变特征j和裂变节点s在二叉搜索中定义一对半平面:R1j,s=X|Xjs R2j,s=X|Xj>s,其中, R1R2为区域空间。因此查找裂变特征j和裂变节点s的目标公式如公式(1)所示。

fj,s=arg minj,s arg minc1 xiR1(j,s)(yi-c1)2+minc2 xiR2(j,s)(yi-c2)2 (1)

式中,yi为实际输出变量,c1c2为拟合输出变量。

(3)为了描述模型的精确程度,引入损失函数(loss function)。假设xi,yii=1n为训练样本,P=βm,αm1M, (m=1,2M)代表参数集合,β是每棵回归树的权重,α是回归树内的参数,因此总体模型函数如式(2)所示,加入损失函数后,样本集合xi,yii=1n求解模型最小参数,如公式(3)[

14]

Fx,P=m=1Mβmh(x,αm) (2)
arg minβm,αm1M i=1nLyi,Fxi,P=  arg minβm,αm1M i=1nLyi,m=1Mβmhxi,αm (3)

式中,Fx,P为总体模型函数,h(x,αm)为第m个基础回归树函数,m=1,2M为回归树棵树,βm为第m棵回归树权重,αm是第m棵回归树内的参数。

(4)为了求得总体模型函数Fx, P,需解出公式(3)中的βm,αm1M集合。第一棵回归树的权重、内部参数和起始模型函数F1x公式(4)所示,另外,由于Fmx是根据Fm-1x模型偏差的计算得到的新函数,因此,Fmx可以由Fm-1x表示,如公式(5)[

14]

α1=arg minα1 i=1nL(yi,β1h(xi,α1))β1=1F1x=hx,α1 (4)
Fmx=Fm-1x+βmh(x,αm) (5)

式中,m=1,2M为回归树棵树,α1是第1棵回归树内的参数,βm为第m棵回归树权重,h(x,αm)为第m个基础回归树函数,Fmx为前m个模型函数,Fm-1x为前m-1个函数。

GBDT算法采用梯度下降法求极小值,最大下降梯度方向是损失函数在当前模型Fm-1下的负梯度方向,计算如公式(6)[

14]

gmxi=L(yi,Fxi)F(xi) (6)

计算梯度,最终得到一个n维度下降方向向量g=-gmxi1nm2)

然后通过最小二乘法j*=arg minαm i=1n(-gmxi-h(xi,αm))2求得Fmx的内部参数αm,循环arg minβmi=1n L(yi,Fm-1xi+βmh(xi,αm))m=m+1(2mM)进而求得βm,带入式(2),最终求得总体模型函数FMx

2 结果与讨论

2.1 数据准备

本研究采集了某造纸厂实际生产数据作为建模的数据基础(来自企业MES系统数据)。主要包含从业务数据库提取浆料配比数据、磨浆工艺数据及质检数据,采集频率为每轴纸的相关数据,从生产过程数据库提取造纸工艺数据,采集频率为每分钟的相关数据。本研究所展示的数据均为脱敏处理后的数据。

由于在造纸实际过程中,当生产出现停产(如突发断纸)或者停机状态及制造执行系统(MES)网络通信异常时,大部分数据是零值或者空缺值,一些计量仪器还会显示最终时刻的计量值(即出现恒定值异常)。故本研究首先剔除这些非真实有效数据,以提高数据的可利用性,保证不会影响后期数据建模的模型精度。另外对于企业而言,不可能做到对生产的全部原纸产品进行所有质量指标的检测,而是对部分原纸产品轴纸末端采样进行全检和非全检混合的模式。在生产上,生产一轴纸约需1~2 h,针对轴纸末端的检测仅是下轴时刻1 min内的质检指标值,故还要匹配到这1 min内的纸机工艺参数,即根据质检数据中每一轴纸的轴号信息,结合卷纸长度指标,对采样原纸质检数据进行生产时序上的匹配,以完成纸机工艺参数与质检数据的逐一匹配,为后续建模做数据基础。

本研究具体的数据预处理方式如下:对于存在缺失的数据(如磨浆机功率缺失、非全检数据)进行删除;对于工艺参数与质检数据的匹配,首先导出卷纸长度数据,剔除缺失值及恒定值,然后从中提取所有最大值即所有卷纸末端时刻点的卷纸长度值,该时刻点就是质检点时刻,最后匹配上该时刻的纸机工艺参数值,即得到同一时刻上质检数据与工艺数据的完整建模数据。本研究建模数据和验证数据分别采集于某造纸厂2018年4月1日至2018年10月31日和2018年12月15日至2019年2月11日两个时间段内的生产数据,经上述预处理、数据匹配后共计建模有效数据580组64维,验证数有效数据123组64维。

2.2 纸张质量软测量模型建模

在建立纸张质量软测量模型之前,还需要先通过磨后纤维形态软测量模[

17]软测量磨后纤维形态数据,即将预处理好的原料纤维形态、浆料配比及磨浆功率、流量和浓度数据输入到该模型,模型输出磨后纤维形态数据。接着针对获取的预处理过的纸机工艺特征,作建模前的相关性分析和排序,选取对质量指标影响较大的纸机工艺特征,避免特征太多增加模型的复杂度,同时剔除无关变量影响。相关性分析选择结果如图2所示。相关性分析可以发现两个变量之间的相关性程度,相关系数在[-1,1]上,正值表示正相关,负值表示负相关,且绝对值越大相关性越强,相关系数大于0.4,则表示关系紧密。本研究均选取相关系数绝对值大于0.4的纸机工艺特征,即图2中各纵坐标所示的特征变量。

(a) 抗张强度

(b) 柔软度

(c) 松厚度

图2 纸张各指标相特征选择结果

针对特征选择后的580组数据,划分80%训练数据集和20%测试集,训练集用来训练模型参数,测试集用来测试所训练的模型精度。基于GBDT算法,分别建立纸张抗张强度软测量模型、柔软度软测量模型和松厚度软测量模型,抗张强度软测量模型输入包含7种磨后浆料纤维形态(纤维平均长度、纤维平均宽度、扭结纤维百分比、断尾纤维百分比、纤维平均粗度、细小纤维含量(按长度)和分丝帚化率)及上述特征分析所选的图2(a)中特征,模型输出为纸张抗张强度值。柔软度软测量模型输入为上述7种磨后浆料纤维形态及图2(b)中特征,模型输出为纸张柔软度值。松厚度软测量模型输入为上述7种磨后浆料纤维形态及图2(c)中特征,模型输出为松厚度值。

对于模型参数,GBDT算法主要有损失函数、每棵树深度、弱回归树棵树和学习率4个参数需要选择。损失函数常用的主要有最小二乘、最小绝对值差值、Huber损失和分位数损失,结合本研究数据波动较大,而Huber损失函数对异常值的抗干扰能力强,因此本研究选用Huber损失函数。然后确定每棵树深度,在数据量不大的情况下,树深度一般在3~6之间选取,树深度较高很容易导致模型过拟[

18],即模型过度学习训练集特征导致对新数据的预测效果变差,表现在训练误差降低而测试误差反而增加。接着确定弱回归树棵树,在10、100、1000 三个数量级上选取范围,为了找到最佳值,使用网格搜索方[20],以10(或50)为增量搜索确定。最后确定学习率,在0.001、0.01、0.1数量级上选取,然后逐步缩小范围,直至在保证模型没有过拟合的前提下测试误差最低,即为模型最佳参数。3种质量软测量模型参数的最佳值如表1所示。模型的测试结果如图3所示。

表1 GBDT算法模型参数的最佳值
质量指标每棵树深度弱回归树棵树学习率相对误差/%R2
抗张强度 3 500 0.005 7.21 0.954
柔软度 4 450 0.007 7.38 0.924
松厚度 3 600 0.008 3.50 0.867

(a) 抗张强度

(b) 柔软度

(c) 松厚度

图3 纸张各指标质量软测量模型测试结果

表1图3可知,测试数据中预测值与实际值拟合的R2非常高,模型对实际数据的波动性呈现较好的预测能力。另外,抗张强度、柔软度、松厚度模型的平均相对误差分别为:7.21%、7.38%和3.50%,模型精度良好。

2.3 模型验证

为验证模型的稳定性和泛化能力,本研究选用了现场的不同数据,来验证模型的有效性。所以再次从上述造纸企业MES上采集另一时间段内数据进行模型的验证,按照建模时数据的处理方式得到对应123组数据,输入到模型,输出为原纸的抗张强度、柔软度和松厚度指标,验证结果如图4所示。

(a) 抗张强度

(b) 柔软度

(c) 松厚度

图4 纸张各指标质量软测量模型验证结果

图4可知,纸张抗张强度的平均相对误差为6.87%,相比建模时精度提高4.71%;柔软度的平均相对误差为6.88%,相比建模时精度提高6.77%;松厚度的平均相对误差为3.12%,相比建模时精度提高10.86%。模型对新验证数据的预测结果精度高,泛化能力强,表明本研究所建模型真实有效,且满足生产上的实时质检误差需求,可以用于实际生产中。

3 结 论

本研究针对造纸企业纸张关键物理指标进行软测量,基于机器学习的梯度增强决策树(GBDT)算法,采集造纸企业实时生产过程数据,建立造纸企业质量在线软测量模型及验证。结果发现,基于GBDT算法建立的质量在线软测量模型精度良好,满足质检误差需求。在采集新数据验证后,纸张抗张强度、柔软度、松厚度的平均相对误差分别为6.87%、6.88%和3.12%,表明模型精度泛化能力良好,且有较高的应用价值,可以为生产上监督异常、稳定产品质量及优化操作工艺提供价值依据。

参考文献

1

国务院关于印发《中国制造2025》的通知(摘要)[J]. 中国有色建设, 2015(2):5. [百度学术

Notice of the State Council on Printing and Distributing "Made in China 2025"(Abstract) [J]. China Nonferrous Construction, 2015(2):5. [百度学术

2

Pan Y, Chen S, Qiao F, et al. Estimation of real-driving emissions for buses fueled with liquefied natural gas based on gradient boosted regression trees[J]. Science of the Total Environment, 2019, 660: 741. [百度学术

3

Man Y, Shen W, Chen X, et al. Modeling and simulation of the industrial sequencing batch reactor wastewater treatment process for cleaner production in pulp and paper mills[J]. Journal of Cleaner Production, 2017, 167: 643. [百度学术

4

Man Y, Hong M, Li J, et al. Paper mills integrated gasification combined cycle process with high energy efficiency for cleaner production[J]. Journal of Cleaner Production, 2017,156244. [百度学术

5

Zhang X, Li J, Liu H, et al. Soft sensors for pulp freeness and outlet consistency estimation in the Alkaline Peroxide Machanical Pulping (APMP) high-consistency refining process[J]. Bioresources,2016,11(2):3598. [百度学术

6

张美娟, 张素风, 万 婧. 浆液浓度对其制备PET沉析纤维形态及纸张性能的影响[J]. 中国造纸, 2016, 35(9):26. [百度学术

ZHANG Meijuan, ZHANG Sufeng, WAN Jing. Effect of Slurry Concentration on the Morphology and Paper Properties of PET Precipitated Fibers [J]. China Pulp &Paper, 2016, 35 (9): 26. [百度学术

7

彭金勇, 刘洪斌, 李甘霖, . 影响纸和纸板松厚度的主要因素[J]. 中国造纸, 2014, 33(6):64. [百度学术

PENG Jinyong, LIU Hongbin, LI Ganlin, et al. Main Factors Affecting the Bulk of Paper and Paperboard [J]. China Pulp & Paper, 2014, 33 (6):64 [百度学术

8

Trepanier R J. Pulp fiber quality and the relationship with paper tissue properties[C]//Tissue Conference and Expo 2017, The Power of TAPPI and RISI, 2017. [百度学术

9

Samira G, Emad S. Effects of pulp refining on fiber properties——A review[J] Carbohydrate Polymers, 2015,115,785. [百度学术

10

Zeng W, Zhang D, Fang Y, et al. Comparison of partial least square regression, support vector machine, and deep-learning techniques for estimating soil salinity from hyperspectral data[J]. Journal of Applied Remote Sensing2018,12(2):1. [百度学术

11

Kullander J, Nilsson L,Barbier C. Evaluation of furnishes for tissue manufacturing suction box dewatering and paper testing[J]. Nordic Pulp and Paper Research Journal, 2012, 27(1):143. [百度学术

12

Man Y, Han Y, Wang Y, et al. Woods to goods: Water consumption analysis for papermaking industry in China[J]. Journal of Cleaner Production, 2018, 195: 1377. [百度学术

13

Tsai H H. Global data mining: An empirical study of current trends, future forecasts and technology diffusions[J]. Expert Systems with Applications, 2012, 39(9):8172. [百度学术

14

Natekin A, Knoll A. Gradient boosting machines, a tutorial[J]. Frontiers in Neurorobotics, 2013, 7: 21. [百度学术

15

García Nieto P J, García-Gonzalo E, Arbat G, et al. Pressure drop modelling in sand filters in micro-irrigation using gradient boosted regression trees[J]. Biosystems Engineering,2018,171:41. [百度学术

16

胡雨沙,李继庚,洪蒙纳. 基于PSO-LSSVM算法的造纸过程短期电力负荷预测模型[J].中国造纸学报,2019,34(1):50. [百度学术

HU Yusha, LI Jigeng, HONG Mengna, et al. Short-term Power Load Forecasting Model of Papermaking Process Based on PSO-LSSVM Algorithm [J]. Transactions of China Pulp and Paper, 2019,34 (1): 50. [百度学术

17

孟子薇. 基于数据驱动的生活用纸物理特性预测及其打浆工艺优化[D].广州华南理工大学, 2019. [百度学术

Meng Zi-wei. Data-driven Prediction of Tissue Paper Physical Properties and Optimization of Its Beating Process [D]. Guangzhou: South China University of Technology,2019. [百度学术

18

孟子薇,洪蒙纳,李继庚.基于梯度增强回归树算法的磨浆过程打浆度软测量模型[J].造纸科学与技术,2019,38(1):83. [百度学术

Meng Zi-wei, Hong Meng-na, Li Ji-geng. Soft Measurement Model of Beating Degree of Refining Process Based on Gradient Enhanced Regression Tree Algorithm [J] .Paper Science and Technology, 2019,38 (1): 83. [百度学术

19

Thomas J,Mayr A, Bischl B, et al. Gradient boosting for distributional regression: faster tuning and improved variable selection via noncyclical updates[J]. Statistics and Computing, 2017, 28(6):1 [百度学术

20

辛 辰, 刘鸿斌. 预测造纸废水出水指标的随机森林建模方法[J]. 中国造纸, 2019, 38(8): 57. [百度学术

XIN Chen, LIU Hongbin. Stochastic Forest Modeling Method for Predicting Papermaking Wastewater Effluent Indicators [J]. China Pulp & Paper, 2019, 38 (8): 57. [百度学术

CPP [百度学术