网刊加载中。。。

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读

基于深度强化学习的造纸废水处理过程多目标优化

  • 陆造好 1
  • 满奕 1
  • 李继庚 1
  • 洪蒙纳 1,2
  • 何正磊 1
1. 华南理工大学制浆造纸工程国家重点实验室,广东广州,510640; 2. 中新国际联合研究院,广东广州,510555

中图分类号: X793TS79

最近更新:2023-03-22

DOI:10.11980/j.issn.0254-508X.2023.03.003

  • 全文
  • 图表
  • 参考文献
  • 作者
  • 出版信息
EN
目录contents

摘要

本课题提出了一种基于多智能体深度强化学习的动态优化方法,以期实现造纸废水处理过程的运行成本和能耗的协同优化。实验采用了基准仿真1号模型(BSM1)模拟造纸废水处理过程的生化反应和沉淀过程,并利用模型数据对强化学习智能体进行训练,最后用实际的造纸废水数据对搭建的模型系统进行验证。结果表明,基于多智能体深度强化学习的废水处理系统能够保障排水质量,实现成本与能耗的多目标优化控制,其性能表现优于传统方法。

中国的造纸工业发展迅速,近5年内,纸和纸板的产量以高于3.9%的年均速度持续增长,预计在未来较长时间内,中国造纸行业仍将随着中国经济的稳定增长而不断发[

1]。然而,造纸生产过程中会产生大量的废弃物。2015年,造纸工业废水排放量为2.4×109 t,占全国工业废水总排放量的13.0%,是造纸工业需要重点关注的管理对[2]

我国森林资源匮乏,利用废纸造纸是我国造纸工业的主要生产途径。2020年底,为深入推进节约用水工作,水利部联合工信部印发了《工业用水定额:造纸》的通知,要求脱墨废纸浆用水定额20~25 m3/t[

3],这对废纸造纸的废水处理及去除溶解胶体物质和阴离子垃圾提出了挑[4]。当前,废纸造纸的废水处理工艺十分复杂、成本较高,且易受废纸来源、产品批次、工艺流程、天气等多方面因素的影响,产生的造纸废水在流量和质量上均不稳定,导致造纸废水处理过程成为了一个高度非线性的复杂系统问[5-6]。目前,为了解决进水质量的剧烈变化、满足出水水质达标的要求,生产企业主要依赖于投入化学品、增加曝气等方[7-8]。这些不合理的操作不仅增加了废水处理成本,造成了资源与能源的浪费,而且还给生态环境增加了负担。

在此背景下,如何管理造纸废水处理过程,对造纸废水的排放质量与处理产生的成本和能耗进行协调,形成了一个带约束的多目标优化问题。相关研究中,对废水处理过程形成的复杂系统问题多通过模型模拟的方式进行处理和解[

5]。其中,由国际水协会开发的基准仿真1号(BSM1)模型等一系列模型在各类研究中得到了广泛应用,并取得了较多成[9-11]。BSM1模型是一个集成活性污泥法废水处理系统的模型工具,可应用于模拟废水处理厂长期动态特性。本课题拟针对造纸废水处理的特性建立基于BSM1模型的仿真平台,并对其处理过程的水质、成本和能耗管理建立多目标优化模型。

针对相关的优化问题研究,学者们提出了一系列的数学规划模型。Zhang等[

12]应用序列二次规划对生活用纸干燥工艺的能量系统进行优化,Bozkurt等[13]提出用混合整数线性规划框架来处理废水处理厂流程图设计中最优工艺的选择问题。但这些研究仅针对单一目标进行优化,而数学规划方法本身难以解决高维度及环境复杂下的优化问题。有学者认为,启发式算法可以更好地解决多目标优化问[14-16]。然而目前的大部分启发式算法的应用研究在工业过程中均可通过离线优化方式实现,其优化结果不能应用于动态环境中,局限了其工业应用范[17-19]。在许多工业场景的控制优化和决策问题中,经典的PID控制方法有着大规模的应用,但传统PID控制方法无法解决多投入、多产出等增长因素所导致的动态优化问题的增量复杂性。模糊控制是一种基于操作人员或专家经验的控制方法,但该方法需要积累大量的先验经验来制定推理规则,且对于波动较大的环境,其控制精度仍有待提[20]。近年来,随着机器学习等智能技术的快速发展,利用机器学习算法对复杂系统进行多目标优化求解的研究不断取得新进展与成[21-23]。作为机器学习算法发展迅速的分支之一,强化学习在相关问题上表现出了更好的在线动态求解能力,在与深度学习相结合的场景中展现出的快速计算能力,可以克服数据规划、启发式算法及传统控制方法的上述缺陷,已成功应用于解决工业问[24-28]

多智能体系统具有平行计算和经验分享等优势,考虑到多智能体强化学习(MARL)在处理多目标优化问题上所具备的以上优异性能,本课题拟应用多智能体深度强化学习,在BSM1模拟活性污泥法的造纸废水处理过程的基础上,建立以出水水质为依据,实现废水处理过程的运行成本与能耗优化为目标的造纸废水多目标优化模型,为造纸行业提质增效提供一定的参考。

1 实验

1.1 基于BSM1的造纸废水处理过程模型搭建

1.1.1 基准仿真模型

活性污泥法的造纸废水处理过程主要包括生化反应池和二沉池。为了客观评价废水处理过程的控制策略,本课题选择BSM1作为废水生化过程模型,其具体布局如图1所示(包含2个厌氧生化反应池,3个好氧生化反应池,1个10层的二沉池,其中,Q代表流量、Z代表组分浓度、M代表层数)。具体地,生化反应池由基于生化反应机理的活性污泥1号模型(ASM1)所构成。基础的BSM1模型主要考虑了内部循环流量和氧传递系数2个控制变量,并提供了通过比例积分(Proportional Integral,PI)控制器分别调节反应池2的硝态氮(SNO)浓度和反应池5的溶解氧浓度(SO)的控制方案。

图1  BSM1的系统结构图

Fig. 1  System structure diagram of BSM1

1.1.2 运行成本

为了评估废水处理过程的控制策略,本课题在BSM1模型的基础上,主要考虑了污泥排放量(Sludge Production,SP)所产生的运行成本Cost。其运行成本具体评价标准如式(1)~式(2)所示。

Cost = SP (1)
SP = 1T TSST+t-TSSt+0.75×tT+tXS,w+XI,w+XB,H,w+XB,A,w·Qw(t)dt (2)

式中,TSS为固体悬浮物浓度;XS,wXI,wXB,H,wXB,A,W分别为废淤泥中易降解颗粒组分、难降解颗粒组分、异养菌浓度和自养菌浓度;Qw为废淤泥流量。

1.1.3 能耗

与运行成本相类似,根据BSM1模型的评价标准,对废水处理过程的能耗求解可以考虑曝气能耗(Aeration Energy,AE)、泵送能耗(Pumping Energy,PE)和混合能耗(Mixing Energy,ME)3个方面,如式(3)~式(6)所示。

总能耗 = AE + PE + ME (3)
AE = SOsat1.8×1000 TtT+tk=15Vas,k·KLak(t)dt (4)
PE = 1TtT+t0.004 Qintt+0.008 Qrt+0.05 Qw(t)dt (5)
ME = 24TtT+tk=150.005 Vas,kif KLak(t)<20 d-1 0otherwisedt (6)

式中,SOsat为溶解氧的饱和浓度;Vas,k为第k个反应池的容积,KLak为第k个反应池的氧传递系数;QintQr分别为内循环流量和回流污泥循环流量。

1.1.4 出水水质

出水水质是否达标是评价废水处理过程好坏的关键,本课题采用了多个水质参数的限制范围。参考BSM1模型中具备的动态过程参数,除SNH外,其出水水质具体计算过程可归纳为式(7)~式(10)所示。

Ntot=SNO+SNH+SND+XND+iXB·XB,H+XB,A+iXP·XP+XI (7)
COD=SS+SI+XS+XI+XB,H+XB,A+XP (8)
TSS=0.75 (XS+XI+XB,H+XB,A+XP) (9)
BOD5=0.25 SS+XS+1-fp·XB,H+XB,A (10)

式中,iXBiXPfp为化学计量参数,分别表示微生物细胞中氮含量比例、微生物产物中氮含量比例、微生物中惰性颗粒比例,其值分别为0.08 gN/gCOD、0.06 gN/gCOD和0.08。

1.1.5 控制变量

在所搭建的造纸废水处理模型的基础上,本课题主要对QintKLa5 2个关键控制参数进行了调控。由于不同的控制策略对造纸废水处理过程的运行成本、能耗以及出水水质等均有较大的影响,对这些关键控制变量进行实时优化将显著降低生产成本和能源消耗。根据上述内容,本课题将这一优化问题归纳出以下目标函数,如式(11)~式(13)所示。

X= Xl Xm Xn={x1, x2 xlxmxn}=f(Qint,KLa5) (11)
gXl=gx1, x2 xl    (12)
hXm=hxl+1, xm    (13)

式中,gXlhXm分别为造纸废水处理过程运行成本、能耗的总和函数,XlXm分别为受QintKLa5控制参数影响的相关因子集。

QintKLa5的定义域为ξδQint的范围为0~100000 m3/d,KLa5的范围为0~242 d-1)时,该目标优化问题的目标函数可以表示为式(14)

S. t.argminQintξ,KLa5δ gXl, hXmNtot<18 mg/LCODCr<100 mg/LSNH<4 mg/LTSS<30 mg/LBOD5<10 mg/L (14)

式(14)描述了本课题的主要研究问题,其所涉及的关联要素之间的主要关系如图2所示。值得一提的是,在多目标优化问题中,当满足某一个目标将导致其他目标受到冲突而无法实现时,几乎不存在同时满足每个目标函数的最优化场景。而针对多目标间的优化平衡,本课题以多智能体在这一多目标优化环境的博弈关系为依据,在强化学习深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)的基础上,提出了一种自适应多目标优化框架,以寻找废水处理过程的最优控制策略。其中QintKLa5的控制器分别由2个独立的DDPG智能体控制,并通过基于马尔可夫博弈构建的自适应过程对智能体进行训练。

图2  造纸废水处理过程多目标优化流程图

Fig. 2  Flowchart of multi-objective optimization for papermaking wastewater treatment process

1.2 MDP搭建

1.2.1 马尔可夫博弈中的多目标优化问题

上述造纸废水处理过程的多目标优化问题可以看作是双智能体的非零和随机博弈。其中,2个智能体通过分别选择QintKLa5的值做出动作,从环境(造纸废水处理过程)中依据式(14)目标函数获取各自的奖励。在强化学习中,智能体依靠元组{SATR}通过马尔可夫决策过程(Markov Decision Process,MDP)与环境交互并不断学习,从而优化其策略。

MARL系统考虑目标的最优管理和废水处理过程的优化问题,形成一个造纸废水处理过程优化问题的马尔可夫博弈框架(见图3)。其中,多智能体系统中不同智能体的经验共享可以提高算法的性能。因此,在这个框架下,设定每个智能体都可以观察到对方的动作和奖励。如图3所示,通过模拟造纸废水处理过程获得的废水变量信息,组成状态空间。利用这些变量计算得出目标函数中运行成本及能耗,形成奖励。在马尔可夫博弈环境给出反馈后,智能体通过与环境相互作用做出动作来调整控制变量,从而改进在环境中优化目标。首先根据元组{SATR}搭建多智能体决策模型。

图3  造纸废水处理过程优化问题的马尔可夫博弈框架

Fig. 3  Markov Game framework of paper wastewater treatment process optimization problem

1.2.2 状态S

造纸废水处理过程涉及多个状态变量X,选择具有特征的变量能让智能体掌握和熟悉当前所处的环境。因此,t时刻的智能体状态可以表述为式(15)

St = [stx1stx2stxn, stx1instx13in S (15)

1.2.3 动作A

强化学习智能体通过对状态的观察,训练得出在当前环境中的最优选择,并从独立积累的奖励中优化策略。在废水处理过程中智能体通过控制QintKLa5来调节反应池2的NO浓度SNO和反应池5的溶解氧浓度SO,故可将智能体的动作定义为式(16)

At1=Qint, Qintξ ;       At2= KLa5, KLa5δ (16)

1.2.4 转移概率 T

状态转移概率 T是智能体在t时刻选择动作A,从St转移到下一个状态St+1的概率。通过状态转移评估智能体的表现,可以帮助智能体更快地收敛到最优控制策略。对于所有满足上述优化问题中约束的动作和状态,如式(17)所示。

T (St+1St, At) > 0和St+1S T (St+1St, At)=1 (17)

1.2.5 奖励R

对于模型中各个智能体而言,其共同目标是同时使运行成本、能源消耗最小化。故设置奖励函数指向于对应的2项目标函数,可表示为式(18)

R1St,At=R2St,At=rc-wg gXl-wh·hXm (18)

式中,rc为超出式(14)中水质限值时对智能体的惩罚;wgwh分别为运行成本、能耗在系统模型中多目标优化问题的权重,该权重是根据实际造纸废水处理过程设定[

29]

1.3 基于DDPG的多智能体强化学习系统

实际工业过程一般可被看作是随时间连续分布的规模较大的动作-状态空间系统,应用强化学习算法时,传统Q-learning容易面临维度灾难,无法求解。因此,有学[

30]提出将深度学习感知能力与强化学习的决策能力相结合,形成一种深度强化学习——深度Q网络(Deep Q Network,DQN)。该方法用深层神经网络拟合价值函数来提供目标值,用强化学习把奖励作为估计值,不断更新深层神经网络的参数,使目标值和估计值之间的误差减少。但DQN算法的目标值是仅利用一个神经网络通过贪婪法直接获取得到,容易过度估计,导致智能体难以收敛至最佳价值函数。相比之下,有相关研[31]将Actor-Critic的在线更新逻辑和DQN学习的优点进行结合,提出了能有效地在连续动作上进行学习的DDPG算法。MARL系统中运行DDPG算法流程见图4。如图4所示,DDPG算法包含4个神经网络,流程如下:初始化Actor和Critic的online网络参数θπθQ,将online网络参数更新到对应的target网络参数θπ´θQ´;Actor通过与环境的交互,所获得的StAtrtSt+1将被储存到经验回放池。经验回放池通过采样M组数据并输入到Critic中训练,并经过target策略网络将At+1输进target Q网络,得到At+1St+1用以计算目标Q´值。最后,通过计算ΔQ更新online策略网络,可使Actor输出的Q值最大。基于这些特性和优点,本研究将利用DDPG搭建多智能体强化学习框架以解决当前的研究问题。其中,智能体的初始化状态由初始输入量决定,需要手动初始化设置的部分参数包括:训练回合数E、步长数N、学习率α、折扣因子 γ、抽取样本数M,以及经验池容量D

图4  MARL系统中运行DDPG算法的流程图

Fig. 4  Flow chart of running DDPG algorithm in MARL system

1.4 应用

当前研究随机选取了BSM1模型中不同天气情况下的入水数据组合,对智能体进行了训练,使其在应用环境中针对目标的控制策略进行收敛。收敛后,利用从广东省某造纸厂入水现场监测系统所采集的140 h废水入水数据(如图5所示)对系统模型所获得的控制策略进行评估。其中,样本数据的采样间隔为15 min,入水流量的平均值为7877.26 m3/d,入水污染物CODCr、TSS、BOD5、Ntot、SNH的平均值分别为606.63、420.56、378.9、167、15.56 g/m3。该监测系统的检测项目、方法及标准具体如表1所示。为符合BSM1运行规则,本课题还进一步对监测数据进行组分划分,具体办法参考文献[

32-33],将COD划分为4种组分,将TN划分为3种组分的处理办法,其具体情况如式(19)~式(25)所示。

图5  造纸废水处理过程入水数据

Fig. 5  Inflow data of papermaking wastewater treatment process

表1  广州某造纸厂废水检测方法及仪器
Table 1  Testing method and instrument for wastewater from a paper mill in Guangzhou
检测项目CODTSSTNSNHSO流量
检测方法 重铬酸钾法 质量量法 碱性过硫酸钾消解紫外分光光度法 纳式试剂分光光度法 荧光法
检测标准或仪器 GB 11914—89 GB 11901—1989 HJ 636—2012 HJ 535—2009

JY-DY2900

溶解氧仪

电磁流量计
XS=19.97%COD (19)
SS=18.11%COD (20)
XI=57.81%COD (21)
SI=4.11%COD (22)
XND=91.63%TN (23)
SND=6.14%TN (24)
SNO=2.23%TN (25)

2 结果与讨论

2.1 训练结果

本研究利用BSM1模型的入水数据训练智能体,训练过程中系统参数的设置如表2所示,其中,ξ是内部循环流量Qint,取值为0 ~ 105δ是氧传递系数KLa5,取值为0~242。此外,经验池容量D、抽取样本数M、Actor学习率αA、Critic学习率αC、折扣因子γ、步长数N取值分别为106、128、0.0001、0.001、0.99、6720。图6为不同输入状态或不同奖励下智能体的训练结果。为了探讨智能体状态的选择对获得奖励的影响,图6(a)考虑了PI控制器的输入、被控状态变量、入水数据和出水指标等相关参数,将其分为5组智能体(状态1、2、3、17、51),分别进行了训练。此外,除了环境状态能够帮助智能体学习外,奖励的合理设置对于多目标优化的研究也很重要。由于在学习过程中缺乏约束条件,动作选择可能会产生不够充分或不切实际的选[

34]。因此,图6(b)对比分析了智能体的奖励设置,在提出的模型中,奖励函数的设置依据是出水水质,一旦超标将给予巨大惩罚,然后在此基础上对所取得的目标进行相应奖励。为了强化奖励函数中约束的重要性,其惩罚的设置将根据取值-5e5 ~ -1e5,按照每个出水指标平均分配或作为1个整体分配,分别进行比较。即训练工程中,共分有6组智能体(-5e5、-2e5、-1e5总体及平均分配)分别进行了训练。

表2  训练过程中系统参数的设置
Table 2  Parameters setting of proposed system in training process
抽取样本M经验池DActor学习率αACritic学习率αc折扣因子γ步长数N内部循环流量ξ氧传递系数δ
128 106 0.0001 0.001 0.99 6720 [0,105] [0,242]

图6  智能体在不同状态和不同奖励设置下的平均奖励训练追踪图

Fig. 6  Average reward training tracking graph of the agent in different states and different reward Settings

图6(a)可知,在BSM1模型模拟的造纸废水处理过程中,不同输入状态的智能体在学习过程中存在显著差异。其中,最简单的模型结构是由各智能体仅单独观测SOSNO,其余模型则由依次累加传感器输出数据、对方智能体的动作、入水数据(14组)、计算目标函数所涉及的参数(34组)组成。除了1维状态下智能体不能直接将SOSNOQ值进行联系外,其他智能体一般都能找到学习环境的路径。但在100个回合中,大多数智能体都不能收敛到最优奖励,仅有当智能体观察到51维状态时,训练过程可以实现100回合内优化收敛。因此,在后续研究中,本课题选择了51维状态作为智能体观测值进行模型搭建。

图6(b)中,51维状态的智能体根据出水水质的约束条件分别设置了不同奖励。为了更好地比较训练结果,图6(b)中将各个纵轴进行了标准化等距调整。结果表明,当任意1个水质参数不达标时,对智能体进行整体惩罚,并不能使智能体在100个回合中更好地收敛。即根据具体的某个不合格的水质参数,分别对智能体进行惩罚,可以促进智能体更好地与环境互动并通过累积获得奖励。由于造纸废水处理过程中入水水质变化较大,智能体无法避免出水水质超标情况的发生,而对智能体进行显著惩罚将有助于智能体更快地理解研究问题中的约束。因此,本课题选取了具有51维状态、-5e5奖励平均分配的设置,对多目标优化模型进行后续研究。

以上述最终获得的智能体(51维状态、奖励-5e5平均分配)为例,图7通过t-SNE算[

35]展示了在多目标优化问题背景下造纸废水处理环境可用于支撑智能体学习的状态价值分布。其中,各个回合根据智能体与环境的交互生成,图中各点指代各个回合,并将各点根据响应回合获得的奖励,根据从低到高对应于从紫色到黄色的方式分别着色。由于智能体的高维状态难以在图中完整呈现,因此在t-SNE二维展示图中通过举例的方式对部分场景下的运行成本、能耗、出水水质等指标进行了简要说明。奖励反映控制策略的质量,观察发现奖励相似的状态在映射关系中彼此接近。这一现象在类似的研[36-37]中也常有涉及,并可共同归因于神经网络所具有的高维学习能力。此外,多智能体系统由于具备并行计算的优势,在所提出的解决方案中应用多智能体系统可以更好地应对长时间重复计算所带来的算力挑[37]

图7  经验状态的二维t-SNE图

Fig. 7  Two-dimensional t-SNE diagram of the experienced state

2.2 与默认开环控制器和PI控制器比较

2.2.1 出水水质

根据前文所述出水水质标准和式(7)~式(10),本课题研究对比计算了开环、PI控制器和所搭建的MARL控制器处理后的出水水质(CODCrSNH、TSS、BOD5Ntot)情况,其具体情况如图8所示。其中,各个指标子图上限所展示的红色表示出水水质限制值。从图8可以看出,3种控制器的出水水质整体均符合排放标准,CODCrSNH、TSS、BOD5Ntot均保持在较低范围内。其中,根据图8(b)和图8(d),CODCr浓度和TSS浓度的差异可以忽略不计。在图8(c)和图8(e)的SNH、BOD5浓度对比中,MARL系统控制的出水指标虽然略高于其他2个控制器,但也在标准要求以内。而在图8(a)的Ntot浓度对比中,MARL系统的效果明显比PI控制器好,且这效果差异比图8(c)和图8(e)中SNH、BOD5浓度的对比差异更显著。

图8  MARL、开环和PI控制器的出水水质比较

Fig. 8  Comparison of effluent quality among the proposed model, open-loop, and PI-controller

2.2.2 运行成本

运行成本主要考虑了污泥排放量SP。以PI控制器为基准,图9分别对比了开环、PI控制器和所搭建的MARL系统控制下的运行成本。可以发现,由于污泥流量在本课题中被设为默认值,3个体系之间的成本差异并不明显。从图9(b)观察到MARL的总体运行成本比PI控制器偏低一点,在案例展示的100 h处理过程中,MARL比PI控制器平均节省了至少3.5×105的单位成本。

图9  MARL、开环和PI控制器的运行成本比较

Fig. 9  Comparison of operational cost among the proposed model, open-loop, an PI-controller

2.2.3 能耗

能耗是造纸废水处理过程中最受关注的问题之一。图10~图12展示了以PI控制器为基准,开环与所搭建的MARL的不同控制场景下的能耗。总能耗由AE、ME、PE组成,MARL的平均总能耗为3561 kWh,开环和PI控制器的平均总能耗分别为3969和3578 kWh。在曝气能耗方面,从图10(b)中可知,MARL曝气能耗整体比PI控制器低,比开环更低。混合能耗方面显示,MARL的动作并不频繁,其中KLa5的设定非常稳定,故在图11(b)中可以观察到,MARL的混合能耗基本上都比PI控制器高。从图12(b)泵送能耗方面可以看到,MARL的波动情况前期和PI控制器差不多,但后期低于PI控制器。

图10  MARL、开环和PI控制器的曝气能耗比较

Fig. 10  Comparison of aeration energy among the proposed model, open-loop, and PI-controller

图11  MARL、开环和PI控制器的混合能耗比较

Fig. 11  Comparison of mixing energy among the proposed model, open-loop, and PI-controller

图12  MARL、开环和PI控制器的泵送能耗比较

Fig. 12  Comparison of pumping energy among the proposed model, open-loop, and PI-controller

3 结论

本课题基于多智能体系统和深度强化学习,提出了一种基于多智能体强化学习(MARL)的方法,将当前的造纸废水多目标优化问题构建为马尔可夫博弈过程,并利用深度强化学习深度Q网络(DQN)算法协同求解最优控制策略,从而达到优化造纸废水处理过程的目的,使其更经济、更节能、更环保。具体操作如下:以造纸废水处理厂采集的实际数据为基础,利用基准仿真1号模型(BSM1)对所搭建的MARL多目标优化模型进行了模拟验证,并将验证效果与开环、PI控制器进行了比较,探讨了采用MARL的方法实现废水处理过程的多目标优化的潜力。

3.1 以PI控制器的结果为基准,MARL系统的运行成本整体上比PI控制器低,至少节省平均3.5×105的单位成本,表明所建立的MARL系统对造纸废水处理过程运行成本优化的有效性。

3.2 以PI控制器为基准,比较了MARL系统与开环、PI控制器的应用效果。实验结果表明,开环、PI控制器和MARL系统3种不同场景下的平均能耗分别为3969、3578和3561 kWh,其中MARL系统比PI控制器平均节能17 kWh,表明了所建立的MARL系统对造纸废水处理过程能耗优化的有效性。

本课题研究仍存在一些不足,后期将针对这些方面的不足进行更为深入的研究。

(1)前期的部分工作验证了针对造纸废水处理过程对BSM1进行修正的重要性。但本课题在BSM1仿真模型搭建过程中,仅侧重于建立新型控制方法,在模型训练和验证过程中对部分实验条件进行了简化或理想化的处理,未能充分反映造纸废水的特性,这一点需要在未来工作中加强重视和深入探究。

(2)优化所提出的MARL系统,需对模型的奖励函数结构、状态设置及智能体参数进行更广泛的实验讨论。

(3)在运行成本和能耗之外,需同时考虑环境因素,尝试求解最优控制策略。

(4)需考虑更多控制器的应用场景,使提出的多智能体深度强化学习系统更贴近工业生产实际。

参 考 文 献

1

Man YLi JHong Met al. Energy transition for the low-carbon pulp and paper industry in China[J]. Renewable & Sustainable Energy ReviewsDOI: 10.1016/j.rser.2020.109998. [百度学术] 

2

中国造纸工业可持续发展白皮书[J]. 造纸信息20193):10-19. [百度学术] 

White Paper on Sustainable Development of China’s Paper Industry [J]. China Paper Newsletters20193):10-19. [百度学术] 

3

水利部、工业和信息化部发布造纸等七项工业用水定额[J]. 造纸信息20211):15. [百度学术] 

Ministry of Water Resources and Ministry of Industry and Information Technology Issued Seven Industrial Water Quotas for Papermaking [J]. China Paper Newsletters20211):15. [百度学术] 

4

张珈铭周晨旭熊建华. 废纸回用废水中胶黏物去除技术研究进展[J]. 中国造纸2022416):103-112. [百度学术] 

ZHANG J MZHOU C XXIONG J Het al. Study on Removal of Stickies in Waste Paper Recycling Wastewater[J].China Pulp & Paper2022416):103-112. [百度学术] 

5

Shen WChen XCorriou J P. Application of model predictive control to the BSM1 benchmark of wastewater treatment process[J]. Computers & Chemical Engineering20083212):2849-2856. [百度学术] 

6

徐峻李军陈克复. 制浆造纸行业水污染全过程控制技术理论与实践[J]. 中国造纸2020394):69-73. [百度学术] 

XU JLI JCHEN K F. Whole-process Control of Water Pollution in Theory and Practice for Pulp and Paper Industry[J].China Pulp & Paper2020394):69-73. [百度学术] 

7

Wang ZMan YHu Yet al. A deep learning based dynamic COD prediction model for urban sewage[J]. Environmental Science Water Research & Technology2019512):221-228. [百度学术] 

8

Man YShen WChen Xet al. Dissolved oxygen control strategies for the industrial sequencing batch reactor of the wastewater treatment process in the papermaking industry[J]. Environmental Science Water Research & Technology201845):654-662. [百度学术] 

9

王爱其陈科. 自适应粒子群算法在污水处理过程智能控制优化中的应用仿真研究[J].中国造纸2021408): 70-74. [百度学术] 

WANG A QCHEN K. Application Simulation Research of Adaptive Particle Swarm Optimization in Intelligent Control Optimization of Wastewater Treatment Process[J]. China Pulp & Paper2021408):70-74. [百度学术] 

10

Flores-Alsina XRodríguez-Roda ISin Get al. Multi-criteria evaluation of wastewater treatment plant control strategies under uncertainty[J]. Water Research20084217):4485-4497. [百度学术] 

11

Flores-Alsina XCorominas LSnip Let al. Including greenhouse gas emissions during benchmarking of wastewater treatment plant control strategies[J]. Water Research20114516):4700-4710. [百度学术] 

12

Zhang YHong MLi Jet al. Energy system optimization model for tissue papermaking process[J]. Computers & Chemical EngineeringDOI: 10.1016/j.compchemeng.2020.107220. [百度学术] 

13

Bozkurt HQuaglia AGernaey K Vet al. A mathematical programming framework for early stage design of wastewater treatment plants[J]. Environmental Modelling & Software201564164-176. [百度学术] 

14

Wang KWang PNguyen H. A data-driven optimization model for coagulant dosage decision in industrial wastewater treatment[J]. Computers & Chemical EngineeringDOI:10.1016/j.compchemeng.2021.107383. [百度学术] 

15

Janga Reddy MNagesh Kumar D. Evolutionary algorithms, swarm intelligence methods, and their applications in water resources engineering: A state-of-the-art review[J]. H2Open Journal202031):135-188. [百度学术] 

16

Nayak MDhanarajan GDineshkumar Ret al. Artificial intelligence driven process optimization for cleaner production of biomass with co-valorization of wastewater and flue gas in an algal biorefinery[J]. Journal of Cleaner Production20182011092-1100. [百度学术] 

17

Man YHu YRen J. Forecasting COD load in municipal sewage based on ARMA and VAR algorithms[J]. Resources, Conservation and Recycling201914456-64. [百度学术] 

18

Dai MYang FZhang Zet al. Energetic, economic and environmental (3E) multi-objective optimization of the back-end separation of ethylene plant based on adaptive surrogate model[J]. Journal of Cleaner ProductionDOI:10.1016/j.jclepro.2021.127426. [百度学术] 

19

Hanafi STodosijević R. Mathematical Programming Based Heuristics for the 0-1 MIP: A Survey[J]. Journal of Heuristics2017234):165-206. [百度学术] 

20

张爱娟胡慕伊黄亚南. 基于专家前馈-模糊PID反馈的溶解氧浓度控制方案研究[J]. 中国造纸学报2016312):43-48. [百度学术] 

ZHANG A JHU M YHUANG Y Net al. Dissolved Oxygen Concentration Control System Based on Expert feedforward and Fuzzy PID Feed-back Control[J]. Transactions of China Pulp and Paper2016312):43-48. [百度学术] 

21

Wang YLiu HZheng Wet al. Multi-objective Workflow Scheduling with Deep-Q-Network-based Multi-agent Reinforcement Learning[J]. IEEE Access2019739974-39982. [百度学术] 

22

Mannion PDevlin SDuggan Jet al. Reward shaping for knowledge-based multi-objective multi-agent reinforcement learning[J]. Knowledge Engineering ReviewDOI: 10.1017/S0269888918000292. [百度学术] 

23

He ZQian JMan Yet al. Data-driven soft sensors of papermaking process and its application to cleaner production with multi-objective optimization [J]. Journal of Cleaner ProductionDOI:10.1016/j.jclepro.2022.133803. [百度学术] 

24

Hernández-del-Olmo FGaudioso EDormido Ret al. Tackling the start-up of a reinforcement learning agent for the control of wastewater treatment plants[J]. Knowledge-based Systems20181449-15. [百度学术] 

25

He ZTran K PThomassey Set al. Multi-objective optimization of the textile manufacturing process using deep-Q-network based multi-agent reinforcement learning[J]. Journal of Manufacturing Systems202262939-949. [百度学术] 

26

Petsagkourakis PSandoval I OBradford Eet al. Reinforcement learning for batch bioprocess optimization[J]. Computers & Chemical EngineeringDOI: 10.1016/B978-0-12-818634-3.50154-5. [百度学术] 

27

Li WeiyeLi BinHe Songpinget al. A novel milling parameter optimization method based on improved deep reinforcement learning considering machining cost[J]. Journal of Manufacturing Processes2022841362-1375. [百度学术] 

28

Han XiaoyunMu ChaoxuYan Junet al. An autonomous control technology based on deep reinforcement learning for optimal active power dispatch[J].International Journal of Electrical Power and Energy SystemsDOI: 10.1016/j.ijepes.2022.108686. [百度学术] 

29

He ZTran KThomassey Set al. A deep reinforcement learning based multi-criteria decision support system for optimizing textile chemical process[J]. Computers in IndustryDOI: 10.48550/arXiv.2012.14794. [百度学术] 

30

Mnih VKavukcuoglu KSilver Det al. Human-level control through deep reinforcement learning[J]. Nature20155187540):529-533. [百度学术] 

31

Lillicrap T PHunt J JPritzel Aet al. Continuous control with deep reinforcement learning[J]. Computer EnceDOI: 10.1016/S1098-3015(10)67722-4. [百度学术] 

32

Man YShen WChen Xet al. Modeling and simulation of the industrial sequencing batch reactor wastewater treatment process for Cleaner Production in pulp and paper mills[J]. Journal of Cleaner Production2017167643-652. [百度学术] 

33

黄菲妮. 造纸污水生化处理过程温室气体减排的溶解氧优化控制[D]. 广州华南理工大学2020. [百度学术] 

HUANG F N. Optimized Dissolved Oxygen Control for Greenhouse Gas Reduction in Wastewater Treatment Process of Paper Mill [D]. GuangzhouSouth China University of Technology2020. [百度学术] 

34

Marchesini ECorsi DFarinelli A. Benchmarking Safe Deep Reinforcement Learning in Aquatic Navigation[J]. Machine LearningDOI: 10.48550/arXiv.2112.10593. [百度学术] 

35

Van der Maaten L J PHinton G E. Visualizing High-dimensional Data Using t-SNE[J]. Journal of Machine Learning Research2008911):2579-2605. [百度学术] 

36

Chen KWang HValverde-Pérez Bet al. Optimal control towards sustainable wastewater treatment plants based on multi-agent reinforcement learning[J]. ChemosphereDOI:10.1016/j.chemosphere.2021.130498. [百度学术] 

37

史忠植. 突破通过机器进行学习的极限[J].科学通报20166133):3548-3556. [百度学术] 

SHI Z Z. Breaking the Limit of Machine Learning [J]. Chinese Science Bulletin20166133):3548-3556. [百度学术] 

CPP [百度学术]