“华为杯”第十七届中国研究生数学建模竞赛2020 —— B题
作者:互联网
2020年“华为杯”中国研究生数学建模竞赛一共有A、B、C、D、E、F六道题,其中A题为华为题,题目详细资料 提取码:28x2。
各道题的题目信息如下:
A题:华为题_芯片相噪算法设计
B题:汽油辛烷值建模
C题:面向康复工程的脑电信号分析和判别模型
D题:无人机集群协同对抗
E题:能见度估计与预测
F题:飞行器质心平衡供油策略优化
在拿到题目经过一番分析和思考后,我们队选择了B题。B是一道大数据题目,主要是进行数据降维、预测和优化。之所以选择B题,是因为刚开始看了所有题目后觉得相比于其他几道题目而言,B题是最容易下手的,但是到后面才发现不然,题目中暗藏玄机,而且有时连题意都很难读懂。不过既然已经选了,换题是大忌,所以只能硬着头皮做完了。
B题题目内容:
一、背景
汽油是小型车辆的主要燃料,汽油燃烧产生的尾气排放对大气环境有重要影响。为此,世界各国都制定了日益严格的汽油质量标准(见下表)。汽油清洁化重点是降低汽油中的硫、烯烃含量,同时尽量保持其辛烷值。
车用汽油标准 | 辛烷值 | 硫含量/(μg/g) ≯ | 苯含量/% ≯ | 芳烃含量/% ≯ | 烯烃含量/% ≯ |
---|---|---|---|---|---|
国Ⅲ(2010年) | 90-97 | 150 | 1 | 40 | 30 |
国Ⅳ(2014年) | 90-97 | 50 | 1 | 40 | 28 |
国Ⅴ(2017年) | 85-95 | 10 | 1 | 40 | 24 |
国Ⅵ-A(2019年) | 85-95 | 10 | 0.8 | 35 | 18 |
国Ⅵ-B(2023年) | 85-95 | 10 | 0.8 | 35 | 15 |
欧Ⅴ(2009年) | 95 | 10 | 1 | 35 | 18 |
欧VI(2013年) | 95 | 10 | 1 | 35 | 18 |
世界燃油规范(Ⅴ类汽油) | 95 | 10 | 1 | 35 | 10 |
注: μg/g是一个浓度单位,也有用mg/kg或ppm表示的(以下同)
我国原油对外依存度超过70%,且大部分是中东地区的含硫和高硫原油。原油中的重油通常占比40-60%,这部分重油(以硫为代表的杂质含量也高)难以直接利用。为了有效利用重油资源,我国大力发展了以催化裂化为核心的重油轻质化工艺技术,将重油转化为汽油、柴油和低碳烯烃,超过70%的汽油是由催化裂化生产得到,因此成品汽油中95%以上的硫和烯烃来自催化裂化汽油。故必须对催化裂化汽油进行精制处理,以满足对汽油质量要求。
辛烷值(以RON表示)是反映汽油燃烧性能的最重要指标,并作为汽油的商品牌号(例如89#、92#、95#)。现有技术在对催化裂化汽油进行脱硫和降烯烃过程中,普遍降低了汽油辛烷值。辛烷值每降低1个单位,相当于损失约150元/吨。以一个100万吨/年催化裂化汽油精制装置为例,若能降低RON损失0.3个单位,其经济效益将达到四千五百万元。
化工过程的建模一般是通过数据关联或机理建模的方法来实现的,取得了一定的成果。但是由于炼油工艺过程的复杂性以及设备的多样性,它们的操作变量(控制变量)之间具有高度非线性和相互强耦联的关系,而且传统的数据关联模型中变量相对较少、机理建模对原料的分析要求较高,对过程优化的响应不及时,所以效果并不理想。
某石化企业的催化裂化汽油精制脱硫装置运行4年,积累了大量历史数据,其汽油产品辛烷值损失平均为1.37个单位,而同类装置的最小损失值只有0.6个单位。故有较大的优化空间。请参赛研究生探索利用数据挖掘技术来解决化工过程建模问题。
二、目标
依据从催化裂化汽油精制装置采集的325个数据样本(每个数据样本都有354个操作变量),通过数据挖掘技术来建立汽油辛烷值(RON)损失的预测模型,并给出每个样本的优化操作条件,在保证汽油产品脱硫效果(欧六和国六标准均为不大于10μg/g,但为了给企业装置操作留有空间,本次建模要求产品硫含量不大于5μg/g)的前提下,尽量降低汽油辛烷值损失在30%以上。
三、问题
1、数据处理:请参考近4年的工业数据(见附件一“325个数据样本数据.xlsx”)的预处理结果,依“样本确定方法”(附件二)对285号和313号数据样本进行预处理(原始数据见附件三“285号和313号样本原始数据.xlsx”)并将处理后的数据分别加入到附件一中相应的样本号中,供下面研究使用。
2、寻找建模主要变量:
由于催化裂化汽油精制过程是连续的,虽然操作变量每3 分钟就采样一次,但辛烷值(因变量)的测量比较麻烦,一周仅2次无法对应。但根据实际情况可以认为辛烷值的测量值是测量时刻前两小时内操作变量的综合效果,因此预处理中取操作变量两小时内的平均值与辛烷值的测量值对应。这样产生了325个样本(见附件一)。
建立降低辛烷值损失模型涉及包括7个原料性质、2个待生吸附剂性质、2个再生吸附剂性质、2个产品性质等变量以及另外354个操作变量(共计367个变量),工程技术应用中经常使用先降维后建模的方法,这有利于忽略次要因素,发现并分析影响模型的主要变量与因素。因此,请你们根据提供的325个样本数据(见附件一),通过降维的方法从367个操作变量中筛选出建模主要变量,使之尽可能具有代表性、独立性(为了工程应用方便,建议降维后的主要变量在30个以下),并请详细说明建模主要变量的筛选过程及其合理性。(提示:请考虑将原料的辛烷值作为建模变量之一)。
3. 建立辛烷值(RON)损失预测模型:采用上述样本和建模主要变量,通过数据挖掘技术建立辛烷值(RON)损失预测模型,并进行模型验证。
4. 主要变量操作方案的优化:要求在保证产品硫含量不大于5μg/g的前提下,利用你们的模型获得325个数据样本(见附件四“325个数据样本数据.xlsx”)中,辛烷值(RON)损失降幅大于30%的样本对应的主要变量优化后的操作条件(优化过程中原料、待生吸附剂、再生吸附剂的性质保持不变,以它们在样本中的数据为准)。
5. 模型的可视化展示:工业装置为了平稳生产,优化后的主要操作变量(即:问题2中的主要变量)往往只能逐步调整到位,请你们对133号样本(原料性质、待生吸附剂和再生吸附剂的性质数据保持不变,以样本中的数据为准),以图形展示其主要操作变量优化调整过程中对应的汽油辛烷值和硫含量的变化轨迹。(各主要操作变量每次允许调整幅度值Δ见附件四“354个操作变量信息.xlsx”)。
附件:
附件一:325个样本数据.xlsx
附件二:样本确定方法.docx
附件三:285号和313号样本原始数据.xlsx
附件四:354个操作变量信息.xlsx
B题题目分析:
问题1:数据处理
本问题要求对附件三中285号和313号样本的354个操作变量数据进行处理。附件二中给出了样本确定方法:对严重缺失数据删除、数据全部为空位点删除、部分缺失数据平均值补全、最大最小限幅法、3准则异常值剔除。
由于此问中的两个样本数据在附件一已给出,我们的思路是对附件三中的数据按附件二提供的方法进行处理后去替换附件一中对应的样本数据。问题2:寻找建模主要变量
本问题要求对处理后的样本数据通过降维的方法从367个操作变量中筛选出建模主要变量,使之尽可能具有代表性、独立性。
鉴于本题涉及的变量有367个,变量筛选是建模中的重中之重。重点考察选取的主要变量是否具有代表性、独立性二个要素以及合理性解释。建模变量筛选必须对原料、吸附剂性质及操作变量都进行降维处理,降维过程要表述清晰。
大多数同学在本问都会使用PCA降维法,但是本问其实不宜用PCA或直接多元线性回归降维,因为PCA得到的已不是题目中提到的独立的、具有代表性的变量。而直接多元线性回归的话,本问题样本只有 325 个,但变量多达 367 个,会出现严重的过拟合(包括采用随机森林等机器学习算法都不合适)。
基于以上分析,我们的思路是采用灰色关联度分析法和皮尔逊相关系数法分别提取主要变量,再将两种方法通过加权的方式依据综合得分排序选取前28个主要操作变量得到建模主要变量。可能这个方法也不是非常的契合题目,目前还没有找到更好的方法。问题3:建立辛烷值(RON)损失预测模型
本问题要求通过数据挖掘技术,利用前面两个问题得到的样本数据和主要变量,建立辛烷值(RON)损失预测模型,并进行模型验证。
我们的思路是建立多元回归模型和BP神经网络模型进行辛烷值(RON)损失的预测。但这两种方法过于基础,推荐使用更为高级的算法进行预测。问题4:主要变量操作方案的优化
本问题要求在保证硫含量不大于5μg/g的前提下,利用325个数据样本优化主要操作变量,使辛烷值损失降幅大于30%。
我们的思路是采用线性规划的方法,建立辛烷值损失降幅优化目标函数,并以硫含量要求和各操作变量的取值范围作为约束条件,求解出各操作变量的最佳取值。这个题目的意思就有些难懂了,我们当时就题目意思讨论了很久,加之属于优化的问题,在这一问上用了很多时间。问题5:模型的可视化展示
本问题要求将133号样本优化后的主要变量与汽油辛烷值和硫含量的变化轨迹以图形的形式展现出来。
如果前几问顺利的做出来的话,第五问相对就比较容易了,只需采用可视化的方法将模型展示出来即可。我们的思路是采用控制变量的方式对变化轨迹进行图形展示。
标签:变量,第十七届,样本,汽油,辛烷值,建模,2020,附件 来源: https://blog.51cto.com/u_15178976/2729172