----------------------2021.4.11更新------------------------------
論文下載地址
找我代碼和論文的同學有點多,不過代碼是真不能給,涉及到幾個課題組的研究方向,現在比賽結束一段時間了,論文倒是可以,有需要的同學自取,可以的話給個關注和點贊 ,哈哈哈哈
----------------------2021.4.11更新------------------------------
問題
二、目標
依據從催化裂化汽油精制裝置采集的325個數據樣本(每個數據樣本都有354個操作變量),通過數據挖掘技術來建立汽油辛烷值(RON)損失的預測模型,並給出每個樣本的優化操作條件,在保證汽油產品脫硫效果(歐六和國六標准均為不大於10μg/g,但為了給企業裝置操作留有空間,本次建模要求產品硫含量不大於5μg/g)的前提下,盡量降低汽油辛烷值損失在30%以上。
三、問題
- 數據處理:請參考近4年的工業數據(見附件一“325個數據樣本數據.xlsx”)的預處理結果,依“樣本確定方法”(附件二)對285號和313號數據樣本進行預處理(原始數據見附件三“285號和313號樣本原始數據.xlsx”)並將處理后的數據分別加入到附件一中相應的樣本號中,供下面研究使用。
- 尋找建模主要變量: 由於催化裂化汽油精制過程是連續的,雖然操作變量每3 分鍾就采樣一次,但辛烷值(因變量)的測量比較麻煩,一周僅2次無法對應。但根據實際情況可以認為辛烷值的測量值是測量時刻前兩小時內操作變量的綜合效果,因此預處理中取操作變量兩小時內的平均值與辛烷值的測量值對應。這樣產生了325個樣本(見附件一)。
建立降低辛烷值損失模型涉及包括7個原料性質、2個待生吸附劑性質、2個再生吸附劑性質、2個產品性質等變量以及另外354個操作變量(共計367個變量),工程技術應用中經常使用先降維后建模的方法,這有利於忽略次要因素,發現並分析影響模型的主要變量與因素。因此,請你們根據提供的325個樣本數據(見附件一),通過降維的方法從367個操作變量中篩選出建模主要變量,使之盡可能具有代表性、獨立性(為了工程應用方便,建議降維后的主要變量在30個以下),並請詳細說明建模主要變量的篩選過程及其合理性。(提示:請考慮將原料的辛烷值作為建模變量之一)。- 建立辛烷值(RON)損失預測模型:采用上述樣本和建模主要變量,通過數據挖掘技術建立辛烷值(RON)損失預測模型,並進行模型驗證。
- 主要變量操作方案的優化:要求在保證產品硫含量不大於5μg/g的前提下,利用你們的模型獲得325個數據樣本(見附件四“325個數據樣本數據.xlsx”)中,辛烷值(RON)損失降幅大於30%的樣本對應的主要變量優化后的操作條件(優化過程中原料、待生吸附劑、再生吸附劑的性質保持不變,以它們在樣本中的數據為准)。
- 模型的可視化展示:工業裝置為了平穩生產,優化后的主要操作變量(即:問題2中的主要變量)往往只能逐步調整到位,請你們對133號樣本(原料性質、待生吸附劑和再生吸附劑的性質數據保持不變,以樣本中的數據為准),以圖形展示其主要操作變量優化調整過程中對應的汽油辛烷值和硫含量的變化軌跡。(各主要操作變量每次允許調整幅度值Δ見附件四“354個操作變量信息.xlsx”)。
思路:
- 按照他附表二給定的規則建立兩顆決策樹,為啥是兩顆呢,1、2、3 這兩條規則是針對於特征的,而4、5是針對於樣本的。然后求平均
- 找主要變量,考慮到傳統的PCA這類特征抽取方法得到的低維特征是其他高維特征融合而來,難以有一個具體的物理解釋與含義,不好做第四問和第五問,所以我用的是特征選擇方法來做數據降維的,用的是一種 混合特征選擇方法 。這一問做出來的結果是23個特征
- 簡單的線性模型應該不行,所以我借鑒了“極限學習機”的思想建立了一個非線性模型,用極限學習機來尋找這個非線性關系
- 多目標問題,把問題轉化為求解 Pareto 前沿解的問題,采取的是帶精英策略的非支配排序的遺傳算法(NSGA-II)來求解
- 在問題四解得各樣本的相應操作變量的最優化方案之后,通過逐步調整各操作變量,並通過調整后的變量預測對應的辛烷值和硫含量。畫出調整的辛烷值和硫含量的變化
過程:
第一問的兩個判別樹
第二問
混合特征選擇的流程圖
第三問
第四問
用到的快速非支配排序偽碼
結果
第一問
第二問
第三問
第四問
第五問