問題
2020年C題建立數學模行的目標是:利用數據使公司深入了解他們參與的市場、參與的時機以及產品設計功能選擇的潛在成功。題目所給數據:數字類數據與字符串類數據。其中,對評論的量化分析是很重要的一部分。
第一篇
-
摘要的第一段格式和國賽的格式區別很大。沒有重點寫方法,而是寫背景和題目。
-
使用了基於詞典的方法、情感評分評價系統、主成分分析法、時間序列模型ARIMA、非參數檢驗
其中,基於詞典的方法和情感評分評價系統的結合與機器學習方法的區別很大。
在情感評分評價系統中以及第二篇優秀論文里都出現情感極性這個詞,讀起來的感覺像某個領域的專業名詞。這種名詞在建模查找文獻的時候需要敏銳地進行總結與記錄,不要誤用或者不用。 -
其中有一句話我們旨在探索三個變量之間的內在關系,在閱讀論文的時候發現,優秀論文有些地方被加粗了作為重點了,這個我們需要注意。因為國賽能不能這樣注明是待考證的,美賽感覺可以學着將英文原文進行加粗。具體在做的過程中,可以將加粗單獨作為論文完成后的一個環節去設計,這樣還能達到梳理論文結構的目的。根據我們的方法對備選產品進行排名問題中沒有要求,是隊伍根據題意提出的。
-
文獻評論這一塊比較有意思,寫的都是以往對該問題的研究,而且與隊伍的模型很相關。這樣也把思路講的很清晰。經過我們的隊伍討論之后,我們決定學習這種寫作方法。同時,吸取亞太賽的經驗,要根據官方所給的模板進行寫作,不然寫完之后還要重新排版。幾乎這樣必然熬夜!!!傷身傷神!!避免避免!!
-
我們的工作概述,與第二篇對比來說,流程圖更加清晰。
-
數據的預處理寫的步驟清晰,把每一個操作寫出來之后,非常像一篇操作指南而不是建立模型。謹慎學習。
-
圖和表兩者同時運用去表達同一組數據,將數據的統計特征表示地更加清晰,非常值得學習。
-
三級評價模型是對主成分分析法的一種改進,"改善"是一種常見的建立模型的思路(可能是已經學習的簡單模型也可能是文獻中成熟的模型),但是需要留意的是建立模型的效果好壞應該評估(一般可視化),否則模型不完整。與它有明顯區別的建模思路於第二篇中體現,需要調節各種變量的變化方式與系數來改變模型的結果。如1/2log10 x這種控制方式
-
獲得的額外知識:主成分分析法不需要正態分布那么也就意味着,有其他的方法需要正態分布,以后建立模型的時候就應該注意搜索一下:使用了某某方法,
- 它有什么使用的前提?
- 需要提前做什么樣的檢驗?
- 結果是否需要進行檢驗?
存在一些還沒有解決的問題:
-
0001 這里聽指導老師講課的問題,似乎是一種模型對應一種分析方法(處理后事的部分)。微分方程用靈敏性分析,預測也需要靈敏性分析與准確性檢驗。下面列出一些分析你的模型的方法,並不全面:
- 靈敏性檢驗
- 穩定性檢驗
- 准確性檢驗
-
0002 非參數檢驗是什么意思?
-
0003 魯棒性究竟意味着什么?
第二篇
- 在摘要中明顯地提出,模型定義了產品的評分,評分是我們定義的。這種定義的寫法是我們需要的,單獨划分一個小節出來很清晰。
- 引用了一句名言。。。花里胡哨
- 錯位的數據,提供數據的比賽中可能會出現這種情況。之前沒有遇到過,只注意了異常值、缺失值等情況。
- 修正項的使用非常的好。是對自己模型的改善,也可以使用到對別人模型的改善。說實話,感覺你如果有一個人家用過的模型,加一個修正項就可以在論文里成為是你自己的模型,只要你的模型結果好,就無可摘要。
- kendall tau方法,評價兩個序列的相關性。用相似程度來說更好,即使兩條曲線相差距離很遠,那么也可以根據這個方法來判斷是否相似。值得學習的方法!!使用的地方很多
- 映射使得分更加合理。值得學習的方法!!使表述更加清晰啦!!
- 閾值隨時間變化,這個設計很巧妙。與某些現實問題連接,方法可以用到其他問題中。
- 整體論文的結構呈現自頂向下的結構,從了解到模型需要設計哪些變量,再到變量之間的關系,接着是具體介紹變量的取值范圍和這樣取值的原因,最終分析模型建立的效果。
- 模型框架的圖畫的很漂亮、清晰。應該有專門的軟件吧。查了一下有AxGlyph、Visio。結構的話,我覺得甚至可以照着優秀論文的畫。說實話,美賽就是越花哨越得獎,當然原因是因為:大部分的花哨都是有足夠的工作和內容來支撐的。
- 假設似乎沒學到什么東西。合理就行,必不必要再說。
- 模型通過矩陣來實現,保留了更多的信息,包括很重要的時間。
- 高斯回歸屬於監督機器學習方法,可以解決回歸和概率問題。應該進一步了解。有一個做的非常好的是95%的置信區間,把概率較小的可能性也進行計算與可視化了,考慮全面且花哨。
- 設定成功閾值,這是一種定義。值得學習,在於論文專門分了一個小節去講這個成功閾值的合理性與結果,寫的非常清晰,清晰就等於你做的工作有效。同時想起來上次亞太賽的事情。。。。沒按照模板寫,調了好長時間。美賽也沒限制於國賽數學建模的結構。
- 上面並列的很多圖,是我想在論文里做出來的一個結構。能表現咱們做的工作,又能產生對比。
- 靈敏度分析做的很標准,值得學習。也進行了可視化。
存在一些還沒有解決的問題:
- 0004 了解高斯過程回歸
編程與實現方面
- python seaborn庫可以進行更高級的可視化,可能會更適合做大數據的題目。可以看一下官方文檔進行學習。
- 字符類的數據怎么處理?jieba庫應該有用,查閱官方文檔。也可以再查找一下其他方法。
- 最基本的數據預處理、數據描述(分析)、可視化、數據挖掘(分量不是特別多),重視數據而不是重視挖掘技術。
- 參考文獻中提到了自然語言工具包,可以簡單地了解一下。
優秀論文分享
鏈接:https://pan.baidu.com/s/1Vf2IgEn8cq2qqQc-2f1meA
鏈接:https://pan.baidu.com/s/1UBiQXUV6WG-rLDl7nTlESA
提取碼:0058