問題
-
題干中提到數據密集型年度報告,即建模使用的大數據的一部分。其中,與2020年C相類似的報告中具有文字內容。
-
這里訂正一個概念:C題的原名叫做Data insight,而不是Big data大數據。Data insight直譯為數據洞察,可以理解為經常被提到的數據分析。所以在接觸C題的時候應該從統計、分析的角度去思考,而不是針對數據量大的特征去進行技術的套用。
-
量化在C題中是一個重要的技術與論文環節設置。如何將那些沒有量化的信息通過定義進行量化:定義中包含公式。我覺得一定是定義進行量化,定義可以解釋量化方式的合理性,僅僅用公式表達則抽象。公式的地位應該與圖表相同。需要留心的是,在其他類型的題目、其他的比賽中量化還具有重要的作用?這需要在以后的學習中觀察。
-
假設提供的縣位置數據是正確的。值得學習的假設!!這倒是不符合你的作風,你會忽略很多簡單卻必要的東西。這個假設是因為在建模過程中,大家有一個公認的前提:提供的大數據集其中任何一條一欄都有可能是錯誤的。
-
第一部分的問題中提到傳播,警惕傳播模型的出現,可以當作關鍵詞進行搜索。隊長注意,建模過程中應該有一個確定關鍵詞的環節,方便搜索文獻任務的分配。詞匯表:有關名詞解釋,幫助理解問題主旨,有助於建立模型。
-
第二部分有點像統計分析表述以及數據分析挖掘。在我們閱讀的優秀論文中,all of them 在模型設置的各個細節都與題目進行了緊密地結合。即Data insight。
-
第三部分不是要講一個完美的系統,而是提出一個有用的策略並驗證其有效性。完美的系統當然是竭盡全力追尋的目標,但是現實情況復雜多變:問題難度過高、隊伍的技術不過關(反映在三個方面,攜手能力的限制絕對令人痛苦,在下一篇文章中詳述)等阻礙存在。我們做的工作只能是盡力改善。確定參數界限,這種問題之前沒有遇到過,使用靈敏度分析似乎不太恰當。
第一篇
-
在觀察數據的時候發現,美賽的數據需要一位同學去專門翻譯、整理數據,梳理數據的基本情況並反映給隊友,能記錄則更好。
-
問題總結部分像是一個小摘要,把模型的組成淺要地說了一遍。貌似2020C的兩篇文章也有這塊。這里可以寫基於什么數據建立了什么模型,后面加入了什么數據,對模型進行擴展。現有模型總結是查找文獻的總結。
-
對數據進行了哪種處理,而並非實際操作。“敲了幾顆釘子,而不是怎么用錘子把釘子給敲進去。”。這里反對2020年某優秀論文的做法,將SPSS中的各種操作描述,“去除缺失值的命令#¥DD¥%%”。
-
模型分了外部影響和內部影響。下篇會介紹我們將模型清晰划分為預測部分與決策部分。
-
背景介紹的名詞,有助於了解模型。應該結合目錄與模型決定要不要。這里突然想起來目錄會占到25頁中的一頁。
-
假設:葯物報告數據代表一個縣或州的總體葯物使用情況帶有明顯的數據分析特點。像是在題目上插了一支小紅旗:“嗚啦啦啦!我是數據分析題!”如果所給的數據沒有代表性,那么數據分析就是失去了意義。數據分析一定要有的假設!
-
某些指標達到閾值,它就可能是起源位置。可以歸類為制定標准的方法。
-
模型本來沒有針對某一種葯物進行建模,而是毒品傳播的普遍規律進行模型建立。模型的拓展講的是模型對每一種毒品都適用,這樣表示比下標划分情況更加干凈。
-
論文內結果計算的部分特別少,同時也沒有殘差的計算公式。是清新脫俗的建模,而不是油膩的操作指南。
-
預測結果比較的畫圖方法(參考線的斜率為1)相對於原來以時間或者個體為軸的方法簡練又清晰,既能定量分析,又能定性分析。強烈建議學習!!橫縱坐標分別是預測值、准確值。回歸出來的直線斜率越接近1說明預測效果越好。
-
模型的驗證似乎在說:隨着時間的增加,模型預測的准確率不斷接近1。因為它建立的模型是ΔDrug(變化值)關於自變量的函數,那么隨着時間增加的Δ是逐漸有限的。(我是這么理解的)這種求變化值的方法同樣可以應用在殘差上面。
-
靈敏度分析竟然擴大了數據的大小。這樣就不是調整參數了。
-
閾值划分的兩種方法:
- 按照比例進行划分,那么一定可以選出滿足條件的群體。
- 制定標准。這個顯然是更貼近符合現實情況的(呃比例的話也有很好的現實意義:擴大篩查空間)。那么標准的合理性又會受到懷疑。
文中用的是比例。覺得比較好的方法就是比例加上驗證,說明比例划分的合理性。
-
重要的經濟社會影響:這里的R方是擬合優度。R方用來評價擬合效果。下面計算的部分是葯物報告和時間的R方減去每個因素和時間的R方,這樣下面的指標才有-1到+1取值范圍,每個縣的每個因素都有這樣的一個取值范圍。然后因為葯物總報告是按照縣划分的,所以取的應該是一個縣的每個因素的中值,從中值分為了兩種趨勢。中值高不合適、中值低的應該也不合適,中(沒理解啊啊啊啊)。
認為有一點不好的地方就是,只用中值作為參考因素的話,很多信息都會被忽略掉。比如說你用中值作為一些模型的輸入變量去預測或者回歸就會感覺信息不足,但是你要是評價決策感覺還可以接受。前者准確性要求高,后者則不一定。 -
所有的都是針對一種毒品進行建模。這種去繁就簡的方法也比較適合學習,避免反正最后適用於所有毒品,把問題解決了就好嘛。
-
后面增加經濟因素考量,繼續預測總報告數。模型的前半段是探索性的嘗試,后面回歸又進行驗證。
-
政策對模型的影響現在想着有兩種影響方式:
- 高級:在模型中加入新的變量。
- 低級:調整參數。
這兩種方式都對最終的結果有所影響。也可以把原來的參數替換為變量。這應該就是政策對模型影響的解決方式。政策類的問題在美賽中對應的問題應該是F題。
我評價高級還是低級的標准是:這種方法考慮是否全面,當然適合更加重要。 -
公式需要注意,標准的表達方式有很多:下標的使用,以及集合的使用(表示從屬關系以及集體概念)。
-
警惕!!警惕!!不要強行要求自己建模,大部分時候還是基於文獻和使用簡單方法的。比如說這篇里面的社會物理學模型,還是基於文獻進行改進的。為什么要看優秀論文?學習是一方面,可以借鑒是另外一方面嘛。借鑒是門學問。
-
留下的問題:
- 計算殘差的公式
- 可以查一下殘差的具體應用
第二篇
-
空間回歸。簡述:把空間因素作為重要數據考慮在回歸中的方法,這種方法隸屬於回歸。
回歸模型的作用:- 產生因果關系
- 預測
將空間的因素考慮進去產生空間回歸需要再次思考,針對有關空間的問題很有用。
-
馬爾可夫性。也就是論文中提到的隨機漫步。
什么是馬爾可夫鏈?
一句話描述:狀態空間中經過從一個狀態到另一個狀態的轉換的隨機過程。該過程要求具備無記憶的性質:下一狀態的概率分布只能由當前狀態決定,在時間序列中它前面的事件均與之無關。 -
模型收斂的重要性。
收斂是指這個算法有能力找到局部的或者全局的最小值,(比如找到使得預測的標簽和真實的標簽最相近的值,也就是二者距離的最小值),從而得到一個問題的最優解。如果說一個機器學習算法的效果和瞎蒙的差不多那么基本就可以說這個算法沒有收斂,也就是根本沒有去學習。
泛化能力是指一個機器學習算法對於沒有見過的樣本的識別能力,也可以成為學以致用、舉一反三的能力。 -
tableau做出來的圖好漂亮,seaborn也是。數據可視化的好助手,我是見一個愛一個。
-
離散的發展情況。明顯區別與連續問題(微分方程)
-
懲罰矩陣的作用反映在“懲罰”,形式為“矩陣”
-
回歸一定程度上是用來驗證與建立關系的,需要先用相關系數來進行關系的探索,更離不開結合背景對兩個變量之間關系的分析。
留下的問題
-
似然比檢驗(likelihood ratio, LR) 是反映真實性的一種指標,屬於同時反映靈敏度和特異度的復合指標。
-
蒙特卡洛模擬。一種仿真模擬方法。具體怎么操作不太了解。
-
回歸分析需要滿足的基本假設,否則模型建立沒有意義:
回歸分析的基本假設自己還沒看,需要研究一下。