【原】機器學習幾個基本的問題


  從今年四月份到現在已經工作快9個月了,最開始是做推薦系統,然后做機器學習,現在是文本挖掘,每個部分研究的時間都不多,但還是遇到了很多問題,目前就把一定要總結的問題總結一下,以后有時間多看看,提醒自己看有沒有解決。

  推薦系統:

  1.冷啟動熱啟動區別和聯系?各個階段需要的算法?

  2.每個算法的數學推導、適用情況、優缺點、改進方法、數據類型?

  3.如何平衡熱啟動時的准確率和召回率,兩者不可能同時高,怎么平衡?從算法本身還是業務層面?驚喜度怎么添加?

  4.如何評價推薦系統的好壞?指標是啥?

 

  機器學習:

  1.能解決哪幾類問題?(分類聚類回歸預測?)每一類型會有哪些算法?

  2.每個算法優缺點各是什么?各能解決什么問題?側重點是什么?對數據的平衡性要求大嗎?對初始值敏感嗎?需要的數據類型是什么?(數值 or 類別?或者混合使用?)

  3.每個算法是如何推導的?如果要調優要從哪些步驟着手?目前的局限是什么?(背后的數學依據)各個算法之間的聯系和區別是啥?各算法之間可以結合嗎?瓶頸和局限是什么?

  4.python的scikit-learn包是不是都熟悉了,源碼有沒有看過?自己嘗試把每個算法寫一下,看看和scikit-learn包跑起來有沒有區別?精確度是否會提高?

  5.每個算法的評價指標是什么?(精確度召回度f1-score還有別的嗎?)可視化有哪些方法?(ROC曲線?目前只知道這個,還有其他的嗎?)

 

  文本挖掘

  1.基本步驟是啥?(清洗數據(缺失值、噪音數據、平滑處理)--->中文分詞(各種方法)--->特征提取(tfidf還有其他幾種方法) --->特征選擇(卡方互信息發IG法等等)--->用機器學習算法跑)有沒有漏的?或者有沒有哪些步驟還有補充的可以提高精度的?

  2.各個步驟之間各有哪種方法?每種方法區別和聯系?數學推導是什么?有沒有可以改進的地方?有沒有新的方法可以自己造的?

  3.數據編碼轉碼不容忽視,不要忘記“不可見字符”(windows--->linux系統時候容易出現的問題)

 

  這是工作到現在覺得必須要解決的問題,以后有新的發現再補充。關於這些問題的解決,不定期的在博客里發出來,不斷修改,不斷添加,總之,學習是個不斷迭代的過程,fighting!:)

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM