【原】機器學習幾個基本的問題

本文轉載自查看原文 2015-12-24 10:35 6178 學習心得/ 文本挖掘/ 機器學習/ 機器學習筆記/ 推薦系統/ 數據挖據/ 數據挖掘

　　從今年四月份到現在已經工作快9個月了，最開始是做推薦系統，然后做機器學習，現在是文本挖掘，每個部分研究的時間都不多，但還是遇到了很多問題，目前就把一定要總結的問題總結一下，以后有時間多看看，提醒自己看有沒有解決。

　　推薦系統：

　　1.冷啟動熱啟動區別和聯系？各個階段需要的算法？

　　2.每個算法的數學推導、適用情況、優缺點、改進方法、數據類型？

　　3.如何平衡熱啟動時的准確率和召回率，兩者不可能同時高，怎么平衡？從算法本身還是業務層面？驚喜度怎么添加？

　　4.如何評價推薦系統的好壞？指標是啥？

　　機器學習：

　　1.能解決哪幾類問題？（分類聚類回歸預測？）每一類型會有哪些算法？

　　2.每個算法優缺點各是什么？各能解決什么問題？側重點是什么？對數據的平衡性要求大嗎？對初始值敏感嗎？需要的數據類型是什么？（數值 or 類別？或者混合使用？）

　　3.每個算法是如何推導的？如果要調優要從哪些步驟着手？目前的局限是什么？（背后的數學依據）各個算法之間的聯系和區別是啥？各算法之間可以結合嗎？瓶頸和局限是什么？

　　4.python的scikit-learn包是不是都熟悉了，源碼有沒有看過？自己嘗試把每個算法寫一下，看看和scikit-learn包跑起來有沒有區別？精確度是否會提高？

　　5.每個算法的評價指標是什么？（精確度召回度f1-score還有別的嗎？）可視化有哪些方法？（ROC曲線？目前只知道這個，還有其他的嗎？）

　　文本挖掘

　　1.基本步驟是啥？（清洗數據（缺失值、噪音數據、平滑處理）--->中文分詞（各種方法）--->特征提取（tfidf還有其他幾種方法） --->特征選擇（卡方互信息發IG法等等）--->用機器學習算法跑）有沒有漏的？或者有沒有哪些步驟還有補充的可以提高精度的？

　　2.各個步驟之間各有哪種方法？每種方法區別和聯系？數學推導是什么？有沒有可以改進的地方？有沒有新的方法可以自己造的？

　　3.數據編碼轉碼不容忽視，不要忘記“不可見字符”（windows--->linux系統時候容易出現的問題）

　　這是工作到現在覺得必須要解決的問題，以后有新的發現再補充。關於這些問題的解決，不定期的在博客里發出來，不斷修改，不斷添加，總之，學習是個不斷迭代的過程，fighting！：）

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 機器學習改善Interpretability的幾個技術關於機器學習二分類問題的幾個評估指標辨析機器學習--分類問題機器學習：回歸問題【原】Spark之機器學習(Python版)(二)——分類【原】Spark之機器學習(Python版)(一)——聚類機器學習中比較重要的幾個概念機器學習的幾個知識點記錄（轉）機器學習面試常見問題機器學習面試問題匯總