20190821美團機器學習風控團隊(面試)


 

 一面-20190821-電話:

1.介紹下你自己

2.講下研究生課題的具體實現,這里面扣了很多細節

3.SVM與神經網絡的聯系和區別

  1.均可以處理分類或者是回歸問題。

  2.SVM針對小樣本問題,神經網絡針對大樣本問題,是樣本趨於無窮大時的最優解。

  3.神經網絡是個黑盒子模型,對於其中的特征處理不具有可解釋性,而SVM的目標是尋找擁有最大邊際的決策邊界,如果在當前特征空間線性不可分的話,會引入kernel trick的機制,映射到另外一個特征空間后再尋找決策超平面。

  4.尋求解的問題,對SVM找到的是全局最優解,而神經網絡很可能陷入局部最優。

  5.求解參數的問題:神經網絡采用BP算法更新參數;SVM其實是凸優化問題,構造了拉格朗日函數,再通過滿足KKT條件來獲取其對偶函數,從而用smo或者二次規划來求解問題。

 

4.L1,L2對比和聯系,已經理論推導

5.樣本不平衡的處理方式

6.GBDT與XGboost算法的區別,詳細扣了xgboost

7.決策樹、隨機森林和XGboost之間的聯系和區別

8.kmeans的優缺點

  優點:原理簡單,實現容易

  缺點:

  1. 收斂較慢
  2. 算法時間復雜度比較高 O(nkt)O(nkt)
  3. 不能發現非凸形狀的簇
  4. 需要事先確定超參數K
  5. 對噪聲和離群點敏感
  6. 結果不一定是全局最優,只能保證局部最優

9.風控領域了解嗎?了解啥?由於小姐姐是風控團隊的,問了很多風控的知識,要我回去好好補補風控的東西。

10.手寫過神經網絡的推導嗎?(編程實現),BP呢?

11.學過數據結構與算法嗎?刷過leetcode嗎?

12.評價指標有啥?

13.推薦系統的評價指標

 

  推薦系統的指標:推薦系統最為重要的指標是准確率,即預測的准確率。例如預測某個用戶是否會購買某個商品。但是准確率並不是總能衡量一個推薦系統的優劣。為了評價推薦系統對三方利益的影響,推薦系統還有一下衡量指標:

 指標包括准確度、覆蓋度、新穎度、驚喜度、信任度、透明度等。這些指標中,有些可以離線計算,有些只有在線才能計算,有些只能通過用戶問卷獲得。 

 

14.講一下你熟悉的分類算法?

15.調參的作用,重要性?

16.你有啥要問我的?

 

 

美團二面-20190827-現場:
1.介紹你自己
2.邏輯回歸,svm,dt哪個算法和神經網絡最接近?
3. 是神經網絡過擬合怎么解決?
4.邏輯回歸的缺點?和優點  怎么解決邏輯回歸多重共線性的問題?

  1)優點:

  • 實現簡單,速度快,占用內存小,可在短時間內迭代多個版本的模型。
  • 模型的可解釋性非常好,可以直接看到各個特征對模型結果的影響,可解釋性在金融領域非常重要,所以在目前業界大部分使用的仍是邏輯回歸模型。
  • 模型客群變化的敏感度不如其他高復雜度模型,因此穩健更好,魯棒性更強。
  • 特征工程做得好,模型的效果不會太差,並且特征工程可以並行開發,大大加快開發的速度。
  • 模型的結果可以很方便的轉化為策略規則,且線上部署簡單。

  2)缺點和局限性:

  • 容易欠擬合,相比集成模型,准確度不是很高。
  • 對數據的要求比較高,邏輯回歸對缺失值,異常值,共線性都比較敏感,且不能直接處理非線性的特征。所以在數據清洗和特征工程上會花去很大部分的時間。
  • 在金融領域對場景的適應能力有局限性,例如數據不平衡問題,高維特征,大量多類特征,邏輯回歸在這方面不如決策樹適應能力強。
共線性問題

5.PCA的原理,PCA的缺點,優點
6.為什么選擇風控,為什么不留在海康?
7.剩下的更多是閑扯,由於和面試官是老鄉,同時我螞蟻二面的老師是他是前同事關系,就巴拉巴拉扯了很多

 

美團三面-20190827-現場:
1.介紹下你自己
2.先來道算法題吧,寫出二叉樹的中序遍歷(思路是對的,不過寫出來的代碼有些問題)
那再來道算法題目吧,給出字符串‘aaabbcdd’輸出‘3a2b1c2d’
我首先拿dict中value存儲了字符串,key表示字符串出現的次數。(這個面試官認為可以遍歷一次獲取結果,后來我提出拿2個list,一個存字符串,一個存出現次數,在存的過程中就連接)
3.為啥不留在海康?為啥不換組
 
這個問題可以好好想想:1.首先肯定的是我的業務能力,學習能力沒有問題,在海康我是有機會留下來的,但是在三個月的實習期中,我的職業想法更加成熟了。
                                        2.興趣問題;在對風控的不斷了解下,我個人覺得這個方向適合我的發展,因為我對這個領域的探索欲望很強烈,覺得這個領域除了模型本身之外,更讀多的是對人性,對                                                               業務的理解,這是個很有意思的領域。
                                        3.出於職業規划的考量;我覺得這個領域很有發展前景,也很有意思。我對自己的規划是:

4.圖像算法和機器學習算法的不同?
5.你的SCI論文是一作嗎?有啥創新點和改進?
6.你有啥愛好?然后閑扯了會兒
7.為啥選擇這個風控方向?
8.你對風控有啥了解?我講了我做了2個飯案例,一個是信用卡欺詐做異常檢測,一個是做評分卡,針對這兩個案例有又問了相關的問題
9.你在使用美團的過程中有什么不好的體驗,覺得有什么需要改進的?這個回答不怎么樣?后來又提出針對淘寶呢?有啥需要改進的?
1.本科的時候,在外地玩,預定酒店的問題:你在美團上預定成功,但是線下無法消費;--現在沒有這個問題
2.美團上自帶的電影平台,點進去每個場次沒有票的余量信息,需要用戶每場點進去查看,不方便。
3.美團上飯店線下消費,與正常消費區別對待。
4.之前在美團打車,司機單項取消訂單,投訴問題。說是要退我手續費,也沒退。
5.消費券有時間限制,例如只能周一到周五,或者周一周日等等,提醒不夠明顯,導致用戶購錯時間的優惠。
6.有一次通過美團買葯,快遞遲到很久,聯系美團客服,直接讓提供訂單號,為什么這里不能直接提供手機號碼呢?讓客服通過手機號碼來查找我的訂單號,因為我在打電話的過程中,又無法聯網,查訂單號;那我掛掉電話,再次撥通可能又是另外一個人了,又要重新解釋。還有就是賣家電話的真偽性,有的電話壓根打不通。
7.美團里面涉及的功能過於冗余,可能我用戶只需要用那么幾個特定的功能,現在界面比較多而復雜,可以考慮定制功能,將一些模塊隱藏,或者參考微信小程序的一些東西。
 
百度到的:

美團點評對黑產有着巨大的吸引力,歸納起來在這些方面尤其突出:

  • 用戶作弊:大家常說的“薅羊毛”,用戶為了騙取促銷優惠的作弊行為。
  • 商家刷單:常見的有刷排名、刷銷量、刷好評等違反商家平台協議的行為。
  • 賬戶和支付安全:公民信息盜用形勢已經十分嚴峻,黑產從業者會在電商平台上盜取用戶的余額,或使用他人支付信息來消費。

這些行為嚴重侵害平台用戶和商戶的利益、擾亂正常交易秩序,處理結果的好壞將決定整個業務的成敗。所以美團點評需要一套靈活高效的風險控制系統和工作機制來防控這些風險。

歸納一下,風控系統面臨的挑戰有:

  • 業務多、風險點多:上面提到的風險涉及到各個業務的購買流程、用戶操作、商家操作等多個場景。
  • 變化快:黑產的攻擊手段升級,自身業務在變化,互聯網環境也會不斷變化。
  • 我在明、敵在暗:平台在明處,但攻擊者是誰、會在什么時候出現、用什么方式進攻卻無法預知。
 

短信通道保護

有效保護短信接口,確保所有的短信都准確發給正常的用戶;

注冊保護

高效識別批量注冊、模擬器注冊、代理IP注冊、異常手機號等違規注冊行為;

登錄保護

高效識別撞庫盜號、模擬器登錄、篡改設備登錄、異常手機號登錄、代理IP登錄等違規行為;

羊毛黨防刷

高效禁止刷單、刷人氣、刷好評、機器秒殺、搶優惠劵等違規行為;


10.你寫博客在哪個平台,有人評論嗎?哪篇博客瀏覽量最高,是什么?我提出自己有寫周報的習慣。
11.你有啥問我的嗎?
12.git的一些命令,代碼沖突如何解決?(這個我貌似吧git和docker弄混了)

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM