Capital one面經


2018(7-9月) 分析|數據科學類 博士 全職@Capital One - 校園招聘會 - 技術電面  | Other | fresh grad應屆畢業生

趁金魚記憶沒有消失的時候趕緊寫一下攢個人品
LZ是轉行PhD申請DS。上周和recruiter電話聊了就立刻安排了電面。
一個data scientist manager面的,感覺還是很nice的,如果答錯了或者漏答了會停下來提醒幾遍,如果是比較開放式的問題,答出新的點就會去下一個題。
自我介紹以后就開始問那個經典的預測信用卡用戶會不會關戶的問題。如果給你一堆dataset,比如信用卡一年的交易記錄、客戶個人信息,銀行想預測客戶會不會在一個月之內關戶,如果會的話,銀行打算發一點cashback rewards給這些人挽留一下。讓你建模預關戶。  以下是面試官的問題:

以下內容需要積分高於 200 您已經可以瀏覽


1.        你會選哪些feature?(感覺是隨便說,只要有關系。追問如果是一堆transaction的日期之類的,應該怎樣rebuild feature)
2.        怎么做data cleaning: 
    a.            怎樣detect outlier? . From 1point 3acres bbs
    b.            怎樣fill in missing data?(我說可以填constant比如mean,然后他追問填mean在什么情況下不合適、怎樣更好)
    c.            如果target value也missing了怎么辦
3.        你選什么model?(我說decision tree,然后他讓我說有沒有其他model,優缺點分別是什么,target是什么。target應該是一個binary的值whether the customer will close the account in one month,如果regression得到了0~1之間的值就代表how likely)
4.        怎么看model 的performance,用什么package . From 1point 3acres bbs
5.        如果data size很大有1TB,怎樣sample,用什么package . From 1point 3acres bbs
6.        如果model不准確,會給銀行造成什么損失?
7.        如果用model predict得到了一堆target的值,應該怎樣根據target發rewards (我說畫個distribution,給最可能關戶的百分之幾客戶發rewards。追問除了這種方式還有什么方式,我也不確定是考modeling還是business sense)
8.        最后一個是地里看到的一模一樣的open question,兩人都有5000limit,但是一個用100%一個只用2%,這兩人有沒有可能都在一月之內關戶。面試官應該看你第一反應是考慮model的問題還是考慮其他方面。

 

2015(1-3月) 分析|數據科學類 碩士 全職@Capital One - 網上海投 - 技術電面 在線筆試  | Other | fresh grad應屆畢業生

剛面完的C1,很熱很燙的面經。
HR面:
問問簡歷問題,還有你會些什么語言擅長什么。

OA:在hackerrank做的,所有題都要自己寫Scanner in = new Scanner(System.in)來讀入。
1. 讀入m和n,m個coins,有n個heads的概率是多少。有一個test case一直過不了,不知道是哪個邊界條件。
2. 和Leetcode的anagrams類似,讀入一個String,所有單詞以空格隔開,除了數字和字母以外的字符都要去掉,大小寫也不算。比如"R&D","dR"這種也算anagrams,最后每一行輸出一組anagrams
3. 讀入一個,我用了LC上的NP套路來做,也就是combinations, subset這種題的套路。

兩天后被通知電面。
電面我真蛋疼,人生的第一個印度面試官,人其實不錯的。一開始打電話過來我完全聽不懂,我以為是我聽力不好,差點都哭出來了,后來他換了個電話,我瞬間聽得很清楚了,超級清楚完全沒雜音,所以想問一下大家啊!是不是不同移動公司會有這種情況,因為我電面很多次了,大部分都是聽得很清楚,有些時候就會出現這種聽上去有點嘈雜,而且會有1 2秒的延遲。

1. 簡歷問題,問的非常細致,我之前做過一個推薦系統,這個面試官對這一塊非常擅長,所以問得很細很專業,我沒答好,加上一開始的確聽不懂。所以建議大家可以先linkedin面試官,看看他擅長什么,我遇到過幾次面試官喜歡問自己擅長的東西。
2. 一個超市,有100個顧客的list,
以下內容需要積分高於 133 您已經可以瀏覽

70個男的,30個女的,如果用這個數據做數據分析會有什么statistical issues,問這個100個顧客會是什么樣的distribution

Simpson's paradox

3. walk through一個mapreduce問題,一組數據,四個columns: name, category, # of transactions in 2014, dollar values of transaction in 2014,需要知道每個category的average dollar values per transaction,怎么用mapreduce做,其實就specify一下mapper和reducer的input和output,然后在reducer里求一下平均值什么的。
walk through一個mapreduce問題,一組數據,四個columns: name, category, # of transactions in 2014, dollar values of transaction in 2014,需要知道每個category的average dollar values per transaction,怎么用mapreduce做,其實就specify一下mapper和reducer的input和output,然后在reducer里求一下平均值什么的

我感覺是跪了,C1的DS面經地里估計是第一個,求大米啊求大米。


補充內容 (2015-3-20 00:13):
OA第三題沒打完= =
讀入一個數字,還有多個面值,這些面值能組成這個數字的方法有多少個。比如讀入數字是10,面值是(10, 5, 1),應該有4種。

 

2019(10-12月) 分析|數據科學類 博士 全職@Capital One - 網上海投 - 技術電面  | Other | fresh grad應屆畢業生

本帖最后由 naivelamb 於 2018-11-11 04:31 編輯

Position: Principal Associate, Data Scientist
. 1point3acres
一輪技術電面,跟一個在Capital One工作的Data Scientist聊了一個小時。先互相介紹了一下,給我講了講他在capital one做什么,之后技術面試聊了大概50分鍾,只有case。

題目是有一個運動產品的零售商,來找你優化他們的在線廣告競拍系統,提高response rate。假設你有的數據是3, 000, 000用戶的訪問數據,每行數據有150多個column,已知overall的response rate是1/1000。
被問的問題有:
1. 選什么作為target?
Response or not
2. 選什么metrics?
AUC-ROC
3. 怎么處理NA? 
It depends. If NA is meaningful, leave it there. If NA is missing due to data extracation, do some simple if-else condition/mean(median)/regression to fill
4. 怎么做feature engineering? 
Encode categorical varaible, use 'groupby' and 'mean/medium/std' to generate some features
4. 數據量特別大怎么辦?
mapreduce,但是我沒用過,就拿本地並行優化舉了個例子,怎么分配數據給各個線程,然后怎么把數據收回來合並。
5. 模型用什么?
GBDT,lightGBM/XGB
6. 怎么評估模型表現?
k-fold CV
7. Overfitting/underfitting怎么辦?
分別討論了一下。想辦法獲取更多的數據,調整hyper-parameter。
8. 如果模型預測出了問題,會有什么影響?
分情況討論了一下整體上會有什么變化,對單個用戶有什么影響。

最后5分鍾讓提了下問題。接下來的流程是等HR回復結果,做一個data challenge(應該是給數據建模型),然后on-site。

 

2018(10-12月) 分析|數據科學類 碩士 全職@Capital One - 網上海投 - 技術電面  | Other | fresh grad應屆畢業生

網上海投的new graduate data scientist,第一輪是一個Technical Assessment,給了一周時間做。考的題有1.基本數學計算
2.python code結果分析,例如問經過幾次循環后輸出是多少,或者問最終x=?,y=?
3.數列題/找規律題
4.給幾個table寫數據庫查詢SQL語句
考的題不難,就三個方面:數學+python+SQL
第二輪是30 minute business mini-case + a 15 minute job fit。我因為不在當地選擇了zoom視頻面試。不知道是不是因為我是新畢業生的關系,給我分配的面試官感覺也是一個剛入職的,講真感覺很不專業。而且之前小秘給我發郵件,前前后后改了三次zoom面試的時間,很醉。 面試上來先自我介紹, 面試官給屏幕共享可以看到一個word文檔, 題目大概是這樣的:
our sever run cost is xxx, 其他固定成本是xxx,能容納xxx TB流量。 我們大概有xxx個客戶,每個客戶交付給我們server使用費為xxx/month。我們給每個用戶分配xxxGB,但是平均每個用戶只會用掉期中的xx%,所以我們可以把剩下的空間再去接納更多的客戶。問:每年盈利是多少?現有另外一種server b, cost is xxx,capacity is xxx。。。請權衡比較我們要不要把已有server換成server b-baidu 1point3acres
job fit就問的很簡單,問python會多少,一般用哪些package,最近做過的ds項目。

 

2018(10-12月) 分析|數據科學類 碩士 全職@capital one - 網上海投 - HR篩選 技術電面 Onsite 在線筆試  | Fail | 在職跳槽

分享一個capital one Data Scientist 的面試經驗:
第一輪:HackerRank online coding challenge
      第一部分150分鍾四道題,並不很難,我選擇的語言是,python因為他們公司內部也全部轉用python, 他們可能更希望你會Python 基本上熟悉一些基本sorting, probability,reverse the order of a sentense, find distinct value,  how to define function ( 建議可以看以下udemy的一個python 入門課程: Complete Python Bootcamp: Go from  zero to hero in Python 3, 看完前面幾個基礎章節足夠應付這個online coding challenge)
      第二部分是一個45分鍾的Online 測試,也是來自hackerrank, 全部選擇題 大部分是關於概率問題, 稍微復習下基本概率問題就行  很少部分sql 的問題
第二輪: 做完coding  challenge 第2天收到郵件 安排hr電話面試
電話面試內容主要問現在的工作經驗和做的一些project 還有問是否用到predictive modeling, regression一類的, 電話面試的結尾, 同時安排了第一輪Onsite
第三輪: Onsite tecnical  part 1
第一部分是一個case interview 關於一個amusement park 說今年的revenue減少, 問你可能是什么原因 . 然后給了market share的一個公式, 還有計算一下如果改變門票價格 如何能breakeven  還有問你有什么建議 
   要注意的是 改變價格的時候 之間給的market share 公式不再適用 要自己想其他辦法來計算 ,期間Interviewer 有correct 我幾次, 最后也是把所有問題做完了
第二部分是sql  這個很容易 只要熟悉基本的join table 就足夠
第三部分: 給一個file, 讓你用r 或者python 從讀file 開始, 寫code.   最后會繼續問 如果我們有300 多個file 問你要怎么解決這個數據量大的問題, 我回答用map reduce 然后他們會繼續問 如何實行, 一定要搞懂map reduce原理

我沒有再收到Onsite part 2的面試, 估計是case那部分做的不是很理想吧



補充內容 (2019-1-14 10:30):

突然想起onsite job fitting interview 一些其他問題 沒找到怎么編輯帖子,我記得onsite的時候會問很多modeling都是細節 尤其predictive modeling, random forest, logistic regression這類的 如果簡歷里面寫了這方面工作經歷,一定要准備充分 因為他們會問的很細節包括如何建model,用了哪些parameter,結果如何 還有為什么要選這個model

 

2018(4-6月) 分析|數據科學類 碩士 全職@capital one - 網上海投 - HR篩選 Onsite 在線筆試  | Other | fresh grad應屆畢業生

自從前兩天onsite回來一直也無心學習無心做事。雖然recruiter反饋了recommend to hire,然而還沒收到正式offer總是不安心,昨天和hiring manager 也聊的並不是很好,這個組做的感覺偏business analyst,聽完這個manager的介紹提不起興趣。也知道應屆畢業小碩不好找DS,而DA大部分就是做分析類的工作,用用SQL,tableau寫寫report什么的,唉然而我一個想做model想做machine learning的心。但是又不好意思和recruiter說再幫我找找別的組怕把即將到手的offer給弄丟了。等待下周一周二不知道會有怎樣的結果。

廢話說了一堆,來說說面經吧。在linkedin上海投的senior data analyst,recruiter第一次聯系我都是一個半月以前的事了。之前在地里也看了幾篇這個職位的面經,具體流程幾乎完全一樣,很標准化。
1. recruiter
第一次和recruiter聊幾乎沒問什么,就是基本信息吧,問你願不願意relocate,介紹了一下面試的具體流程:hackerrank coding challenge+data challenge+onsite,聊完就給我發了hackerrank的鏈接
2. hackerrank coding challenge
兩道簡單的稱不上算法題的算法題,兩道SQL。算法題具體是什么忘了,之前的面經好像有,反正所有test通過了提交就行,也沒有時間復雜度的要求。SQL也挺直白的,用到什么group by再sum一下這種。
3. data challenge
airbnb和zillow的數據,之前有人發過。投資NYC的properties來short term rent,要決定哪些zip codes最profitable。要先進行data cleaning,check data quality(從completeness,accuracy,validity,timeliness方面,具體可以google一下),然后進行分析並data visualization,最后給出建議。hr建議花5-8小時,但我覺得我做了一周,也不知道做了幾小時,反正每天都花點時間在做這個。
有人說C1比較偏好用Python做的,不過我用R寫的也過了,因為要visualization個人覺得ggplot比較方便。onsite的時候有一輪是present data challeng。這輪的評價准則有三個方面:Data Management, Innovation和Business Intelligence。但也不清楚具體做到什么程度才能過。
4. onsite
data challenge過了以后就是onsite,約了三周以后,當時覺得時間很多,但准備着覺得時間還挺緊的因為要准備的內容挺多的。提前打電話給他們會幫你定好機票和酒店。
onsite包括三輪:data challenge+case+case(每一輪都會包括1-2個behavior的問題)之后會和公司的一個人和那天一起的candidates吃午飯,參觀公司。

data challenge:
把之前做的data challenge present一下,我是做了個ppt,然后花了20分鍾從頭過了一遍我的整個分析。之后面試官會問一些問題,不一定是啥,反正就按照自己真實的想法回答就行。
. check 1point3acres for more.
case interview:
因為之前完全沒有case,還挺緊張的,搜了各種consulting 的case的准備資料,也不知道該看什么。但其實這個case和consulting的case還差別挺大的,幾乎都是profitability的case,萬能公式profit=revenue-cost。首先面試官會給你一個背景,一開始會問關於business sense的問題,比如有哪些factor要考慮,revenue和cost的來源,為什么要做這個新的產品。然后就會給你一堆數據,有的是讀給你聽你要自己記下來,有的是已經打印在紙上了面試官這時拿出來給你看說我們有這些數據。下一步就是計算profit,或者break-even。接着是各種變體,比如一個變量發生了變化,再算profit或者break-even。計算得出的數有的會問你這說明了什么,你覺得這個結果怎么樣。基本就這樣。

我面的兩個case都是銀行相關的。第一個是ATM的,第二個是要發行一個personalized credit card。
ATM的case:. check 1point3acres for more.
先問你知道ATM嗎,為什么要有ATM,ATM revenue來源(收取不是本銀行的人的手續費)。有兩類ATM,在銀行內部的和外面的。給了一些數據要算一年profit,但是自己要想到問面試官非本銀行客戶的百分比。然后下一個問題關於銀行外部的,要考慮哪些因素。好像也給了些數據算什么break-even,需要非銀行客戶的百分比達到多少,並解釋你認為這個百分比能不能達到。。

personalized credit card:
發行一種可以personalized的credit card,問為什么要這樣做,一個原因是希望客戶多花錢。然后有一個market campaign,給了response rate,普通客戶每個月balance,response並定制了的客戶每個月balance,要計算平均客戶的balance,也就是weighted average。然后又給數字算選擇定制的客戶定制之前的平均balance,得出要比所有平均客戶高,所以我們要target本身消費就高的那些客戶。然后又
給數字計算profit好像。如果我們不是免費定制,而是加上每張卡5塊的手續費,需要多少response rate保持同等profit。
. 1point3acres
真是金魚記憶,三天前面的現在case的細節已經記不太清了。總之其實就是給場景的數學應用題,認真聽面試官在說什么,計算認真就好了。
我准備case用到的資料有,recruiter給的pdf了或者官網上也有的關於magazine的例子,capital one的一個專門為analyst面試的case講解視頻,caseinterview.com的視頻看了一些對case有了入門的理解,書case in point看了幾個例子(雖然和C1的case本質還是不太一樣的),然后就是glassdoor所有這個職位的面經例子。. check 1point3acres for more.

behavior的話基本都是glassdoor上說到的題目,我的是介紹一個accomplishment,一個幫助過別人的例子,一個失敗的例子並學到什么。

 

2018(4-6月) 分析|數據科學類 碩士 全職@capital one - 內推 - HR篩選 技術電面 在線筆試  | Pass | 在職跳槽

May1st final on-site interview, 據說很多人都敗在final round 了,祝我好運!
應聘是data scientist- senior manager @ Richmond-VA , 但是因為資歷不足, 就被recruiter建議降級到principle associate 級別了,據說在C1 是個很常見的職位,但是我問了一下salary覺得可以接受。我實際上是data engineer 轉 data scientist, 而且我也想積累更多business和management的經驗, 所以我認為這個貌似是個不錯的機會。 At the step of resume submission, what I learnt is that having a reference from C1 is really important, as I actuallly applied for two role- principle and senior manager, but I got arejection on the principle while a chance on senior manager( that is higher level), only because my freind referred me in C1's HR system.

目前我已經通過了四輪- recruiter screen, hackerrank online coding test, Job fit sort-of phone interview and a homework.

大概大家都是這個流程,而且C1對於所有面試都非常standardized,網上有很多經驗貼, 所以比起列入所以問題(其實我基本都忘了),我主要給出一些shortcut tips:
hackerrank online coding: 三個小時時限,三個問題,只有你自己和webpage, 而且,最終遞交前可以回頭修改任何之前已經提交的代碼,語言任意選。我用的scala,很多人用python. R應該完成不了所有問題。所以,你可以google, 粘貼復制,你可以找三個稍微會一點點代碼的朋友,一人負責一道題。。。well, I'm kidding. Do it yourself! 3hours is good enough!
phone interview: 一個信用卡customer retention 的 predictive model 過程,預測用戶是否會注銷信用卡。我回答的並不好但還是勉強過了,因為沒有預料到這個是個更business的交流過程而不是一個純technical的面試,而本人在美國6年來從來沒用過credit card,所以表現得就有點缺乏常識了。面試基本涉及了從feature engineering 到 最后 model tuning and validation 的所有步驟。抱歉這一步我沒有tip,而且不要走shortcut,因為我估計最后一輪on-site,你會被問到更多同樣的問題。
homework: 這一輪做多久都可以,take your time, 因為某些原因,我做了3個周。基本上是參照https://github.com/kthouz/NYC_Green_Taxi 做的, 也許你應該先做這個homework,然后再phone interview, it will make your phone interview much better.


最后的最后,我先在工作的小組正在招lead data scientist,這是真正的cutting-edge project, 如果你想做real Data Science, 而且是big data + machine learning的大型項目,但是項目組卻很小,所以每個人都play multiple roles,還有我們老板真的非常有眼光。Well, 那為什么我自己不要這個職位,哈哈哈,因為資歷不足。https://www.themuse.com/jobs/finra/lead-data-scientist-technology-new-york-ny-or-rockville-md, 感興趣的請留言給我。

 

 

2018(1-3月) 分析|數據科學類 碩士 全職@Capital One - 網上海投 - HR篩選 技術電面 Onsite  | Fail | 在職跳槽

分享一個capital one Data Scientist 的面試經驗,回饋地里,已跪,也算造福后人吧。

一年多工作經歷,去年12月在網上海投,到今年18年2月末掛在onsite,2個月的時間,經歷四輪面試+onsite,職位地點在紐約,Data Scientist。

12月末海投大概一周后收到通知,第一輪與HR電話聊聊經歷,之后第二輪收到一個 HackerRank online coding challenge,兩個小時三道題,並不很難,不涉及復雜算法。又大概一周后收到技術電面通知,也就是第三輪,一上來先聊簡歷,之后對方假設了一個數據條件和場景,然后一步步往下問,從cleaning,feature engining,到 model selection, validation,同時也涉及大數據量的情況,問當數據量很大的時候怎么處理,用什么工具,問的比較細致,有的地方要大概描述代碼怎么實現,電話持續一小時。這一輪之后大概幾天,HR通知過了,進入第四輪,第四輪是一個 data challenge,邊寫code邊寫思路,一周的時間,題是關於NYC green Taxi,地里有人分享過原題,大概是需要建一個回歸模型預測出租車小費比例,個人覺得重點在於如何觀察數據,清理數據,feature engining,數據中有缺失值,異常值,之后也要選擇模型,對比模型表現,最后寫出結論和future work,challenge的最后是一道5選一的開放題,我是選了做visualization,用tableau做了一個interactive dashboard。這個challenge挺花時間,我用了大概四天,盡量把思路都寫清楚,值得一提的是github上能找到一些前人做的,可以提供一些思路。這輪之后過了一周,HR通知過challenge過了,安排了兩周后的onsite。

onsite是在2月下旬,紐約辦公室,全天面試,早上8點半到,9點開始,一直到下午3點半,中間1小時吃飯休息,一共6輪,每輪1小時,輪與輪之間幾乎沒有休息,一直在一間小會議室里,有幾輪是遠程視頻,面試官都是 Data Science director 或者 VP data science。六輪中2輪business case,2輪tech(有一輪叫hiring manager interview 但實際是tech),1輪role play,1輪behavioral。網上有business case interview 的介紹視頻,不了解的同學可以看一下。從9點開始,第一輪business case,場景是超市發放private credit card,有一些上一年的歷史數據,問題涉及計算 profit,revenue,cost,market share,計算 market share 的時候要先計算全城有多少信用卡,面試官不會一下子把數據都給你,你要想計算時需要什么數據,考慮多種情況,同時問面試官某些數據有沒有,比如說計算全城有多少信用卡就需要全程人口總數,成年人比例,和人均信用卡持有數三個數據,這些都需要問面試官才會得到。另外最后會有開放性的討論,就是計算出一些結果,問你根據這個結果要采取什么樣的行動,這個就比較靠business sense,要講出道理。這一輪9點到10點,然后10點喝口水就又開始下一輪,第二輪同樣是business case,一位VP,情景是電話接線員,給一周每天的平均電話時間,電話數量,還有一個是轉接率(一個接線員不能解決問題需要轉接的情況),計算圍繞每個電話的平均通話時間,轉接電話數量等等,最后也是開放討論,如何才能降低轉接率,提高接線效率。之后11點開始role play,role play 是飛機delay經典問題,網上可以搜得到,我再具體講一些,就是假設你是一個數據咨詢公司的咨詢師,面試官是你的客戶,一位business manager,假設他不懂統計和模型,他給你提供另一個數據咨詢公司做的分析,是大概10幾頁slide,里面有各種分析圖表和一個預測模型,讓你給他講一下這個分析都做了什么,根據它提供一些解決delay的思路,同時評價一下這個分析做的好不好,不好的地方提出改進思路。給你15分鍾自己看材料,然后25分鍾給他講。講的時候我是把材料一頁一頁都過了一遍,以咨詢師的角度,抓住幾個重點,1是講解材料內容解釋數據圖表和模型,數據中不合理的地方要指出(如異常值);2是發現問題提出改進,分析做的不好的地方,沒意義的圖表,模型的缺陷等等,提出改進辦法;3是要時刻為客戶着想,通過手上的材料,客戶可以采取哪些行動和嘗試來減少delay。這一輪真是挺考基本功和交流能力的,看數據和圖表要細心,要盡量考慮全面,比如可以增加哪些feature,如何提高模型。這一輪12點結束,之后開始第四輪behavioral,也是上午的最后一輪,主要問了如何團隊合作,如何向他人學習,如何解決矛盾沖突,如何合理安排任務優先級,如何面對挑戰等等。都是先問一個問題,你講一個事例,然后他根據你講的事例深挖不同的問題,我是一共講了三個事例,每個事例都被問了三個問題的樣子。

1點上午的面試結束,中午跟一個 senior data scientist 吃飯,相互聊了聊經歷和公司環境。下午是兩輪tech,第一輪2點開始,問了multinomial distribution,結合不同的模型談這個分布的應用,然后白板寫sampling from multinomial distribution,之后問了variance 和 bias, 解釋和如何檢測,最后聊了聊如何根據不同分布生成fake data。我是這一輪答的不好,其實挺基礎,但我之前並不常用這個分布也沒准備到,最后也就掛在了這一輪。后面最后一輪,面試官非常細致的問了我簡歷上的一個task,從數據到模型到結果,之后又問了前后端如何銜接(我簡歷上有提到但應該不是DS必備),模型如何應用到實際等等,本來還應該問data challenge,但面試官說我的challenege寫的很清楚明了就不問了。至此,下午三點半多,結束整天的面試,HR送我出辦公室。

最后談一些感想和如何准備,首先onsite是所有輪都通過才算通過(我事后問了HR),所以每一輪都不要放松警惕,哪怕前5輪都很順利,最后一輪也不能放松,因為就算5個面試官都很喜歡你,但有一個說你不行,你還是拿不到offer。保持一整天的清晰思路挺不容易,所以要做好准備。關於准備,business case方面網上挺多資料,視頻和文字都有,多看幾個,尤其C1家是做銀行信用卡,這方便的知識術語應該提前了解一下,比如信用卡業務如何盈利,成本和收入都有哪些方面,business sense也是平時的積累。behavioral 也要准備幾個case/story,網上有幾個大類問題的例子(合作,沖突,挑戰,失敗,領導力等),可以參照着找自己類似的經歷。剩下就是tech技術,coding,數據分析建模,統計,機器學習,這幾方面的基本功,不一定考的很深,但知識的全面覆蓋和應對是有一定難度。

基本也就這些,整體感覺DS找工作還是挺不容易,競爭激烈考察點寬泛,祝願DS求職者可以拿到心儀公司的offer。C1家整體感覺挺不錯,技術環境都不錯,有近期面試的祝願可以拿到offer。

 

2018(7-9月) 分析|數據科學類 碩士 全職@Capital One - 網上海投 - 技術電面  | Pass | 在職跳槽

找工作的時候海投了所有一二線科技公司,還有幾家金融企業,其中包括capital one,因為之前看他們宣傳自己是金融行業中的科技公司。
Capital One的data scientist 面試流程特別繁瑣,一共5輪:

      1. HR screening,水過簡歷,問一下想去哪個組,對什么方面感興趣
      2. Coding test,Hackerrank上,easy難度
      3. 一小時phone interview
      4. NYC taxi data challenge
      5. Onsite再去NYC office浪費一天

現在job market這么tight,每個人的選擇都很多,真不知道這公司的HR怎么想的,弄這么多輪。. From 1point 3acres bbs


現在開始進入正題,面試是聊一個credit card churn model,地里有人分享過,我就補充下細節:

      1. Feature engineering,比如從start date算出tenure 等等
      2. Missing value
      3. 用什么模型,為什么
      4. 現在數據量加大,怎么辦?spark。如果你要選,用RSpark還是PySpark?為什么
      5. 現在模型output出來,一個credit limit 使用率0%的用戶和使用率95%的用戶都很危險,都很可能馬上就關掉信用卡,你會怎么處理?我回答churn model是起點,一般marketing department會根據churn model的結果設計retention program。對於這兩類危險用戶,需要設計不同的incentive plan。
             1)使用率0%的用戶,基本上很難挽回。
             2)使用率95%的用戶大概率可以挽回,降低利率,增加cashback等等。。。
             3)可以根據測試結果再搞個uplift model,看哪些high churn users可以挽回的,着重施加treatment。

面完第二天通知第四步,data challenge。雖然這個NYC taxi問題網上有答案,可是自己還是要花蠻多時間來改的。我問recruiter能不能跳過data challenge直接onsite,她說想都別想。那就只有算了吧,total comp還是比科技公司差了一截。。。沒時間搞這個了

 

2016(4-6月) 分析|數據科學類 碩士 全職@Capital One - 內推 - Onsite  | Fail | fresh grad應屆畢業生

上周五Onsite結束,剛面完的時候自我感覺還行,飛回來想想好像說錯或者說得不好的地方還不少,現在心情非常郁結,所以這篇面經將會散發着嚴肅憂傷的氣息。
Capital One Data Scientist職位,這個職位大體上有兩個方向,一個是偏統計,一個偏developer。偏統計的基本就是以前的Statistician改了名字,所以面試內容差不多。
目前這個職位的面試流程還在調整中,所以可能環節上與我說的會有不同。我在onsite之前一共有4輪,HR面,Technical Phone,Hackerank Test,Coding Challenge。Onsite當天5輪,兩輪case,一輪Role play,一輪behavior,一輪Technical interview。
所以我基本上把目前這個職位面試所有的項目都過了一邊,據我所知有的人只有HR和Coding challenge就Onsite了,有的時候Onsite只有一個Case。我在這個面試上花了兩個月的時間。唉,說多了都是淚。
HR面很簡單,因為我的HR放過我一次鴿子,所以基本沒有為難我,就問了該問的信息就安排下一輪了。
Technical Phone Interview是一個關於Credit Card Fraud的case,從Feature Engineering到Model Building都問了,一個case45分鍾,所以包括很多細節。這個上午面的晚上就給答復了。
Hackerank Test,Leetcode Easy水平,只記得一個String Manipulate了。不難,跑過Cases即可。
Coding Challenge:一個prediction problem,一個baby name的分析。也不難,我做的好認真啊,花了一個周末的時間,交完了之后正常2-3business days有回復,但我沒有收到回復,過好幾天發郵件問HR,HR通知我過了。
然后就是Onsite,Case study中有一個是Life Insurance的那個,首先什么樣的人會買保險。。。【危險職位的人】,但這樣的人我們不想賣給他保險,我們的target應該是什么樣的人,我說應該是有familiy的人,同時又不太富裕,所以想給家人留財產。然后接下來就是大概就是死亡率多少時break even,如果你答的很快的話,就會不斷深入,比如怎么提高profit啊之類的,我基本說了最直觀的方法是提高premium,但是這樣可能導致客戶數目減少,所以我們要找到balance的點,然后他就問在實際應用中怎么找這個balance點,我說可以發送調查問卷,看有多少客戶接受新的premium,然后根據這個比例判斷。
第二個是Role play,還是飛機晚點問題,但午飯的時候我問那個人他說可能馬上就換了。這個問題我因為見過,所以以為自己應該挺順利的,但是當我說到有multicollinerity的variable應該從model里移除時,那個面試官一直在追問我為什么,然后我說correlation會導致variance增加,p-value不顯著等等,bias estimate【難道不會影響estimate么?】,而且這些variables are telling same story。但是感覺面試官對這個回答並不滿意,一直在追問,但是我學過的都是vif>5就移除啊。。。不是這樣么?難道我要用PCA?但這個模型顯然並不需要用PCA消除correlation這么麻煩啊。。。有什么別的方法么?求教。
第三個又是Case Study,這個比較簡單,關於ATM機的,也是break even,然后畫了曲線。不過我第一次聽錯數字了。。。。真是對自己無語。
第四個Behavior問題是tell me a time系列,兩個面試官是中國人,在面完前三輪之后看到中國人有一種松了一口氣的感覺,他們人也很nice,其實所有面試官都很nice,所以我感覺更難過了。。。嗚嗚嗚。。。
午飯后和director面最后一輪technical,他上來就說這是今天最簡單的面試了,他說你可以把筆放下,我們聊聊天就好了,我天真的信了。然后他就說我們聊聊你的project吧,我就把實習的project說了,他問了model,我說我做的是Random Forest部分,他說那你對Random Forest了解多少。。。。然后。。。然后我就裝逼了啊!!!我說我以前build model from scratch過,然后他就感興趣了,他說那你說一下大概的流程,我就又把筆拿起來了啊!!!然后我就說錯了,第一步應該是bagging我說成subsampling了。。。director同學很想糾正我這塊來着,但是我完全沒意識到啊!我就繼續說下一步怎么建decision tree了,吧啦吧啦講大概怎么算information gain,怎么分叉,怎么得出最后的結果,這時候director又嘗試拯救我一下,問我這些decision tree會用怎樣的不同,但我還是沒有意識到。。。然后他決定再給我一次機會,問我還scratch啥model來着,我就說adaboost,這個說對了,然后就輪到我問他問題了。
我覺得如果我掛了,一定是因為我最后裝了一個逼。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM