1. 2018-08
marketplace pricing組,data engineer
我們組負責用machine learning models做實時的用戶定價,直接影響Uber營收,利潤和成長。可以說,我們組的performance相當程度上影響明年Uber上市的股價。
工作當中需要涉及到的系統包括backend server,database,data pipeline,(py)spark等等。編程語言是python和java。工作地點舊金山。
組里的情況是,scope比較大,活多,非常缺人:-) 我主要給自己組做內推,如果簡歷符合要求,直接進入快速通道,最快速度安排電面和onsite。
2. 2016-12-20電面&onsite
電面1: 和team manager,問了三個問題:
用公式解釋PCA
如何預測Uber的司機會不會接乘客叫車?如何判斷哪些features更重要?
如何預測一個城市的Uber trips?如果給你的歷史數據有weekly seasonality 如何處理?
電面2: 和software engineer,問了一個問題,寫完code問了一些如何測試code和什么是unit test之類的問題-google 1point3acres
病人每天從早上九點開始以均值為10每小時的泊松分布訪問診所,診所接受任何在早上九點到下午四點之間的預約,醫生需要把所有預約了的病人看完才能關門,醫生給每個病人看病的時間服從5~20分鍾的均勻分布,寫代碼對任意一天的情況進行仿真從而回答以下問題
#1 醫生在這一天當中一共會見多少病人?
#2 在這一天當中會等待的病人總數?
#3 平均等待時間
#4 診所關門時間
Onsite1: 和software engineer,問了三個問題
字符串全排列(無重復字符)
字符串全排列(有重復字符)
實現hashTable(get,update, insert)
Onsite2:和senior data scientist,印度大叔問了無數問題,就是不相信我會。。。。
K-mean 寫peudo-code, 如何定義距離,在高維空間下會有什么情況,如果要on-line batch updating需要怎么做?
Seasonal ARIMA細節, 什么是AR,AR的假設是什么,什么是I,為什么MA可以解決AR的局限性,雙重seasonality如何解決,如何測試模型性能,RMSE和MAPE有什么不同?
Onsite3:和data scientist
一來問了很多behavior問題,不贅述了
估算ARIMA參數的時候,初始值如果不設成0有沒有更好的辦法
如何給time series中的特殊event建模,比如Uber的promotion,異常的天氣,還有演唱會什么的, 為什么predict interval在有特殊event的情況下會失效
Onsite4:和data scienitst(bar raiser)
跟我討論了很久我現在公司做的project,可能聊了有半個小時,基本cover所有的details
說一個你convince你manager不要按照他的想法做的例子
uber有兩種incentives,一種是同時給rider和driver折扣,一種是讓driver每周達到一定的trips后給獎勵,請你設計實驗證明哪個更有效
uber墨西哥有幾個城市的數據突然指數上升,CXO問你是怎么回事,給你一個小時你怎么找答案,給你一個月你又怎么找答案?
Onsite5: 和data scientist manager. 牛人雲集,一畝三分地
描述你理想的team
給出一個heuristic來計算Uber的surge price,不同heuristic的pros和cons
給你所有trip的起點和終點,如何將uber的trip從地理上分成不同的group,從而group之間的trips盡量少,如果你只能sample其中20%的數據點你會怎么sample,不同sample method的區別,如何保證你的模型兩年后不做任何改變也還能用?
什么是exponential smothing?
Onsite6:和data scienitst圍觀我們假設uber的用戶都過着 家-公司-酒吧 三點一線的生活,你如何建模來描述用戶在不同點之間轉移的情況,有哪些factor可能影響這個轉移?
如何建立一個模型來預測要不要給一個uber發promotion?
3. 2018-7-4 onsite
uber ds的面經,應該是不是典型,一共五論
第一輪:主要考了一些概率和統計的問題,
問了個經典的擲色子的問題,就是
有一個普通6面骰子,游戲者最多擲三次,可以選擇擲一次或兩次后停止。獎金是最后一次的骰子的點數。比如最后一次是6點,獲得6美元。如果是3點,獲得3美元。請問如何找出最佳策略這樣游戲者可以獲得最多的獎金?
統計問了幾個distribution,解釋了一下poisson distribution
第二輪:統計的問題,ab testing,machine learning
統計的問題,例如p value是什么,什么是confidence level, 什么是power,type I, type II error
machine learning: 解釋k-means,如何決定k,一定converge嗎,k-means和gaussian mixture model區別
第三輪:machine learning
主要問了tree相關的問題, DT的pro and con,什么是rf,什么是boosting tree,boosting trees和rf區別,boosting如何實現,ada boosting和gradient boosting相同點和區別
第四輪:coding
問了簡單的graph問題,dfs和bfs區別,然后讓inplement了bfs,解釋了一下需要用到的data structure,問了一些complexicity之類的問題
第五輪:behavior和brain storming
問了一些遇到困難怎么辦,如何和非technical stakeholders交流之類的
brain storming問了經典的估算多少個加油站
4.2017-9-19 電面
第一輪直接和組里的一個member聊的,人很nice,聽起來像印度口音,信號不是很好雜音很多,以至於很多問題聽不太清楚要求重復T_T. more info on 1point3acres
沒有behavior,上來先介紹組內工作,感覺Safety做的內容包含很多方向,很有意思。然后自我介紹,然后就開始technical questions.本文原創自1point3acres論壇
問了知不知道OLS,為什么OLS很普遍很流行,OLS的output是什么,OLS的assumptions
如何解釋coefficient,給一個non-technical的人解釋coefficient,如何檢驗coefficient是不是significant
大概就是這些,歷時30min。沒想到會問OLS,回答的感覺不是很好,至少assumptions沒有說對(之前學過的都忘掉了,答案應該是iid)
5.2018-07-01電面
1. 簡化版KNN算法寫code實現,用Euclidean distance。(heap tree那里我是用heaplist實現的,出了個bug,而且寫得太慢把時間耗光了)
2. 概率題,扔硬幣,n次中有m次head,問是否能說明硬幣是biased,寫個函數算出來(經典題不難,但是沒時間了沒做完。). 1poin
6.2017-10-12 onsite
Uber onsite data scientist 跪經分享,求大神指導.1point3acres網
4個小時面了7個人
先是一個political science背景的 data scientist
1.(一直糾結一個問題,怎么闡釋p value和coefficient-google 1point3acres
如果pvalue = 0.001, coefficient = 10000如何解釋
如果pvalue = 0.3, coefficient = 10000如何解釋. 圍觀我們@1point 3 acres
如果pvalue = 0.001, coefficient = 0.1如何解釋
你能說這個feature have a big influence嗎?)
等等等,求大神解讀這個問題要怎么答好 “第一個問題就是standard error和coefficient的比例問題,固定比例是一樣的p值,這個比例就是p值對應的Z值”
還問了相關算法,
2.(random forests 和linear regression在unbalanced dataset情況下選哪個的問題。). Waral 博客有更多文章,
然后和他和hiring manager一起吃飯。畝三分地
然后就和一個foresting背景的 data scientist聊
3.(問了一些針對0.05%target 的unbalanced dataset如何處理的問題。)
4.(還有就是如果linear model如果有multi colinearity的問題的話怎么辦,drop掉某些feature嗎?怎么選擇drop掉哪些?如果只用於prediction不用於interpretion要不要全留着?)
5.問了一些天馬行空的關於uber如何在地圖上區分出哪些是機場,火車站,night life,hotel,球賽場的問題,因為他們在路線圖上看起來都差不多,像是市中心。
6.還問了一些關於boosting method的問題。
. visit 1point3acres for more.
然后是其他組的日本人,有個人shadowing
他做的是matching algorithm,就問了一些你對於他做的東西最近遇到的問題的想法。
然后又是一個同組的modeler,
6. 問了sql的aggregation function怎么寫,
7.(還有modeling中feature selection的問題。怎么select? )
hiring manager:
brainstorming, 聊了一個case, 為未成年人提供特殊uber服務,怎么測試有沒有效?
想了很多metrics,什么revenue啊,complaint的個數啊等等等,徹底展開思路,需要whiteboarding設計一個a/b test. (t-test)
product manager:
講了之前我做的一個項目,詳細就recall和precision如何平衡的問題進行了討論。
7.2017-3-20 onsite
one
1, How can you estimate the precision of the model decision.
Two
1,1,2,5,10 one boat 2 people a time, what is the shortest time to ship those 4.
http://www.mytechinterviews.com/four-people-on-a-rickety-bridge
2,What do you like the current company and not like
3, Why this company
4, How can improve your efficiency
. more info on 1point3acres
Third
1,Do you think we still need strategy with model
2, How can you know your reject is correct or not
3, Why this
Fourth
1, How to handle the model unstable in variable selection
2,what role you want to do
3, How to convince your manager
Fifth
1. Describe the credit card fraud
- sensitive survey. Only take the part head.
Sixth,
1, If drive more than expect. How to cover the loss.
2, Uber for business, what other risk you should consider.
3, What is the importance for the model
4, what kind of fraud in U
8.2017-10-14 電面
1. 他介紹freight組 做什么等等
2. self introduction
3. describe one of my projects, what tools do i use ? 我講到一半被打斷。沒機會說到我的achievement。 事后回想覺得我自己說的不夠簡潔。. 1point 3acres 論壇
4.describe to a non tech ppl what is sql left join?
5. difference between for and while loop
6. what is long format v.s. wide format? how do you choose between them?
7. case: on the freight driver's side app, we show the description of a shipment (origin, destination, distance, weight, volumn etc), how do you determine the price (aka, reward) to driver?
8. let me ask questions.
9.2017-03-08 電面
一個data scientist(白人哥哥), 一個Hiring manager(國人姐姐), share screen coding.
http://www.1point3acres.com/bbs/thread-236357-1-1.html
1. 上來就讓你自己寫weighted sampling, 不能用existing function。 給兩個vector, 一個是要選的數,另一個是相應的weight。 我說根據相應的weight來replicate選擇的數,再用一個uniform distribution來隨即選index。白人哥哥但是這樣會有個問題,我說是阿,如果weight是小數的話就有問題,可以試着把weight vector整體乘一個很大的數,變成整數之類的。。。。
第一題可以用rejection sampling的方法
https://www.python-course.eu/weighted_choice_and_sample.php
假設 samples = [1,2,3,4,5]
weights = [0.1,0.1,0.2,0.2,0.4]
可以generate一個隨機i of vector index (i = 1 to 5 in this case), 再generate一個uniform [0,1]之間的隨機數 prob,if prob <= weights[i] then output samples[i], else break, jump to next iteration.1point3acres網
2. 給你一個vector,找到里面所有加起來等於8的pair,很簡單的code完了。然后又加大難度,說怎么從中找出所有的組合加起來等於8呢(就是不一定是兩個數相加,可以是任何個數的數相加等於8),說了一下思路,加起來不足8的話,就繼續找其他的數,直到沒有一個滿足的。。。。感覺這個算法很expensive,但是那當會兒也沒有想到很好的算法。。。。
第二題好像是碼農刷題經典的2sum,3sum. 1poin
第二題應該是leetcode combination sum那題t
. 一畝-三分-地,獨家發布
3. 最后臨走前又問了一個,怎么把數字都倒過來, 大概就是如果一個數是 -1234, 最后輸出 -4321, 這個很簡單,我很快code出來了。。。。
10.2018-02-13 電面&onsite
電面
如果在一個city deploy 類似於 expedia rental car 的東西, 但是是uber rental. 你怎么set price? 如何run abtesting 來確定是否要deploy 這個feature?
onsite:
Think of one feature that uber can improve on. And how to improve? Design A/b Testing experiment? (這個問題好像都見過的)
============================
Another manger asked a lot about past work experience.
coding 類似於 glass door:
Write out a function tocalculate the AUC of an ROC curve.
怎么確定一個司機可能使用超過一個app? 比如 uber, lyft, via ?
會問很多關於sampling, bias 的問題。 樓主自問統計知識還比較扎實。 但是經不住一國女各種為難。 6個人面下來, 面的好不好不說。其他5個人都挺nice. 這個國女態度有問題。 何必為難自己人呢? 組里有這樣的人去不了也不可惜。
10.2018-01-21 電面&onsite
http://www.1point3acres.com/bbs/thread-315616-1-1.html
## Uber - DataScientist, Mapping Tools組
第一輪 HR screening
第二輪 Tech phone call case study 45 mins. 大概是討論了如何predict 某個block的traffic情況。考了時間序列的一些模型和基礎知識。
第三輪 Data challenge 給了一周時間兩道題
1)時間序列建模分析uber request traffic。我建了個SARIMA模型。
2)leetcode簡單題
第四輪 onsite 面了六輪,每個45 mins
1)HiringManager 聊了聊現在工作做的project。問如果這兩個月Uber 在某國家使用量突然降低可能是哪些原因,如何驗證是否因為是這些原因,如果都不是應該怎么辦。
然后是和一個DS 吃午飯聊天
2)CaseStudy. 討論Surge Price模型和如何根據定價鼓勵Driver。
3) CaseStudy 關於Uber Eats的模型,如何根據 sensor數據predict送餐員的行為,如何create matrix,如何站在Mapping Tools組的角度convince Uber Eats組模型的有效性。
4)PM面,聊聊現在的工作,還有些behavior questions。
5)CaseStudy. 討論如何建模分析手機是否被driver拿在手上。
6)兩道leetcode。一道mergesorted array。一個是sorted 矩陣里面搜索某個值返回index。
總結:這個組感覺bar很高,面的非常tech,在白板上寫模型思路連着寫了幾個小時幾乎沒有停下來休息。
more
https://instant.1point3acres.com/tag/uber