數據挖掘工程師筆試及答案整理

本文轉載自查看原文 2013-09-17 12:55 57070 基礎知識/ 大數據處理

2013百度校園招聘數據挖掘工程師

一、簡答題（30分）
1、簡述數據庫操作的步驟（10分）

步驟：建立數據庫連接、打開數據庫連接、建立數據庫命令、運行數據庫命令、保存數據庫命令、關閉數據庫連接。

經萍萍提醒，了解到應該把preparedStatement預處理也考慮在數據庫的操作步驟中。此外，對實時性要求不強時，可以使用數據庫緩存。

2、TCP/IP的四層結構（10分）

3、什么是MVC結構，簡要介紹各層結構的作用（10分）

Model、view、control。

我之前有寫過一篇《MVC層次的划分》

二、算法與程序設計（45分）
1、由a-z、0-9組成3位的字符密碼，設計一個算法，列出並打印所有可能的密碼組合（可用偽代碼、C、C++、Java實現）（15分）

把a-z,0-9共（26+10）個字符做成一個數組，然后用三個for循環遍歷即可。每一層的遍歷都是從數組的第0位開始。

2、實現字符串反轉函數（15分）

#include <iostream>
#include <string>
using namespace std;

void main(){

    string s = "abcdefghijklm";
    cout <<  s << endl;
    int len = s.length();
    char temp = 'a';
    for(int i = 0; i < len/2; i++){
        temp = s[i];
        s[i] = s[len - 1 - i];
        s[len - 1 - i] = temp;
    }
    
    cout << s;
    
}

3、百度鳳巢系統，廣告客戶購買一系列關鍵詞，數據結構如下：（15分）
User1 手機智能手機 iphone 台式機 …
User2 手機 iphone 筆記本電腦三星手機 …
User3 htc 平板電腦手機 …
（1）根據以上數據結構對關鍵詞進行KMeans聚類，請列出關鍵詞的向量表示、距離公式和KMeans算法的整體步驟

KMeans方法一個很重要的部分就是如何定義距離，而距離又牽扯到特征向量的定義，畢竟距離是對兩個特征向量進行衡量。

本題中，我們建立一個table。

只要兩個關鍵詞在同一個user的描述中出現，我們就將它在相應的表格的位置加1.

這樣我們就有了每個關鍵詞的特征向量。

例如：

<手機>=（1,1,2,1,1,1,0,0）

<智能手機> = （1,1,1,1,0,0,0,0）

我們使用夾角余弦公式來計算這兩個向量的距離。

夾角余弦公式：

設有兩個向量a和b，，

所以，cos<手機，智能機>=（1+1+2+1）/(sqrt(7+2^2)*sqrt(4))=0.75

cos<手機，iphone>=(2+1+2+1+1+1)/(sqrt(7+2^2)*sqrt(2^2+5))=0.80

夾角余弦值越大說明兩者之間的夾角越小，夾角越小說明相關度越高。

通過夾角余弦值我們可以計算出每兩個關鍵詞之間的距離。

特征向量和距離計算公式的選擇（還有其他很多種距離計算方式，各有其適應的應用場所）完成后，就可以進入KMeans算法。

KMeans算法有兩個主要步驟：1、確定k個中心點；2、計算各個點與中心點的距離，然后貼上類標，然后針對各個類，重新計算其中心點的位置。

初始化時，可以設定k個中心點的位置為隨機值，也可以全賦值為0。

KMeans的實現代碼有很多，這里就不寫了。

不過值得一提的是MapReduce模型並不適合計算KMeans這類遞歸型的算法，MR最拿手的還是流水型的算法。KMeans可以使用MPI模型很方便的計算（慶幸的是YARN中似乎開始支持MPI模型了），所以hadoop上現在也可以方便的寫高效算法了（但是要是MRv2哦）。

（2）計算給定關鍵詞與客戶關鍵詞的文字相關性，請列出關鍵詞與客戶的表達符號和計算公式

這邊的文字相關性不知道是不是指非語義的相關性，而只是詞頻統計上的相關性？如果是語義相關的，可能還需要引入topic model來做輔助（可以看一下百度搜索研發部官方博客的這篇【語義主題計算】）……

如果是指詞頻統計的話，個人認為可以使用Jaccard系數來計算。

通過第一問中的表格，我們可以知道某個關鍵詞的向量，現在將這個向量做一個簡單的變化：如果某個分量不為0則記為1，表示包含這個分量元素，這樣某個關鍵詞就可以變成一些詞語的集合，記為A。

客戶輸入的關鍵詞列表也可以表示為一個集合，記為B

Jaccard系數的計算方法是：

所以，假設某個用戶userX的關鍵詞表達為：{三星手機，手機，平板電腦}

那么，關鍵詞“手機”與userX的關鍵詞之間的相關性為：

J("手機"，“userX關鍵詞”)=|{三星手機，手機，平板電腦}|/|{手機，智能手機，iphone，台式機，筆記本電腦，三星手機，HTC，平板電腦}| = 3/8

關鍵詞“三星手機”與用戶userX的關鍵詞之間的相關性為：

J("三星手機"，“userX關鍵詞”)=|{手機，三星手機}|/|{手機，三星手機，iphone，筆記本電腦，平板電腦}| = 2/5

三、系統設計題（25分）
一維數據的擬合，給定數據集{xi,yi}(i=1,…,n)，xi是訓練數據，yi是對應的預期值。擬使用線性、二次、高次等函數進行擬合
線性：f(x)=ax+b
二次：f(x)=ax^2+bx+c
三次：f(x)=ax^3+bx^2+cx+d
（1）請依次列出線性、二次、三次擬合的誤差函數表達式（2分）

誤差函數的計算公式為：

系數1/2只是為了之后求導的時候方便約掉而已。

那分別將線性、二次、三次函數帶入至公式中f(x_i)的位置，就可以得到它們的誤差函數表達式了。
（2）按照梯度下降法進行擬合，請給出具體的推導過程。（7分）

假設我們樣本集的大小為m，每個樣本的特征向量為X₁=(x₁₁,x₁₂, ..., x_1n)。

那么整個樣本集可以表示為一個矩陣：

其中每一行為一個樣本向量。

我們假設系數為θ，則有系數向量：

對於第 i 個樣本，我們定義誤差變量為

我們可以計算cost function：

由於θ是一個n維向量，所以對每一個分量求偏導：

梯度下降的精華就在於下面這個式子：

這個式子是什么意思呢？是將系數減去導數（導數前的系數先暫時不用理會），為什么是減去導數？我們看一個二維的例子。

假設有一個曲線如圖所示：

假設我們處在紅色的點上，那么得到的導數是個負值。此時，我在當前位置（x軸）的基礎上減去一個負值，就相當於加上了一個正值，那么就朝導數為0的位置移動了一些。

如果當前所處的位置是在最低點的右邊，那么就是減去一個正值（導數為正），相當於往左移動了一些距離，也是朝着導數為0的位置移動了一些。

這就是梯度下降最本質的思想。

那么到底一次該移動多少呢？就是又導數前面的系數α來決定的。

現在我們再來看梯度下降的式子，如果寫成矩陣計算的形式（使用隱式循環來實現），那么就有：

這邊會有點棘手，因為j確定時，x_ij為一個數值（即，樣本的第j個分量），Xθ-Y為一個m*1維的列向量（暫時稱作“誤差向量”）。

括號里面的部分就相當於：

第1個樣本第j個分量*誤差向量 + 第2個樣本第j個分量*誤差向量 + ... + 第m個樣本第j個分量*誤差向量

我們來考察一下式子中各個部分的矩陣形式。

當j固定時，相當於對樣本空間做了一個縱向切片，即：

那么此時的x_ij就是m*1向量，所以為了得到1*1的形式，我們需要拼湊 (1*m)*(m*1)的矩陣運算，因此有：

如果把θ向量的每個分量統一考慮，則有：

關於θ向量的不斷更新的終止條件，一般以誤差范圍（如95%）或者迭代次數（如5000次）進行設定。

梯度下降的有點是：

不像矩陣解法那么需要空間（因為矩陣解法需要求矩陣的逆）

缺點是：如果遇上非凸函數，可能會陷入局部最優解中。對於這種情況，可以嘗試幾次隨機的初始θ，看最后convergence時，得到的向量是否是相似的。

（3）下圖給出了線性、二次和七次擬合的效果圖。請說明進行數據擬合時，需要考慮哪些問題。在本例中，你選擇哪種擬合函數。（8分）

因為是在網上找的題目，沒有看到圖片是長什么樣。大致可能有如下幾種情況。

如果是如上三幅圖的話，當然是選擇中間的模型。

欠擬合的發生一般是因為假設的模型過於簡單。而過擬合的原因則是模型過於復雜且訓練數據量太少。

對於欠擬合，可以增加模型的復雜性，例如引入更多的特征向量，或者高次方模型。

對於過擬合，可以增加訓練的數據，又或者增加一個L2 penalty，用以約束變量的系數以實現降低模型復雜度的目的。

L2 penalty就是：

（注意不要把常數項系數也包括進來，這里假設常數項是θ₀）

另外常見的penalty還有L1型的：

（L1型的主要是做稀疏化，即sparsity）

兩者為什么會有這樣作用上的區別可以找一下【統計之都】上的相關文章看一下。我也還沒弄懂底層的原因是什么。

（4）給出實驗方案（8分）

2013網易實習生招聘崗位：數據挖掘工程師
一、問答題
a) 欠擬合和過擬合的原因分別有哪些？如何避免？

欠擬合：模型過於簡單；過擬合：模型過於復雜，且訓練數據太少。
b) 決策樹的父節點和子節點的熵的大小？請解釋原因。

父節點的熵>子節點的熵

c) 衡量分類算法的准確率，召回率，F1值。

d) 舉例序列模式挖掘算法有哪些？以及他們的應用場景。

DTW（動態事件規整算法）：語音識別領域，判斷兩端序列是否是同一個單詞。

Holt-Winters（三次指數平滑法）：對時間序列進行預測。時間序列的趨勢、季節性。

Apriori

Generalized Sequential Pattern(廣義序貫模式)

PrefixSpan

二、計算題
1) 給你一組向量a，b
a) 計算二者歐氏距離

(a-b)(a-b)^T

即：

b) 計算二者曼哈頓距離

2) 給你一組向量a，b，c，d
a) 計算a，b的Jaccard相似系數

b) 計算c，d的向量空間余弦相似度

c) 計算c、d的皮爾森相關系數

即線性相關系數。

或者

三、（題目記得不是很清楚）
一個文檔-詞矩陣，給你一個變換公式tfij’=tfij*log(m/dfi)；其中tfij代表單詞i在文檔f中的頻率，m代表文檔數，dfi含有單詞i的文檔頻率。
1) 只有一個單詞只存在文檔中，轉換的結果？（具體問題忘記）

2) 有多個單詞存在在多個文檔中，轉換的結果？（具體問題忘記）

3) 公式變換的目的？

四、推導朴素貝葉斯分類P(c|d)，文檔d（由若干word組成），求該文檔屬於類別c的概率，
並說明公式中哪些概率可以利用訓練集計算得到。

五、給你五張人臉圖片。
可以抽取哪些特征？按照列出的特征，寫出第一個和最后一個用戶的特征向量。

六、考查ID3算法，根據天氣分類outlook/temperature/humidity/windy。（給你一張離散型
的圖表數據，一般學過ID3的應該都知道）

a) 哪一個屬性作為第一個分類屬性？

b) 畫出二層決策樹。

七、購物籃事物（關聯規則）
一個表格：事物ID/購買項。
1) 提取出關聯規則的最大數量是多少？（包括0支持度的規則）

2) 提取的頻繁項集的最大長度（最小支持>0）

3) 找出能提取出4-項集的最大數量表達式
4) 找出一個具有最大支持度的項集（長度為2或更大）

5) 找出一對項a，b，使得{a}->{b}和{b}->{a}有相同置信度。

八、一個發布優惠劵的網站，如何給用戶做出合適的推薦？有哪些方法？設計一個合適的系
統（線下數據處理，存放，線上如何查詢？）

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 一名數據挖掘工程師給新人整理的入門資料 100道測試工程師筆試的Linux筆試題及答案途牛前端工程師在線筆試題（含答案和全面解析）硬件工程師筆試題集 ETL工程師筆試題華為硬件工程師筆試題阿里巴巴集團2016校園招聘-Python工程師筆試題（附加題+部分答案）近期筆試小結（附數據庫工程師面試准備）軟件測試工程師面試、筆試題 ios開發工程師筆試基礎題