數據挖掘基礎題


 

  1.某超市研究銷售紀錄數據后發現,買啤酒的人很大概率也會購買尿布,這種屬於數據挖掘的哪類問題?

 

  A.關聯規則發現

  B.聚類

  C.分類

  D.自然語言處理

 

  2.以下兩種描述分別對應哪兩種對分類算法的評價標准?

  (a)警察抓小偷,描述警察抓的人中有多少個是小偷的標准。

  (b)描述有多少比例的小偷給警察抓了的標准。

 

  A.Precision,Recall

  B.Recall,Precision

  C.Precision,ROC

  D.Recall,ROC

 

  3.將原始數據進行集成、變換、維度規約、數值規約是在以下哪個步驟的任務?

 

  A.頻繁模式挖掘

  B.分類和預測

  C.數據預處理

  D.數據流挖掘

 

  4.當不知道數據所帶標簽時,可以使用哪種技術促使帶同類標簽的數據與帶其他標簽的數據相分離?

 

  A.分類

  B.聚類

  C.關聯分析

  D.隱馬爾可夫鏈

 

  5.什么是KDD?

 

  A.數據挖掘與知識發現

  B.領域知識發現

  C.文檔知識發現

  D.動態知識發現

 

  6.使用交互式的和可視化的技術,對數據進行探索屬於數據挖掘的哪一類任務?

 

  A.探索性數據分析

  B.建模描述

  C.預測建模

  D.尋找模式和規則

 

  7.為數據的總體分布建模;把多維空間划分成組等問題屬於數據挖掘的哪一類任務?

 

  A.探索性數據分析

  B.建模描述

  C.預測建模

  D.尋找模式和規則

 

  8.建立一個模型,通過這個模型根據已知的變量值來預測其他某個變量值屬於數據挖掘的哪一類任務?

 

  A.根據內容檢索

  B.建模描述

  C.預測建模

  D.尋找模式和規則

 

  9.用戶有一種感興趣的模式並且希望在數據集中找到相似的模式,屬於數據挖掘哪一類任務?

 

  A.根據內容檢索

  B.建模描述

  C.預測建模

  D.尋找模式和規則

 

  10.以下屬於可伸縮聚類算法的是。

 

  A、CURE

  B、DENCLUE

  C、CLIQUE

  D、OPOSSUM

 

  11.下面哪種不屬於數據預處理的方法?

 

  A 變量代換

  B 離散化

  C 聚集

  D估計遺漏值

 

  12.假設12個銷售價格記錄組已經排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每種方法將它們划分成四個箱。等頻(等深)划分時,15在第幾個箱子內?

 

  A 第一個

  B 第二個

  C 第三個

  D 第四個

 

  13.上題中,等寬划分時(寬度為50),15又在哪個箱子里?

 

  A 第一個

  B 第二個

  C 第三個

  D 第四個

 

  14.下面哪個不屬於數據的屬性類型:

 

  A 標稱

  B 序數

  C 區間

  D 相異

 

  15.在上題中,屬於定量的屬性類型是:

 

  A 標稱

  B 序數

  C 區間

  D 相異

 

  16.只有非零值才重要的二元屬性被稱作:

 

  A 計數屬性

  B 離散屬性

  C 非對稱的二元屬性

  D 對稱屬性

 

  17.以下哪種方法不屬於特征選擇的標准方法:

 

  A 嵌入

  B 過濾

  C 包裝

  D 抽樣

 

  18.下面不屬於創建新屬性的相關方法的是:

 

  A 特征提取

  B 特征修改

  C 映射數據到新的空間

  D 特征構造

 

  19.考慮值集{1、2、3、4、5、90},其截斷均值(p=20%)是

 

  A 2

  B 3

  C 3.5

  D 5

 

  20.下面哪個屬於映射數據到新的空間的方法?

 

  A 傅立葉變換

  B 特征加權

  C 漸進抽樣

  D 維歸約

 

  21.熵是為消除不確定性所需要獲得的信息量,投擲均勻正六面體骰子的熵是:

 

  A1 比特

  B 2.6比特

  C 3.2比特

  D 3.8比特

 

  22.假設屬性income的最大最小值分別是12000元和98000元。利用最大最小規范化的方法將屬性的值映射到0至1的范圍內。對屬性income的73600元將被轉化為:

 

  A 0.821

  B 1.224

  C 1.458

  D 0.716

 

  23.假定用於分析的數據包含屬性age。數據元組中age的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,問題:使用按箱平均值平滑方法對上述數據進行平滑,箱的深度為3。第二個箱子值為:

 

  A 18.3

  B 22.6

  C 26.8

  D 27.9

 

  24.考慮值集{12243324556826},其四分位數極差是:

 

  A 31

  B 24

  C 55

  D 3

 

  25.一所大學內的各年級人數分別為:一年級200人,二年級160人,三年級130人,四年級110人。則年級屬性的眾數是:

 

  A 一年級

  B 二年級

  C 三年級

  D 四年級

 

  26.下列哪個不是專門用於可視化時間空間數據的技術:

 

  A 等高線圖

  B 餅圖

  C 曲面圖

  D 矢量場圖

 

  27.在抽樣方法中,當合適的樣本容量很難確定時,可以使用的抽樣方法是:

 

  A 有放回的簡單隨機抽樣

  B 無放回的簡單隨機抽樣

  C 分層抽樣

  D 漸進抽樣

 

  28.數據倉庫是隨着時間變化的,下面的描述不正確的是

 

  A.數據倉庫隨時間的變化不斷增加新的數據內容;

  B.捕捉到的新數據會覆蓋原來的快照;

  C.數據倉庫隨事件變化不斷刪去舊的數據內容;

  D.數據倉庫中包含大量的綜合數據,這些綜合數據會隨着時間的變化不斷地進行重新綜合.

 

  29.關於基本數據的元數據是指:

 

  A.基本元數據與數據源,數據倉庫,數據集市和應用程序等結構相關的信息;

  B.基本元數據包括與企業相關的管理方面的數據和信息;

  C.基本元數據包括日志文件和簡歷執行處理的時序調度信息;

  D.基本元數據包括關於裝載和更新處理,分析處理以及管理方面的信息

 

  30.下面關於數據粒度的描述不正確的是:

 

  A.粒度是指數據倉庫小數據單元的詳細程度和級別;

  B.數據越詳細,粒度就越小,級別也就越高;

  C.數據綜合度越高,粒度也就越大,級別也就越高;

  D.粒度的具體划分將直接影響數據倉庫中的數據量以及查詢質量.

 

  31.有關數據倉庫的開發特點,不正確的描述是:

 

  A.數據倉庫開發要從數據出發;

  B.數據倉庫使用的需求在開發出去就要明確;

  C.數據倉庫的開發是一個不斷循環的過程,是啟發式的開發;

  D.在數據倉庫環境中,並不存在操作型環境中所固定的和較確切的處理流,數據倉庫中數據分析和處理更靈活,且沒有固定的模式

 

  32.在有關數據倉庫測試,下列說法不正確的是:

 

  A.在完成數據倉庫的實施過程中,需要對數據倉庫進行各種測試.測試工作中要包括單元測試和系統測試.

  B.當數據倉庫的每個單獨組件完成后,就需要對他們進行單元測試.

  C.系統的集成測試需要對數據倉庫的所有組件進行大量的功能測試和回歸測試.

  D.在測試之前沒必要制定詳細的測試計划.

 

  33.OLAP技術的核心是:

 

  A.在線性;

  B.對用戶的快速響應;

  C.互操作性.

  D.多維分析;

 

  34.關於OLAP的特性,下面正確的是:

  (1)快速性(2)可分析性(3)多維性(4)信息性(5)共享性

 

  A.(1)(2)(3)

  B.(2)(3)(4)

  C.(1)(2)(3)(4)

  D.(1)(2)(3)(4)(5)

 

  35.關於OLAP和OLTP的區別描述,不正確的是:

 

  A.OLAP主要是關於如何理解聚集的大量不同的數據.它與OTAP應用程序不同.

  B.與OLAP應用程序不同,OLTP應用程序包含大量相對簡單的事務.

  C.OLAP的特點在於事務量大,但事務內容比較簡單且重復率高.

  D.OLAP是以數據倉庫為基礎的,但其最終數據來源與OLTP一樣均來自底層的數據庫系統,兩者面對的用戶是相同的.

 

  36.OLAM技術一般簡稱為”數據聯機分析挖掘”,下面說法正確的是:

 

  A.OLAP和OLAM都基於客戶機/服務器模式,只有后者有與用戶的交互性;

  B.由於OLAM的立方體和用於OLAP的立方體有本質的區別.

  C.基於WEB的OLAM是WEB技術與OLAM技術的結合.

  D.OLAM服務器通過用戶圖形借口接收用戶的分析指令,在元數據的知道下,對超級立方體作一定的操作.

 

  37.關於OLAP和OLTP的說法,下列不正確的是:

 

  A.OLAP事務量大,但事務內容比較簡單且重復率高.

  B.OLAP的最終數據來源與OLTP不一樣.

  C.OLTP面對的是決策人員和高層管理人員.

  D.OLTP以應用為核心,是應用驅動的.

 

  38.設X={1,2,3}是頻繁項集,則可由X產生____個關聯規則。

 

  A、4

  B、5

  C、6

  D、7

 

  39.頻繁項集、頻繁閉項集、最大頻繁項集之間的關系是:

 

  A、頻繁項集頻繁閉項集=最大頻繁項集

  B、頻繁項集=頻繁閉項集最大頻繁項集

  C、頻繁項集頻繁閉項集最大頻繁項集

  D、頻繁項集=頻繁閉項集=最大頻繁項集

 

  40.概念分層圖是____圖。

 

  A、無向無環

  B、有向無環

  C、有向有環

  D、無向有環

 

  answers:AACBA,ABCAA,DBADC,CDBCA,BDAAA,BDCDC,ADDDC,DACCB

 



  1.某超市研究銷售紀錄數據后發現,買啤酒的人很大概率也會購買尿布,這種屬於數據挖掘的哪類問題?

 

  A.關聯規則發現

  B.聚類

  C.分類

  D.自然語言處理

 

  2.以下兩種描述分別對應哪兩種對分類算法的評價標准?

  (a)警察抓小偷,描述警察抓的人中有多少個是小偷的標准。

  (b)描述有多少比例的小偷給警察抓了的標准。

 

  A.Precision,Recall

  B.Recall,Precision

  C.Precision,ROC

  D.Recall,ROC

 

  3.將原始數據進行集成、變換、維度規約、數值規約是在以下哪個步驟的任務?

 

  A.頻繁模式挖掘

  B.分類和預測

  C.數據預處理

  D.數據流挖掘

 

  4.當不知道數據所帶標簽時,可以使用哪種技術促使帶同類標簽的數據與帶其他標簽的數據相分離?

 

  A.分類

  B.聚類

  C.關聯分析

  D.隱馬爾可夫鏈

 

  5.什么是KDD?

 

  A.數據挖掘與知識發現

  B.領域知識發現

  C.文檔知識發現

  D.動態知識發現

 

  6.使用交互式的和可視化的技術,對數據進行探索屬於數據挖掘的哪一類任務?

 

  A.探索性數據分析

  B.建模描述

  C.預測建模

  D.尋找模式和規則

 

  7.為數據的總體分布建模;把多維空間划分成組等問題屬於數據挖掘的哪一類任務?

 

  A.探索性數據分析

  B.建模描述

  C.預測建模

  D.尋找模式和規則

 

  8.建立一個模型,通過這個模型根據已知的變量值來預測其他某個變量值屬於數據挖掘的哪一類任務?

 

  A.根據內容檢索

  B.建模描述

  C.預測建模

  D.尋找模式和規則

 

  9.用戶有一種感興趣的模式並且希望在數據集中找到相似的模式,屬於數據挖掘哪一類任務?

 

  A.根據內容檢索

  B.建模描述

  C.預測建模

  D.尋找模式和規則

 

  10.以下屬於可伸縮聚類算法的是。

 

  A、CURE

  B、DENCLUE

  C、CLIQUE

  D、OPOSSUM

 

  11.下面哪種不屬於數據預處理的方法?

 

  A 變量代換

  B 離散化

  C 聚集

  D估計遺漏值

 

  12.假設12個銷售價格記錄組已經排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每種方法將它們划分成四個箱。等頻(等深)划分時,15在第幾個箱子內?

 

  A 第一個

  B 第二個

  C 第三個

  D 第四個

 

  13.上題中,等寬划分時(寬度為50),15又在哪個箱子里?

 

  A 第一個

  B 第二個

  C 第三個

  D 第四個

 

  14.下面哪個不屬於數據的屬性類型:

 

  A 標稱

  B 序數

  C 區間

  D 相異

 

  15.在上題中,屬於定量的屬性類型是:

 

  A 標稱

  B 序數

  C 區間

  D 相異

 

  16.只有非零值才重要的二元屬性被稱作:

 

  A 計數屬性

  B 離散屬性

  C 非對稱的二元屬性

  D 對稱屬性

 

  17.以下哪種方法不屬於特征選擇的標准方法:

 

  A 嵌入

  B 過濾

  C 包裝

  D 抽樣

 

  18.下面不屬於創建新屬性的相關方法的是:

 

  A 特征提取

  B 特征修改

  C 映射數據到新的空間

  D 特征構造

 

  19.考慮值集{1、2、3、4、5、90},其截斷均值(p=20%)是

 

  A 2

  B 3

  C 3.5

  D 5

 

  20.下面哪個屬於映射數據到新的空間的方法?

 

  A 傅立葉變換

  B 特征加權

  C 漸進抽樣

  D 維歸約

 

  21.熵是為消除不確定性所需要獲得的信息量,投擲均勻正六面體骰子的熵是:

 

  A1 比特

  B 2.6比特

  C 3.2比特

  D 3.8比特

 

  22.假設屬性income的最大最小值分別是12000元和98000元。利用最大最小規范化的方法將屬性的值映射到0至1的范圍內。對屬性income的73600元將被轉化為:

 

  A 0.821

  B 1.224

  C 1.458

  D 0.716

 

  23.假定用於分析的數據包含屬性age。數據元組中age的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,問題:使用按箱平均值平滑方法對上述數據進行平滑,箱的深度為3。第二個箱子值為:

 

  A 18.3

  B 22.6

  C 26.8

  D 27.9

 

  24.考慮值集{12243324556826},其四分位數極差是:

 

  A 31

  B 24

  C 55

  D 3

 

  25.一所大學內的各年級人數分別為:一年級200人,二年級160人,三年級130人,四年級110人。則年級屬性的眾數是:

 

  A 一年級

  B 二年級

  C 三年級

  D 四年級

 

  26.下列哪個不是專門用於可視化時間空間數據的技術:

 

  A 等高線圖

  B 餅圖

  C 曲面圖

  D 矢量場圖

 

  27.在抽樣方法中,當合適的樣本容量很難確定時,可以使用的抽樣方法是:

 

  A 有放回的簡單隨機抽樣

  B 無放回的簡單隨機抽樣

  C 分層抽樣

  D 漸進抽樣

 

  28.數據倉庫是隨着時間變化的,下面的描述不正確的是

 

  A.數據倉庫隨時間的變化不斷增加新的數據內容;

  B.捕捉到的新數據會覆蓋原來的快照;

  C.數據倉庫隨事件變化不斷刪去舊的數據內容;

  D.數據倉庫中包含大量的綜合數據,這些綜合數據會隨着時間的變化不斷地進行重新綜合.

 

  29.關於基本數據的元數據是指:

 

  A.基本元數據與數據源,數據倉庫,數據集市和應用程序等結構相關的信息;

  B.基本元數據包括與企業相關的管理方面的數據和信息;

  C.基本元數據包括日志文件和簡歷執行處理的時序調度信息;

  D.基本元數據包括關於裝載和更新處理,分析處理以及管理方面的信息

 

  30.下面關於數據粒度的描述不正確的是:

 

  A.粒度是指數據倉庫小數據單元的詳細程度和級別;

  B.數據越詳細,粒度就越小,級別也就越高;

  C.數據綜合度越高,粒度也就越大,級別也就越高;

  D.粒度的具體划分將直接影響數據倉庫中的數據量以及查詢質量.

 

  31.有關數據倉庫的開發特點,不正確的描述是:

 

  A.數據倉庫開發要從數據出發;

  B.數據倉庫使用的需求在開發出去就要明確;

  C.數據倉庫的開發是一個不斷循環的過程,是啟發式的開發;

  D.在數據倉庫環境中,並不存在操作型環境中所固定的和較確切的處理流,數據倉庫中數據分析和處理更靈活,且沒有固定的模式

 

  32.在有關數據倉庫測試,下列說法不正確的是:

 

  A.在完成數據倉庫的實施過程中,需要對數據倉庫進行各種測試.測試工作中要包括單元測試和系統測試.

  B.當數據倉庫的每個單獨組件完成后,就需要對他們進行單元測試.

  C.系統的集成測試需要對數據倉庫的所有組件進行大量的功能測試和回歸測試.

  D.在測試之前沒必要制定詳細的測試計划.

 

  33.OLAP技術的核心是:

 

  A.在線性;

  B.對用戶的快速響應;

  C.互操作性.

  D.多維分析;

 

  34.關於OLAP的特性,下面正確的是:

  (1)快速性(2)可分析性(3)多維性(4)信息性(5)共享性

 

  A.(1)(2)(3)

  B.(2)(3)(4)

  C.(1)(2)(3)(4)

  D.(1)(2)(3)(4)(5)

 

  35.關於OLAP和OLTP的區別描述,不正確的是:

 

  A.OLAP主要是關於如何理解聚集的大量不同的數據.它與OTAP應用程序不同.

  B.與OLAP應用程序不同,OLTP應用程序包含大量相對簡單的事務.

  C.OLAP的特點在於事務量大,但事務內容比較簡單且重復率高.

  D.OLAP是以數據倉庫為基礎的,但其最終數據來源與OLTP一樣均來自底層的數據庫系統,兩者面對的用戶是相同的.

 

  36.OLAM技術一般簡稱為”數據聯機分析挖掘”,下面說法正確的是:

 

  A.OLAP和OLAM都基於客戶機/服務器模式,只有后者有與用戶的交互性;

  B.由於OLAM的立方體和用於OLAP的立方體有本質的區別.

  C.基於WEB的OLAM是WEB技術與OLAM技術的結合.

  D.OLAM服務器通過用戶圖形借口接收用戶的分析指令,在元數據的知道下,對超級立方體作一定的操作.

 

  37.關於OLAP和OLTP的說法,下列不正確的是:

 

  A.OLAP事務量大,但事務內容比較簡單且重復率高.

  B.OLAP的最終數據來源與OLTP不一樣.

  C.OLTP面對的是決策人員和高層管理人員.

  D.OLTP以應用為核心,是應用驅動的.

 

  38.設X={1,2,3}是頻繁項集,則可由X產生____個關聯規則。

 

  A、4

  B、5

  C、6

  D、7

 

  39.頻繁項集、頻繁閉項集、最大頻繁項集之間的關系是:

 

  A、頻繁項集頻繁閉項集=最大頻繁項集

  B、頻繁項集=頻繁閉項集最大頻繁項集

  C、頻繁項集頻繁閉項集最大頻繁項集

  D、頻繁項集=頻繁閉項集=最大頻繁項集

 

  40.概念分層圖是____圖。

 

  A、無向無環

  B、有向無環

  C、有向有環

  D、無向有環

 

  answers:AACBA,ABCAA,DBADC,CDBCA,BDAAA,BDCDC,ADDDC,DACCB


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM