大數據測試是什么、以及測試步驟


一、大數據測試基本概念
1、、什么是大數據?
大數據是一個大的數據集合,通過傳統的計算技術無法進行處理。這些數據集的測試需要使用各種工具、技術和框架進行處理。大數據涉及數據創建、存儲、檢索、分析,而且它在數量、多樣性、速度方法都很出色。

2、什么是BI?
BI(Business Intelligence)即商務智能,它是一套完整的解決方案,用來將企業中現有的數據(原始數據或商業數據或業務數據等)進行有效的整合,快速准確地提供報表並提出決策依據,幫助企業做出明智的業務經營決策。
原始數據記錄了企業日常事務,例如與客戶交互的信息、財務信息,員工相關記錄等等。
這些數據可以用於匯報、分析、挖掘、數據質量、交互、預測分析等等

3、什么是數據倉庫?
數據倉庫是為查詢和分析而不是事務處理而設計的數據庫。
數據倉庫是通過整合不同的異構數據源而構建起來的。
數據倉庫的存在使得企業或組織能夠將整合、分析數據工作與事務處理工作分離。
數據能夠被轉換、整合為更高質量的信息來滿足企業級用戶不同層次的需求。

4、什么是ETL?
ETL是Extract-Transform-Load的縮寫(提取-轉換-載入),是一個完整的從源系統提取數據,進行轉換處理,載入至數據倉庫的過程。

 

 

大數據處理的三個特性:1)大批量 2)實時性 3)可交互。另外,數據質量也同樣是大數據測試的一個重要維度。

因此在進行應用程序測試之前,必須確保數據質量,並且考慮把數據質量作為數據庫測試的一部分。涉及數據的各種特性的檢驗,例如一致性、准確性、重復性、連貫性、有效性及完整性等等。


大數據應用測試大體可以分為三步驟:

 

 

步驟一:數據階段驗證

大數據測試的第一步,也稱作pre-hadoop階段該過程包括如下驗證:

1)來自各方面的數據資源應該被驗證,來確保正確的數據被加載進系統。

2)將源數據與推送到Hadoop系統中的數據進行比較,以確保它們匹配。

3)驗證正確的數據被提取並被加載到HDFS正確的位置。

該階段可以使用工具Talend或Datameer,進行數據階段驗證。

步驟二:"MapReduce"驗證

大數據測試的第二步是MapReduce的驗證。在這個階段,測試者在每個節點上進行業務邏輯驗證,然后在運行多個節點后驗證它們,確保如下操作的正確性:

1)Map與Reduce進程正常工作。

2)在數據上實施數據聚合或隔離規則。

3)生成鍵值對。

4)在執行Map和Reduce進程后驗證數據。

步驟三:輸出階段驗證

大數據測試的最后或第三階段是輸出驗證過程。生成輸出數據文件,同時把文件移到一個EDW(Enterprise Data Warehouse:企業數據倉庫)中或着把文件移動到任何其他基於需求的系統中。在第三階段的活動包括:

1)檢查轉換(Transformation)規則被正確應用。

2)檢查數據完整性和成功的數據加載到目標系統中。

3)通過將目標數據與HDFS文件系統數據進行比較來檢查沒有數據損壞。

 

 








免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM