大數據,咋一聽起來都覺得很神秘,很高大上,從2013年開始聽得越來越多,什么數據挖掘,數據分析、機器學習、算法,讓我等聽起來天馬行空,霧里看花,有幸接觸到了大數據項目,讓我撥開雲霧,原來大數據其實簡單,真的簡單,大量數據嘛,就是我們說的大數據,基於數據分析,獲得有價值的信息。
目前我理解大數據,有數據采集、數據存儲、數據分析、數據應用,前兩者是基礎,后兩者是價值,采集存儲數據不是目的,利用數據分析有價值的信息,才是我們選擇的。
我們不展開聊,作為測試,我關心的是我要測試什么,如何測試,怎么衡量產品的質量情況,拿數據采集來說,從文本、mysql數據庫、oracle數據、接口等,采集數據,然后經過清洗,存在hdfs、hbase、solr、es等等位置,該如何做,需要注意什么?
建議三步:
1、學習知識點
雖然我們不是開發,但是作為大數據的測試,我們必須掌握編程能力,java和python、shell三者是少不了的,另外從hadoop、hdfs、hbase、solr、hive、hue、sqoop、flume、kafka、zookeeper、YARN、oozie、spark等基本的原理和api是必須學習和了解的,這些是我們和研發溝通、是我們自己測試的必要條件,有這些知識,我們才能明白自己測什么,怎么測,哪里有風險,才有信心。
2、開發小工具
如果說這個數據有3條,我可能人為處理,如果要我制造10G有格式要求的數據,我想我還是選擇自己開發個小工具。做大數據測試,給自己開發合適的工具,才能事半功倍,才能降低測試的復雜度,才能更准確的測試。
3、調整思維
常規的測試,都是開發完了,提測,然后測試開始測試,作為大數據,很多場景是無法模擬的,比如數據采集時候出現異常,導致數據采集重置,這樣的場景人為模擬很難搞定,這時候我們更需要調整思維,和研發一起探討實現的邏輯,分析邏輯判斷是否有bug,和研發一起做單元測試,做日志埋點策略。另外,時間是寶貴的,我們要盡力提高效率,比如我們針對部署做了一鍵化部署,研發測試都使用,分布式部署再也不是問題了,比如我們提前根據接口文檔,寫好接口腳本,快速測試,或者利用腳本做測試數據等等,但是千萬別陷入到自動化測試的坑里面了,能則用,不能則 選擇用。
好了,時間不早了,這次零星的說說,比較雜,下次我們從頭開始詳細分析。
堅持的是分享,搬運的是知識,圖的是大家的進步,沒有收費的培訓,沒有虛度的吹水,喜歡就關注、轉發(免費幫助更多伙伴)等來交流,想了解的知識請留言,給你帶來更多價值,是我們期待的方向,有更多興趣的歡迎切磋,我們微信訂閱號,聯系方式如下:
推薦的文章
【解密】jmeter隨筆(30)-讀取自己jar包配置的代碼實現
jmeter隨筆(29)-關於自己的jar包和beanshell的使用
jmeter隨筆(34)-WebSocket協議接口測試實戰







