什么是數據質量(Data Profiling)?
數據質量是PowerBI 10月更新的新功能,我們可以通過他查看數據的整體情況和結構,能反映出數據的質量好壞,目前只能在10月Desktop版本中可以看到。而且一次只能預覽到1000行的數據質量,相信PowerBI很快將預覽到更多的數據質量。
開啟數據質量預覽功能
數據質量是(2018年10月)的預覽功能。在選項設置中打開它。
打開選項,點擊預覽功能,再勾選啟用列分析,點擊確認后,我們需要重啟一下PowerBIDesktop,這樣他的功能就開始生效了。
加載和配置一些數據
我們通過Excel快速加載一些數據,然后選擇編輯啟動Power Query。
進入PowerQuery,我們可以看到標題底部多了一條橫線,這是數據質量分析第一個功能。紅色表示錯誤,灰色表示空白,綠色表示正常。
接下來我們要做的是,進入視圖菜單並打開列分發,如下圖所示,我們可以到數據質量分析的條形圖。這里統計着數據的重復性和唯一性,這是數據質量的第二個功能。
再接着,我們打開列質量,我們可以看到下圖,新的一橫。里面有提示有效的、錯誤的、空的數據質量占比。這是數據質量分析的第三個功能。
通過上面3個功能,我們可以快速的見解到我們的數據質量是不是很健康。可以幫助我們改善我的模型健康程度。
模糊合並(Fuzzy Matching)
模糊合並是一種將兩個表連接在一起的方法,但不是在完全匹配條件上,而是在相似性閾值上做匹配。
有時候我們會遇到這樣的問題,比如下圖,我們的部門名稱,有時候因為錄入的問題導致不一致,但是這些數據又是有效的,單獨通過部門匹配無法全部匹配出來。下面我們可以通過模糊合並,把這些有效數據合並出來。
同樣的,我們需要先打開設置里面的選擇,然后點擊預覽功能,勾選啟用模糊合並,再重啟 PowerBI Desktop 這樣我們的功能才能生效。
然后我們導入一下數據,啟動Power Query.
然后我們在開始里面。找到合並查詢
打開我們的合並查詢,現在我們看到我們的銷售表,我們看到了部門,下面我們選擇我們的部門表。
加載部門表后,我們選擇銷售部門這一列,然后再選擇部門表的部門這一列。點擊確認,開始匹配。
匹配完成后,我們並沒有直接看到我們想要的數據,我們需要點擊列的右上角,選擇展示的列名稱,我們選擇部門組長。
確認后,我們可以看到以下圖。
為了更直觀看對比,我們把組長的部門也帶出來,我們看到只有趙豆組長的部門能匹配到,其他匹配為空。
接下里,我們嘗試模糊匹配看看。同樣的操作,打開合並查詢,選擇對應的部門列,接下里我們要勾選使用模糊匹配。然后閥值設置0.9。
確認后,我們再設置好列,現在我們對比看看。部門跟部門都匹配對上了,假如這些都是有效的數值,那么你可以通過模糊合並把這些數據合並起來。
選項 |
可接受的價值 |
描述 |
閾值 |
0.00~1.00 |
如果兩個文本值的相似度大於閾值,則將其視為成功匹配。值1.00表示完全匹配。 |
忽略大小寫 |
真假 |
如果你希望相似度算法無論大小寫字母是否有效,請選擇此選項。 |
忽略空間 |
真假 |
如果你希望相似度算法無論文本中的空格數如何都能工作,請選擇此選項。 |
最大匹配數 |
數字正值0~2147483647 |
可以與一個值匹配的行數。 |
轉型表 |
表 |
這就像一個映射表,讓我們稍后在這篇文章中查看它。它為你提供了使用自己的映射表的選項。該表應至少有兩列“To”和“From”。 |
1.Power BI免費下載:http://www.yeacer.com/
Microsoft Power BI Desktop中文最新版:下載地址
2.歡迎加入的Power BI技術群,目前正在學習階段,有興趣的朋友可以一起學習討論。
Power Data技術交流群:702966126 (驗證注明:博客園Power BI)
更多精彩內容請關注微信公眾號:悅策PowerBI
如果您覺得閱讀本文對您有幫助,請點一下“推薦”按鈕,您的“推薦”將是我最大的寫作動力!歡迎各位轉載,作者博客:https://www.cnblogs.com/yeacer/