如何使用數據質量和模糊匹配



什么是數據質量(Data Profiling)?

數據質量是PowerBI 10月更新的新功能,我們可以通過他查看數據的整體情況和結構,能反映出數據的質量好壞,目前只能在10月Desktop版本中可以看到。而且一次只能預覽到1000行的數據質量,相信PowerBI很快將預覽到更多的數據質量。

 

開啟數據質量預覽功能

數據質量是(2018年10月)的預覽功能。在選項設置中打開它。

 

 

打開選項,點擊預覽功能,再勾選啟用列分析,點擊確認后,我們需要重啟一下PowerBIDesktop,這樣他的功能就開始生效了。 

 

加載和配置一些數據

我們通過Excel快速加載一些數據,然后選擇編輯啟動Power Query。

 

進入PowerQuery,我們可以看到標題底部多了一條橫線,這是數據質量分析第一個功能。紅色表示錯誤,灰色表示空白,綠色表示正常。

 

接下來我們要做的是,進入視圖菜單並打開列分發,如下圖所示,我們可以到數據質量分析的條形圖。這里統計着數據的重復性和唯一性,這是數據質量的第二個功能。

 

再接着,我們打開列質量,我們可以看到下圖,新的一橫。里面有提示有效的、錯誤的、空的數據質量占比。這是數據質量分析的第三個功能。

 

通過上面3個功能,我們可以快速的見解到我們的數據質量是不是很健康。可以幫助我們改善我的模型健康程度。

 

模糊合並(Fuzzy Matching)

模糊合並是一種將兩個表連接在一起的方法,但不是在完全匹配條件上,而是在相似性閾值上做匹配。

有時候我們會遇到這樣的問題,比如下圖,我們的部門名稱,有時候因為錄入的問題導致不一致,但是這些數據又是有效的,單獨通過部門匹配無法全部匹配出來。下面我們可以通過模糊合並,把這些有效數據合並出來。

 

 

同樣的,我們需要先打開設置里面的選擇,然后點擊預覽功能,勾選啟用模糊合並,再重啟 PowerBI Desktop 這樣我們的功能才能生效。

 

然后我們導入一下數據,啟動Power Query.

 

然后我們在開始里面。找到合並查詢

 

打開我們的合並查詢,現在我們看到我們的銷售表,我們看到了部門,下面我們選擇我們的部門表。

 

 

加載部門表后,我們選擇銷售部門這一列,然后再選擇部門表的部門這一列。點擊確認,開始匹配。

 

匹配完成后,我們並沒有直接看到我們想要的數據,我們需要點擊列的右上角,選擇展示的列名稱,我們選擇部門組長。

 

確認后,我們可以看到以下圖。

 

為了更直觀看對比,我們把組長的部門也帶出來,我們看到只有趙豆組長的部門能匹配到,其他匹配為空。

 

接下里,我們嘗試模糊匹配看看。同樣的操作,打開合並查詢,選擇對應的部門列,接下里我們要勾選使用模糊匹配。然后閥值設置0.9。

 

 

確認后,我們再設置好列,現在我們對比看看。部門跟部門都匹配對上了,假如這些都是有效的數值,那么你可以通過模糊合並把這些數據合並起來。

 

選項

可接受的價值

描述

閾值

0.00~1.00

如果兩個文本值的相似度大於閾值,則將其視為成功匹配。值1.00表示完全匹配。

忽略大小寫

真假

如果你希望相似度算法無論大小寫字母是否有效,請選擇此選項。

忽略空間

真假

如果你希望相似度算法無論文本中的空格數如何都能工作,請選擇此選項。

最大匹配數

數字正值0~2147483647

可以與一個值匹配的行數。

轉型表

這就像一個映射表,讓我們稍后在這篇文章中查看它。它為你提供了使用自己的映射表的選項。該表應至少有兩列“To”和“From”。

 


 1.Power BI免費下載:http://www.yeacer.com/

    Microsoft Power BI Desktop中文最新版:下載地址

2.歡迎加入的Power BI技術群,目前正在學習階段,有興趣的朋友可以一起學習討論。 

   Power Data技術交流群:702966126 (驗證注明:博客園Power BI) 

   更多精彩內容請關注微信公眾號:悅策PowerBI          


如果您覺得閱讀本文對您有幫助,請點一下“推薦”按鈕,您的“推薦”將是我最大的寫作動力!歡迎各位轉載,作者博客:https://www.cnblogs.com/yeacer/ 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM