本文轉載自查看原文 2018-11-05 17:40 1490

什么是數據質量（Data Profiling）？

數據質量是PowerBI 10月更新的新功能，我們可以通過他查看數據的整體情況和結構，能反映出數據的質量好壞，目前只能在10月Desktop版本中可以看到。而且一次只能預覽到1000行的數據質量，相信PowerBI很快將預覽到更多的數據質量。

開啟數據質量預覽功能

數據質量是（2018年10月）的預覽功能。在選項設置中打開它。

打開選項，點擊預覽功能，再勾選啟用列分析，點擊確認后，我們需要重啟一下PowerBIDesktop，這樣他的功能就開始生效了。

加載和配置一些數據

我們通過Excel快速加載一些數據，然后選擇編輯啟動Power Query。

進入PowerQuery，我們可以看到標題底部多了一條橫線，這是數據質量分析第一個功能。紅色表示錯誤，灰色表示空白，綠色表示正常。

接下來我們要做的是，進入視圖菜單並打開列分發，如下圖所示，我們可以到數據質量分析的條形圖。這里統計着數據的重復性和唯一性，這是數據質量的第二個功能。

再接着，我們打開列質量，我們可以看到下圖，新的一橫。里面有提示有效的、錯誤的、空的數據質量占比。這是數據質量分析的第三個功能。

通過上面3個功能，我們可以快速的見解到我們的數據質量是不是很健康。可以幫助我們改善我的模型健康程度。

模糊合並（Fuzzy Matching）

模糊合並是一種將兩個表連接在一起的方法，但不是在完全匹配條件上，而是在相似性閾值上做匹配。

有時候我們會遇到這樣的問題，比如下圖，我們的部門名稱，有時候因為錄入的問題導致不一致，但是這些數據又是有效的，單獨通過部門匹配無法全部匹配出來。下面我們可以通過模糊合並，把這些有效數據合並出來。

同樣的，我們需要先打開設置里面的選擇，然后點擊預覽功能，勾選啟用模糊合並，再重啟 PowerBI Desktop 這樣我們的功能才能生效。

然后我們導入一下數據，啟動Power Query.

然后我們在開始里面。找到合並查詢

打開我們的合並查詢，現在我們看到我們的銷售表，我們看到了部門，下面我們選擇我們的部門表。

加載部門表后，我們選擇銷售部門這一列，然后再選擇部門表的部門這一列。點擊確認，開始匹配。

匹配完成后，我們並沒有直接看到我們想要的數據，我們需要點擊列的右上角，選擇展示的列名稱，我們選擇部門組長。

確認后，我們可以看到以下圖。

為了更直觀看對比，我們把組長的部門也帶出來，我們看到只有趙豆組長的部門能匹配到，其他匹配為空。

接下里，我們嘗試模糊匹配看看。同樣的操作，打開合並查詢，選擇對應的部門列，接下里我們要勾選使用模糊匹配。然后閥值設置0.9。

確認后，我們再設置好列，現在我們對比看看。部門跟部門都匹配對上了，假如這些都是有效的數值，那么你可以通過模糊合並把這些數據合並起來。

選項	可接受的價值	描述
閾值	0.00~1.00	如果兩個文本值的相似度大於閾值，則將其視為成功匹配。值1.00表示完全匹配。
忽略大小寫	真假	如果你希望相似度算法無論大小寫字母是否有效，請選擇此選項。
忽略空間	真假	如果你希望相似度算法無論文本中的空格數如何都能工作，請選擇此選項。
最大匹配數	數字正值0~2147483647	可以與一個值匹配的行數。
轉型表	表	這就像一個映射表，讓我們稍后在這篇文章中查看它。它為你提供了使用自己的映射表的選項。該表應至少有兩列“To”和“From”。

1.Power BI免費下載：http://www.yeacer.com/

Microsoft Power BI Desktop中文最新版：下載地址

2.歡迎加入的Power BI技術群，目前正在學習階段，有興趣的朋友可以一起學習討論。

Power Data技術交流群：702966126 (驗證注明：博客園Power BI)

更多精彩內容請關注微信公眾號：悅策PowerBI

如果您覺得閱讀本文對您有幫助，請點一下“推薦”按鈕，您的“推薦”將是我最大的寫作動力！歡迎各位轉載，作者博客:https://www.cnblogs.com/yeacer/

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 數據庫（Oracle）中模糊匹配查詢“_”的使用數據質量 — 使用amazon deequ作為spark etl數據質量檢測使用vlookup的模糊匹配和字符串拼接 es 基於match_phrase/fuzzy的模糊匹配原理及使用 python中RabbitMQ的使用（路由鍵模糊匹配）視頻質量診斷----模糊檢測 scala (8) 模糊匹配模糊匹配算法 Redis 模糊匹配 SearchKeys grep是模糊匹配