POI數據校驗


  POI數據校驗是POI數據正確性的保證,而針對結果校驗是數據發布正確性的最后一道保障,所以對數據校驗需要在多個緯度進行,力求POI的正確性。

  數據變更主要分為狀態變更、關鍵字段變更以及詳情字段變更。其中狀態變更影響最大,可以造成線上POI的上下線狀態改變,而基礎字段和詳情字段則會影響業務的正確性。須知數據變更引起的原因有多種,基本可以分為3類:

      1. 數據來源變更   

      2. 處理策略變更   

      3. 系統性錯誤

  1.  數據來源變更,數據新增、下線接入來源或者既有來源的大量數據變更都可能造成POI數據變化;

  2. 處理策略變更,處理過程中針對狀態或者關鍵字段的策略變化會引起數據變化,例如新增一個名稱過濾策略,如果名稱不合法則將數據直接過濾下線,如果這個策略影響面較大會造成數據的大面積下線;而如果名稱策略只是將不合法字符屏蔽那么數據會上線,而名字可能和實際POI有出入。

  3.  系統性錯誤則是指在處理過程中bug造成的數據錯誤,這種錯誤影響的數據會比較集中造成的數據面影響會比較大,但是也最容易發現,只需比較新的數據結果與上一版本數據是否變更,變更率是否有明顯變化則可以迅速預警數據系統性錯誤。

  數據校驗:

    字段校驗: POI數據字段的值類型,取值范圍的校驗,實現過程可以將規則寫入配置,當規則有變化時可以通過修改配置實現與代碼分離

    規則校驗:對數據整體設置校驗規則,如某個字段必須有值以及和某個字段有校驗規則,某個字段有值率的占比,當不符合規則時則進行攔截

    變更校驗:比較本次發布數據和上一次發布數據的變更,包括數據新增和下線,以及兩次發布同時存在的數據字段的變更,當沒有變更時名稱、地址、坐標作為關鍵字段其變化率應少於1‰,如果變更多余該值則應該確認數據來源、策略是否有變更,且變更結果符合預期。

  因此數據校驗和策略、數據接入應進行聯動;當數據接入有變化時如數據在一段時間內接入數據變化可能引起的POI集合變化;數據策略變更引起的結果變化以及預期的結果應有告知的流程,並與校驗的結果互相印證;當變更預期與預先設計不符時,應該引入人工評測,評估本次數據變更是否對數據有積極影響,判斷是否上線。    


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM