前言
上篇文章中講到,在智能電網的控制與管理側中,數據的分析和挖掘、可視化等工作屬於核心環節。除此之外,二次側中需要對數據進行采集,數據共享平台的搭建顯然也涉及到數據的管理。那么在智能電網領域中,數據工程到底是如何實施的呢?
本文將以IBM的Itelligent Utility Network產品為例闡述智能電網中的數據工程,它是IBM聲稱傳統電網向智能電網轉變的整體方案(看過上篇文章的童鞋想必會清楚這樣的說法是片面狹隘的,它只能算是智能電網中的數據工程)。
另一方面,如今是一個數據爆炸的時代,電力領域也不例外。隨着大量高級傳感器、智能量測系統投入使用,大量的設備狀態數據、用戶用電數據、電網運營數據等被匯集到電網數據中心,這就需要先進大數據技術對這些海量數據進行實時分析,並實時挖掘出其潛在價值。
所幸目前已有不少大數據技術成功應用到電網,促進了電網的智能化發展。本文也將重點分析兩個經典大數據應用案例,讓讀者品味電網領域中大數據的味道。
智能電網中的數據工程 - Intelligent Utility Network@IBM
Itelligent Utility Network是IBM公司提出的一個很不錯的智能電網數據工程方案,筆者認為IBM作為全球商用軟件巨頭,提出的這套方案質量還是比較高的,起碼看起來像那么回事。當然這款產品也只是IBM在智能電網領域的初期嘗試,隨着智能電網的迅速發展,IBM必然會推出更新更強大的數據產品。另外SAP、Oracle、華為、阿里等公司想必也不會放過這塊蛋糕,加入進來也應該是遲早的事情。
接下來是該款產品的定義:Itelligent Utility Network首先利用傳感器對發電、輸電、配電、供電等關鍵設備的運行狀況進行監控,其次將獲得的數據通過網絡系統進行收集、整合,最后通過對數據的分析、挖掘,達到對整個電力系統的優化管理。顯然在IBM的眼里,智能電網的數據工程就是各種信息收集基礎設施(如傳感器)+中央數據分析運營平台,以實現對電力客戶、電力資產、電力運營的持續監視,進而提高電網公司的管理、工作水平。
IBM認為智能電網數據工程主要分成以下五大組成部分:
1. 數據采集
IBM認為智能電網中的數據相比傳統電網來源要更加廣泛,它主要分為三個部分:
其中,電網運行數據可用於電網調度中心制定輸電配電策略;設備狀態數據可用於開展設備狀態檢修和狀態評估;客戶計量數據能加強電網公司對用戶用電行為的檢測,強化需求側管理。管理好這些數據,就能實時掌握電網的運行狀態,及時地制定電力調度、設備維修等策略。
2. 數據傳輸
在數據采集方面,IBM認為智能電網中數據量大、采集點多且分散,且實時性要求較高。針對這種情況,應當摒棄現有基於SCADA的采集方式,改用基於IP的實時數據傳輸方式進行傳輸。PS.筆者前段時間去參加亞洲智能電網展的時候,看過不少公司專門負責做電網中的數據通信,不知這個模塊IBM是不是找其他公司來做的。
3. 數據集成
這個應該算是IBM的老本行了,他們在世界各地都有開設些講座、研討會,有空可以去聽一聽了解下。在傳統數據集成這一塊,IBM做的是真的不錯。筆者過去在A公司工作的時候,主管就是來自IBM的,他對數據的思考非常獨到,非常犀利。
不扯遠了......針對電網中的數據集成,IBM提出了建立企業信息總線(ESB)以實現企業的數據集成:將各業務系統的數據集成到統一數據倉庫里,底層建模遵照CIM標准。
4. 分析優化
分析優化環節顯然是最核心的環節,IBM提出將智能電網的優化分為四個層次,建立了分析層次結構,從而指導用戶對電力數據進行深層次利用。該部分涉及到很多電力系統的具體業務細節,本文篇幅所限不對此進行深入研究。但對於電網公司的數據工作人員,筆者認為應該掌握、精通類似工具。
5. 數據展現
數據展現是智能電網面向用戶或者電網工作人員的接口,用戶/工作人員可根據自身需求配置需要展示的各種信息及可視化方式。
智能電網中的大數據技術體系
1. 工程框架
不論是電力領域的大數據,還是諸如運營商、電商等領域的大數據,其基本架構都大抵相同:
最底層的業務系統層包含電網中各種不同類型的數據源;數據倉庫層用於實現ETL以及相應的數據質量保障工作,並對電力數據進行各種建模以滿足多種分析統計的需要;數據引擎層包含從上層應用系統中提煉出的一些數據開發工作,常見的有數據分析引擎、數據挖掘引擎、數據可視化引擎、推薦引擎等等;應用系統層則是面向用戶的系統,以網站或APP、專業客戶端等形式向用戶提供數據服務。
2. 關鍵技術
主要包含傳統的數據管理領域技術,以及當今比較火熱的Hadoop/Spark生態圈提供的各種分布式數據分析、數據挖掘、推薦系統等工具。其中前者相關技術通常來說比較專有化,大都由類似IBM這樣的商用軟件公司負責,並不具備太多理論研究價值;后者則是這幾年大數據領域興起的產物,一般我們所說的電力大數據,都是和這些技術息息相關。有興趣的讀者可關注Hadoop、Spark生態圈,某種程度上來說,電力大數據就是這些技術在電力行業的應用:
非常有趣的是,上述這兩類關鍵技術所代表的公司近幾年開始有了"融合"的趨勢。IBM等傳統數據領域巨頭開始擁抱Hadoop、Spark等開源工具,而一些大數據領域的巨頭公司,如阿里雲,也開始注重其大數據平台上的元數據管理,主數據管理,數據生命周期等傳統數據管理話題。相信不久以后就能看到他們碰撞的火花~(~o ̄▽ ̄)~o
智能電網中的大數據案例:大電網中的居民用電負荷預測
對居民用電負荷做預測是電網公司的經典需求,它能為電網調度中心提供決策支持,能指導發電廠給出指導意見,還有助於電力系統提升安全性和穩定性:比如"重點關照"負荷較大區域的輸電設備和線路。這個需求也是現在大數據在電力行業應用得較為成功的一個案例,目前應該有很多乙方公司來做了,但具體的效果如何筆者還不是特別清楚,歡迎同行來和我交流探討。
該系統的總體思路是對每個用戶進行獨立預測,最后累加得到各區域或者電網總用電量,總體步驟如下圖:
1. 負荷曲線聚類分析
使用聚類技術將各用戶用電規律相近的負荷日期歸為一類。聚類的特征可設定為和用電有關的所有因素;聚類結束后,應使用可視化的方式觀察不同簇內的負荷曲線是不是長得比較像,不是的話請調整簇個數。
PS.系統的研究對象是日負荷曲線而不是用戶,這點請讀者不要搞混。
2. 確立關鍵影響因素
采用關聯分析(如灰色關聯度)的方法確定對負荷影響最大的幾個因素。一般來說,氣溫、風速、雨量等是對負荷的影響比較大。如何提取關鍵特征是數據挖掘領域一個比較熱門的話題,R語言、Ptyhon、Mahout、MLLib都應該有封裝好的實現,讀者也可前往有關技術交流群和同行進一步交流探討,本文點到為止。
3. 建立分類訓練集
這一步工作將基於1和2的結果產出后面用於預測負荷曲線所屬分類的訓練集。新的訓練集的特征是2中選中的關鍵特征,標簽則是1中日期負荷曲線的聚類結果。
4. 將待預測日分類
提取待遇側日的關鍵特征,以3中構建的新訓練集為基礎進行分類,判斷出當前負荷曲線所屬類別。好吧,讀者有沒有發現1-4的過程其實就是一個【無監督在線分類學習】過程。
5. 訓練預測模型並預測
選擇訓練集中待預測日所屬分類(4中計算得出)的子集為新訓練集,對待預測日的負荷進行回歸預測。可考慮采用線性回歸、SVR、GBDT等回歸算法,而特征依然選定為2中提取出的關鍵特征。
6. 計算電網負荷
利用Hadoop/Spark大數據平台對所有用戶進行預測,並累加得到電網系統的負荷情況。至此,該系統就能預測出未來電網各區域,總區域的總用電負荷。
智能電網中的大數據案例:基於海量紅外圖像分析的電氣設備故障檢測
近些年來,越來越多的智能變電站采用智能機器人、無人機進行巡檢。這些巡檢設備通過高清攝像頭、紅外攝像頭等捕獲輸變電設備的可見光、紅外等設備檢測圖像。通過對設備紅外成像的分析,我們能獲知設備各區域的溫度情況,進而對設備故障進行分析。
用較為專業的話來說,該系統是"利用非接觸式的紅外熱成像儀實現電器設備的在線監測,獲得實時的紅外圖像,並提取電氣設備典型溫度數據,在此基礎上建立電氣設備溫度的歷史和實時數據庫,再結合數據挖掘技術,最終建立電氣設備故障診斷與報警自動決策系統"。聽起來很流弊(☆゚∀゚)。
其實該系統的總體架構並不算很復雜,如下圖所示:
1. 將海量紅外圖像存放到HBase數據庫里。HBase是分布式的NoSQL數據庫,是Hadoop生態圈里的標桿項目之一,有關它以及NoSQL數據庫介紹請讀者自行查閱有關資料。
2. 采用MapReduce的方式訪問該數據庫,以數據並行化的方式對各個圖像進行預處理。這一步將矩陣格式的圖像轉換為指定規則的向量,並對采用人工方式對其中一部分抽樣圖像打上標簽(正常/故障0/故障1...)。
3. 最后采用神經網絡或者SVM等算法對格式化后(未被標記)的紅外圖像進行故障分類預測。相比於2,這一步的並行可以稱之為任務、或者計算並行。
小結
隨着科技的不斷進步,各種各樣的數據(傳感器數據、設備數據、用電數據、資產數據......)都將更快更准地匯總到電網的數據中心,構建電網新一代數據工程越來越迫切。說得通俗些,我們將散布在南方五省區域的所有數據匯集起來,形成資產化的管理,直觀地可視化分析,對大電網的一切了若指掌,這不是一件很有意義的事情嗎?
另一方面,大數據在電力行業的發展很有潛力。據筆者了解,除本文講到的兩個案例,目前電力大數據的應用還有不少,如配電網低電壓預測、線損計算分析、乃至電力資產系統、語音投訴系統等。但由於一些傳統原因,應用的深度遠遠不夠,電網距離"多指標,自趨優"的終極目標也還很遠,同志們仍須努力。