使用百度EasyDL定制化訓練和服務平台有一段時間了,越來越能體會到EasyDL的易用性。在此之前我也接觸過不少的深度學習平台,如類腦平台、Google的GCP深度學習平台、AWS深度學習平台,但我覺得EasyDL在模型訓練和使用上給了開發者更大的輔助:開發者或者用戶只需要提交對應格式的訓練文件,即可開始深度學習之旅。我的專業是自然語言處理中的情感分析,用的語料主要是電商評價文本數據,下面簡單介紹一下情感分析任務。 情感分析(Sentiment Analysis,簡稱SA)綜合了自然語言處理(Nature Language Processing,簡稱NLP)、機器學習(Machine Learning,簡稱ML)、文本挖掘、信息抽取與檢索、概率統計等多個學科,是一種對用戶生成數據(User Generate Content,簡稱UGC)中帶有情感色彩的主觀內容進行抽取、分析、處理、歸納和推理的融合技術,通過自動的分析某種產品/服務評論的文本內容,發現消費者對該產品/服務的態度和意見,對文本情感傾向,具體如褒/貶,好/壞,支持/反對等做出定性判斷,並對其中的情感傾向性的強度做出分析。 所以基本上我的工作和研究都是以文本為主,那么分詞、去停用詞、合並同義詞、建立詞向量模型等等很多預處理步驟都由自己手動來處理,還有后面的機器學習分類技術,包括SVM、貝葉斯、決策樹和Text-CNN等,整體流程非常繁瑣,絕大多數時間都在預處理數據花費掉了。但是自從接觸了EasyDL平台之后,我覺得自己的研究生生涯開始走向了巔峰,因為這個平台使我見識到了深度學習竟然可以如此簡單,絕大多數的工具都是由系統完成,只需要按照固定的格式進行提交即可,以至於目前唯一所要做的文本標注的工作都交給了網絡爬蟲自動標注完成。通過使用用戶打分和文本評價進行結合,完成文本標簽化,這些技術的實現極大地促進了我在大數據環境下的數據挖掘任務,使我從繁重Python代碼實現中解脫出來。 使用EasyDL的訓練結果和我之前的情感分類結果對比發現:我自己之前使用Word2vec和Text-CNN結合所實現的情感分類准確度達到了99.28%,如圖1所示,但是花費的時間比較巨大,耗費的資源也較大。一般工業使用的准確率在80%以上即可,於是我又將相同的數據放到EasyDL上進行訓練,訓練的情感分類模型的准確率在88%,如圖2所示,成績不錯,基本滿足工業需求,EasyDL定制化訓練和服務平台使我的開發和使用成本極大縮短。我相信以后在開發者的協作下,百度EasyDL在模型准確率方面能更上一層樓。 圖1 自己的CNN情感分類模型 圖2 百度EasyDL訓練結果 接下來我將敘述一下在具有文本標注集的基礎上,如何在EasyDL平台上實現通過API接口上傳文本文件進行模型訓練。 (1)首先將文件進行分類壓縮,文件夾的名字即是txt文件的標簽且數目大於2,具體的上傳要求平台已有介紹如圖4。下圖3查看上傳至平台的數據情況,為簡單的情感二分類。 圖3 上傳后的文本數據集 圖4 文本數據集上傳結構 數據集內部結構如下圖5所示。 圖5 數據集內部結構 可以從數據集管理查看數據上傳情況,如下圖6所示。 圖6 查看數據集 (2)然后接下來開始訓練模型,首先填寫如下的模型說明,如下圖7所示。 圖7 模型介紹 然后點擊下一步開始添加情感分析所需要的數據集,本次我們使用褒義和貶義兩種數據集進行訓練,所以直接選用pos和neg數據進行訓練即可,如下圖8所示。 圖8 添加訓練的文本語料 當添加完文本語料之后,點擊訓練之后,EasyDL平台即可對數據集進行學習。可以點擊數據集管理,查看模型訓練的進展情況,模型訓練的時間與數據集的大小和復雜程度一致,在這里為了演示demo,我選擇了較小的數據集,訓練界面如下圖9所示。 圖9 平台學習文本的界面 (3)模型訓練好之后,需要對模型進行校驗,以便了解模型的性能,模型的准確率和召回率都為88%,本次選用的數據集較小,結果尚可,校驗的結果如下圖10所示。之后若有需要還可以增加文本訓練集的數量,從而進一步提升識別的准確率。 圖10 文本情感分類模型校驗結果圖 (4)直接上傳文件進行文本的情感傾向測試了,下面看一下測試效果,首先選中一個未進行訓練的測試文件,然后點擊上傳即可對模型進行測試,結果如下圖11所示。 圖11 模型測試用例 (5)模型訓練好了之后,通過模型性能測試,就可以申請上線,填寫完表格即可制作文本情感分析API,在第一次的申請的時候,后台的客服小姐姐會打電話給你進行確認,我覺得這是使用EasyDL的一個小彩蛋,申請的具體的步驟如下圖12所示。 圖12 模型上線表格 至此,一個完整的文本情感分析模型就做好了,支持測試和繼續上傳文件進行再訓練,EasyDL平台對於開發者真的是比較友好,即使是在不太懂里面的原理的情況下,基於自己已標注的數據集也能進行深度學習的應用,在易用性上面做到了極致。希望后面在文本分類上加上參數調優的選項,能讓開發者進一步根據數據進行調參。我相信通過以后的版本迭代,百度工程師們能將模型的准確率提升到更高的層次。 作者:張振 |