“AIIA”杯-國家電網-電力專業領域詞匯挖掘


十一之前一直在做“電力領域的詞典構建”任務,今天也去聆聽了前五支隊伍的報告,現結合這段時間來的項目經歷,寫一下自己的若干心得。

電力領域的詞典構建——方法1(非監督學習)

        在電力領域詞典構建心得1.0中介紹到我們的非監督方法思路主要是:爬取CNKI中關於電力的文獻的摘要並提取每一個摘要的關鍵詞,然后利用比賽的原語料中詞頻的分布篩選排序關鍵詞並得出最后的“電力方面的詞典”(此版本前10000詞的正確率是0.438)。之后我的優化思路是利用基於比賽語料訓練好的詞向量進一步篩選之前得出的“電力方面的詞典”。但是,最后的結果收效甚微。今天的五支參賽隊伍中也有一只隊伍使用的方法是“種子詞+Word2Vec”,聯想到自己方法,我覺得我的非監督方法在想法和方法上有錯誤。思路上的錯誤是,在發現“電力方面的詞典”的覆蓋率只有50%(整個“電力方面的詞典”)的情況下,沒有積極拓展詞典的覆蓋率而是采用“Word2Vec”提純的方法。是我錯估了這個方法的效果,因為我做的最好效果是取出前1萬詞中6%不是電力領域的詞,並把后1萬種中6%的正確詞給提取來放到前一萬個中!不得不說這對算法的性能要求很高,確實不是首先的優化方法。同時,我當時只是想盡可能的排除前10000個詞中的“非電力詞”而沒有提升后10000個詞中的電力詞,這樣即使做的再好也只是把前43.8%的詞集中到一起而對后6%的詞的選拔沒有任何幫助!另外在具體的操作過程中,對於前10000個詞的篩選,我的種子詞是前10000個詞本身。可是我的種子詞只有43.8%是真正的電力領域的啊!這就是說我的種子詞有57%的詞是非電力詞,43%的詞是電力的詞而我要用它選出電力詞的思路本身就是錯的!

        基於以上的思路,采用Word2Vec優化的方法出來的結果是不好的!

電力領域的詞典構建——方法2(監督學習)

        方法2的思路是采用是自動標注數據集加LSTM+crf的方法。其中,我們的語料采用的詞典是由方法1得出的。可是不幸的是,我們的詞典只覆蓋了50%(2萬大小)的語料。這樣即使我們訓練出模型后,我們的結果一定一定會差於43%(前10000詞)。但是,我們卻沒有添加網上的電力詞詞典直接回標語料(失敗!!!)!其次,在使用Bi-LSTM+crf訓練語料的時候我們一開始使用的是基於詞的標記。這種方法在訓練的過程中相對而言沒有什么大的問題,但是在標記比賽所給的10000篇語料的時候還是存在很大問題的。主要是分詞的錯誤會減少語料中電力詞匯的識別性能且常用分詞工具在專業詞的切分上效果通常更差!

        通過這次比賽感覺,自己在方法和思路上有很多欠缺,希望之后的自己可以越來越好!


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM