前幾天TJ君跟大家分享了幾個有趣的Github項目(加密解密、食譜、新冠序列,各種有趣的開源項目Github上都有),其中呢,有不少是來自斯坦福大學的項目,當時TJ君就不由得想,什么時候能看到的項目都是我天朝名校,例如清華北大的出品呢?
沒想到打臉是來的這么快,馬上就有小伙伴跟TJ君推薦了一款由清華出品的開源項目,讓TJ君和大家分享分享,話不多說,上菜!
萬詞王,就是清華大學最近在GitHub上開源的全球首個支持中文及跨語言查詢的開源在線反向詞典
是不是聽上去特別高大上?
但肯定很多小伙伴自豪的同時腦海中浮現出一個問題,什么是反向詞典?
TJ君簡單跟大家解釋下,一般我們常用的字典,是通過輸入某個單詞,來查找單詞的含義,例如,你去查頂呱呱,解釋就是最好:
那么如果你想表達最好的意思,卻一下子忘記了頂呱呱的說法,這可怎么辦呀?反向詞典就是派這個用途,讓你反向通過解釋查到你想表達的詞語!
清華大學的萬詞王就是利用之前其發布的論文中提到的多通道反向詞典模型:Multi-channel Reverse Dictionary Model訓練達到這個效果,很多人可能對此不以為然,但要知道醫學上可是專門有個症狀叫做 “舌尖現象”(tip-of-the-tongue,又稱話到嘴邊說不出來),反向詞典正好可以解決這個問題。
尤其是對於現在的年輕人來說,電子設備的發展讓大家接觸傳統書本、書寫漢字的機會越來越少,往往有時候話到嘴邊說不出來。
反向字典支持漢語、漢英、英漢、英語,四種不同的形式:
我們以中文為例來看下,比如TJ君想搜索一個跟嫵媚有關的詞匯,搜索結果是這樣的:
看到這么多查詢結果,首先TJ君的第一感覺就是覺得自己詞匯的匱乏,同時萬詞王在搜索的結果上還允許用戶進行字數、筆畫、詞性、拼音、詞型、韻腳、相關性的進一步高級搜索,方便小伙伴找到最適合自己想表達意思的詞語,不得不對清華的這個項目翹個大指拇點個贊。
萬詞王的數據基礎取自中華新華字典數據庫,也是在Github上開源的項目,包括了各種歇后語,成語,詞語,漢字。確保了反向字典的正確性。
TJ君會一並分享給大家,包括前文提到的多通道反向詞典模型論文,所以想學習的小伙伴,趕緊來和清華學子們一起切磋切磋吧:https://mp.weixin.qq.com/s/xfJAYz46hxm3mfXdocygJQ