一.先利用word2vec訓練數據得到模型
a.利用jieba對文本進行分詞,並只提取詞性為人名的詞,去除分詞長度為1和大於4的詞
b.利用word2vec訓練分詞后的文本,並存儲
c.利用訓練后的模型計算相關度詞
d.人工過濾一些雜項(由於分詞的不准確造成)
二.利用gephi畫圖
a.將相似數據組織成gehpi需要的數據結構
b.利用gephi畫圖,將調整
三.主代碼在https://github.com/jiangnanboy/similarity_words中
四.這里利用紅樓夢中的人進行計算,使用'薛寶釵', '賈璉', '巧姐', '賈雨村', '鳳姐', '賈寶玉', '林黛玉', '賈母', '邢夫人', '史湘雲'計算與它們的相似詞取前10個
五.顯示圖