余弦相似性計算及python代碼實現

本文轉載自查看原文 2017-11-03 17:44 11142 算法/ python

A：西米喜歡健身

B：超超不愛健身，喜歡打游戲

step1:分詞

A：西米／喜歡／健身

B：超超／不／喜歡／健身，喜歡／打／游戲

step2:列出兩個句子的並集

西米／喜歡／健身／超超／不／打／游戲

step3:計算詞頻向量

A：[1,1,1,0,0,0,0]

B：[0,1,1,1,1,1,1]

step4:計算余弦值

余弦值越大，證明夾角越小，兩個向量越相似。

step5:python代碼實現

import jieba
import jieba.analyse

def words2vec(words1=None, words2=None):
    v1 = []
    v2 = []
    tag1 = jieba.analyse.extract_tags(words1, withWeight=True)
    tag2 = jieba.analyse.extract_tags(words2, withWeight=True)
    tag_dict1 = {i[0]: i[1] for i in tag1}
    tag_dict2 = {i[0]: i[1] for i in tag2}
    merged_tag = set(tag_dict1.keys()) | set(tag_dict2.keys())
    for i in merged_tag:
        if i in tag_dict1:
            v1.append(tag_dict1[i])
        else:
            v1.append(0)
        if i in tag_dict2:
            v2.append(tag_dict2[i])
        else:
            v2.append(0)
    return v1, v2


def cosine_similarity(vector1, vector2):
    dot_product = 0.0
    normA = 0.0
    normB = 0.0
    for a, b in zip(vector1, vector2):
        dot_product += a * b
        normA += a ** 2
        normB += b ** 2
    if normA == 0.0 or normB == 0.0:
        return 0
    else:
        return round(dot_product / ((normA**0.5)*(normB**0.5)) * 100, 2)
	
def cosine(str1, str2):
    vec1, vec2 = words2vec(str1, str2)
    return cosine_similarity(vec1, vec2)

print(cosine('阿克蘇蘋果', '阿克蘇蘋果'))

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 余弦相似性計算【轉】文本相似性計算總結（余弦定理，simhash）及代碼 MachingLearning中的距離和相似性計算以及python實現基於python語言使用余弦相似性算法進行文本相似度分析 Spark Mllib里相似度度量（基於余弦相似度計算不同用戶之間相似性）（圖文詳解） [轉]使用余弦定理計算兩篇文章的相似性幾種相似性/距離(傑卡德距離和余弦距離)與其matlab實現幾種相似性/距離(傑卡德距離和余弦距離)與其matlab實現 TF-IDF算法與余弦相似性皮爾遜相關系數與余弦相似性的關系