python3 自己写的一个小算法（比对中文文本相似度）

本文转载自查看原文 2019-11-07 16:07 625

函数使用说明：

函数的三个参数分别是“匹配语句”，“匹配语料”，“相关度”；

匹配语句，和匹配预料中的语句匹配的语句，必须为字符串；

匹配语料，被匹配语句来匹配的语句列表，必须为列表；

相关度，函数只会输出匹配预料中匹配度大于相关度的的语句；

函数返回类型为列表；

算法原理：从文本内容匹配度与文本顺序匹配度两个维度进行衡量。

a=["早上吃了没",'吃过没','吃了没','刚吃过吗']
b='吃了吗'
ltextmatch(b,a,0.5)

但就从中文来说，本来写这个主要是因为自己和同学再尝试做一个智能聊天机与数据分析可视化机器人，自己是负责聊天这一块。由于中文复杂的语法和歧义，在语句匹配中，或者说是在对话匹配中其实最重要的还是语料库，从理论上来说只要语料库够全，程序要做的只需要匹配就可以了，算法只能是一个锦上添花的东西，毕竟一句话可能就单单因为一个字或者一个符号的不同导致其含义天差地别。

源码：

def ltextmatch(a,b,c):
    if isinstance(a,str):
        if isinstance(b,list):
            if isinstance(c,float)and 0<c<1:
                m=[]
                for z in b:
                    z=str(z)
                    l,k,j,h=0,0,0,0
                    if len(z)>=len(a):
                        for x in a:
                            if x in z:
                                l+=1
                        for x in a:
                            if x in z:
                                k=z.index(x)
                                j=a.index(x)
                                break
                        if len(z)-k>=len(a)-j:
                            for x in range(0,len(a)-j):
                                if z[k+x]==a[j+x]:
                                    h+=1
                        else:
                            for x in range(0,len(z)-k):
                                if z[k+x]==a[j+x]:
                                    h+=1
                        if (l+h)/len(z)/2>=c:
                            m.append(z)
                    else:
                        for x in z:
                            if x in a:
                                l+=1
                        for x in z:
                            if x in a:
                                k=z.index(x)
                                j=a.index(x)
                                break
                        if len(z)-k>=len(a)-j:
                            for x in range(0,len(a)-j):
                                if z[k+x]==a[j+x]:
                                    h+=1
                        else:
                            for x in range(0,len(z)-k):
                                if z[k+x]==a[j+x]:
                                    h+=1
                        if (l+h)/len(a)/2>=c:
                            m.append(z)
                return m
            else:
                print('相关度必须为浮点型且在0—1之间')
        else:
            print('匹配语料必须为列表')
    else:
        print('匹配语句必须为字符串')

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 使用余弦相似度算法计算文本相似度 js 文本相似度文本相似度-BM25算法利用simhash计算文本相似度 C#/.NET计算文本相似度 Java根据余弦定理计算文本相似度文本相似性计算--MinHash和LSH算法 python实现的一个中文文本摘要程序 java中利用hanlp比较两个文本相似度的步骤大数据之路【第十二篇】：数据挖掘--NLP文本相似度