python用kemeans對關鍵詞進行分類

本文轉載自查看原文 2020-03-22 22:32 990

#計算關鍵詞的tfidf
from sklearn.cluster import KMeans
import pymysql

def mysql():
    db = pymysql.connect(host='localhost', user='root', passwd='199126', db='kettle', port=3306, charset='utf8')
    cursor = db.cursor()
    sql1 = "SELECT guanjianci,id,jianjie FROM keji3_copy1 "

    cursor.execute(sql1)
    alldata = cursor.fetchall()
    corpus = []
    for s in alldata:
        guanjian = s[0]
        id = s[1]
        jianjie=s[2]

        corpus.append(jianjie)
    return corpus

def update(i,a):
    db = pymysql.connect(host='localhost', user='root', passwd='199126', db='kettle', port=3306, charset='utf8')
    cursor = db.cursor()
    try:
        sql1 = "UPDATE keji3 SET fenlei ='%s' where id = %s" % (i, a)

        cursor.execute(sql1)
        # 提交到數據庫執行
        db.commit()
    except:
        print("2")

        # 打印結果
    print(i,a)
# !/usr/bin/env python
# -*- coding: utf-8 -*-
'''
Author: razrlele
Email: razrlele@gmail.com
'''
import jieba
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans


def jieba_tokenize(text):
    return jieba.lcut(text)


tfidf_vectorizer = TfidfVectorizer(tokenizer=jieba_tokenize, lowercase=False)
'''
tokenizer: 指定分詞函數
lowercase: 在分詞之前將所有的文本轉換成小寫，因為涉及到中文文本處理，
所以最好是False
'''
text_list = mysql()
# 需要進行聚類的文本集
tfidf_matrix = tfidf_vectorizer.fit_transform(text_list)

num_clusters = 20
km_cluster = KMeans(n_clusters=num_clusters, max_iter=300, n_init=40, init='k-means++', n_jobs=-1)
'''
n_clusters: 指定K的值
max_iter: 對於單次初始值計算的最大迭代次數
n_init: 重新選擇初始值的次數
init: 制定初始值選擇的算法
n_jobs: 進程個數，為-1的時候是指默認跑滿CPU
注意，這個對於單個初始值的計算始終只會使用單進程計算，
並行計算只是針對與不同初始值的計算。比如n_init=10，n_jobs=40, 
服務器上面有20個CPU可以開40個進程，最終只會開10個進程
'''
# 返回各自文本的所被分配到的類索引
result = km_cluster.fit_predict(tfidf_matrix)

a=0
for i in result:
    a=a+1
    update(i,a)