mysql5.6 InnoDB 全文索引 FULLTEXT 中文解決方案 base64

本文轉載自查看原文 2018-03-20 11:47 3389 小技巧，小心得/ php小技巧

mysql5.6 innlDB 在CHAR、VARCHAR、TEXT類型的列上可以定義全文索引，但因為無法中文分詞所以對中文的支持很差，但從MySQL5.7開始，MySQL內置了ngram全文檢索插件，用來支持中文分詞，並且對MyISAM和InnoDB引擎有效。

在沒法升級5.7的情況下，5.6有變通的辦法，就是將整句的中文拆分成單個漢字，並按urlencode、區位碼、base64、拼音等進行編碼使之以"字母+數字"的方式存儲於數據庫中。轉換完達到如下的效果：

存儲的是將漢字編碼后的結果，用空格連起來，這樣就可以使用5.6的全文索引來進行搜索，注意的是要將搜索的內容也先同樣編碼再進行搜索。

下面給出一種基於base64的漢字變換方式

/**
* 關鍵詞整理函數(用作mysql的全文索引制作的搜索)
* 1.將字符串全角轉半角、去空格、大寫轉小寫、分成單個字符並base64編碼、最后用空格連接類,方便mysql索引,做搜索關鍵字
* 2.將數字轉全角做索引區分標識,全角數字為標識專用
**/
function keywords($str){

    // 全角轉半角
    $str = strtr($str,[
        '１' => '1','２' => '2','３' => '3','４' => '4','５' => '5','６' => '6','７' => '7','８' => '8','９' => '9','０' => '0',
        'Ａ' => 'A','Ｂ' => 'B','Ｃ' => 'C','Ｄ' => 'D','Ｅ' => 'E','Ｆ' => 'F','Ｇ' => 'G','Ｈ' => 'H','Ｉ' => 'I','Ｊ' => 'J','Ｋ' => 'K','Ｌ' => 'L','Ｍ' => 'M','Ｎ' => 'N','Ｏ' => 'O','Ｐ' => 'P','Ｑ' => 'Q','Ｒ' => 'R','Ｓ' => 'S','Ｔ' => 'T','Ｕ' => 'U','Ｖ' => 'V','Ｗ' => 'W','Ｘ' => 'X','Ｙ' => 'Y','Ｚ' => 'Z',
        'ａ' => 'a','ｂ' => 'b','ｃ' => 'c','ｄ' => 'd','ｅ' => 'e','ｆ' => 'f','ｇ' => 'g','ｈ' => 'h','ｉ' => 'i','ｊ' => 'j','ｋ' => 'k','ｌ' => 'l','ｍ' => 'm','ｎ' => 'n','ｏ' => 'o','ｐ' => 'p','ｑ' => 'q','ｒ' => 'r','ｓ' => 's','ｔ' => 't','ｕ' => 'u','ｖ' => 'v','ｗ' => 'w','ｘ' => 'x','ｙ' => 'y','ｚ' => 'z',
        '～' => '~','｀' => '`','！' => '!','＠' => '@','＃' => '#','＄' => '$','％' => '%','＾' => '^','＆' => '&','＊' => '*','（' => '(','）' => ')','＿' => '_','－' => '-','＋' => '+','＝' => '=',
        '｛' => '{','｝' => '}','［' => '[','］' => ']','｜' => '|','＼' => '\\','：' => ':','；' => ';','＂' => '"','＇' => '\'',
        '＜' => '<','，' => ',','＞' => '>','．' => '.','？' => '?','／' => '/','　' => ' '
    ]);
    // 去空格
    $str = str_replace(' ','',$str);
    // 大寫轉小寫
    $str = strtolower($str);
    // 數字統一格式為阿拉伯數字
    $str = strtr($str,['零' => 0,'一' => 1,'二' => 2,'三' => 3,'四' => 4,'五' => 5,'六' => 6,'七' => 7,'八' => 8,'九' => 9]);
    // 分成單個字符並base64編碼
    $str_len = strlen($str);

    // 獲取關鍵字集合
    $arr = [];
    $str_len = mb_strlen($str);
    for($i = 0;$i < $str_len;++ $i){
        $keyword = strtr(base64_encode(mb_substr($str,$i,1)),'+/=','abc');
        if(!in_array($keyword,$arr)){    // 去除重復的關鍵字
            $arr[] = $keyword;
        }
    }
    return $arr;
}

例如將字符串 '小明小紅是朋友' 輸入改函數，返回的結果是數組如下

array(6) {
 [0]=>
 string(4) "5bCP"
 [1]=>
 string(4) "5piO"
 [2]=>
 string(4) "57qi"
 [3]=>
 string(4) "5piv"
 [4]=>
 string(4) "5pyL"
 [5]=>
 string(4) "5YaL"
}

分別對應相應的漢字，注意小明和小紅都有小這個字，所以去掉重復的字，只有六個編碼。

然后用空格將數組連起來

$keywords = implode(' ',keywords($keyword));

將$keywords 存入數據庫。

進階：

如果匹配的關鍵詞包含一些常用的字，會出現大量的結果。

例如搜索書名霸道總裁，可能會出現，裁縫，總經理，這樣的結果

全文搜索是按照相關度從高到底返回的結果，可以只去去前面一些相關度較高的結果。

或者先查詢出相關度最高是多少(相關度是一個數值)，然后除以二，限定結果的相關度都大於這個最大相關度的一半。

參考

// 通過最大相關度/2過濾一部分無關結果

//查詢出最大相關度是多少
 $score = $this->sql('xs.nh')->query('SELECT MATCH(keywords_base) AGAINST (?) AS score FROM nh ORDER BY score DESC LIMIT 1',[$keywords]);

 //構造查詢語句
 $this->where['MATCH(keywords_base) AGAINST'] = [$keywords,'> '.$score[0]['score'] / 2];

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 MySQL使用全文索引(fulltext index) MySQL使用全文索引(fulltext index)---高性能 InnoDB全文索引 MySQL 5.7 innodb全文索引 MySQL全文索引 mysql全文索引數據在千萬級別上進行全文檢索有哪些技術？強大的大數據全文索引解決方案-ClouderaSearch mysql8使用自帶全文索引（帶中文分詞） MySQL全文索引：中文語義分詞檢索 MySQL下全文索引