本文转载自查看原文 2018-03-31 07:11 1032

有限状态机

什么是有限状态机

最长正向匹配分词

Input: dicts={word1, word2, ..., wordn)$
Output: 前缀状态字典pdict
pdict <- 空字典
for word in dicts:
 pdict[word] = 1
 word_len = word的长度
 for j in {word_len, ..., 1}:
 subword = word[:j]
 if subword not in pdict:
 pdict[subword] = 1

Input: pdict, sentence={c1c2...cN}
Output: 正向最大匹配的分词结果words=[word1, word2, ..., wordn]
N = sentence的长度
words = []
subword = ""
for i in {0, 1, ..., N-1}:
 subword += sentence[i]
 if subword not in pdict:
 if len(subword) == 1:
 words.append(subword[:-1])
 subword = sentence[i]
 else:
 words.append(subword)
 subword = ""
if len(subword) > 0:
 words.append(subword)
# words即所需的分词

以上即最大正向匹配分词的全部算法，源代码因为版权问题，就不贴了。

进一步思考

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

有限状态机与分词

有限状态机

什么是有限状态机

DFA-确定性有限自动机

NFA-不确定性有限自动机

FST-有限状态转换机

如果FA在完成状态转移的同时产生一个输出，那么就被称作有限状态转换机。

说人话

最长正向匹配分词

算法

我们通过词典把状态转移函数保存成一个HashMap(字典),以方便后面的状态转移使用，我们把这个字典称作前缀状态字典。

Build pdict (构造前缀追她字典)

Input: dicts={word1, word2, ..., wordn)$Output: 前缀状态字典pdictpdict <- 空字典for word in dicts: pdict[word] = 1 word_len = word的长度 for j in {word_len, ..., 1}: subword = word[:j] if subword not in pdict: pdict[subword] = 1

正向最大匹配(状态转移和输出)

进一步思考

如何在最大匹配的算法基础上，利用有限状态机实现全切分词呢？

欢迎关注我的微信公众号

直觉与逻辑-二维码 微信公众号: 直觉与逻辑 微信号: roy-qu 扫描上述二维码即可关注我的微信公众号

免责声明！

我们通过词典把状态转移函数保存成一个`HashMap`(`字典`),以方便后面的状态转移使用，我们把这个字典称作前缀状态字典。

`Input: dicts={word1, word2, ..., wordn)$ Output: 前缀状态字典pdict pdict <- 空字典 for word in dicts: pdict[word] = 1 word_len = word的长度 for j in {word_len, ..., 1}: subword = word[:j] if subword not in pdict: pdict[subword] = 1`

直觉与逻辑-二维码

微信公众号: 直觉与逻辑
微信号: roy-qu
扫描上述二维码即可关注我的微信公众号