原文:写一个高性能的敏感词检测组件

最近写了一个高性能的敏感词检测组件 ToolGood.Words 。 一 高性能,它的效率到底有多快 如果将正则表达式的算法效率设为 ,高性能可达到正则表达式的 . 万倍。 二 选一个巧妙的算法: AC自动机 Aho Corasick Automation 算法在 年产生于贝尔实验室,是著名的多模式匹配算法之一 一个常见的例子就是给定N个单词,给定包含M个字符的文章,要求确定多少个给定的单词在文章 ...

2017-01-14 10:10 18 8800 推荐指数:

查看详情

一个高性能敏感过滤算法 可以忽略大小写、全半角、简繁体、特殊符号干扰

链接已更新到第二版: 超强敏感过滤算法第二版 可以忽略大小写、全半角、简繁体、特殊符号、HTML标签干扰 敏感查找或者过滤是每个天朝互联网从业者都不能忽略的一件事情。 之前已经参阅了博客园的大量敏感的查找或者过滤算法,发现没用完全符合自己需求的算法,所以自己花时间做了一个 需求 ...

Fri Dec 06 19:24:00 CST 2013 13 6841
JavaScript检测文章敏感

在一些博客或者论坛中,文章中的敏感需要显示出来和高亮显示起到提示用户的作用。这个功能实现的方法有很多,下面是js的实现方式。 ...

Sun Dec 25 07:32:00 CST 2016 0 4627
敏感检测、屏蔽设计(iOS & Android)

敏感检测 服务器端最常使用的算法是DFA算法。如果服务器端使用java实现常规的DFA算法,假若。。。 源码:https://github.com/qiyer/DFA_Cplusplus ...

Mon May 06 00:22:00 CST 2019 0 616
vue中检测敏感,锚点

当发布文章的时候,标题有敏感检测敏感的接口成功的时候,锚点 eg ...

Tue Jul 10 22:32:00 CST 2018 0 1023
敏感检测】用DFA构建字典树完成敏感检测任务

任务概述 敏感检测是各类平台对用户发布内容(UGC)进行审核的必做任务。 对于文本内容做敏感检测,最简单直接的方法就是规则匹配。构建一个敏感词表,然后与文本内容进行匹配,如发现有敏感,则提交报告给人工审核或者直接加以屏蔽。 当然也可以用机器学习的方法来做,不过需要收集及标注大量数据 ...

Thu Aug 20 01:53:00 CST 2020 0 1097
一个高效的敏感过滤方法(PHP)

效率对比(12688个字符,替换1次): str_replace: 0.109937906265秒 strtr: 0.0306839942932秒 替换结果对比 比如:「张三」、「张三丰」、「张三丰田」 均为违禁 (为何会有这样的区分?请参见 ...

Wed Sep 02 18:00:00 CST 2020 0 510
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM