花费 6 ms
大数据之路【第十三篇】:数据挖掘---中文分词

一、数据挖掘---中文分词 • 一段文字不仅仅在于字面上是什么,还在于怎么切分和理解。• 例如: – 阿三炒饭店: – 阿三 / 炒饭 / 店 阿三 / 炒 / 饭店• 和英文不 ...

Wed Sep 04 09:30:00 CST 2019 0 491
大数据之路【第十二篇】:数据挖掘--NLP文本相似度

一、词频----TF • 假设:如果一个词很重要,应该会在文章中多次出现 • 词频——TF(Term Frequency):一个词在文章中出现的次数 • 也不是绝对的!出现次数最多的是“的”“是 ...

Tue Sep 03 23:56:00 CST 2019 0 340

 
粤ICP备18138465号  © 2018-2026 CODEPRJ.COM