概括分类: 1) 基于内容的推荐:这一类一般依赖于自然语言处理NLP的一些知识,通过挖掘文本的TF-IDF特征向量,来得到用户的偏好,进而做推荐。这类推荐算法可以找到用户独特的小众喜好,而且还有较好的解释性。这一类由于需要NLP的基础,本文就不多讲,在后面专门讲NLP的时候再讨 ...
Apriori算法 优点:易编码实现。 缺点:在大数据集上可能较慢。 适用数据:数值型 标称型。 关联分析 关联分析寻找的关系可以有两种形式:频繁项集或者关联规则。 频繁项集:经常出现在一块的物品的集合 关联规则:暗示两种物品之间可能存在很强的关系。 支持度:数据集中包含该项集的记录所占的比例。 针对项集 可信度 置信度:一条关联规则 A gt B ,支持度 A,B 支持度 A 的比值为可信度。 ...
2019-05-23 18:36 0 990 推荐指数:
概括分类: 1) 基于内容的推荐:这一类一般依赖于自然语言处理NLP的一些知识,通过挖掘文本的TF-IDF特征向量,来得到用户的偏好,进而做推荐。这类推荐算法可以找到用户独特的小众喜好,而且还有较好的解释性。这一类由于需要NLP的基础,本文就不多讲,在后面专门讲NLP的时候再讨 ...
一、概述 关联规则是发现事物之间的关系的分析过程,关联规则最初提出的动机是针对购物篮分析(Market Basket Analysis)问题提出的。假设分店经理想更多的了解顾客的购物习惯。特别是,想知道哪些商品顾客可能会在一次购物时同时购买?为回答该问题,可以对商店的顾客事物零售数量进行 ...
)。 本文根据最近学习机器学习书籍 网络文章的情况,特将一些学习思路做了归纳整理,详情如下.如有不当之处,请各 ...
机器学习算法 什么是程序(Program) 计算机程序,是指为了得到某种结果而可以由计算机(等具有信息处理能力的装置)执行的代码化指令序列(或者可以被自动转换成代码化指令序列的符号化指令序列或者符号化语句序列)。 通俗讲,计算机给人干活,但它不是人,甚至不如狗懂人的需要(《小羊肖恩 ...
转载自:http://www.cnblogs.com/tornadomeet 朴素贝叶斯: 有以下几个地方需要注意: 1. 如果给出的特征向量长度可能不同,这是需要归一化为通长度的 ...
1、线性回归 优点:结果易于理解,计算上不复杂。 缺点:对非线性的数据拟合不好。 适用数据:数值型、标称型。 回归的目的是预测数值型的目标值。最直接的办法是依据输入写出一个目标值的计算公式;这就是回 ...
logistic回归是一种广义线性回归(generalized linear model),因此与多重线性回归分析有很多相同之处。它们的模型形式基本上相同,都具有 w‘x+b,其中w和b是待求参数,其区别在于他们的因变量不同,多重线性回归直接将w‘x+b作为因变量,即y =w‘x+b ...
一、前述 关联规则的目的在于在一个数据集中找出项之间的关系,也称之为购物蓝分析 (market basket analysis)。例如,购买鞋的顾客,有10%的可能也会买袜子,60%的买面包的顾客,也会买牛奶。这其中最有名的例子就是"尿布和啤酒"的故事了。 二、相关概念 交易集:包含所有 ...