用户画像系统


用户标签和标签的数学描述:

标签是特征空间中的纬度

每个标签都是特征空间中的基向量,基向量之间有关联,不一定是正交的

用户画像是特征空间中的高维向量

 

 特征工程:

数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已

特征:对所需解决问题有用的属性

特征的提取、选择和构造

  针对锁解决的问题选择最有用的特征集合

  通过相关系数等方式来计算特征的重要性

    人工筛选,有些算法输出特性:Random Forest维度过多,PCA自动降维

算法和模型:

LR:只要认为问题时线性可分的,就可采用LR

模型比较抗噪,而且可以通过L1,L2范数来做参数选择

效率高,可以应用于数据特别大的场景

很容易分布式实现

Ensemble方法:

根据训练集训练多个分类器,然后综合多个分类器的结果,做出预测

 

算法和模型评价:

 


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM