机器学习之路:python 字典特征提取器 DictVectorizer


 

python3 学习使用api

将字典类型数据结构的样本,抽取特征,转化成向量形式

源码git: https://github.com/linyi0604/MachineLearning

代码:

 1 from sklearn.feature_extraction import DictVectorizer
 2 
 3 '''
 4 字典特征提取器:
 5     将字典数据结构抽和向量化
 6     类别类型特征借助原型特征名称采用0 1 二值方式进行向量化
 7     数值类型特征保持不变
 8 '''
 9 
10 # 定义一个字典列表 用来表示多个数据样本
11 measurements = [
12     {"city": "Dubai", "temperature": 33.0},
13     {"city": "London", "temperature": 12.0},
14     {"city": "San Fransisco", "temperature": 18.0},
15 ]
16 
17 # 初始化字典特征抽取器
18 vec = DictVectorizer()
19 data = vec.fit_transform(measurements).toarray()
20 # 查看提取后的特征值
21 print(data)
22 '''
23 [[ 1.  0.  0. 33.]
24  [ 0.  1.  0. 12.]
25  [ 0.  0.  1. 18.]]
26 '''
27 # 查看提取后特征的含义
28 print(vec.get_feature_names())
29 '''
30 ['city=Dubai', 'city=London', 'city=San Fransisco', 'temperature']
31 '''

 


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM