分类问题
分类是监督学习的一个核心问题。在监督学习中,当输出变量Y取有限个离散值时,预测问题便成为分类问题。输入变量X可以是离散的,也可以是连续的。
监督学习从数据中学习一个分类模型或分类决策函数,称为分类器(classifier)。分类器对新的输入进行输出的预测(prediction),称为分类(classification)。可能的输出称为类(class)。分类的类别为多个时,称为多类分类问题。
分类问题包括学习和分类两个过程。在学习过程中,根据已知的训练数据集利用有效的学习方法学习一个分类器;在分类过程中,利用学习的分类器对新的输入实例进行分类。设(x1,y1),(x2,y2),…,(xN,yN)是训练数据集,学习系统由训练数据学习一个分类器P(Y|X)或Y=f(X);分类系统通过学到的分类器P(Y|X)或Y=f(X)对于新的输入实例xN+1进行分类,即预测其输出的类标记yN+1。
评价分类器性能的指标一般是分类准确率(accuracy),其定义是:对于给定的测试数据集,分类器正确分类的样本数与总样本数之比。对于二类分类问题常用的评价指标是精确率(precision)与召回率(recall)。通常以关注的类为正类,其他类为负类,分类器在测试数据集上的预测或正确或不正确,4种情况出现的总数分别记作: TP——将正类预测为正类数; FN——将正类预测为负类数; FP——将负类预测为正类数; TN——将负类预测为负类数。
许多统计学习方法可以用于分类,包括k近邻法、感知机、朴素贝叶斯法、决策树、决策列表、逻辑斯谛回归模型、支持向量机、提升方法、贝叶斯网络、神经网络、Winnow等
分类在于根据其特性将数据“分门别类”,所以在许多领域都有广泛的应用。例如,在银行业务中,可以构建一个客户分类模型,对客户按照贷款风险的大小进行分类;在网络安全领域,可以利用日志数据的分类对非法入侵进行检测;在图像处理中,分类可以用来检测图像中是否有人脸出现;在手写识别中,分类可以用于识别手写的数字;在互联网搜索中,网页的分类可以帮助网页的抓取、索引与排序。
标注问题
标注问题也是一个分类问题,可以说标注问题是分类问题的一个推广。标注问题又是更复杂的结构预测(structure predication)问题的简单形式。标注问题的输入是一个观测序列,输出是一个标记序列或状态序列。标注问题的目标在于学习一个模型,使它能够对观测序列给出标记序列作为预测。可能的标记个数是有限的,但其组合而成的标记序列的个数是依序列长度呈指数级增长的。
标注问题分为学习和标注两个过程。评价标注模型的指标与评价分类模型的指标一样,常用的有标注准确率、精确率和召回率。其定义与分类模型相同。标注常用的统计学习方法有隐马尔科夫模型、条件随机场。
标记问题在信息提取、自然语言处理等领域被广泛应用,是这些领域的基本问题。例如,自然语言处理中的词性标注(part of speech tagging)就是一个典型的标注问题:给定一个由单词组成的句子,对这个句子中的每一个单词进行词性标注,即对一个单词序列预测其对应的词性标记序列。
回归问题
回归(regression)是监督学习的另一个重要问题。回归用于预测输入变量(自变量)和输出变量(因变量)之间的关系,特别是当输入变量的值发生变化时,输出变量的值随之发生的变化。回归模型正是表示从输入变量到输出变量之间映射的函数。回归问题的学习等价于函数拟合:选择一条函数曲线,使其很好的拟合已知数据且很好地预测未知数据。
回归问题分为学习和预测两个过程。回归问题按照输入变量的个数分为一元回归和多元回归;按照输入变量与输出变量之间关系的类型即模型的类型,分为线性回归和非线性回归。回归学习最常用的损失函数是平方损失函数,此情况下回归问题可以由最小二乘法(least squares)求解。
许多领域问题都可以形式化为回归问题,比如市场趋势预测、产品质量管理、客户满意度调查、投资风险分析工具。假设知道某公司在过去不同时间的股价,以及各个时间点可能影响股价的其它信息等。从这些数据中学习到一个模型,使其可以基于给定时间点和其它辅助信息预测公司某个时间点的股价。将影响股价的信息作为自变量,将股价视为因变量,历史数据作为训练数据,就可以学习一个回归模型。