机器学习导论1.2.2 分类_机器学习导论1.2.2 分类试读-查字典图书网
查字典图书网
当前位置: 查字典 > 图书网 > 神经网络 > 机器学习导论 > 1.2.2 分类

机器学习导论——1.2.2 分类

信贷是金融机构(例如银行)借出的一笔钱,需要连本带息偿还,通常是分期偿还。对银行来说,重要的是能够提前预测贷款风险。这种风险是客户不履行义务和不全额还款的可能性。既要确保银行获利,又要确保不会因提供超出客户财力的贷款而给客户带来不便。 4在信用评分(credit scoring)(Hand 1998)中,银行要计算在给定信贷额度和客户信息情况下的风险。客户信息包括我们已经获取的数据以及与计算客户财力相关的数据,即收入、存款、担保、职业、年龄、以往经济记录等。银行有以往贷款的记录,包括客户数据以及贷款是否偿还。通过这类特定的申请数据,我们可以推断出一般规则,表示客户属性及其风险性的关联性。也就是说,机器学习系统用一个模型来拟合过去的数据,以便能够对新的申请计算风险,从而决定接受或拒绝该项申请。 这是一个分类(classification)问题的例子,这里有两个类:低风险客户和高风险客户。客户信息作为分类器的输入(input),分类器的任务是将输入指派到其中的一个类。 利用以往数据进行训练后,学习得到的规则可能具有如下形式 其中θ1和θ2是合适的值(参见图1-1)。这是判别式(discriminant)的一个例子,它是将不同类的样本分开的函数。 (点击查看大图)图1-1 训练数据集示例, 其中每个圆圈对应一个数据实例,输入值在对应的坐标上, 符号则指示着类别。为简单起见,输入只包括客户的收入 (income)和存款(savings)两种属性,两个类分别为低风险("+") 和高风险("-")。图中还显示了分隔两类样本的判别式样例 有了这样的规则,其主要用途就是预测(prediction):一旦我们拥有拟合以往数据的规则,如果未来与过去类似,那么我们就能够对新的实例做出正确的预测。如果给定一个新的具有特定收入(income)和存款(savings)的申请,我们就可以很容易地判断出它是低风险(low-risk)还是高风险(high-risk)了。 在某些情况下,我们可能不希望做0/1(低风险/高风险)类型的判断,而是希望计算一个概率值P(YX),其中X是顾客属性,Y是0或1,分别表示低风险和高风险。从这个角度来看,我们可以将分类看作学习从X到Y的关联性。于是,给定X=x,如果有P(Y=1X=x)=0.8,则我们就说该客户为高风险的可能性有80%,或者等价地说该客户为低风险的可能性有20%。然后,我们可以根据可能的收益和损失来决定接受或拒绝这笔贷款业务。 6机器学习在模式识别(pattern recognition)方面有很多的应用。其中之一是光学字符识别(optical character recognition,OCR),即从字符图像识别字符编码。这是一个多类问题的例子,类与我们想要识别的字符一样多。特别有趣的是手写体字符的识别问题。人们有不同的书写风格;字体有大有小,倾斜角度不同,还有用钢笔或用铅笔之别,所以同一个字符可能会有许多种可能的图像。尽管书写是人类的发明创造,但是我们还没有像人类读者一样准确的系统。我们没有字符"A"的形式化描述,涵盖所有"A"而不涵盖任何非"A"。没有这种形式化描述,我们就要从书写者那里取样,从这些实例中学习关于"A"的定义。然而,尽管我们不知道是什么因素使得一个图像被识别为"A",但是我们确信所有这些不同的"A"的图像都具有某些共同的特征,这正是我们希望从实例中提取的。我们知道,图像不只是随机点的集合,它是笔画的集合,并且是有规律的,通过学习程序我们能够捕获这些规律。 这里,"?"表示不能识别的符号。--译者注阅读文本时,我们能够利用的一个因素是人类语言的冗余性。词是字符的序列(sequence),并且相继的符号不是独立的,而是被语言的词所约束。这有好处,即便有一个符号不能识别,我们仍可以读出词t?e。根据语言的语法和语义,这种上下文的依赖性还可能出现在词和句子之间等较高的层次上。目前有用于学习序列和对这种依赖性建模的机器学习算法。 对于人脸识别(face recognition),输入是人脸图像,类是需要识别的人,并且学习程序应当学习人脸图像与身份识别之间的关联性。这个问题比OCR更困难,原因是人脸会有更多的类,输入图像也更大一些,并且人脸是三维的,不同的姿势和光线等都会导致图像的显著变化。另外,对于特定人脸的输入也会出现问题,比如说眼镜可能会把眼睛和眉毛遮住,胡子可能会把下巴盖住等。 对于医学诊断(medical diagnosis),输入是关于患者的信息,而类是疾病。输入包括患者的年龄、性别、既往病史、目前症状等。当然,患者可能还没有做过某些检查,因此这些输入将会缺失。检查需要时间,还可能要花很多钱,而且也许还会给患者带来不便。因此,除非我们确信检查将提供有价值的信息,否则我们将不对患者进行检查。在医学诊断的情况下,错误的诊断结果可能会导致我们采取错误的治疗或根本不进行治疗。在不能确信诊断结果的情况下,分类器最好还是放弃判定,而等待医学专家来做决断。 在语音识别(speech recognition),输入是语音,类是可以读出的词汇。这里要学习的是从语音信号到某种语言的词汇的关联性。由于年龄、性别或口音方面的差异,不同的人对于相同词汇的读音不同,这使得语音识别问题相当困难。语音识别的另一个特点是其输入信号是时态的(temporal),词汇作为音素的序列实时读出,而且有些词汇的读音会较长一些。一种语音识别的新方法涉及利用照相机记录口唇动作,作为语音识别的补充信息源。这需要传感器融合(sensor fusion)技术,集成来自不同形态的输入,即集成声音和视频信号。 从数据中学习规则也为知识抽取(knowledge extraction)提供了可能性。规则是一种解释数据的简单模型,而观察该模型我们能得到潜在数据处理的解释。例如,一旦我们学会了区分低风险客户和高风险客户的判别式,我们就拥有了关于低风险客户特性的知识。然后,我们就能够利用这些知识,通过比如广告等方式,更有效地争取那些潜在的低风险客户。 机器学习还可以进行压缩(compression)。用规则拟合数据,我们能得到比数据更简单的解释,需要的存储空间更少,处理所需要的计算更少。例如,一旦你掌握了加法规则,你就不必记忆每对可能数字的和是多少。 机器学习的另一种用途是离群点检测(outlier detection),即发现那些不遵守规则的例外实例。在这种情况下,学习规则之后,我们感兴趣的不是规则,而是规则未能覆盖的例外,它们可能暗示出我们需要注意的异常,如诈骗。

展开全文


推荐文章

猜你喜欢

附近的人在看

推荐阅读

拓展阅读

《机器学习导论》其他试读目录

• 前言
• 目录
• 译者序
• 1.1 什么是机器学习
• 1.2.1 学习关联性
• 1.2.2 分类 [当前]
• 1.2.3 回归
• 1.2.4 非监督学习
• 1.2.5 增强学习
  • 大家都在看
  • 小编推荐
  • 猜你喜欢
  •