类型分析:机器学习的类型按训练方式可分为:有监督学习、无监督学习和半监督学习。
有监督学习的算法能够从带有标记的训练资料中学习或建立一种知识,依据此知识对新的实例进行推测。
有监督学习可细分为分类与回归。分类的目标是项测一批未知类型的对象的类别。典型的分类问题有垃圾邮件识别、恶意软件检测等。这类问题需要识别具体对象的具体类别。回归则是硕测某一事物未来的发展变化状1.2目标分析:是机器学习前期准备的一一个重要步骤, 包括需求分析与类型分析两种。
1.2.1需求分析
在软件工程中,需求分析是指在创建系统或产品前、确定新系统的目的、范围、定义和功能的步骤。机器学习中的需求分析是指确定机器学习的使用场量,需要完成的业务和解决的技术问题。机器学习中的需求分析与软件I程中的需求分析的不同点在于,软件工程的需求分析注重实现某个功能 ,而机器学习的需求分析更注重 干解决某一个具体问题。机器学习中的需求分析需要分析想要解决问题需要达成的具体目标,例如,要识别邮数据收集是数据准备最初始的步骤,收集的数据的种类将直接影响模型训练的结果,其中需要特别注意样本数据的偏差状况。无监督学习与有监督学习相反,即训练资料中没有预设的标记,需要算法自行从训练资料中建立一种知识。
半监督学习介于无监督学习和有监督学习之间。半监督学习使用部分标记的训练资料进行训练。这些训练资料由少量带有标记的数据和大量不带标记的数据构成、标记数据的成本使得标记全部数据不太现实,而获取未标记的数据相对便宜。在这种情况下,半监督学习可能具有很大的实用价值特征缩放包括数据标准化,独热编码( One Hot)和数据离散化,数据标准化将数据中的量纲差异尽可能缩小,最终使得特征的取值范围落人一个更小的区间内。数据中不同特征的取值范围不样,直接进行分析会对结果的准确性造成影响,因此需要对数据进行标准化处理。独热编码使用N位状态寄存器对离散型特征的N个状态进行编码,每个状态都对应拥有独立的寄存器位,并且在任意时候只有一个编码位有效。将离散型特征进行独热编码后,特征的每个状态变得更为独立,更方便进行距离计算。
2.特征选择
特征选择按照特征重要性对特征进行排序,或依据具体的业务需求从特征集合中挑选三-组最具统计意义的特征子集,从而达到降维的效看着很有眼缘。翟灵鹤一手拿着筷子,一手不动声色地往回收。没有,都在山坡上。没有水源,嗯,寨子都要烧秃了。诶,人员伤亡就好了果。。件是况。