第一章 绪论
机器学习: 致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,“经验”通常以“数据“形式存在,因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生”模型“的算法,即”学习算法“。有了学习算法,我们把经验数据提供给它,他就能基于这些数据产生模型;在面对新的情况时,模型会给我们提供相应的判断。可以说机器学习时研究关于”学习算法“的学问。
1.1 基本术语:
数据集(data set):记录的集合。其中每条记录是关于一个事件或对象的描述,称为“示例”,“样本”
属性特征(attributefeature):反映事件或对象在某方面的表现或性质的事项。
属性值(attribute value):属性上的取值。其张成的空间称为“属性空间(attribute space)”“样本空间(sample space)”“输入空间(sample space)”。
学习训练(learningtraining):从数据中学得模型的过程。是假设不断逼近真实的过程。
训练数据(training data):训练过程所使用的数据。
训练样本(training sample):训练所使用的样本。
训练集(training set):训练样本的集合。
假设(hypothesis):学得模型对应了关于数据的某种潜在规律。
真相真实(ground truth):潜在规律自身。
标记(label):训练样本的“结果”信息,是判断,预测。
样例(example):带有标记的样本。
分类(classification):预测的是离散值的学习任务。
二分类(binary classification):只涉及两个类别。
多分类(multi-class classification):涉及多个类别。
回归(regression):预测的是连续值的学习任务
聚类(clustering):将训练集中的样本分为若干组。
监督学习(supervised learning):分类+回归
无监督学习(unsupervised learning):聚类
测试(testing):对学得模型,对其进行预测的过程。
泛化能力:学得模型适用在新样本上的能力。
1.2 假设空间
归纳:从特殊到一般的“泛化”过程,从具体的事实归结出一般性规律。
演绎:从一般到特殊的”特化”过程,从基础原理推演出具体状况。
机器学习,是从样例中学习的过程。是归纳的过程。
->机器学习过程看作一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集服务器托管网“匹配”的假设,
版本空间:存在与训练集一致的假设集合。
归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好。
引导算法确立偏好的一般性原则:
奥卡姆剃刀(Occam’服务器托管网s razor):若有多个假设与观察一致,则选最简单的那个
学习算法的期望性能相同:
没有免费的午餐定理(NFL:No free Lunch Theorem):脱离具体问题,空谈哪个算法更好,无意义
服务器托管,北京服务器托管,服务器租用 http://www.fwqtg.net
机房租用,北京机房租用,IDC机房托管, http://www.fwqtg.net
相关推荐: Python生成器深度解析:构建强大的数据处理管道
前言 生成器是Python的一种核心特性,允许我们在请求新元素时再生成这些元素,而不是在开始时就生成所有元素。它在处理大规模数据集、实现节省内存的算法和构建复杂的迭代器模式等多种情况下都有着广泛的应用。在本篇文章中,我们将从理论和实践两方面来探索Python生…