写在前面的话:
这学期教授《数据挖掘》课程,教材内容略显单薄,故而依据刘鹏教授出版的原书《数据挖掘基础》(第二版)内容归纳重点,并结合畅销书籍易向军所著《大嘴巴漫谈数据挖掘》及袁汉宁版《数据仓库与数据挖掘》扩充相应内容至此,方便学生学习。也方便有需要有教此课的教师进行参考。
我在实际授课时,在教授人工智能、机器学习、数据挖掘等课时,对所用教材大多不太满意。所以在思考原因是什么。老师在教课时,一门好的教材十分重要。但是市面很多教材都很难通俗易懂,或者重点部分并未突出。易或与实际工程应用并不相符。思考再三,可能有以下原因。
学科分类及学科融合:学科分类的目的是为了探究细化的知识,随着研究的深入,我们一点点发展出学科的概念,比如,我们要解决一个问题。随着认知的不断积累和深化,人们需要对各个领域的知识进行专业化的探究和学习。学科分类使庞大的知识体系划分为不同的领域和专业,使得研究和学习更加深入和精细。然而学科分类是将知识划分到不同的领域,但各个领域之间并不是完全孤立的。随着知识领域细化的逐步完成,最终还是要应用知识去解决问题,完成项目。所以针对传统教学例如高等数学、计算机网络、python基础等已经形成体系化的学科知识。
数据挖掘本身是一件事。它不能具体的指向某一学科,技术和领域。它需要我们能够综合利用所学的知识。比如统计学、数据科学、高等数学、机器学习、数据分析等发现数据中有价值的信息。而数据挖掘在不同的领域有不同的处理方式。如在不同领域如教育、医疗、互联网、金融等。会有不同数据,比如银行交易数据,超市购物数据,天气情况数据,学生学习行为数据等。有着不同的处理思路和方式。而这种处理思路和方式,要当时情况而定,数据特征而定,具体问题具体分析。是我们经过学习高等数学、数据科学、统计学等多种学科,深入理解后共同达成的结果。所以实际上这是一个需要深入思考的过程。
而对于编写教材的前辈们很难实际在该领域做过类似实际项目。则只能以学科分类的角度去写。
所以,对于此类教材可能很难有较为理想的版本,大多只能泛泛而谈,点到为止。同时在AI时代下,教育的框架和方式需要有所变革,注重学生的自主学习力,创造力等高阶思维能力。才能更好的较好学生。然而在实际教学中,由于学生数量多,及整体听课情况,加上自身积累不够等因素。所以学生要想学好此项技能。难度较大。所以写下此文,希望能够对学习这有所帮助,省些搜索资料的时间。
0 总序(书中内容)
短短几年间,大数据以一日千里的发展速度快速实现了从概念到落地,直接带动了相关产业的井喷式发展。数据采集、数据存储、数据挖掘、数据分析等大数据技术在越来越多的行业中得到应用,随之而来的即是大数据人才缺口问题的凸显。根据《人民日报》的报道,未来3~5年,中国需要180万大数据人才,但目前只有约30万人,人才缺口达到150 万之多。
大数据是一门实践性很强的学科,在其呈现金字塔型的人才资源模型中,数据科学家居于塔尖位置,然而该领域对于经验丰富的数据科学家需求相对有限,反而是对大数据底层设计、数据清洗、数据挖掘及大数据安全等相关人才的需求急剧上升,可以说后者占据了大数据人才需求的80%以上。
迫切的人才需求直接催热了相应的大数据应用专业。2021年全国892所高职院校成功备案大数据技术专业,40所院校新增备案数据科学与大数据技术专业,42所院校新增备案大数据管理与应用专业。随着大数据的深入发展,未来几年申请与获批该专业的院校数量仍将持续走高。
即使如此,就目前而言,在大数据人才培养和大数据课程建设方面,大部分专科院校仍然处于起步阶段,需要探索的问题还有很多。首先,大数据是个新生事物,懂大数据的老师少之又少,院校缺“人”;其次,院校尚未形成完善的大数据人才培养和课程体系,缺乏“机制”;再次,大数据实验需要为每位学生提供集群计算机,院校缺“机器”;最后,院校没有海量数据,开展大数据教学实验工作缺少“原材料”。
对于注重实操的大数据专业专科建设而言,需要重点面向网络爬虫、大数据分析、大数据开发、大数据可视化、大数据运维等工作岗位,帮助学生掌握大数据专业必备知识,使其具备大数据采集、存储、清洗、分析、开发及系统维护的专业能力和技能,成为能够服务区域经济的发展型、创新型或复合型技术技能人才。无论是缺“人”、缺“机制”、缺“机器”,还是缺少“原材料”,最终都难以培养出合格的大数据人才。
第一章 数据挖掘概念
1.1 数据挖掘基础概念
什么是大数据?随着大数据技术的不断发展,数据的复杂程度愈来愈高,不断有人针对大数据特征提出新的论断,大数据的特性也由原来的4V增加至现在的7V:①规模大(Volume):数据的大小决定所考虑的数据的价值大小和潜在的信息多少;②多样化(Variety):数据类型的多样性;③高速性(Velocity):指获得数据的速度;④价值化(Value):合理运用大数据,以低成本创造高价值;⑤准确性(Veracity):数据的质量:⑥动态性(Variability):妨碍了处理和有效地管理数据的过程;⑦可视化(Visualization):能帮助数据工作者更好地理解数据中可能存在的结构和规律。
1.1.1 开篇点题引五问
在企业的业务运营中,通常会借助数据挖掘技术来辅助产品设计,营销推广等环节的工作。需要问自己5个问题。
why:表示通过日常监控分析发现的运营问题;
what:表示制定解决目标问题的总体策略方针。
who:表示结合运营数据并组织开展数据挖掘工作的各类专业人员;
which:表示针对特定目标用户设计的精细化运营方案,主要目的是促进用户活跃和业务的有效使用。
where:表示通过跟踪用户发展和业务推广情况作出的相应优化和改进,并评估市场反馈。
1.1.2 知识决策跨领域
数据挖掘与统计学有很多共同之处,二者有着相似的研究目标,都在探寻在于大量数据中有价值的信息和知识。同时数据挖掘还借鉴并应用了其他许多科学领域的思想和方法,比如数据库、机器学习和人工智能等。通过基于云计算的大规模数据存储和处理技术,也为海量数据挖掘提供了新的手段和方法。
1.1.3 什么是数据挖掘
数据挖掘(Data Mining),就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
广义:数据挖掘是指知识发现的全过程
狭义:数据挖掘是知识发现的一个重要环节,利用机器学习、统计分析等发现数据模式的智能方法,侧重于模型和算法。
数据挖掘的数据源包括数据库、数据仓库、Web或其他数据存储库。
知识发掘的过程如下:
(1)数据准备:掌握知识发现应用领域的情况,熟悉相关的背景知识,理解用户需求。
(2)数据选取:数据选取的目的是确定目标数据,根据用户的需要从原始数据库中选取相关数据或样本。
(3)数据预处理:对数据选取步骤中选出的数据进行再处理,检查数据的完整性及数据一致性,消除噪声,滤除与数据挖掘无关的冗余数据,根据时间序列和已知的变化情况,利用统计等方法填充丢失的数据。
(4)数据变换:根据知识发现的任务对经过预处理的数据进行再处理,将数据变换或统一成适合挖掘的形式,包括投影、汇总、聚集等。
(5)数据挖掘:确定发现目标,根据用户的要求,确定要发现的知识类型。根据确定的任务选择合适的分类、关联、聚类等算法,选取合适的模型和参数,从数据库中提取用户感兴趣的知识,并以一定的方式表示出来。
(6)模式解释:对在数据挖掘中发现的模式进行解释。经过用户或机器评估后,可能会发现这些模式中存在冗余或无关的模式,此时应该将其剔除。如果模式不能满足用户的要求,就返回前面的相应步骤中反复提取。
(7)知识评价:将发现的知识以用户能了解的方式呈现给用户。
数据挖掘标准流程:
跨行业的标准数据挖掘流程CRISP-DM(CRoss-Industry Standard Process for Data Mining)
CRISP-DM从方法论的角度将整个数据挖掘过程分解商业理解、数据理解、数据准备、建立模型、模型评估、和结果部署六个阶段。
1.1.4 数据挖掘常用分类
数据挖掘的任务模式按照功能类型分成描述型和预测型两类,且都有各自的使用范围和特点。一般来说,描述型任务则基于数据进行检验推断。数据挖掘的主要功能是找到任务中所需要的各种模式类型,同时将这些功能归纳演绎成为一个知识发现的过程,其中每项数据挖掘功能能够在具体的实践操作中互相联系,综合发挥作用,从而来满足不同的业务应用需求。常用的数据挖掘功能包括分类、聚类、预测和关联四大类模型。
分类:分类(classification)属于有监督学习,即从给定的有标记训练数据集中学习出一个函数,当未标记数据到来时,可以根据这个函数预测结果。在数据挖掘领域,分类可以看成是从一个数据集到一组预先定义的、非交叠的类别的映射过程。分类找出描述和区分数据类或概念的模型(或函数),以便能够使用模型预测类标号未知的对象的类标号,导出的模型是基于对训练数据集(即类标号已知的数据对象)的分析。该模型用来预测类标号未知的对象的类标号。导出模型的表示形式有分类规则、决策树、数学公式、神经网络等。
聚类:
聚类:聚类分析(Cluster Analysis)又称群分析,是根据“物以类聚”的道理,对样品或指标进行划服务器托管网分的一种多元统计分析方法,讨论的对象是大量的样品,要求能合理地按各自的特性来进行合理的划分。聚类是在没有先验知识的情况下进行的。
一个类簇是测试空间中点的汇聚,同一类簇的任意两个点间的距离小于不同类簇的任意两个点间的距离。类簇可以描述为一个包含密度相对较高的点集的多维空间中的连通区域。
在机器学习中,聚类归纳为非监督式学习。
预测:即回归分析(regression analysis):在于了解两个或多个变量间是否相关、相关方向与强度,并建立数学模型以便观察特定变量来预测研究者感兴趣的变量,主要包括线性回归分析和非线性回归分析。
分类与回归具有许多不同的研究内容,它们都是研究输入输出变量之间的关系问题,不同之处在于分类的输出是离散的类别值,而回归的输出是连续的数值,即回归分析用来预测缺失的或难以获得的数值数据,而不是(离散的)类标号。
关联规则(Association rules):挖掘发现大量数据中项集之间有趣的关联或相关联系。
即在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构,是数据挖掘中一个重要的课题。关联规则研究有助于发现交易数据库中不同商品(项)之间的联系,找出顾客购买行为模式,如购买了某一商品对购买其他商品的影响。分析结果可以应用于商品货架布局、货存安排等。
1.2 数据基础
1.2.1 数据概述
1)数据概念:在现代计算机系统中,数据通称所有能输入到计算机系统、能被计算机程序处理、具有一定逻辑意义的数学或物理的变量及其数值的集合。
数据包括描述对服务器托管网象及其属性,表现为数字、文字、符号、图形、图像、音频视频等多种形式。
2)数据的分类:
定性数据和定量数据:定性数据表示数据对象的抽象描述特征,如很冷、恰如其分等;定量数据反映数据对象的具体数量特征,如长度、面积、体积等几何量或重量、速度等物理量。
图形数据与图像数据:
图形数据:是图的矢量数据,主要包含地图数据(点、线、面、体)、带有对象之间联系的数据和具有图形对象的数据。
图像数据:图像的栅格数据
图像可以分解为很多小区域,称为像素;黑白像素的灰度用一个数值表示;彩色像素用红、绿、蓝三原色分量表示。
分辨率:像素的大小,决定图像的清晰程度和占用的存储空间。
元数据与数据字典:
元数据:元数据(meta data)是描述数据的数据,通常由信息结构的描述组成,主要描述数据及其环境。按用途分为技术元数据、业务元数据和操作元数据
数据字典:一种用户可以访问的记录数据库和应用程序数据的目录
主要是用来解释数据表、数据字段等数据结构意义,数据字段的取值范围,数据值代表意义等。
3)数据属性(特征、维或字段)是指一个数据对象的某方面性质或特性
数据属性分为四种:标称、序数、区间和比率
标称属性(又称分类属性):属性值只提供足够的信息以区分对象,如颜色、性别、产品编号等。这种属性值没有实际意义。如三个对象可以用甲乙丙区分,也可以用ABC
序数属性(又称顺序属性):属性值提供足够的信息,以区分对象的序,如成绩等级(优、良、中、及格、不及格)、年级(一年纪、二年级、三年级、四年级)
区间属性的属性值之间的差是有意义的,如日历日期、摄氏温度。
比率属性的属性值之间的差与比率都是有意义的,如长度、时间、速度等。
标称和序数属性统称为定性的属性,取值为集合
区间和比率属性统称为数值的或定量的属性,取值为区间、取值包括离散数据和连续数值
4)数据集:具有相同属性的数据对象的集合就是数据集。
5)数据集特性:3个重要特性:维度(Dimensionality)、稀疏性(Sparsity) 和分辨率(Resolution)
维度是指数据集中对象具有的属性个数。
稀疏性描述的是数据集中有意义数据的多少。
分辨率是指在不同的分辨率或粒度下得到的数据,这些数据在细节上可能会有所不同。
参考资料:
《数据挖掘基础》第二版 刘鹏 主编
《数据仓库与数据挖掘》袁汉宁 版
《大嘴话数据挖掘》 易向军
服务器托管,北京服务器托管,服务器租用 http://www.fwqtg.net
系列文章目录 目录 系列文章目录 文章目录 网络搭建系列:网络攻击 Windows服务器搭建系列:Windwos服务器搭建 渗透系列: 前言 一、什么是中间人攻击? 二、正文 1)实验目的 2)实验背景 3)实验设备 4)实验配置 4.ARP查看 5.Kali…