▶1.大数据时代
美国互联网数据中心指出,互联网上的数据每年增长50%,每两年翻一番,目前世界上90%以上的数据是最近几年才产生的。此外,这些数据并非单纯是人们在互联网上发布的信息,85%的数据由传感器和计算机设备自动生成。全世界的各种工业设备、汽车、摄像头,以及无数的数码传感器,随时都在测量和传递着有关信息,这导致了海量数据的产生。例如,一个计算不同地点车辆流量的交通遥测应用,就会产生大量的数据。
▶2.大数据的特点
大数据是一个体量规模巨大,数据类别特别多的数据集,并且无法通过目前主流软件工具,在合理时间内达到提取、管理、处理、并整理成为有用的信息。
大数据具有4V的特点,一是数据体量大(Volumes),一般在TB级别;二是数据类型多(Variety),由于数据来自多种数据源,因此数据类型和格式非常丰富,有结构化数据(如文字、计算数据等),半结构化数据(如报表、层次树等),以及非结构化数据(如图片、服务器托管网视频、音频、地理位置信息等);三是数据处理速度快(Velocity),在数据量非常庞大的情况下,需要做到数据的实时处理;四是数据的真实性高(Veracity),如互联网中网页访问、现场监控信息、环境监测信息、电子交易数据等。
大数据并不在于“大”,而在于“有用”。大数据能告诉我们客户的消费倾向,他们喜欢什么,每个人的需求有哪些区别,哪些需求可以集合在一起进行分类等。大数据是数据数量上的增加,是一个从量变到质变的过程。例如,一个人在骑马,我们每隔一分钟拍一张照片,只能看到这个人不同骑马姿态的照片。随着照相机处理速度越来越快,1min可以拍30张照片时,就产生了电影。当数量的增长实现了质变时,就从照片变成了一部电影。
▶3.大数据处理技术
大数据处理的结果往往采用可视化图形表示,基本原则是:要全体不要抽样,要效率不要绝对精确,要相关不要因果。具体的大数据处理方法很多,主要处理流程是数据采集、数据导入和预处理、数据统计和分析、数据挖掘。
1)大数据采集
大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器等)的数据。大数据采集的特点是并发数高,因为可能会有成千上万的用户同时进行访问和操作。例如火车票售票网站和淘宝网站,它们并发访问量在峰值时达到了上百万,所以需要在采集端部署大量数据库才能支持数据采集工作,这些数据库之间如何进行负载均衡也需要深入思考和仔细设计。
2)大数据导入/预处理
要对采集的海量数据进行有效的分析,还应该将这些来自前端的数据导入一个集中的大型分布式服务器托管网数据库中,并且在导入基础上做一些简单的数据清洗和预处理工作。导入与预处理过程的特点是数据量大,每秒钟的导入量经常会达到百兆,甚至千兆。可以利用数据提取、转换和加载工具将分布的、异构的数据(如关系数据、图形数据等)抽取到临时中间层后进行清洗、转换、集成,最后导人数据库中。
3)大数据统计分析
统计与分析主要是对存储的海量数据进行普通的分析和分类汇总,常用的统计分析有假设检验、显著性检验、差异分析、相关分析、方差分析、回归分析、曲线估计、因子分析、聚类分析、判别分析等技术。统计与分析的特点是涉及的数据量大,对系统资源,特别是I/O设备会有极大的占用。
4)数据挖掘
大数据只有通过数据分析才能获取很多深入的、有价值的信息。大数据分析最基本的要求是可视化分析,因为可视化分析能够直观的呈现大数据的特点,同时能够非常容易被读者接受。数据挖掘主要是在大数据基础上进行各种算法的计算,从而起到预测的效果。数据挖掘的方法有分类、估计、预测、相关性分析、聚类、描述和可视化等,复杂数据类型挖掘(如Web、图像、视频、音频等)等。这个过程的特点是:如果数据挖掘算法很复杂,涉及的数据量和计算量就会很大,常用数据挖掘算法都以多线程为主。
4.大数据应用案例
谷歌搜索、Facebook的帖子和微博消息,使得人们的行为和情绪的细节化测量成为可能。挖掘用户的行为习惯和喜好,可以从凌乱纷繁的数据背后,找到更符合用户兴趣和习惯的产品和服务,并对这些产品和服务进行针对性的调整和优化,这就是大数据的价值。
服务器托管,北京服务器托管,服务器租用 http://www.fwqtg.net
今天想跟大家分享一下小团队的透明管理,这也是一个管理技巧,相信很多Leader身份的同学都了解到主管有很大的一个优势,就是在组织内拥有了信息不对称能力,Leader能够听到和了解到完全不同层面上的内容和消息,所以有很多Leader就采用这种信息不对称的方式来管…