大数据各组件简述 - 服务器托管|北京服务器租用|机房托管租用|IDC托管租用|机房机柜带宽租用-价格及费用咨询

hadoop分布式生态环境：
hdfs分布式文件系统
hive数据仓库工具，形成文件与表的映射，可以使用类sql语言操作数据库
mapreduce分布式计算框架
spark分布式计算框架，减少落盘，作为一个应用在yarn上运行
flume日志采集系统
kafka消息队列，缓冲
zookeeper服务管理-服务器资源和客户端请求的协调
impala基于内存的即席查询工具
kylin多维分析引擎
hbase-非关系型数据库 key-value
solr全文搜索引擎

tez下一代查询处理框架，基于yarn
tez源于mr但不同于mr，将任务细分重组形成一个完整的dag作业落地磁盘，即将多个有依赖的作业转换成一个作业一次性写入hdfs，内存式计算
hive on tez 使用tez作为sql查询计算引擎

kudu 快速变化数据实时分析的数据存储工具
phoentix 关系型数据库，支持oltp，基于hbase
ranger数据安全管理，监控
sqoop关系型数据库与hdfs，云对象如amazon s3 or adls的数据传输
workload xm 性能管理作业运行管理
maxwell 轻量级数据抓取工具满足实时抓取数据的需求（sqoop是离线）

git 代码仓库管理文件管理远程管理分支管理标签管理。进阶-开发工具集成访问第三方代码托管平台
分布式版本控制
与svn区别集中式版本控制
clone 使用客户端工具将本地代码文件复制到中央服务器
每个分支做不同的事，互不影响，通过head指向去确认当前仓库中最新的版本，最后合并

服务器托管，北京服务器托管，服务器租用 http://www.fwqtg.net

服务器托管，北京服务器托管，服务器租用，机房机柜带宽租用