hadoop分布式生态环境:
hdfs分布式文件系统
hive数据仓库工具,形成文件与表的映射,可以使用类sql语言操作数据库
mapreduce分布式计算框架
spark分布式计算框架,减少落盘,作为一个应用在yarn上运行
flume日志采集系统
kafka消息队列,缓冲
zookeeper服务管理-服务器资源和客户端请求的协调
impala基于内存的即席查询工具
kylin多维分析引擎
hbase-非关系型数据库 key-value
solr全文搜索引擎
tez下一代查询处理框架,基于yarn
tez源于mr但不同于mr,将任务细分重组形成一个完整的dag作业落地磁盘,即将多个有依赖的作业转换成一个作业一次性写入hdfs,内存式计算
hive on tez 使用tez作为sql查询计算引擎
kudu 快速变化数据实时分析的数据存储工具
phoentix 关系型数据库,支持oltp,基于hbase
ranger数据安全 管理,监控
sqoop关系型数据库与hdfs,云对象如amazon s3 or adls的数据传输
workload xm 性能管理 作业运行管理
maxwell 轻量级数据抓取工具 满足实时抓取数据的需求(sqoop是离线)
git 代码 仓库管理 文件管理 远程管理 分支管理 标签管理。进阶-开发工具集成访问第三方代码托管平台
分布式版本控制
与svn区别集中式版本控制
clone 使用客户端工具将本地代码文件复制到中央服务器
每个分支做不同的事,互不影响,通过head指向去确认当前仓库中最新的版本,最后合并
服务器托管,北京服务器托管,服务器租用 http://www.fwqtg.net