火山引擎云原生数据仓库 ByteHouse 技术白皮书 V1.0 （Ⅵ） - 服务器托管|北京服务器租用|机房托管租用|IDC托管租用|机房机柜带宽租用-价格及费用咨询

更多技术交流、求职机会，欢迎关注字节跳动数据平台微信公众号，回复【1】进入官方交流群

近日，《火山引擎云原生数据仓库 ByteHouse 技术白皮书》正式发布。白皮书简述了 ByteHouse 基于 ClickHouse 引擎的发展历程，首次详细展现 ByteHouse 的整体架构设计及自研核心技术，为云原生数据仓库发展，及企业数字化转型实战运用提供最新的参考和启迪。

以下为 ByteHouse 技术白皮书【核心技术解析——元数据】版块摘录。

技术白皮书（Ⅰ）(Ⅱ)（Ⅲ）（Ⅳ）（Ⅴ）精彩回顾：

https://xie.infoq.cn/article/5c9471c7adb58e4bb43b69c4d

https://xie.infoq.cn/article/086b4e706965a6bd81f6a6ff2

https://xie.infoq.cn/article/a0dceef1588fe6c58247d3b37

https://xie.infoq.cn/article/9802a36beb0e82fd989991011

https://xie.infoq.cn/article/af5fc530f0d2ce7cbb8cefe5f

核心技术解析

元数据管理（Catalog Service）的功能主要是对读写请求的元数据进行读写操作。元数据服务是一个非常关键的服务，需要保证其自身的高可用和元数据的一致性，元数据服务的扩展性影响整个平台的扩展性，此外元数据读写的性能也影响整个读写过程的性能。

元数据管理需要重点考虑下面几个方面的问题，元数据的持久化，和利用缓存对元数据层的加速。

元数据的持久化，可以有很多不同的存储后端可供选择，例如 KV 型数据库，传统数据库，New SQL。经过综合考虑，最后决定选择 KV 数据库，目前采用字节内部产品 ByteKV，外部开源的 FoundationDB 也是其他产品常见选择。

对于 KV 数据库里面需要存储的元数据信息主要有版本、统计信息、事务信息、数据的 Schema、Partition 信息、Part 的信息等。

由于我们将 Part 级元数据存储在 ByteKV 中，因此在查询大数据范围时，是 KV 数据库的 Scan 操作，获取 Part 元数据的时间较长，且给 ByteKV 带来很重的负担。因此通过增加一个缓存层提高性能、降低负载。

因为 Insert/Select 语句会在任意的 Coordinator 节点上执行，为保证 Read-Commited 语义，需要确保不同 Coordinator 进程间一致的元数据读取，采用

1.Leader Selection 机制保证唯一的 Master

2.Master 维护全局一致的拓扑图

3.所有 Coordinator 采用相同的选主机制保证每一张表有唯一的主节点

4.表的主节点维持 Cache 的有效性

https://www.wjx.cn/vm/Ot0YJFq.aspx#

点击跳转云原生数据仓库ByteHouse 了解更多

服务器托管，北京服务器托管，服务器租用 http://www.fwqtg.net