数据分布
建表时,您可以通过设置合理的分区和分桶,实现数据均匀分布和查询性能提升。数据均匀分布是指数据按照一定规则划分为子集,并且均衡地分布在不同节点上。查询时能够有效裁剪数据扫描量,最大限度地利用集群的并发性能,从而提升查询性能。
说明
- 您在建表时设置数据分布后,如果业务场景查询模式和数据特点发生变化,则自 3.2 版本起,StarRocks 支持您在建表后修改一些数据分布相关属性,以满足最新业务场景对查询性能的要求。
- 自 3.1 版本起,您在建表和新增分区时可以不设置分桶键(即 DISTRIBUTED BY 子句)。StarRocks 默认使用随机分桶,将数据随机地分布在分区的所有分桶中。更多信息,请参见随机分桶。
- 自 2.5.7 版本起,您在建表和新增分区时可以不设置分桶数量 (BUCKETS)。StarRocks 默认自动设置分桶数量,如果自动设置分桶数量后性能未能达到预期,并且您比较熟悉分桶机制,则您也可以手动设置分桶数量。
数据分布概览
常见的数据分布方式
现代分布式数据库中,常见的数据分布方式有如下几种:Round-Robin、Range、List 和 Hash。如下图所示:
-
Round-Robin:以轮询的方式把数据逐个放置在相邻节点上。
-
Range:按区间进行数据分布。如上图所示,区间 [1-3]、[4-6] 分别对应不同的范围 (Range)。
-
List:直接基于离散的各个取值做数据分布,性别、省份等数据就 满足这种离散的特性。每个离散值会映射到一个节点上,多个不同的取值可能也会映射到相同节点上。
-
Hash:通过哈希函数把数据映射到不同节点上。
为了更灵活地划分数据,除了单独采用上述数据分布方式之一以外,您还可以根据具体的业务场景需求组合使用这些数据分布方式。常见的组合方式有 Hash+Hash、Range+Hash、Hash+List。
StarRocks 的数据分布方式
StarRocks 支持单独和组合使用数据分布方式。
说明
除了常见的分布方式外, StarRocks 还支持了 Random 分布,可以简化分桶设置。
并且 StarRocks 通过设置分区 + 分桶的方式来实现数据分布。
- 第一层为分区:在一张表中,可以进行分区,支持的分区方式有表达式分区、Range 分区和 List 分区,或者不分区(即全表只有一个分区)。
- 第二层为分桶:在一个分区中,必须进行分桶。支持的分桶方式有哈希分桶和随机分桶。
数据分布方式 | 分区和分桶方式 | 说明 |
---|---|---|
Random 分布 | 随机分桶 | 一张表为一个分区,表中数据随机分布至不同分桶。该方式为默认数据分布方式。 |
Hash 分布 | 哈希分桶 | 一张表为一个分区,对表中数据的分桶键值使用哈希函数进行计算后,得出其哈希值,分布到对应分桶。 |
Range+Random 分布 |
|
|
Range+Hash 分布 |
|
|
List+Random 分布 |
|
|
List+ Hash 分布 |
|
|
-
Random 分布
建表时不设置分区和分桶方式,则默认使用 Random 分布
CREATE TABLE site_access1 (
event_day DATE,
site_id INT DEFAULT '10',
pv BIGINT DEFAULT '0' ,
city_code VARCHAR(100),
user_name VARCHAR(32) DEFAULT ''
)
DUPLICATE KEY (event_day,site_id,pv);
-- 没有设置任何分区和分桶方式,默认为 Random 分布(目前仅支持明细表) -
Hash 分布
CREATE TABLE site_access2 (
event_day DATE,
site_id INT DEFAULT '10',
city_code SMALLINT,
user_name VARCHAR(32) DEFAULT '',
pv BIGINT SUM DEFAULT '0'
)
AGGREGATE KEY (event_day, site_id, city_code, user_name)
-- 设置分桶方式为哈希分桶,并且必须指定分桶键
DISTRIBUTED BY HASH(event_day,site_id); -
Range + Random 分布
CREATE TABLE site_access3 (
event_day DATE,
site_id INT DEFAULT '10',
pv BIGINT DEFAULT '0' ,
city_code VARCHAR(100),
user_name VARCHAR(32) DEFAULT ''
)
DUPLICATE KEY(event_day,site_id,pv)
-- 设为分区方式为表达式分区,并且使用时间函数的分区表达式(当然您也可以设置分区方式为 Range 分区)
PARTITION BY date_trunc('day', event_day);
-- 没有设置分桶方式,默认为随机分桶(目前仅支持明细表) -
Range + Hash 分布
CREATE TABLE site_access4 (
event_day DATE,
site_id INT DEFAULT '10',
city_code VARCHAR(100),
user_name VARCHAR(32) DEFAULT '',
pv BIGINT SUM DEFAULT '0'
)
AGGREGATE KEY(event_day, site_id, city_code, user_name)
-- 设为分区方式为表达式分区,并且使用时间函数的分区表达式(当然您也可以设置分区方式为 Range 分区)
PARTITION BY date_trunc('day', event_day)
-- 设置分桶方式为哈希分桶,必须指定分桶键
DISTRIBUTED BY HASH(event_day, site_id); -
List + Random 分布
CREATE TABLE t_recharge_detail1 (
id bigint,
user_id bigint,
recharge_money decimal(32,2),
city varchar(20) not null,
dt date not null
)
DUPLICATE KEY(id)
-- 设为分区方式为表达式分区,并且使用列分区表达式(当然您也可以设置分区方式为 List 分区)
PARTITION BY (city);
-- 没有设置分桶方式,默认为随机分桶(目前仅支持明细表) -
List + Hash 分布
CREATE TABLE t_recharge_detail2 (
id bigint,
user_id bigint,
recharge_money decimal(32,2),
city varchar(20) not null,
dt date not null
)
DUPLICATE KEY(id)
-- 设为分区方式为表达式分区,并且使用列分区表达式(当然您也可以设置分区方式为 List 分区)
PARTITION BY (city)
-- 设置分桶方式为哈希分桶,并且必须指定分桶键
DISTRIBUTED BY HASH(city,id);
分区
分区用于将数据划分成不同的区间。分区的主要作用是将一张表按照分区键拆分成不同的管理单元,针对每一个管理单元选择相应的存储策略,比如分桶数、冷热策略、存储介质、副本数等。StarRocks 支持在一个集群内使用多种存储介质,您可以将新数据所在分区放在 SSD 盘上,利用 SSD 优秀的随机读写性能来提高查询性能,将旧数据存放在 SATA 盘上,以节省数据存储的成本。
分区方式 | 适用场景 | 分区创建方式 |
---|---|---|
表达式分区(推荐) | 原称自动创建分区,适用大多数场景,并且灵活易用。适用于按照连续日期范围或者枚举值来查询和管理数据。 | 导入时自动创建 |
Range 分区 | 典型的场景是数据简单有序,并且通常按照连续日期/数值范围来查询和管理数据。再如一些特殊场景,比如历史数据需要按月划分分区,而最近数据需要按天划分分区。 | 动态、批量或者手动创建 |
List 分区 | 典型的场景是按照枚举值来查询和管理数据,并且一个分区中需要包含各分区列的多值。比如经常按照国家和城市来查询和管理数据,则可以使用该方式,选择分区列为 city ,一个分区包含属于一个国家的多个城市的数据。 | 手动创建 |
选择分区列和分区粒度
- 选择合理的分区列可以有效的裁剪查询数据时扫描的数据量。业务系统中⼀般会选择根据时间进行分区,以优化大量删除过期数据带来的性能问题,同时也方便冷热数据分级存储,此时可以使用时间列作为分区列进行表达式分区或者 Range 分区。此外,如果经常按照枚举值查询数据和管理数据,则可以选择枚举值的列作为分区列进行表达式分区或者 List 分区。
- 选择分区单位时需要综合考虑数据量、查询特点、数据管理粒度等因素。
- 示例 1:表单月数据量很小,可以按月分区,相比于按天分区,可以减少元数据数量,从 而减少元数据管理和调度的资源消耗。
- 示例 2:表单月数据量很大,而大部分查询条件精确到天,如果按天分区,可以做有效的分区裁剪,减少查询扫描的数据量。
- 示例 3:数据要求按天过期,可以按天分区。
分桶
一个分区按分桶方式被分成了多个桶 bucket,每个桶的数据称之为一个 tablet。
分桶方式:StarRocks 支持随机分桶(自 v3.1)和哈希分桶。
- 随机分桶,建表和新增分区时无需设置分桶键。在同一分区内,数据随机分布到不同的分桶中。
- 哈希分桶,建表和新增分区时需要指定分桶键。在同一分区内,数据按照分桶键划分分桶后,所有分桶键的值相同的行会唯一分配到对应的一个分桶。
分桶数量:默认由 StarRocks 自动设置分桶数量(自 v2.5.7)。同时也支持您手动设置分桶数量。更多信息,请参见设置分桶数量。