基于 HDFS 部署
本文介绍如何部署和使用 StarRocks 存算分离集群。该功能从 3.0 版本开始支持。
说明
- StarRocks v3.1 版本对存算分离部署和配置进行了一些更改。如果您正在运行 v3.1 版本或更高版本,请使用本文档。
- 如果您需要部署 v3.0 版本,请使用 v3.0 文档。
- StarRocks 存算分离集群不支持数据备份和恢复。
StarRocks 存算分离集群采用了存储计算分离架构,特别为云存储设计。在存算分离的模式下,StarRocks 将数据存储在对象存储(例如 AWS S3、GCS、OSS、Azure Blob 以及 MinIO)或 HDFS 中,而本地盘作为热数据缓存,用以加速查询。通过存储计算分离架构,您可以降低存储成本并且优化资源隔离。除此之外,集群的弹性扩展能力也得以加强。在查询命中缓存的情况下,存算分离集群的查询性能与存算一体集群性能一致。
在 v3.1 版本及更高版本中,StarRocks 存算分离集群由 FE 和 CN 组成。CN 取代了存算一体集群中的 BE。
相对存算一体架构,StarRocks 的存储计算分离架构提供以下优势:
- 廉价且可无缝扩展的存储。
- 弹性可扩展的计算能力。由于数据不存储在 CN 节点中,因此集群无需进行跨节点数据迁移或 Shuffle 即可完成扩缩容。
- 热数据的本地磁盘缓存,用以提高查询性能。
- 可选异步导入数据至对象存储,提高导入效率。
系统架构
部署 StarRocks 存算分离集群
StarRocks 存算分离集群的部署方式与存算一体集群的部署方式类似,但存算分离集群需要部署 CN 节点而非 BE 节点。本小节仅列出部署 StarRocks 存算分离集群时需要添加到 FE 和 CN 配置文件 fe.conf 和 cn.conf 中的额外配置项。有关部署 StarRocks 集群的详细说明,请参阅 部署 StarRocks。
注意
请勿在配置完成前启动集群。
存算分离部署 FE 配置
FE 配置示例
在所有 FE 节点的配置文件 fe.conf 中添加以下配置项:
run_mode = shared_data
cloud_native_meta_port = <meta_port>
cloud_native_storage_type = HDFS
# 例如 hdfs://127.0.0.1:9000/user/starrocks/
cloud_native_hdfs_url = <hdfs_url>
如果您想在集群创建后手动创建默认存储卷,则只需添加以下配置项:
run_mode = shared_data
cloud_native_meta_port = <meta_port>
enable_load_volume_from_conf = false
FE 配置说明
run_mode
StarRocks 集群的运行模式。有效值:
shared_data
:在存算分离模式下运行 StarRocks。shared_nothing
(默认):在存算一体模式下运行 StarRocks。
说明
- StarRocks 集群不支持存算分离和存算一体模式混合部署。
- 请勿在集群部署完成后更改
run_mode
,否则将导致集群无法再次启动。不支持从存算一体集群转换为存算分离集群,反之亦然。
cloud_native_meta_port
云原生元数据服务监听端口。
- 默认值:
6090
enable_load_volume_from_conf
是否允许 StarRocks 使用 FE 配置文件中指定的存储相关属性创建默认存储卷。自 v3.1.0 起支持。有效值:
true
(默认):如果您在创建新的存算分离集群时指定此项为true
,StarRocks 将使用 FE 配置文件中存储相关属性创建内置存储卷builtin_storage_volume
,并将其设置为默认存储卷。但如果您没有指定存储相关的属性,StarRocks 将无法启动。false
:如果您在创建新的存算分离集群时指定此项为false
,StarRocks 将直接启动,不会创建内置存储卷。在 StarRocks 中创建任何对象之前,您必须手动创建一个存储卷并将其设置为默认存储卷。详细信息请参见创建默认存储卷。
注意
建议您在升级现有的 v3.0 存算分离集群时,保留此项的默认配置
true
。如果将此项修改为false
,升级前创建的数据库和表将变为只读,您无法向其中导入数据。
cloud_native_storage_type
您使用的存储类型。在存算分离模式下,StarRocks 支持将数据存储在 HDFS 、Azure Blob(自 v3.1.1 起支持)、以及兼容 S3 协议的对象存储中(例如 AWS S3、Google GCP、阿里云 OSS 以及 MinIO)。有效值:
S3
(默认值)AZBLOB
HDFS
说明
- 如果您将此项指定为
S3
,则必须添加 以aws_s3
为前缀的配置项。- 如果您将此项指定为
AZBLOB
,则必须添加以azure_blob
为前缀的配置项。- 如果将此项指定为
HDFS
,则只需指定cloud_native_hdfs_url
。
cloud_native_hdfs_url
HDFS 存储的 URL,例如 hdfs://127.0.0.1:9000/user/xxx/starrocks/
。
注意
成功创建存算分离集群后,您只能修改与安全凭证相关的配置项。如果您更改了原有存储路径相关的配置项,则在此之前创建的数据库和表将变为只读,您无法向其中导入数据。
存算分离部署 CN 配置
在启动 CN 之前,在 CN 配置文件 cn.conf 中添加以下配置项:
starlet_port = <starlet_port>
storage_root_path = <storage_root_path>
starlet_port
存算分离模式下,用于 CN 心跳服务的端口。默认值:9070
。
storage_root_path
本地缓存数据依赖的存储目录,多块盘配置使用分号(;)隔开。例如:/data1;/data2
。默认值:${STARROCKS_HOME}/storage
。
本地缓存在查询频率较高且被查询的数据为最新数据的情况下非常有效,但以下情况下您可以关闭本地缓存。
- 在一个具有按需缩放的 CN pod 的 Kubernetes 环境中,pod 可能没有附加存储卷。
- 当查询的数据大部分是位于远程存储中的旧数据时,如果查询不频繁,缓存数据的命中率可能很低,此时开启本地缓存并不能显著提升查询性能。
如需关闭本地数据缓存:
storage_root_path =
说明
本地缓存数据将存储在
<storage_root_path>/starlet_cache
路径下。
使用 StarRocks 存算分离集群
StarRocks 存算分离集群的使用也类似于 StarRocks 存算一体集群,不同之处在于存算分离集群需要使用存储卷和云原生表才能将数据持久化到 HDFS 或对象存储。
创建默认存储卷
您可以使用 StarRocks 自动创建的内置存储卷,也可以手动创建和设置默认存储卷。本节介绍如何手动创建并设置默认存储卷。
说明
如果您的 StarRocks 存算分离集群是由 v3.0 升级,则无需定义默认存储卷。 StarRocks 会根据您在 FE 配置文件 fe.conf 中指定的相关配置项自动创建默认存储卷。您仍然可以使用其他远程数据存储资源创建新的存储卷或定义其他存储卷为默认。
为了确保 StarRocks 存算分离集群有权限在远程数据源中存储数据,您必须在创建数据库或云原生表时引用存储卷。存储卷由远程数据存储系统的属性和凭证信息组成。在部署新 StarRocks 存算分离集群时,如果您禁止了 StarRocks 创建内置存储卷 (将 enable_load_volume_from_conf
设置为 false
),则启动后必须先创建和设置默认存储卷,然后才能在集群中创建数据库和表。
以下示例为 HDFS 存储创建存储卷 def_volume
,激活并将其设置为默认存储卷:
CREATE STORAGE VOLUME def_volume
TYPE = HDFS
LOCATIONS = ("hdfs://127.0.0.1:9000/user/starrocks/");
SET def_volume AS DEFAULT STORAGE VOLUME;
有关如何为其他远程存储创建存储卷和设置默认存储卷的更多信息,请参阅 CREATE STORAGE VOLUME 和 [SET DEFAU../../sql-reference/sql-statements/cluster_management/storage_volume/SET_DEFAULT_STORAGE_VOLUME.mdT_STORAGE_VOLUME.md)。