从 GCS 导入
StarRocks 支持通过 Broker Load 从 Google Cloud Storage(简称 GCS)导入数据。
作为一种异步的导入方式,Broker Load 负责建立与 GCS 的连接、拉取数据、并将数据存储到 StarRocks 中。
当前支持 Parquet、ORC、及 CSV 三种文件格式。
Broker Load 优势
- Broker Load 在后台运行,客户端不需要保持连接也能确保导入作业不中断。
- Broker Load 作业默认超时时间为 4 小时,适合导入数据较大、导入运行时间较长的场景。
- 除 Parquet 和 ORC 文件格式,Broker Load 还支持 CSV 文件格式。
工作原理
- 用户创建导入作业。
- FE 生成查询计划,然后把查询计划拆分并分分配给各个 BE(或 CN)执行。
- 各个 BE(或 CN)从数据源拉取数据并把数据导入到 StarRocks 中。
准备工作
准备数据源
确保待导入数据已保存在 GCS 存储桶。建议您将数据保存在与 StarRocks 集群同处一个地域(Region)的 存储桶,这样可以降低数据传输成本。
本文中,我们提供了样例数据集 gs://starrocks-samples/user_behavior_ten_million_rows.parquet
,对所有合法的 GCP 用户开放。您只要配置真实有效的安全凭证,即可访问该数据集。
查看权限
导入操作需要目标表的 INSERT 权限。如果您的用户账号没有 INSERT 权限,请参考 GRANT 给用户赋权。