从 Microsoft Azure Storage 导入
StarRocks 支持通过 Broker Load 从Microsoft Azure Storage 导入数据。
作为一种异步的导入方式,Broker Load 负责建立与 Azure 的连接、拉取数据、并将数据存储到 StarRocks 中。
当前支持 Parquet、ORC、及 CSV 三种文件格式。
Broker Load 优势
- Broker Load 在后台运行,客户端不需要保持连接也能确保导入作业不中断。
- Broker Load 作业默认超时时间为 4 小时,适合导入数据较大、导入运行时间较长的场景。
- 除 Parquet 和 ORC 文件格式,Broker Load 还支持 CSV 文件格式。
工作原理
- 用户创建导入作业。
- FE 生成查询计划,然后把查询计划拆分并分分配给各个 BE(或 CN)执行。
- 各个 BE(或 CN)从数据源拉取数据并把数据导入到 StarRocks 中。
准备工作
准备数据源
确保待导入数据已保存在您 Azure 服务账号(Service Account)下的容器(Container)。
本文中,我们提供了 Parquet 格式的样例数据集 (user_behavior_ten_million_rows.parquet
,保存在 Azure Data Lake Storage Gen2(简称 ADLS Gen2)服务账号 (starrocks
) 下容器 (starrocks-container
) 的根目录里。
查看权限
导入操作需要目标表的 INSERT 权限。如果您的用户账号没有 INSERT 权限,请参考 GRANT 给用户赋权。