导入过程中实现数据转换
StarRocks 支持在导入数据的过程中实现数据转换。
目前支持的导入方式有 Stream Load、Broker Load 和 Routine Load。暂不支持 Spark Load 导入方式。
注意
导入操作需要目标表的 INSERT 权限。如果您的用户账号没有 INSERT 权限,请参考 GRANT 给用户赋权。
本文以 CSV 格式的数据文件为例介绍如何在导入过程中实现数据转换。具体支持哪些格式的数据文件的转换,跟您选择的导入方式有关。
说明
对于 CSV 格式的数据,StarRocks 支持设置长度最大不超过 50 个字节的 UTF-8 编码字符串作为列分隔符,包括常见的逗号 (,)、Tab 和 Pipe (|)。
应用场景
在向 StarRocks 表中导入数据时,有时候 StarRocks 表中的内容与源数据文件中的内容不完全一致。在以下几种情况下,您不需要进行任何外部的 ETL 工作,StarRocks 就可以帮助您在导入过程中完成数据的提取和转化:
-
跳过不需要导入的列。
一方面,该功能使您可以跳过不需要导入的列;另一方面,当 StarRocks 表与源数据文件的列顺序不一致时,您可以通过该功能建立两者之间的列映射关系。
-
过滤掉不需要导入的行。
在导入时,您可以通过指定过滤条件,跳过不需要导入的行,只导入必要的行。
-
生成衍生列。
衍生列是指对源数据文件中的列进行计算之后产生的新列。该功能使您可以将计算后产生的新列落入 到 StarRocks 表中。
-
从文件路径中获取分区字段的内容。
支持 Apache Hive™ 分区路径命名方式,使 StarRocks 能够从文件路径中获取分区列的内容。
数据样例
-
在本地文件系统中创建数据文件。
a. 创建一个名为
file1.csv
的数据文件,文件一共包含四列,分别代表用户 ID、用户性别、事件日期和事件类型,如下所示:354,female,2020-05-20,1
465,male,2020-05-21,2
576,female,2020-05-22,1
687,male,2020-05-23,2b. 创建一个
file2.csv
的数据文件,文件只包含一个时间戳格式的列,代表日期,如下所示:2020-05-20
2020-05-21
2020-05-22
2020-05-23 -
在
test_db
的数据库中创建 StarRocks 表。说明
自 2.5.7 版本起,StarRocks 支持在建表和新增分区时自动设置分桶数量 (BUCKETS),您无需手动设置分桶数量。更多信息,请参见 确定分桶数量。
a. 创建一张名为
table1
的表,包含user_id
、event_date
和event_type
三列,如下所示:CREATE TABLE table1
(
`user_id` BIGINT COMMENT "用户 ID",
`event_date` DATE COMMENT "事件日期",
`event_type` TINYINT COMMENT "事件类型"
)
DISTRIBUTED BY HASH(user_id);b. 创建一张名为
table2
的表,包含date
、year
、month
和day
四列,如下所示:CREATE TABLE table2
(
`date` DATE COMMENT "日期",
`year` INT COMMENT "年",
`month` TINYINT COMMENT "月",
`day` TINYINT COMMENT "日"
)
DISTRIBUTED BY HASH(date); -
把
file1.csv
和file2.csv
文件上传到 HDFS 集群的/user/starrocks/data/input/
路径下,并把file1.csv
和file2.csv
文件中的数据分别上传到 Apache Kafka® 集群的topic1
和topic2
中。
跳过不需要导入的列
源数据文件中可能包含一些 StarRocks 表中不存在的列。StarRocks 支持您只导入 StarRocks 表中存在的列,而忽略掉不需要的列。
该特性支持如下数据源:
-
本地文件系统
-
HDFS 和外部云存储系统
说明
这里以 HDFS 为例进行 介绍。
-
Kafka
通常情况下,CSV 文件中源数据文件中的列,是没有命名的。有些 CSV 文件中,会在首行给出列名,但其实 StarRocks 仍然是不感知的,会当做普通数据处理。因此,在导入 CSV 格式的数据时,您需要在导入命令或者语句中对源数据文件中的列按顺序依次临时命名。这些临时命名的列,会和 StarRocks 表中的列按名称进行对应。这里需要注意以下几点:
-
源数据文件中与 StarRocks 表中都存在、且命名相同的列,其数据会直接导入。
-
源数据文件中存在、但是 StarRocks 表中不存在的列,其数据会在导入过程中忽略掉。
-
如果有 StarRocks 表中存在、但是未声明的列,会报错。
本小节以 file1.csv
文件和 table1
表为例。假设 file1.csv
文件中的四列按顺序依次临时命名为 user_id
、user_gender
、event_date
和 event_type
。其中,file1.csv
文件中临时命名的 user_id
、event_date
和 event_type
这些列都能在 table1
表中找到对应的列,所以这些列对应的数据都会被导入到 table1
表中;而 file1.csv
文件中临时命名的 user_gender
列,在 table1
表中并不存在,所以导入时会被直接忽略掉。