CREATE TABLE
功能
该语句用于创建表。
该操作需要有在对应数据库内的建表权限 (CREATE TABLE)。
语法
CREATE [EXTERNAL] TABLE [IF NOT EXISTS] [database.]table_name
(column_definition1[, column_definition2, ...]
[, index_definition1[, index_definition2, ...]])
[ENGINE = [olap|mysql|elasticsearch|hive|iceberg|hudi|jdbc]]
[key_desc]
[COMMENT "table comment"]
[partition_desc]
[distribution_desc]
[rollup_index]
[ORDER BY (column_definition1,...)]
[PROPERTIES ("key"="value", ...)]
[BROKER PROPERTIES ("key"="value", ...)]
参数说明
column_definition
语法:
col_name col_type [agg_type] [NULL | NOT NULL] [DEFAULT "default_value"] [AUTO_INCREMENT] [AS generation_expr]
说明:
col_name:列名称。
注意,在一般情况下,不能直接创建以以 __op
或 __row
开头命名的列,因为此类列名被 StarRocks 保留用于特殊目的,创建这样的列可能导致未知行为。如需创建这样的列,必须将 FE 动态参数 allow_system_reserved_names
设置为 TRUE
。
col_type:列数据类型
支持的列类型以及取值范围等信息如下:
-
TINYINT(1字节) 范围:-2^7 + 1 ~ 2^7 - 1
-
SMALLINT(2字节) 范围:-2^15 + 1 ~ 2^15 - 1
-
INT(4字节) 范围:-2^31 + 1 ~ 2^31 - 1
-
BIGINT(8字节) 范围:-2^63 + 1 ~ 2^63 - 1
-
LARGEINT(16字节) 范围:-2^127 + 1 ~ 2^127 - 1
-
FLOAT(4字节) 支持科学计数法。
-
DOUBLE(8字节) 支持科学计数法。
-
DECIMAL[(precision, scale)] (16字节) 保证精度的小数类型。默认是 DECIMAL(10, 0) precision: 1 ~ 38 scale: 0 ~ precision 其中整数部分为:precision - scale 不支持科学计数法。
-
DATE(3字节) 范围:0000-01-01 ~ 9999-12-31
-
DATETIME(8字节) 范围:0000-01-01 00:00:00 ~ 9999-12-31 23:59:59
-
CHAR[(length)]
定长字符串。长度范围:1 ~ 255。默认为 1。
-
VARCHAR[(length)]
变长字符串。单位:字节,默认取值为
1
。- StarRocks 2.1.0 之前的版本,
length
的取值范围为 1~65533。 - 【公测中】自 StarRocks 2.1.0 版本开始,
length
的取值范围为 1~1048576。
- StarRocks 2.1.0 之前的版本,
-
HLL (1~16385个字节)
HLL 列类型,不需要指定长度和默认值,长度根据数据的聚合程度 系统内控制,并且 HLL 列只能通过配套的 hll_union_agg、hll_cardinality、hll_hash进行查询或使用。
-
BITMAP BITMAP 列类型,不需要指定长度和默认值。表示整型的集合,元素个数最大支持到 2^64 - 1。
-
ARRAY 支持在一个数组中嵌套子数组,最多可嵌套 14 层。您必须使用尖括号( < 和 > )来声明 ARRAY 的元素类型,如 ARRAY < INT >。目前不支持将数组中的元素声明为 Fast Decimal 类型。
agg_type:聚合类型,如果不指定,则该列为 key 列。否则,该列为 value 列。
支持的聚合类型如下:
- SUM、MAX、MIN、REPLACE
- HLL_UNION(仅用于 HLL列,为 HLL 独有的聚合方式)。
- BITMAP_UNION(仅用于 BITMAP 列,为 BITMAP 独有的聚合方式)。
- REPLACE_IF_NOT_NULL:这个聚合类型的含义是当且仅当新导入数据是非 NULL 值时会发生替换行为。如果新导入的数据是 NULL,那么 StarRocks 仍然会保留原值。
注意:
- BITMAP_UNION 聚合类型列在导入时的原始数据类型必须是
TINYINT, SMALLINT, INT, BIGINT
。 - 如果在建表时
REPLACE_IF_NOT_NULL
列指定了 NOT NULL,那么 StarRocks 仍然会将其转化 NULL,不会向用户报错。用户可以借助这个类型完成「部分列导入」的功能。 该类型只对聚合表有用 (key_desc
的type
为AGGREGATE KEY
)。自 3.1.9 起,REPLACE_IF_NOT_NULL
新增支持 BITMAP 类型的列。
NULL | NOT NULL:列数据是否允许为 NULL
。其中明细表、聚合表和更新表中所有列都默认指定 NULL
。主键表的指标列默认指定 NULL
,维度列默认指定 NOT NULL
。如源数据文件中存在 NULL
值,可以用 \N
来表示,导入时 StarRocks 会将其解析为 NULL
。
DEFAULT "default_value":列数据的默认值。导入数据时,如果该列对应的源数据文件中的字段为空,则自动填充 DEFAULT
关键字中指定的默认值。支持以下三种指定方式:
- DEFAULT current_timestamp:默认值为当前时间。参见 current_timestamp() 。
- DEFAULT
<默认值>
:默认值为指定类型的值。例如,列类型为 VARCHAR,即可指定默认值为DEFAULT "beijing"
。当前不支持指定 ARRAY、BITMAP、JSON、HLL 和 BOOLEAN 类型为默认值。 - DEFAULT (
<表达式>
):默认值为指定函数返回的结果。目前仅支持 uuid() 和 uuid_numeric() 表达式。
AUTO_INCREMENT:指定自增列。自增列的数据类型只支持 BIGINT,自增 ID 从 1 开始增加,自增步长为 1。有关自增列的详细说明,请参见 AUTO_INCREMENT。自 v3.0,StarRocks 支持该功能。
AS generation_expr:指定生成列和其使用的表达式。生成列用于预先计算并存储表达式的结果,可以加速包含复杂表达式的查询。自 v3.1,StarRocks 支持该功能。
index_definition
创建 bitmap 索引的语法如下。有关参数说明和使用限制,请参见 Bitmap 索引。
INDEX index_name (col_name[, col_name, ...]) [USING BITMAP] [COMMENT '']
ENGINE 类型
默认为 olap
,表示创建的是 StarRocks 内部表。
可选值:mysql
、elasticsearch
、hive
、jdbc
(2.3 及以后)、iceberg
、hudi
(2.2 及以后)。如果指定了可选值,则创建的是对应类型的外部表 (external table),在建表时需要使用 CREATE EXTERNAL TABLE。更多信息,参见外部表。
从 3.0 版本起,对于查询 Hive、Iceberg、Hudi 和 JDBC 数据源的场景,推荐使用 Catalog 直接查询,不再推荐外部表的方式。具体参见 Hive catalog、Iceberg catalog、Hudi catalog 和 JDBC catalog。
从 3.1 版本起,支持直接在 Iceberg catalog 内创建表(当前仅支持 Parquet 格式的表),您可以通过 INSERT INTO 把数据插入到 Iceberg 表中。参见 创建 Iceberg 表。
从 3.2 版本起,支持直接在 Hive catalog 内创建表(当前仅支持 Parquet 格式的表),您可以通过 INSERT INTO 把数据插入到 Hive 表中。参见 创建 Hive 表。
-
如果是 mysql,则需要在 properties 提供以下信息:
PROPERTIES (
"host" = "mysql_server_host",
"port" = "mysql_server_port",
"user" = "your_user_name",
"password" = "your_password",
"database" = "database_name",
"table" = "table_name"
)注意: "table" 条目中的 "table_name" 是 MySQL 中的真实表名。 而 CREATE TABLE 语句中的 table_name 是该 MySQL 表在 StarRocks 中的名字,可以不同。
在 StarRocks 创建 MySQL 表的目的是可以通过 StarRocks 访问 MySQL 数据库。 而 StarRocks 本身并不维护、存储任何 MySQL 数据。
-
如果是 elasticsearch,则需要在 properties 提供以下信息:
PROPERTIES (
"hosts" = "http://192.168.0.1:8200,http://192.168.0.2:8200",
"user" = "root",
"password" = "root",
"index" = "tindex",
"type" = "doc"
)其中
hosts
为 Elasticsearch 集群连接地址,可指定一个或者多个,user 和 password
为开启 basic 认证的 Elasticsearch 集群的用户名/密码,index
是 StarRocks 中的表对应的 Elasticsearch 的 index 名字,可以是 alias,type
指定 index 的类型,默认是doc
。 -
如果是 hive,则需要在 properties 提供以下信息:
PROPERTIES (
"database" = "hive_db_name",
"table" = "hive_table_name",
"hive.metastore.uris" = "thrift://xx.xx.xx.xx:9083"
)其中
database
是 Hive 表对应的库名字,table
是 hive 表的名字,hive.metastore.uris
是 Hive metastore 服务地址。 -
如果是 jdbc,则需要在 properties 提供以下信息:
PROPERTIES (
"resource"="jdbc0",
"table"="dest_tbl"
)其中
resource
是所使用 JDBC 资源的名称。table
是目标数据库表名。 -
如果 是 iceberg,则需要在 properties 提供以下信息:
PROPERTIES (
"resource" = "iceberg0",
"database" = "iceberg",
"table" = "iceberg_table"
)其中
resource
是引用的 Iceberg 资源的名称。database
是 Iceberg 表所属的数据库名称。table
Iceberg 表名称。 -
如果是 hudi,则需要在 properties 提供以下信息:
PROPERTIES (
"resource" = "hudi0",
"database" = "hudi",
"table" = "hudi_table"
)其中
resource
是 Hudi 资源的名称。database
是 Hudi 表所属的数据库名称。table
Hudi 表名称。
key_desc
语法:
`key_type(k1[,k2 ...])`
说明
数据按照指定的 key 列进行排序,且根据不同的 key_type
具有不同特性。
key_type
支持以下类型:
- AGGREGATE KEY: key 列相同的记录,value 列按照指定的聚合类型进行聚合,适合报表、多维分析等业务场景。
- UNIQUE KEY/PRIMARY KEY: key 列相同的记录,value 列按导入顺序进行覆盖,适合按 key 列进行增删改查的点查询 (point query) 业务。
- DUPLICATE KEY: key 列相同的记录,同时存在于 StarRocks 中,适合存储明细数据或者数据无聚合特性的业务场景。
默认为 DUPLICATE KEY,数据按 key 列做排序。
除 AGGREGATE KEY 外,其他 key_type
在建表时,value
列不需要指定聚合类型 (agg_type)。
COMMENT
表的注释,可选。注意建表时 COMMENT 必须在 key_desc
之后,否则建表失败。
如果后续想修改表的注释,可以使用 ALTER TABLE <table_name> COMMENT = "new table comment"
(3.1 版本开始支持)。
partition_desc
支持三种分区方式,表达式分区(推荐)、Range 分区 和 List 分区。
使用 Range 分区时,提供三种创建方式,其语法、说明和示例如下:
-
动态创建分区
动态分区提供了分区生命周期管理(TTL)。StarRocks 会自动提前创建新的分区,并删除过期的分区,以确保数据时效性。要启用这个功能,您可以在创建表时配置与动态分区相关的属性。
-
手动创建分区
-
仅指定各个分区的上界
语法:
PARTITION BY RANGE ( <partitioning_column1> [, <partitioning_column2>, ... ] )
PARTITION <partition1_name> VALUES LESS THAN ("<upper_bound_for_partitioning_column1>" [ , "<upper_bound_for_partitioning_column2>", ... ] )
[ ,
PARTITION <partition2_name> VALUES LESS THAN ("<upper_bound_for_partitioning_column1>" [ , "<upper_bound_for_partitioning_column2>", ... ] )
, ... ]
)说明:
使用指定的 key 列和指定的数值范围进行分区。
- 分区名称的命名要求,参见系统限制。
- 仅支持以下类型的列作为 Range 分区列:
TINYINT, SMALLINT, INT, BIGINT, LARGEINT, DATE, DATETIME
。 - 分区为左闭 右开区间,首个分区的左边界为最小值。
- NULL 值只会存放在包含 最小值 的分区中。当包含最小值的分区被删除后,NULL 值将无法导入。
- 可以指定一列或多列作为分区列。如果分区值缺省,则会默认填充最小值。
- 当只指定一个列作为分区列时,您可以设置最后一个分区的分区列的上界为 MAXVALUE。
注意:
- 分区一般用于时间维度的数据管理。
- 有数据回溯需求的,可以考虑首个分区为空分区,以便后续增加分区。
示例:
-
分区列
pay_dt
为 DATE 类型,并且按天分区。PARTITION BY RANGE(pay_dt)
(
PARTITION p1 VALUES LESS THAN ("2021-01-02"),
PARTITION p2 VALUES LESS THAN ("2021-01-03"),
PARTITION p3 VALUES LESS THAN ("2021-01-04")
) -
分区列
pay_dt
为 INT 类型,并且按天分区。PARTITION BY RANGE(pay_dt)
(
PARTITION p1 VALUES LESS THAN ("20210102"),
PARTITION p2 VALUES LESS THAN ("20210103"),
PARTITION p3 VALUES LESS THAN ("20210104")
) -
分区列
pay_dt
为 INT 类型,并且按天分区,最后一个分区没有上界。PARTITION BY RANGE(pay_dt)
(
PARTITION p1 VALUES LESS THAN ("20210102"),
PARTITION p2 VALUES LESS THAN ("20210103"),
PARTITION p3 VALUES LESS THAN MAXVALUE
)
-
指定各个分区的上界和下界
语法:
PARTITION BY RANGE ( <partitioning_column1> [, <partitioning_column2>, ... ] )
(
PARTITION <partition_name1> VALUES [( "<lower_bound_for_partitioning_column1>" [ , "<lower_bound_for_partitioning_column2>", ... ] ), ( "<upper_bound_for_partitioning_column1>" [ , "<upper_bound_for_partitioning_column2>", ... ] ) )
[,
PARTITION <partition_name2> VALUES [( "<lower_bound_for_partitioning_column1>" [ , "<lower_bound_for_partitioning_column2>", ... ] ), ( "<upper_bound_for_partitioning_column1>" [ , "<upper_bound_for_partitioning_column2>", ... ] ) )
, ...]
)说明:
- 与仅指定分区下界相比,指定各个分区的上界和下界相对灵活,并且您可以自定义左右区间。
- 其他与 LESS THAN 保持同步。
- 当只指定一 个列作为分区列时,您可以设置最后一个分区的分区列的上界为 MAXVALUE。
示例:
-
分区列
pay_dt
为 DATE 类型,并且按月分区。PARTITION BY RANGE (pay_dt)
(
PARTITION p202101 VALUES [("2021-01-01"), ("2021-02-01")),
PARTITION p202102 VALUES [("2021-02-01"), ("2021-03-01")),
PARTITION p202103 VALUES [("2021-03-01"), ("2021-04-01"))
) -
分区列
pay_dt
为 INT 类型,并且按月分区。PARTITION BY RANGE (pay_dt)
(
PARTITION p202101 VALUES [("20210101"), ("20210201")),
PARTITION p202102 VALUES [("20210201"), ("20210301")),
PARTITION p202103 VALUES [("20210301"), ("20210401"))
) -
分区列
pay_dt
为 INT 类型,并且按月分区,最后一个分区没有上界。PARTITION BY RANGE (pay_dt)
(
PARTITION p202101 VALUES [("20210101"), ("20210201")),
PARTITION p202102 VALUES [("20210201"), ("20210301")),
PARTITION p202103 VALUES [("20210301"), (MAXVALUE))
)
-
-
批量创建分区
语法:
-
如果分区列为时间类型
PARTITION BY RANGE (<partitioning_column>) (
START ("<start_date>") END ("<end_date>") EVERY (INTERVAL <N> <time_unit>)
)- 如果分区列为整数类型
PARTITION BY RANGE (<partitioning_column>) (
START ("<start_integer>") END ("<end_integer>") EVERY (<partitioning_granularity>)
)说明: 用户可以通过给出一个 START 值、一个 END 值以及一个定义分区增量值的 EVERY 子句批量产生分区。
- 当前分区列仅支持日期类型和整数类型。
- 当分区列为日期类型时,需要指定
INTERVAL
关键字来表示日期间隔。目前日期间隔支持 hour (v3.0)、day、week、month、year,分区的命名规则同动态分区一样。 - 当分区列为整数类型时,START 值、END 值仍需要用双引号包裹。
- 仅支持指定一列作为分区列。
更多信息,请参见批量创建分区。
示例:
-
分区列
pay_dt
为 DATE 类型,并且按年分区。PARTITION BY RANGE (pay_dt) (
START ("2018-01-01") END ("2023-01-01") EVERY (INTERVAL 1 YEAR)
)
-