Dataphin
Dataphin 是阿里巴巴集团 OneData 数据治理方法论内部实践的云化输出,一站式提供数据采、建、管、用全生命周期的大数据能力,以助力企业显著提升数据治理水平,构建质量可靠、消费便捷、生产安全经济的企业级数据中台。Dataphin 提供多种计算平台支持及可拓展的开放能力,以适应各行业企业的平台技术架构和特定诉求。
Dataphin 与 StarRocks 集成分为以下几种场景:
-
作为数据集成的来源或目标数据源,支持从 StarRocks 中读取数据到其他数据源,或从其他数据源写入数据到 StarRocks。
-
作为实时研发的来源表、维表或结果表。
-
作为数据仓库或数据集市,注册 StarRocks 为 Dataphin 计算源,可进行 SQL 研发及调度、数据质量检测、安全识别等数据研发及治理工作。
数据集成
在 Dataphin 中,支持创建 StarRocks 数据源,并且在离线集成任务中使用 StarRocks 数据源作为来源数据库或目标数据库。具体使用步骤如下:
创建 StarRocks 数据源
基本信息
-
数据源名称:必填。输入数据源的名称,只能包含中文、字母、数字、下划线(_)或中划线(-),长度不能超过 64 个字符。
-
数据源编码:选填。配置数据源编码后,可在 Flink SQL 任务中通过
数据源编码.table
或数据源编码.schema.table
的格式引用数据源中的表。如果需要根据所处环境自动访问对应环境的数据源,请通过${数据源编码}.table
或${数据源编码}.schema.table
的格式访问。注意:目前仅支持 MySQL、Hologres、MaxCompute 数据源。 -
支持应用场景:支持 StarRocks 数据源的应用场景。
-
数据源描述:选填。输入对数据源简单的描述,长度不得超过 128 个字符。
-
数据源配置:必填。如果业务数据源区分生产数据源和开发数据源,则选择 “生产+开发”数据源。如果业务数据源不区分生产数据源和开发数据源,则选择 “生产”数据源。
-
标签:选填。可选择标签给数据源进行分类打标。
配置信息
-
JDBC URL:必填。格式为
jdbc:mysql://<host>:<port>/<dbname>
,其中host
为 StarRocks 集群的 FE(Front End)主机 IP 地址,port
为 FE 的查询端口,dbname
为数据库名称。 -
Load URL:必填。格式为
fe_ip:http_port;fe_ip:http_port
,其中fe_ip
为 FE 的 Host,http_port
为 FE 的 HTTP 端口。 -
用户名:必填。数据库的用户名。
-
密码:必填。数据库的密码。
高级设置
-
connectTimeout:数据库的
connectTimeout
时长(单位 ms),默认 900000 毫秒(15 分钟)。 -
socketTimeout:数据库的
socketTimeout
时长(单位 ms),默认 1800000 毫秒(30 分钟)。
从 StarRocks 数据源读取数据写入其他 数据源
在离线集成任务画布中拖入 StarRocks 输入组件
配置 StarRocks 输入组件配置
-
步骤名称:根据当前组件的使用场景及定位,输入合适的名称。
-
数据源:可选 Dataphin 中创建的 StarRocks 数据源或是项目。需要配置人员具备同步读权限的数据源。如有不满足,可通过添加数据源或申请相关权限获取。
-
来源表信息:根据实际场景需要,选择单张表或多张具有相同表结构的表,作为输入。
-
表:下拉可以选择 StarRocks 数据源中的表。
-
切分键:配合并发度配置使用。您可以将源数据表中某一列作为切分键,该字段类型必须是整型数字,建议使用主键或有索引的列作为切分键。
-
批量条数:批量抽取数据的条数。
-
过滤信息:过滤信息非必填项。
两种情况下会填写相关信息:
- 固定的某一部分数据。
- 带参数过滤,比如对于需要每天增量追加或全量覆盖获取数据的情况,往往会填入带有表内日期字段限制为 Dataphin 的系统时间参数,比如 StarRocks 库中的一张交易表,交易创建日期=
${bizdate}
。
-
输出字段:针对所选的表信息,获取表的字段作为输出字段。可进行字段重命名、移除或再次添加、移动字段的顺序。一般情况下,重命名是为了下游的数据可读性或输出时候的字段方便映射;移除是因为从应用场景角度考虑不需要相关字段,因此在输入步骤及早对不需要的字段进行剔除;移动字段顺序是为了下游有多个输入数据进行合并或输出的时候,对名称不一致情况下可以采用同行映射的方式高效进行数据合并或映射输出。