Dataphin
Dataphin 是阿里巴巴集团 OneData 数据治理方法论内部实践的云化输出,一站式提供数据采、建、管、用全生命周期的大数据能力,以助力企业显著提升数据治理水平,构建质量可靠、消费便捷、生产安全经济的企业级数据中台。Dataphin 提供多种计算平台支持及可拓展的开放能力,以适应各行业企业的平台技术架构和特定诉求。
Dataphin 与 StarRocks 集成分为以下几种场景:
-
作为数据集成的来源或目标数据源,支持从 StarRocks 中读取数据到其他数据源,或从其他数据源写入数据到 StarRocks。
-
作为实时研发的来源表、维表或结果表。
-
作为数据仓库或数据集市,注册 StarRocks 为 Dataphin 计算源,可进行 SQL 研发及调度、数据质量检测、安全识别等数据研发及治理工作。
数据集成
在 Dataphin 中,支持创建 StarRocks 数据源,并且在离线集成任务中使用 StarRocks 数据源作为来源数据库或目标数据库。具体使用步骤如下:
创建 StarRocks 数据源
基本信息
-
数据源名称:必填。输入数据源的名称,只能包含中文、字母、数字、下划线(_)或中划线(-),长度不能超过 64 个字符。
-
数据源编码:选填。配置数据源编码后,可在 Flink SQL 任务中通过
数据源编码.table
或数据源编码.schema.table
的格式引用数据源中的表。如果需要根据所处环境自动访问对应环境的数据源,请通过${数据源编码}.table
或${数据源编码}.schema.table
的格式访问。注意:目前仅支持 MySQL、Hologres、MaxCompute 数据源。 -
支持应用场景:支持 StarRocks 数据源的应用场景。
-
数据源描述:选填。输入对数据源简单的描述,长度不得超过 128 个字符。
-
数据源配置:必填。如果业务数据源区分生产数据源和开发数据源,则选择 “生产+开发”数据源。如果业务数据源不区分生产数据源和开发数据源,则选择 “生产”数据源。
-
标签:选填。可选择标签给数据源进行分类打标。
配置信息
-
JDBC URL:必填。格式为
jdbc:mysql://<host>:<port>/<dbname>
,其中host
为 StarRocks 集群的 FE(Front End)主机 IP 地址,port
为 FE 的查询端口,dbname
为数据库名称。 -
Load URL:必填。格式为
fe_ip:http_port;fe_ip:http_port
,其中fe_ip
为 FE 的 Host,http_port
为 FE 的 HTTP 端口。 -
用户名:必填。数据库的用户名。
-
密码:必填。数据库的密码。
高级设置
-
connectTimeout:数据库的
connectTimeout
时长(单位 ms),默认 900000 毫秒(15 分钟)。 -
socketTimeout:数据库的
socketTimeout
时长(单位 ms),默认 1800000 毫秒(30 分钟)。