Dataphin
Dataphin は、Alibaba Group の OneData データガバナンス手法の内部実践を基にしたクラウドベースのアウトプットです。ビッグデータのライフサイクル全体を通じて、データ統合、構築、管理、利用のワンストップソリューションを提供し、企業がデータガバナンスのレベルを大幅に向上させ、高品質で信頼性が高く、便利に消費でき、安全で経済的な生産を実現する企業レベルのデータミドルプラットフォームを構築することを目指しています。Dataphin は、さまざまなコンピューティングプラットフォームのサポートと拡 張可能なオープン機能を提供し、さまざまな業界の企業のプラットフォーム技術アーキテクチャと特定の要件を満たします。
Dataphin を StarRocks と統合する方法はいくつかあります:
-
データ統合のソースまたは宛先データソースとして。データは StarRocks から読み取られ、他のデータソースにプッシュされるか、他のデータソースからプルされて StarRocks に書き込まれます。
-
flink SQL およびデータストリーム開発のソーステーブル(無制限スキャン)、ディメンションテーブル(制限付きスキャン)、または結果テーブル(ストリーミングシンクおよびバッチシンク)として。
-
データウェアハウスまたはデータマートとして。StarRocks はコンピュートソースとして登録でき、SQL スクリプトの開発、スケジューリング、データ品質検出、セキュリティ識別、その他のデータ研究およびガバナンスタスクに使用できます。
データ統合
StarRocks データソースを作成し、オフライン統合タスクでソースデータベースまたは宛先データベースとして使用できます。手順は以下の通りです:
StarRocks データソースの作成
基本情報

-
Name: 必須。データソース名を入力します。中国語の文字、アルファベット、数字、アンダースコア (_)、ハイフン (-) のみを含めることができます。長さは 64 文字を超えることはできません。
-
Data source code: 任意。データソースコードを設定すると、
data source code.tableまたはdata source code.schema.table形式で Flink SQL をデータソースで参照できます。対応する環境でデータソースに自動的にアクセスする場合は、${data source code}.tableまたは${data source code}.schema.table形式でアクセスしてください。NOTE
現在、MySQL、Hologres、MaxCompute データソースのみがサポートされています。
-
Support scenerios: データソースが適用できるシナリオ。
-
Description: 任意。データソースの簡単な説明を入力できます。最大 128 文字まで許可されます。
-
Environment: ビジネスデータソースがプロダクションデータソースと開発データソースを区別する場合は、Prod and Dev を選択します。ビジネスデータソースがプロダクションと開発データソースを区別しない場合は、Prod を選 択します。
-
Tags: データソースにラベルを付けるためのタグを選択できます。
設定情報

-
JDBC URL: 必須。形式は
jdbc:mysql://<host>:<port>/<dbname>です。hostは StarRocks クラスター内の FE (Front End) ホストの IP アドレス、portは FE のクエリポート、dbnameはデータベース名です。 -
Load URL: 必須。形式は
fe_ip:http_port;fe_ip:http_portです。fe_ipは FE (Front End) のホスト、http_portは FE のポートです。 -
Username: 必須。データベースのユーザー名。
-
Password: 必須。データベースのパスワード。
高度な設定

-
connectTimeout: データベースの connectTimeout (ミリ秒単位)。デフォルト値は 900000 ミリ秒(15 分)です。
-
socketTimeout: データベースの socketTimeout (ミリ秒単位)。デフォルト値は 1800000 ミリ秒(30 分)です。
StarRocks データソースからデータを読み取り、他のデータソースにデータを書き込む
StarRocks 入力コンポーネントをオフライン統合タスクキャンバスにドラッグ

StarRocks 入力コンポーネントの設定

-
Step name: 現在のコンポーネントのシナリオと位置に基づいて適切な名前を入力します。
-
Data source: Dataphin で作成された StarRocks データソースまたはプロジェクトを選択します。データソースの読み取り権限が必要です。満足するデータソースがない場合は、データソースを追加するか、関連する権限を申請できます。
-
Source table: 入力として同じテーブル構造を持つ単一のテーブルまたは複数のテーブルを選択します。
-
Table: ドロップダウンリストから StarRocks データソース内のテーブルを選択します。
-
Split key: 同時実行設定と共に使用されます。ソースデータテーブルの列をスプリットキーとして使用できます。プライマリキーまたはインデックス付きの列をスプリットキーとして使用することをお勧めします。
-
Batch number: バッチで抽出されるデータレコードの数。
-
Input Filtering: 任意。
次の 2 つの場合にフィルター情報を入力する必要があります:
- データの特定の部分をフィルタリングしたい場合。
- 日々の増分データを追加したり、完全なデータを取得したりする必要がある場合、Dataphin コンソールのシステム時間として設定された日付を入力する必要があります。たとえば、StarRocks のトランザクションテーブルとそのトランザクション作成日が
${bizdate}として設定されている場合。
-
Output fields: 入力テーブル情報に基づいて関連フィールドをリストします。フィールドの名前変更、削除、追加、移動が可能です。一般的に、フィールドは下流データの可読性を高めたり、出力時のフィールドマッピングを容易にするために名前が変更されます。アプリケーションシナリオで関連フィールドが必要ないため、入力段階でフィールドを削除することができます。複数の入力データがマージされたり、下流側で出力される際に、異なる名前のフィールドを同じ行でマッピングすることでデータを効果的にマージまたはマッピングできるように、フィールドの順序が変更されます。
出力コンポーネントを宛先データソースとして選択して設定

他のデータソースからデータを読み取り、StarRocks データソースにデータを書き込む
オフライン統合タスクで入力コンポーネントを設定し、StarRocks 出力コンポーネントを宛先データソースとして選択して設定
