Dataphin
Dataphin は、Alibaba Group の OneData データガバナンス手法の内部実践をクラウドベースで提供するものです。ビッグデータのライフサイクル全体を通じて、データの統合、構築、管理、利用のワンストップソリューションを提供し、企業がデータガバナンスのレベルを大幅に向上させ、高品質で信頼性が高く、便利に消費でき、安全で経済的な生産を実現する企業レベルのデータミドルプラットフォームを構築することを目指しています。Dataphin は、さまざまな業界の企業のプラットフォーム技術アーキテクチャと特定の要件を満たすために、さまざまなコンピューティングプラットフォームのサポートと拡張可能なオープン機能を提供します。
Dataphin を StarRocks と統合する方法はいくつかあります。
-
データ統合のソースまたは宛先データソースとして。データは StarRocks から読み取られ、他のデータソースにプッシュされるか、他のデータソースからプルされて StarRocks に書き込まれます。
-
Flink SQL およびデータストリーム開発のソーステーブル(無限スキャン)、ディメンションテーブル(有限スキャン)、または結果テーブル(ストリーミングシンクおよびバッチシンク)として。
-
データウェアハウスまたはデータマートとして。StarRocks はコンピュートソースとして登録でき、SQL スクリプトの開発、スケジューリング、データ品質検出、セキュリティ識別、その他のデータ研究およびガバナンスタスクに使用できます。
データ統合
StarRocks データソースを作成し、オフライン統合タスクでソースデータベースまたは宛先データベースとして使用できます。手順は以下の通りです。
StarRocks データソースを作成する
基本情報

-
Name: 必須。データソース名を入力します。中国語の文字、アルファベット、数字、アンダースコア (_)、ハイフン (-) のみを含むことができます。長さは 64 文字を超えることはできません。
-
Data source code: 任意。データソースコードを設定した後、
data source code.tableまたはdata source code.schema.table形式を使用してデータソース内の Flink SQL を参照できます。対応する環境でデータソースに自動的にアクセスしたい場合は、${data source code}.tableまたは${data source code}.schema.table形式を使用してアクセスします。NOTE
現在、MySQL、Hologres、および MaxCompute データソースのみがサポートされています。
-
Support scenerios: データソースが適用されるシナリオ。
-
Description: 任意。データソースの簡単な説明を入力できます。最大 128 文字まで許可されます。
-
Environment: ビジネスデータソースがプロダクションデータソースと開発データソースを区別する場合は、Prod and Dev を選択します。ビジネスデータソースがプロダクションと開発データソースを区別しない場合は、Prod を選択します。
-
Tags: データソースにラベルを付けるためのタグを選択できます。
設定情報

-
JDBC URL: 必須。形式は
jdbc:mysql://<host>:<port>/<dbname>です。hostは StarRocks クラスター内の FE (Front End) ホストの IP アドレス、portは FE のクエリポート、dbnameはデータベース名です。 -
Load URL: 必須。形式は
fe_ip:http_port;fe_ip:http_portです。fe_ipは FE (Front End) のホスト、http_portは FE のポートです。 -
Username: 必須。データベースのユーザー名です。
-
Password: 必須。データベースのパスワードです。
高度な設定

-
connectTimeout: データベースの接続タイムアウト(ミリ秒単位)。デフォルト値は 900000 ミリ秒(15 分)です。
-
socketTimeout: データベースのソケットタイムアウト(ミリ秒単位)。デフォルト値は 1800000 ミリ秒(30 分)です。
StarRocks データソースからデータを読み取り、他のデータソースにデータを書き込む
StarRocks 入力コンポーネントをオフライン統合タスクキャンバスにドラッグする

StarRocks 入力コンポーネントの設定

-
Step name: 現在のコンポーネントのシナリオと位置に基づいて適切な名前を入力します。
-
Data source: Dataphin 上で作成された StarRocks データソースまたはプロジェクトを選択します。データソースの読み取り権限が必要です。満足するデータソースがない場合は、データソースを追加するか、関連する権限を申請できます。
-
Source table: 入力として同じテーブル構造を持つ単一または複数のテーブルを選択します。
-
Table: ドロップダウンリストから StarRocks データソース内のテーブルを選択します。
-
Split key: 同時実行設定と共に使用されます。ソースデータテーブルの列をスプリットキーとして使用できます。プライマリキーまたはインデックス付き列をスプリットキーとして使用することをお勧めします。
-
Batch number: バッチで抽出されるデータレコードの数。
-
Input Filtering: 任意。
次の 2 つの場合にフィルター情報を入力する必要があります。
- 特定のデータ部分をフィルタリングしたい場合。
- 日次でデータを増分的に追加する必要がある場合、または完全なデータを取得する必要がある場合、Dataphin コンソールのシステム時間として設定された日付を入力する必要があります。例えば、StarRocks のトランザクションテーブルで、そのトランザクション作成日が
${bizdate}と設定されている場合。
-
Output fields: 入力テーブル情報に基づいて関連フィールドをリストします。フィールドを再度リネーム、削除、追加、移動できます。一般的に、フィールドは下流データの可読性を高めるため、または出力時のフィールドマッピングを容易にするためにリネームされます。アプリケーションシナリオで関連フィールドが必要ないため、入力段階でフィールドを削除できます。フィールドの順序を変更して、複数の入力データがマージされる場合や下流側で出力される場合に、異なる名前のフィールドを同じ行でマッピングすることで、データを効果的にマージまたはマッピングできるようにします。
出力コンポーネントを宛先データソースとして選択および設定する

他のデータソースからデータを読み取り、StarRocks データソースにデータを書き込む
オフライン統合タスクで入力コンポーネントを設定し、StarRocks 出力コンポーネントを宛先データソースとして選択および設定する

StarRocks 出力コンポーネントを設定する

-
Step Name: 現在のコンポーネントのシナリオと位置に基づいて適切な名前を入力します。
-
Data Source: StarRocks で作成された Dataphin データソースまたはプロジェクトを選択します。設定担当者が同期書き込み権限を持つデータソースです。満足するデータソースがない場合は、データソースを追加するか、関連する権限を申請できます。
-
Table: ドロップダウンリストから StarRocks データソース内のテーブルを選択します。
-
Generate Target Table by One Click: StarRocks データソース内にターゲットテーブルを作成していない場合、上流から読み取ったフィールドの名前、タイプ、および備考を自動的に取得し、テーブル作成ステートメントを生成できます。ワンクリックでターゲットテーブルを生成します。
-
CSV import column delimiter: StreamLoad CSV を使用してインポートします。CSV インポー ト列区切り文字を設定できます。デフォルト値は
\tです。ここでデフォルト値を指定しないでください。データ自体に\tが含まれている場合は、他の文字を区切り文字として使用する必要があります。 -
CSV import row delimiter: StreamLoad CSV を使用してインポートします。CSV インポート行区切り文字を設定できます。デフォルト値は
\nです。ここでデフォルト値を指定しないでください。データ自体に\nが含まれている場合は、他の文字を区切り文字として使用する必要があります。 -
Parse Solution: 任意。データが書き込まれる前または後に行われる特別な処理です。準備ステートメントはデータが StarRocks データソースに書き込まれる前に実行され、完了ステートメントはデータが書き込まれた後に実行されます。
-
Field Mapping: マッピングのためにフィールドを手動で選択するか、名前ベースまたは位置ベースのマッピングを使用して、上流入力のフィールドと宛先テーブルのフィールドに基づいて複数のフィールドを一度に処理できます。
リアルタイム開発
概要
StarRocks は、高速でスケーラブルなリアルタイム分析データベースです。リアルタイムデータ分析とクエリのニーズを満たすために、リアルタイムコンピューティングでデータの読み取りと書き込みに一般的に使用されます。企業のリアルタイムコンピューティングシナリオで広く使用されています。リアルタイムビジネスモニタリングと分析、リアルタイムユーザー行動分析、リアルタイム広告入札システム、リアルタイムリスクコントロール、詐欺防止、リアルタイムモニタリングと早期警告などのアプリケーションシナリオで使用できます。データをリアルタイムで分析およびクエリすることで、企業はビジネス状況を迅速に把握し、意思決定を最適化し、より良いサービスを提供し、利益を保護できます。
StarRocks コネクタ
StarRocks コネクタは次の情報をサポートします。
| カテゴリ | 事実と数字 |
|---|---|
| サポートされているタイプ | ソーステーブル、ディメンションテーブル、結果テーブル |
| 実行モード | ストリームモードとバッチモード |
| データ形式 | JSON と CSV |
| 特別なメトリクス | なし |
| API タイプ | Datastream と SQL |
| 結果テーブルでのデータの更新または削除をサポートしますか? | はい |