StarRocks with Helm
目的
このクイックスタートの目的は以下の通りです:
- Helm を使用して StarRocks Kubernetes Operator と StarRocks クラスターをデプロイする
- StarRocks データベースユーザー
rootのパスワードを設定する - 3 つの FE と 3 つの BE を使用して高可用性を提供する
- メタデータを永続ストレージに保存する
- データを永続ストレージに保存する
- Kubernetes クラスター外部から MySQL クライアントが接続できるようにする
- Kubernetes クラスター外部から Stream Load を使用してデータをロードできるようにする
- 一部の公開データセットをロードする
- データをクエリする
データセットとクエリは、Basic Quick Start で使用されているものと同じです。ここでの主な違いは、Helm と StarRocks Operator を使用してデプロイすることです。
使用するデータは、NYC OpenData と National Centers for Environmental Information によって提供されています。
これらのデータセットは大規模であり、このチュートリアルは StarRocks を使用する際の体験を提供することを目的としているため、過去 120 年分のデータをロードすることはありません。3 台の e2-standard-4 マシン(または同等のもの)で構築された GKE Kubernetes クラスターで実行できます。より大規模なデプロイメントについては、他のドキュメントを用意しており、後で提供します。
このドキュメントには多くの情報が含まれており、最初にステップバイステップの内容が提示され、最後に技術的な詳細が記載されています。これは以下の目的を順に達成するためです:
- Helm を使用してシステムをデプロイする。
- 読者が StarRocks にデータをロードし、そのデータを分析できるようにする。
- ロード中のデータ変換の基本を説明する。
前提条件
Kubernetes environment
The Kubernetes environment used while writing this guide consists of three nodes with four vCPUS, and 16GB RAM each (GCP e2-standard-4 machines). The Kubernetes cluster was deployed with this gcloud command:
This command is for your reference, if you are using AWS, Azure, or any other Kubernetes provider you will need to modify this for your environment. In Google Cloud you will need to specify your own project and an appropriate location.
gcloud container --project enterprise-demo-422514 \
clusters create ee-docs \
--location=southamerica-west1-b \
--machine-type e2-standard-4 --disk-size 80 --num-nodes 3
Helm
Helm is a package manager for Kubernetes that simplifies the deployment and management of applications. In this lab you will use Helm to deploy the CelerData Enterprise Edition Kubernetes operator and the sample StarRocks cluster.
SQL クライアント
Kubernetes 環境で提供される SQL クライアントを使用するか、システム上のクライアントを使用できます。このガイドでは mysql CLI を使用します。多くの MySQL 互換クライアントが動作します。
curl
curl は StarRocks にデータロードジョブを発行し、データセットをダウンロードするために使用されます。curl または curl.exe を OS のプロンプトで実行してインストールされているか確認してください。curl がインストールされていない場合は、こちらから curl を取得してください.
用語
FE
フロントエンドノードは、メタデータ管理、クライアント接続管理、クエリプランニング、クエリスケジューリングを担当します。各 FE はメモリ内にメタデータの完全なコピーを保持し、FEs 間での無差別なサービスを保証します。
BE
バックエンドノードは、データストレージとクエリプランの実行の両方を担当します。
StarRocks Helm チャートリポジトリを追加する
Helm チャートには、StarRocks Operator とカスタムリソース StarRocksCluster の定義が含まれています。
-
Helm チャートリポジトリを追加します。
helm repo add starrocks https://starrocks.github.io/starrocks-kubernetes-operator -
Helm チャートリポジトリを最新バージョンに更新します。
helm repo update -
追加した Helm チャートリポジトリを表示します。
helm search repo starrocksNAME CHART VERSION APP VERSION DESCRIPTION
starrocks/kube-starrocks 1.9.7 3.2-latest kube-starrocks includes two subcharts, operator...
starrocks/operator 1.9.7 1.9.7 A Helm chart for StarRocks operator
starrocks/starrocks 1.9.7 3.2-latest A Helm chart for StarRocks cluster
starrocks/warehouse 1.9.7 3.2-latest Warehouse is currently a feature of the StarRoc...
データをダウンロードする
これらの 2 つのデータセットをマシンにダウンロードします。
ニューヨーク市のクラッシュデータ
curl -O https://raw.githubusercontent.com/StarRocks/demo/master/documentation-samples/quickstart/datasets/NYPD_Crash_Data.csv
気象データ
curl -O https://raw.githubusercontent.com/StarRocks/demo/master/documentation-samples/quickstart/datasets/72505394728.csv
Helm の値ファイルを作成する
このクイックスタートの目的は以下の通りです:
- StarRocks データベースユーザー
rootのパスワードを設定する - 3 つの FE と 3 つの BE を使用して高可用性を提供する
- メタデータを永続ストレージに保存する
- データを永続ストレージに保存する
- Kubernetes クラスター外部から MySQL クライアントが接続できるようにする
- Kubernetes クラスター外部から Stream Load を使用してデータをロードできるようにする
Helm チャートはこれらの目的を満たすためのオプションを提供しますが、デフォルトでは設定されていません。このセクションの残りでは、これらの目的を達成するために必要な設定をカバーします。完全な値の仕様が提供されますが、まず各 6 つのセクションの詳細を読み、次に完全な仕様をコピーしてください。
1. データベースユーザーのパスワード
この YAML の一部は、StarRocks オペレーターに対して、データベースユーザー root のパスワードを Kubernetes secret starrocks-root-pass の password キーの値に設定するよう指示します。
starrocks:
initPassword:
enabled: true
# Set a password secret, for example:
# kubectl create secret generic starrocks-root-pass --from-literal=password='g()()dpa$$word'
passwordSecret: starrocks-root-pass
-
タスク: Kubernetes secret を作成する
kubectl create secret generic starrocks-root-pass --from-literal=password='g()()dpa$$word'
2. 3 つの FE と 3 つの BE を使用した高可用性
starrocks.starrockFESpec.replicas を 3 に設定し、starrocks.starrockBeSpec.replicas を 3 に設定することで、高可用性のために十分な FEs と BEs を確保できます。CPU とメモリのリクエストを低く設定することで、小さな Kubernetes 環境でポッドを作成できます。
starrocks:
starrocksFESpec:
replicas: 3
resources:
requests:
cpu: 1
memory: 1Gi
starrocksBeSpec:
replicas: 3
resources:
requests:
cpu: 1
memory: 2Gi
3. メタデータを永続ストレージに保存する
starrocks.starrocksFESpec.storageSpec.name に "" 以外の値を設定すると、以下が発生します:
- 永続ストレージが使用される
starrocks.starrocksFESpec.storageSpec.nameの値がサービスのすべてのストレージボリュームのプレフィックスとして使用される
値を fe に設定することで、これらの PVs が FE 0 に対して作成されます:
fe-meta-kube-starrocks-fe-0fe-log-kube-starrocks-fe-0
starrocks:
starrocksFESpec:
storageSpec:
name: fe
4. データを永続ストレージに保存する
starrocks.starrocksBeSpec.storageSpec.name に "" 以外の値を設定すると、以下が発生します:
- 永続ストレージが使用される
starrocks.starrocksBeSpec.storageSpec.nameの値がサービスのすべてのストレージボリュームのプレフィックスとして使用される
値を be に設定することで、これらの PVs が BE 0 に対して作成されます:
be-data-kube-starrocks-be-0be-log-kube-starrocks-be-0
storageSize を 15Gi に設定することで、デフォルトの 1Ti からストレージを削減し、ストレージの小さなクォータに適合させます。
starrocks:
starrocksBeSpec:
storageSpec:
name: be
storageSize: 15Gi
5. MySQL クライアント用の LoadBalancer
デフォルトでは、FE サービスへのアクセスはクラスター IP を通じて行われます。外部アクセスを許可するために、service.type を LoadBalancer に設定します。
starrocks:
starrocksFESpec:
service:
type: LoadBalancer
6. 外部データロード用の LoadBalancer
Stream Load では、FEs と BEs の両方への外部アクセスが必要です。リクエストは FE に送信され、その後 FE がアップロードを処理するための BE を割り当てます。curl コマンドが BE にリダイレクトされることを許可するために、starroclFeProxySpec を有効にし、タイプを LoadBalancer に設定する必要があります。
starrocks:
starrocksFeProxySpec:
enabled: true
service:
type: LoadBalancer
完全な値ファイル
上記のスニペットを組み合わせると、完全な値ファイルが提供されます。これを my-values.yaml に保存してください:
starrocks:
initPassword:
enabled: true
# Set a password secret, for example:
# kubectl create secret generic starrocks-root-pass --from-literal=password='g()()dpa$$word'
passwordSecret: starrocks-root-pass
starrocksFESpec:
replicas: 3
service:
type: LoadBalancer
resources:
requests:
cpu: 1
memory: 1Gi
storageSpec:
name: fe
starrocksBeSpec:
replicas: 3
resources:
requests:
cpu: 1
memory: 2Gi
storageSpec:
name: be
storageSize: 15Gi
starrocksFeProxySpec:
enabled: true
service:
type: LoadBalancer
StarRocks ルートデータベースユーザーパスワードを設定する
Kubernetes クラスター外部からデータをロードするために、StarRocks データベースを外部に公開します。StarRocks データベースユーザー root のパスワードを設定してください。オペレーターは FE と BE ノードにパスワードを適用します。
kubectl create secret generic starrocks-root-pass --from-literal=password='g()()dpa$$word'
secret/starrocks-root-pass created
オペレーターと StarRocks クラスターをデプロイする
helm install -f my-values.yaml starrocks starrocks/kube-starrocks
NAME: starrocks
LAST DEPLOYED: Wed Jun 26 20:25:09 2024
NAMESPACE: default
STATUS: deployed
REVISION: 1
TEST SUITE: None
NOTES:
Thank you for installing kube-starrocks-1.9.7 kube-starrocks chart.
It will install both operator and starrocks cluster, please wait for a few minutes for the cluster to be ready.
Please see the values.yaml for more operation information: https://github.com/StarRocks/starrocks-kubernetes-operator/blob/main/helm-charts/charts/kube-starrocks/values.yaml
StarRocks クラスターのステータスを確認する
次のコマンドで進行状況を確認できます:
kubectl --namespace default get starrockscluster -l "cluster=kube-starrocks"
NAME PHASE FESTATUS BESTATUS CNSTATUS FEPROXYSTATUS
kube-starrocks reconciling reconciling reconciling reconciling
kubectl get pods
kube-starrocks-initpwd ポッドは、StarRocks ルートパスワードを設定するために FE と BE ポッドに接続しようとする際に、error と CrashLoopBackOff 状態を経ることがあります。これらのエラーは無視し、このポッドのステータスが Completed になるのを待ってください。
NAME READY STATUS RESTARTS AGE
kube-starrocks-be-0 0/1 Running 0 20s
kube-starrocks-be-1 0/1 Running 0 20s
kube-starrocks-be-2 0/1 Running 0 20s
kube-starrocks-fe-0 1/1 Running 0 66s
kube-starrocks-fe-1 0/1 Running 0 65s
kube-starrocks-fe-2 0/1 Running 0 66s
kube-starrocks-fe-proxy-56f8998799-d4qmt 1/1 Running 0 20s
kube-starrocks-initpwd-m84br 0/1 CrashLoopBackOff 3 (50s ago) 92s
kube-starrocks-operator-54ffcf8c5c-xsjc8 1/1 Running 0 92s
kubectl get pvc
NAME STATUS VOLUME CAPACITY ACCESS MODES STORAGECLASS VOLUMEATTRIBUTESCLASS AGE
be-data-kube-starrocks-be-0 Bound pvc-4ae0c9d8-7f9a-4147-ad74-b22569165448 15Gi RWO standard-rwo <unset> 82s
be-data-kube-starrocks-be-1 Bound pvc-28b4dbd1-0c8f-4b06-87e8-edec616cabbc 15Gi RWO standard-rwo <unset> 82s
be-data-kube-starrocks-be-2 Bound pvc-c7232ea6-d3d9-42f1-bfc1-024205a17656 15Gi RWO standard-rwo <unset> 82s
be-log-kube-starrocks-be-0 Bound pvc-6193c43d-c74f-4d12-afcc-c41ace3d5408 1Gi RWO standard-rwo <unset> 82s
be-log-kube-starrocks-be-1 Bound pvc-c01f124a-014a-439a-99a6-6afe95215bf0 1Gi RWO standard-rwo <unset> 82s
be-log-kube-starrocks-be-2 Bound pvc-136df15f-4d2e-43bc-a1c0-17227ce3fe6b 1Gi RWO standard-rwo <unset> 82s
fe-log-kube-starrocks-fe-0 Bound pvc-7eac524e-d286-4760-b21c-d9b6261d976f 5Gi RWO standard-rwo <unset> 2m23s
fe-log-kube-starrocks-fe-1 Bound pvc-38076b78-71e8-4659-b8e7-6751bec663f6 5Gi RWO standard-rwo <unset> 2m23s
fe-log-kube-starrocks-fe-2 Bound pvc-4ccfee60-02b7-40ba-a22e-861ea29dac74 5Gi RWO standard-rwo <unset> 2m23s
fe-meta-kube-starrocks-fe-0 Bound pvc-5130c9ff-b797-4f79-a1d2-4214af860d70 10Gi RWO standard-rwo <unset> 2m23s
fe-meta-kube-starrocks-fe-1 Bound pvc-13545330-63be-42cf-b1ca-3ed6f96a8c98 10Gi RWO standard-rwo <unset> 2m23s
fe-meta-kube-starrocks-fe-2 Bound pvc-609cadd4-c7b7-4cf9-84b0-a75678bb3c4d 10Gi RWO standard-rwo <unset> 2m23s
クラスターが正常であることを確認する
これらは上記と同じコマンドですが、望ましい状態を示しています。
kubectl --namespace default get starrockscluster -l "cluster=kube-starrocks"
NAME PHASE FESTATUS BESTATUS CNSTATUS FEPROXYSTATUS
kube-starrocks running running running running
kubectl get pods
システムは、kube-starrocks-initpwd を除くすべてのポッドが READY 列で 1/1 を示すときに準備が整います。kube-starrocks-initpwd ポッドは 0/1 を示し、STATUS が Completed であるべきです。
NAME READY STATUS RESTARTS AGE
kube-starrocks-be-0 1/1 Running 0 57s
kube-starrocks-be-1 1/1 Running 0 57s
kube-starrocks-be-2 1/1 Running 0 57s
kube-starrocks-fe-0 1/1 Running 0 103s
kube-starrocks-fe-1 1/1 Running 0 102s
kube-starrocks-fe-2 1/1 Running 0 103s
kube-starrocks-fe-proxy-56f8998799-d4qmt 1/1 Running 0 57s
kube-starrocks-initpwd-m84br 0/1 Completed 4 2m9s
kube-starrocks-operator-54ffcf8c5c-xsjc8 1/1 Running 0 2m9s
EXTERNAL-IP アドレスは、Kubernetes クラスター外部からの SQL クライアントおよび Stream Load アクセスを提供するために使用されます。
kubectl get services
NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
kube-starrocks-be-search ClusterIP None <none> 9050/TCP 78s
kube-starrocks-be-service ClusterIP 34.118.228.231 <none> 9060/TCP,8040/TCP,9050/TCP,8060/TCP 78s
kube-starrocks-fe-proxy-service LoadBalancer 34.118.230.176 34.176.12.205 8080:30241/TCP 78s
kube-starrocks-fe-search ClusterIP None <none> 9030/TCP 2m4s
kube-starrocks-fe-service LoadBalancer 34.118.226.82 34.176.215.97 8030:30620/TCP,9020:32461/TCP,9030:32749/TCP,9010:30911/TCP 2m4s
kubernetes ClusterIP 34.118.224.1 <none> 443/TCP 8h
ハイライトされた行から EXTERNAL-IP アドレスを環境変数に保存しておくと便利です:
export MYSQL_IP=`kubectl get services kube-starrocks-fe-service --output jsonpath='{.status.loadBalancer.ingress[0].ip}'`
export FE_PROXY=`kubectl get services kube-starrocks-fe-proxy-service --output jsonpath='{.status.loadBalancer.ingress[0].ip}'`:8080
SQL クライアントで StarRocks に接続する
mysql CLI 以外のクライアントを使用している場合は、今すぐ開いてください。
このコマンドは Kubernetes ポッドで mysql コマンドを実行します:
kubectl exec --stdin --tty kube-starrocks-fe-0 -- \
mysql -P9030 -h127.0.0.1 -u root --prompt="StarRocks > "
mysql CLI がローカルにインストールされている場合は、Kubernetes クラスター内のものではなくそれを使用できます:
mysql -P9030 -h $MYSQL_IP -u root --prompt="StarRocks > " -p