Jupyter
このガイドでは、ノートブック、コード、およびデータのための最新のウェブベースのインタラクティブ開発環境である Jupyter と StarRocks クラスターを統合する方法を説明します。
これ らはすべて、JupySQL を介して可能になります。JupySQL は、%sql、%%sql、および %sqlplot マジックを使用して Jupyter で SQL を実行し、大規模なデータセットをプロットすることを可能にします。
JupySQL を Jupyter 上で使用して、StarRocks 上でクエリを実行することができます。
データがクラスターにロードされると、SQL プロットを介してデータをクエリし、視覚化することができます。
前提条件
始める前に、以下のソフトウェアがローカルにインストールされている必要があります:
- JupySQL:
pip install jupysql - Jupyterlab:
pip install jupyterlab - SKlearn Evaluation:
pip install sklearn-evaluation - Python
- pymysql:
pip install pymysql
NOTE
上記の要件を満たしたら、
jupyterlabを呼び出すだけで Jupyter lab を開くことができます。これにより、ノートブックインターフェースが開きます。 すでにノートブックで Jupyter lab が実行されている場合は、以下のセルを実行して依存関係を取得することができます。
# 必要なパッケージをインストールします。
%pip install --quiet jupysql sklearn-evaluation pymysql
NOTE
更新されたパッケージを使用するには、カーネルを再起動する必要があるかもしれません。
import pandas as pd
from sklearn_evaluation import plot
# SQL セルを作成するために JupySQL Jupyter 拡張機能をインポートします。
%load_ext sql
%config SqlMagic.autocommit=False
次のステージに進むためには、StarRocks インスタンスが起動してアクセス可能であることを確認する必要があります。
NOTE
接続しようとしているインスタンスタイプに応じて、接続文字列を調整する必要があります(url、ユーザー、およびパスワード)。以下の例では、ローカルインスタンスを使用しています。
JupySQL を介して StarRocks に接続する
この例では、docker インスタンスが使用されてお り、それが接続文字列に反映されています。
root ユーザーを使用してローカルの StarRocks インスタンスに接続し、データベースを作成し、テーブルからデータを実際に読み書きできることを確認します。
%sql mysql+pymysql://root:@localhost:9030
JupySQL データベースを作成して使用します:
%sql CREATE DATABASE jupysql;
%sql USE jupysql;
テーブルを作成します:
%%sql
CREATE TABLE tbl(c1 int, c2 int) distributed by hash(c1) properties ("replication_num" = "1");
INSERT INTO tbl VALUES (1, 10), (2, 20), (3, 30);
SELECT * FROM tbl;