2021年4月10日土曜日

Dataiku DSS Ver9 へアップグレード

 

Dataiku DSS ver9 がリリース

2020年夏頃にリリースされたVer8から約7ヶ月。2021年3月にDataiku DSSの最新バージョンであるVer9がリリースされました!

今回のバージョンアップでは、
  • 機械学習モデルをサポートする機能(Visual ML Diagnostics、Model Assersion)
  • データハンドリングをより簡単にする機能(Smart Pattern Builder、Fuzzy Join、Interactive Date Preparation and Filtering
  • シミュレーション機能(What-If Analysis)
が追加されました。

詳細は以下のリンクからご確認ください。

Ver8からVer9へのアップグレードの仕方

次回の記事以降でVer9の新機能を紹介していくとして、今回はVer8からVer9へのUpgradeの仕方を紹介します。

※ 当然ですが、既存環境のバックアップ計画等を十分に考慮してから実施してください。この記事ではUpgradeは簡単に見えますが、個人で使う環境のため既存環境が消失しても問題ないため、簡単に記述してあります。

今回の環境は以下を想定しています。
  • クラウドサーバー: AWS EC2  
  • インスタンス:t3a.xlarge 
  • OS: Amazon Linux2 

全体的なアップグレードの手順としては以下のURLにあります。

https://doc.dataiku.com/dss/latest/installation/custom/upgrade.html#post-upgrade-tasks-after-startup

事前準備

前述でも書いた通り、また上記ドキュメントにもあるように、既存環境のバックアップをきちん取っておくようにしてください。Dataiku DSSは「DATA_DIR」というディレクトリに設定情報等が保存されるので、こちらのフォルダを事前にバックアップしておいてください。

また、実際にアップグレードをする際に、新しいインスタンスを作って、そこにDSSのProjectやFlowなどの部品をエクスポート/インポートしたら良いじゃないかと考えられる方がいらっしゃるかと思いますが、これはDataikuではオススメしていません。

なぜなら、DSS Projectのエクスポート/インポートは重要な部品はエクスポートできますが、Flowの状態やJupyterに書き込まれたファイル、SQLノートブックの結果などが含まれないため、新しいインスタンスに移した後に再計算しなければいけないためです。

ですので、Dataikuでは、同じインスタンスにアップグレードをかける方法を推奨しています。

Dataiku DSSの停止

Dataiku DSSが動いているのであれば、管理者権限で以下のコマンドでDSSを止めます。
DATA_DIR/bin/dss stop

Ver9 ファイルのダウンロードと解凍

サーバーにログイン(AWS EC2へのログインの仕方はここでは記載しません)して、以下のコマンドを使いファイルを任意のディレクトリにダウンロードします。
wget https://cdn.downloads.dataiku.com/public/dss/9.0.1/dataiku-dss-9.0.1.tar.gz
解凍は以下のコマンドでできます。
cd SOMEDIR (ダウンロードしたディレクトリ)
tar xzf /PATH/TO/dataiku-dss-9.0.1.tar.gz (解凍先のディレクトリ)
そうすると、以下のようにディレクトリが作成されます。

インストールとエラー

以下のコマンドで実際のインストールを行います。
dataiku-dss-9.0.1/installer.sh -d DATA_DIR -u
今回、私の環境では以下の結果が表示されましたが、どうやらインスール自体うまく行かなかったようです。(青字の部分)

*********************************************************

Data Science Studio installer: 2021/04/10-01:35:50

Command line: dataiku-dss-9.0.1/installer.sh -d DATA_DIR -u

Version: {"product_version" : "9.0.1", "product_commitid" : ""}

DIP_HOME: /home/ec2-user/DATA_DIR


[!] SELinux is installed but not enforcing

[+] Using Java at /usr/bin/java : openjdk version "1.8.0_252"

[+] Checking required dependencies

+ Detected OS distribution : amazonlinux 2

+ Checking required packages...

*** Error: package python3 not found


[-] Dependency check failed

[-] You can install required dependencies with:

[-]    sudo -i "/home/ec2-user/dataiku-dss-9.0.1/scripts/install/install-deps.sh" -without-java

[-] You can also disable this check with the -n installer flag


そこで、この中に書いてあるコマンドを使って再度インストールを行ってみます。

sudo -i "/home/ec2-user/dataiku-dss-9.0.1/scripts/install/install-deps.sh" -without-java

そうすると、インストールログが表示され、問題なくインストールできたようです。

***************************************************************

* Installation complete (DSS node type: design)

* Next, start DSS using:

*         '/home/ec2-user/DATA_DIR/bin/dss start'

*************************************************************** 

R環境のUpdate

もしRをDSSで使われているようであれば、Rの環境もUpdateしてください。
DATA_DIR/bin/dssadmin install-R-integration
ログが表示されますが、Rのパッケージをインストールしていますので、Rをよく使われている方は見慣れたログが表示されます。
インストールログが表示されなくなったら、完了です。

もしスタンドアローンのHadoopやSparkをインストールされていたり、グラフィックスのエクスポート機能を追加されていたら、再度設定をしてください。

Dataiku DSSのスタート

インストールが終わったら、以下のコマンドでDataiku DSSを再起動してください。
DATA_DIR/bin/dss start

バージョンアップできたかどうかの確認

Dataiku DSSが再起動して、ログインをしてみて、使っているProject等が問題なく動くか確認をしてみてください。
また、バージョンを確認したい場合は、右上の「?」をクリックして、Aboutを表示クリックしてください。
そうすると、バージョンが9.0.1となっていることが確認できます。



いかがでしたでしょうか。
思ったよりも簡単にアップグレードができるかと思います。

ぜひみなさんも使ってみてください。

[Community Edition]
https://www.dataiku.com/product/get-started/
(左下にCommunity Editionのダウンロードリンクがあります)



0 件のコメント: