2020年4月6日月曜日

Dataiku Version7 新機能 : Github(Git)との連携

Dataikuが3月の中旬に新しいバージョンアップされました。前回は、Interactive Statistics を紹介して、DataikuのEDA(Exploratory Data Analysis)の機能が大幅に拡充されたのを紹介しました。

今回はGithubとの連携について紹介をします。
※ Github、Gitの使い方についてこちらでは紹介いたしません。こちらをご参考ください。

GithubへのSSHキーの設定

まずはGithubのアカウントの取得とSSHキーの設定をしてください。
GithubのSSHキーの設定の仕方はこちらになります。

サーバーの設定をしてからDataikuを起動

私はハマってしまったのですが、Dataikuが動いているサーバーのSSHキー設定が完了してから、Dataikuを起動してください。私の場合はそこがわからなかったため、Dataikuを先に起動し、後からSSHキーを設定したために、後述のRepositoryを設定する際にエラーが発生してハマってしまいました。

GithubへPush・Pull

では、実際にDataikuとGithubを連携してみましょう。
Githubの貢献したいRepositoryに移動し、以下のSSHのCloneアドレスを取得しましょう。
次に、Dataikuに移動し、連携させたいProjectを選択します。ツールバー>︙>Version Control を選択するとGithubと連携ができる画面に遷移します。
Add Remoteを選択すると、先程取得したアドレスを入力する画面が表示されます。
この入力画面で何もエラーがでなければ、無事にGithubの該当Reposirotyと接続ができています。ちなみに私はここでエラーに遭遇しまして、Permission Denied が表示されました。
無事にGithubに接続できたら、以下のような有効化された画面が表示され、設定したRepositoryにPush、Pullができるようになります。
また、新しいbranchを作成したい場合は、master▼をクリックすると、branchを作成できるメニューが表示されます。Create new branch をクリックします。
ここで表示されている、Duplicate project ~ を選択すると、次の画面に遷移します。この選択は、branch用に新しいProjectを作成するという意味になります。
また、Use current project ~ を選択すると、いま表示しているProjectで新しいbranchを作成することになります。

新しいbranchが作成されると、Project名の隣にbranch名が表示されます。



では、新しいbranchを作ってみたところで、実際にGithubの該当RepositoryにPushをしてみましょう。以下の画面まで行き、Pushをクリックしてください。
そうすると、メッセージが表示され、問題なくPushができたことがわかります。
Github側の画面に行くと、以下のように表示され、無事にPushができました。

Pullについても同様で、メニューリストからPullを選択すると、変更された内容が現在表示しているProjectに反映されます。

想定される使い方

Dataikuのコンセプトは、複数人(データエンジニア・マーケティング・データサイエンティスト等)が同時に扱えるというコラボレーションを重視した製品です。
反面、少し試したいこと(新しいデータセットを追加したり、モデルを変更したり等)については、現在の環境を直接変更することで行うしかありませんでした。こういった変更が後工程の人に影響を及ぼすことも容易に想像できます。

そういった事故を防ぐ、少し試してみたいという際にこのGithubの連携機能を使ってみることができそうです。

例えば、データセット・モデルのチューニングをする新しいbranchを作成して、試してみて問題なければMasterにMerge、MasterをDataikuのProjectにPullして使うという使い道がありそうです。

聞くよりも実際に触ってみたほうが実感が湧くかと思いますので、ぜひ触ってみてください。フリーエディションでも十分に利用することが可能かと思います。

[フリーエディション]


0 件のコメント: