Practice makes perfect: 2020-01

2020年1月19日日曜日

Dataikuを使ってみよう #6 DataikuでRを使う

これまでの内容はDataikuが標準で準備されている機能を使ってきました。
ただ、どうしても足りない機能やアルゴリズムを利用したいケースが出てきます。その場合、R（Python）を使って機能を追加させることができます。
Rのコードを実行できるだけでなく、RMarkdownやShiny、NoteBookなど近年利用が増えている機能も対応ができます。

今回はDataikuでのR言語の機能がどのように使えるのかをご紹介します。

R環境のセットアップ

RをDataikuでも利用できることはできますが、Dataikuの追加機能が多く、依存関係があるので、最初から利用できるわけではありません。環境を追加する必要があります。

R integration
https://doc.dataiku.com/dss/latest/installation/r.html

こちらを見ていただき、必要に応じてAdminユーザー（管理者）に環境を準備してもらってください。R環境を作る際にAdminユーザーのコマンド（再起動とか）が必要になるためです。

Code RecipeでRを書いてみる

では、実際にRコードを書いて見ましょう。

処理をかけたいデータセットを選択して、右ペイン中（Code Recipe）の「R」を選択してください。

その後、これまでと同様にデータセットを指定する画面が出てきます。

これまで通り、Outputのデータセット名を指定します。指定したら右下のCREATE RECIPEをクリックします。

そうすると、以下の様なコーディング画面が出てきます。

この処理は最初の10行を選択するコードを書いています。合わせて集計パッケージのdplyrを使ってデータを処理しています。

このコードを画面下にある「RUN」をクリックして実行をすると、10行のデータが作成されます。

このように、Rコードを組み込むこともできます。ただし、Code RecipeでRコードを記載する際には、Dataiku独自のフォーマットに最初インポートする必要があります。また、Dataiku上で後続の処理にわたす際には最終的にData.Frameの形にすることが必要です。

その例として、「Rで線形回帰した結果をDataikuで再利用できるようにする」というシナリオでコードを実行してみます。

まずは以下のように線形回帰を行う関数を自実行します（lm関数）。加えて、Broomパッケージ内のTidy関数を利用して係数やp値をData.Frameに変更を行い、Dataikuで扱えるデータの形に変更をしています。

これを実行することで、Dataiku上で後続処理にこの結果データを渡すことができます。

また、サンプルコードも用意されていて、分からなくなった場合はこちらを見ながら書いてみましょう。（コードエディタの右上にあります）

内容的には、Rのdplyrを利用されたことがある方であれば、なじみ深い関数がみられるのではないかと思います。Rを使われたことがない方でもサンプルコードを見てやりたいことが記述できるはずです。

NotebookでRを書いてみる

ここまでは、Code Recipeを使ってR言語をDataikuの中に組み込んでみました。Code Recipeはあくまでも処理フローの中で利用されるため、「データ探索的」な使い方に向いていません。
そこで、DataikuではR言語が利用できるNotebookを用意しています。

分析したい対象のデータセットを選択し、右ペイン中の「LAB」をクリックします。
そうすると、以下の画面が表示されます。今回はRのNotebookを使いたいので、右ペイン中の「Code Notebooks」の中の「New」を選択してください。

そうすると、Pythonはじめとして、Dataikuで利用できる他の言語が選択できますので、今回はRを選んでください。その下にどのデータセットを利用するかが聞かれます。一番上を選択してください。（フリーエディションでは、sparklyr や、SparkR は残念ながら利用できません）

右下の「CREATE」ボタンをクリックすると、以下のような画面が出てきます。

そう、これは実はJupyter Notebookです。カーネルがRとなっていまして、R言語も利用が可能です。

RStudioと同様にパッケージをインストール、利用もできます。

今回は、dplyrを使い集計を行い、ggplot2を使った可視化を行ってみました。

これらの結果は、Flowには表示されることはなく、ツールバー内のNotebooksの中に入るので、注意してください。

また、書かれたコードは共有が可能なので、右上のPublishボタンからDashboard等へ表示させてもよいでしょう。

RMarkdownを書いてみる

続いて、DataikuではRMarkdowもサポートをしています。 PackageはRMarkdownを利用しますが、Linuxの場合はPandocが入っていないケースもあるため、その場合はサーバー管理者に伝えてPandocをインストールしてもらいましょう。

私の利用環境は AWS EC2のLinuxにインストールをしたため、Pandocが入っておらず、RMarkdownが利用できるようになるまで、セットアップに時間がかかりました。

RMarkdown Reports
https://doc.dataiku.com/dss/6.0/code-reports/rmarkdown.html

インストールが完了したら、実際にやってみましょう。

ツールバーより、RMarkdownを選択してみると、以下のような画面が表示されます。今回はこのProjectので初めてのRMarkdownになるため、「CREATE YOUR FIRST REPORT」をクリックしましょう。

次の画面では、RMarkdownのレポート名を付けます。上の選択肢は、一番上のサンプルコードを入力した状態で表示させます。終わったら、右下の「CRATE」ボタンをクリックして実行します。

次の画面では、RMarkdownのサンプルコードと共に画面が表示されます。

左ペインがRMarkdownのコード、右ペインが結果になります。

左上の「FORCE BUILD]をクリックしたら、右ペインに結果が表示されます。（下のスクリーンショットは実行した後になります）

Shinyも利用できる

Rコードの実行、Jupyter Notebookでの実行、Rmarkdownときたら、今後はShinyでしょう。
Shinyとは？？と思われている方はこちらを一読ください。

ゼロから作るShiny～001: Shinyってなんだ～
https://qiita.com/Anonymous1989/items/858db4ea2483d40d40ad

Shinyは簡単にいうとR言語で構築ができるWebAppで、Rの計算結果をシミュレーションできたり、地図を使ってマップ上にデータをプロットしたり等、いろいろなことが可能です。

では、DataikuではどのようにこのShinyを作れるか見ていきましょう。

まずは、ツールバー上に「WebApps」がありますので、こちらを開きましょう。
何も作成されていない場合は、以下のような画面が表示されます。「CREATE YOUR FIRST WEB APPS」をクリックしてみましょう。

次の画面では、Web Appの名前とサンプルコードを付与するかどうかを聞かれます。今回はサンプルコードを付けておきましょう。必要に応じてサンプルコードのあり・なしを決定してみてください。

そしてWebAppの名前を入力し、右下のCREATE をクリックします。

次の画面では、どの言語のWebAppを作るのかを聞かれます。HTML、JS、CSSで作る、Bokeh(Python)で作る、Shiny(R)で作るかを選択できます。
今回はShinyを選択します。

次に以下のような画面が表示されます。左ペインにはUIとServer、右ペインには結果が表示されます。

実際に動かす際は、右ペインの「Preview」画面の中に、「START BACK END」とあるかと思います。

これをクリックすると、Shinyを起動できます。

スライダーを左右に動かすことで、右側のチャートの分布が変わってきます。

DataikuにおけるR実行環境

DataikuでRを実行するにあたり、実行環境について注意しておく必要があります。
Dataikuでは、Python、Rともに複数の実行環境を作成することができます。
（下の画面はR‗env という環境をAdministrator ＞ Code Env

そのため、RMarkdownやShinyなど、実行環境が異なるため「パッケージが無い」などのエラーが起こります。ですので、実際に作成したコードが動かない場合が出てきたら、Rの実行環境をチェックしてみてください。

Visual Recipeであれば Advancedタブの中にあります。

Notebook（Jupyter Notebook）であれば、以下の画面に記載してあります。

R Markdownであれば以下のSettings タブの画面。

Shinyであれば、以下のSettings タブの画面。

Rパッケージのインストール

Rの最大の特徴である様々な種類のパッケージのインストール、どのようにしたらよいでしょうか？

もちろん、Rのパッケージ追加は可能です。ただし、Administrationメニューの中にあるため、一般ユーザーのみなさんは利用できないかもしれませんが、その場合は管理者に聞いてみてください。

新しいパッケージをインストール環境をAdministrator > Code Envs から選択してください。

環境をクリックすると、次のような画面が出てきます。「Requested Packages（R）」という項目があるので、そこに必要なパッケージを入力して、右ペインのUpdateをクリックします。

その際、左ペイン中の「Update all Packages」のチェックボックスは外しておくことを推奨します。Updateを押してしまうと、ほかのPackageもUpdateがかかってしまうためです。

また、現在どのようなPackageがインストールされているかを確認するのは、左ペイン中の「Actually installed packages」ページにて確認ができます。

まとめ

今回はDataikuで利用可能な、「R言語」を使った機能の説明を行いました。

デフォルト機能ではどうしてもできない部分（複雑なデータハンドリング、最新のアルゴリズム適応）を利用したい場合にRの機能を使うことで、効率的に分析ができそうです。また、RMarkdownやShinyなど、データ探索やレポーティングでもDataikuを通して、いつものR言語が利用できるのはメリットが大きいのではないかと思います。

Dataikuは無料でしかも継続的に使えるフリーエディションや、クラウド上で準備済みの環境もあり、かつチュートリアルも充実しているので、ぜひとも一度触ってみて、実感してみてください。

[フリーエディション]

https://www.dataiku.com/dss/trynow/free-edition/

[サンプル]
https://www.dataiku.com/dss/samples/

[チュートリアル]
https://www.dataiku.com/learn/portals/tutorials.html

2020年1月3日金曜日

Dataikuを使ってみよう #5 DataikuのAutoML (クラスタリング）

前回まで

前回までは、データインポート、データハンドリング、データ分割、機械学習の適応（複数のアルゴリズムを適応：Prediction（予測））について説明をしてきました。

今回は機械学習の適応の続き、クラスタリングについて説明をします。

（各クラスタリングのアルゴリズムの説明はここでは行いません。別の参考資料等にてご確認ください）

クラスタリングとは

クラスタリングとは、一般的には以下のような説明がされています。

クラスタリングではデータの集合を部分集合（クラスタ）に切り分けて、それぞれの部分集合に含まれるデータが（理想的には）ある共通の特徴を持つようにする。この特徴は多くの場合、類似性や、ある定められた距離尺度に基づく近さで示される。https://ja.wikipedia.org/wiki/%E3%82%AF%E3%83%A9%E3%82%B9%E3%82%BF%E3%83%AA%E3%83%B3%E3%82%B0

手元にある大量のデータが、グルーピングがされておらず、なんらかの知見を得たい場合、グループに分けることで知見が発見できる場合があります。そのような場合に、このクラスタリングは重要です。

Dataikuでのクラスタリング

では、Dataikuではどのようにクラスタリングを行うのでしょうか。

前回と同様に、以下のユースケースを用いてクラスタリングをしてみましょう。

Predictive Maintenancehttps://academy.dataiku.com/latest/usecases/L01C01/index.html

前回と同様に、

クラスタリングをさせたいデータセットを選択
右ペイン中の「LAB」をクリック
QUICK MODEL を選択します。

そうすると、以下の画面(Choose your Task)が表示されるので「CLUSTERING」を選択します。

Clusteringを選択すると、以下の画面にうつります。ここでは、Quick Modelを選択しましょう。

次の画面では、どのようなクラスタリングを行いたいかを選択できます。ここでは、

K-Means（一般的なクラスタリング手法）
Interactive Clustering (一度モデルを作成した後、手動で調整ができる2段ステップ
Anomaly detection (異常値検知）の3種類から選ぶことができます。

今回は、K-meansを選択してみます。

次の画面では、クラスタリングの設定画面となります。前回紹介した設定画面と同様に、どの変数を加えるか、どのアルゴリズムを適応するかなどを設定することができます。

今回は主だった設定項目を紹介します。

General Settings では、学習データセットのデータをどのようにサンプリングするかを指定できます。サンプリング以外でもすべてのデータを使うことも選択できます。

Feature Handlingでは、クラスタリングの学習に必要な変数をON、OFFできます。

ここでも選択した変数の内容を右ペインで確認することができます。欠損地の扱いや、この項目に含まれる値がどのような分布になっているかを一目で確認をすることができます。

Algorithm の部分では、クラスタリングに関連するアルゴリズムを選択できます。前回のPredictionと同様に、適応させたいアルゴリズムをONにするだけで適応してくれます。また固有のパラメータも設定することが可能で、個々のアルゴリズムをカスタマイズして適応をさせられます。

続いては、Dimensionality reduction (次元削減）です。ここでは、PCAを元にした次元削減を行うか、行わないか、両方とも試してみるか？の3択を選択することができます。

最後は、Outlier Detection （外れ値をどのように扱うか）を選択できる画面です。

Dataikuでは外れ値を検出できるのですが、それをどのように扱うか、データから落とすか、外れ値用のクラスタを作成するか、外れ値を検出しないかを選択することができます。必要に応じて設定してみてください。

では、実際に実行をしてみましょう。

実際に複数のアルゴリズムが実行がされている様子が確認できるように動画にしてみました。

以下の4点のアクションが含まれています。

複数のモデルを選択
右上のDeploy ボタンをクリック
後で区別ができるように名前を入力し、実行
各アルゴリズムが実行される

アルゴリズムの実行が終わると、Predictionと同様に結果を見ることができます。

今回は、K-means アルゴリズムの結果を見てみます。

Summaryでは、投入したデータがどのように分類してくれたのかを確認できます。ここではクラスタの名称やその説明を入力することができます。右上にChartsがあり、この結果を使ってグラフを作成することができるので、分類された内容を様々な角度から見ながら名称を決定していけばよいかと思います。

次にValuable Importance です。どの変数がクラスタを決定づけるのに重要だったのかを知ることができます。

Heatmapでは、各変数がどのクラスタにどのぐらい影響を与えているかがヒートマップの形で表現されています。

Cluster Profileでは、各クラスタの変数の分布が表示されます。

Scatter Plotでは、縦軸・横軸を分析した変数を指定することができ、Clusterがどのように分布しているのかが分かります。以下のチャートでは、count変数が一番聞いていることがImportanceから分かっており、それをX軸、Y軸にDistanceを置いて散布図を作成しています。散布図の点にClusterの色を配置しているため、どのようにClusterが分布しているのかが一目でわかります。

Detailed Metricsは、今回用いた評価用のスコアを表示します。（今回はSilhouetteを使いました）

このように、K-meansだけでも多くのアウトプットを表示しており、アルゴリズムの実行結果の解釈に大いに役に立つのではないかと考えられます。K-means以外のアルゴリズムも同様な結果を表示しています。（これ以外でもModel Informationとして数種類結果が表示されています）

2020年1月1日水曜日

Dataikuを使ってみよう #4 DataikuのAutoML（機械学習の自動化）

これまでの記事では、Dataikuでできるデータ加工、データハンドリングやデータ分割を掲載してきました。
いよいよ、データ分析の醍醐味である、メインイベントである「データモデリング」について、Dataikuではどのように行うのかを紹介します。

従来のデータモデリング

従来のデータモデリングは、データを加工・変換し、モデリングのロジックを「ひとつずつコーディング」していく必要がありました。例えば、ロジスティック回帰とRandom Forestの両方のロジックを比較したい場合は、一つずつコードを書き、パラメーターを設定し実行、結果が思わしくない場合や新しいロジックを追加…とコーディング作業が必要でした。

Dataikuでは、よく利用するアルゴリズムがデフォルトで組み込んであり、マウス選択という簡単な操作でモデルを実行、比較をしてくれます。次からはどのようなステップで実行するかを確認していきます。

DataikuでAutoML（機械学習の自動化）

Dataikuでは分析したいモデルをクリックするだけで複数モデルを走らせることができます。

最近では、このような機能のことを最近では「AutoML」と言われているようです。

AutoML（Automated Machine Learning：自動化された機械学習）とは？https://www.atmarkit.co.jp/ait/articles/1901/06/news029.html

では、Dataikuではどのように利用できるのかを見ていきましょう。

最初に考えておくべきこと

まず最初に大事なことは、分析対象の項目を「予測したい」のか、「分類したい」のかを決めておきます。なぜかというと、モデルを適応させる際に選択をしなければいけないためです。

今回はDataikuのチュートリアルで提供してある、以下の内容のデータフローを利用します。モデリングを適応する前までの準備は、すでにこれまで紹介してきた記事で対応が可能です。

Predictive Maintenance
https://academy.dataiku.com/latest/usecases/L01C01/index.html

実際にアルゴリズムを回してみる（Prediction）

今回は、上記のサンプルのように、「メンテナンスが必要な資産がどれかを予測するための分析」をしてみましょう。

まずは、以下のように分析をしたい対象のデータセットを選択して、右ペイン中の「LAB」をクリックします。

そうすると、以下の画面が表示され、どのプロセスに進むかを選択できます。ここでは、すでにデータ加工については終わっているものとして、「Quick Model」を選択します。

右ペイン中の「Code Notebook」はPythonやR、Scala、SQL、Hive、Impalaなどを使ってカスタマイズしたコードを入力できます。また、「PREDEFINED」はすでに定義済みのコードを利用できるものになります。自分でコードを書いて分析をしたい、カスタマイズをしてやりたいというユーザーはこちらを利用することをお勧めします。

Quick Modelを選択したら、次のが画面が表示され、「Prediction」か「Clustering」かを選択する必要があります。今回は、資産の故障予測を行いたいため、Predictionを選択します。

Predictionを選択した後は、予測をしたい分析項目を指定します。ここでは、「Failur bin」を指定しましょう。

選択すると、以下のように選択肢が表示されます。

ここでは、「Automated Machine Learning」を選択しましょう。

「Expert Mode」は、Deep Learningの適応やPython、Scalaで自分自身で独自の推定量（Estimator）を書くことができますい。

Automated Machine Learningを選択した後、以下のような画面が表示されます。ここでは「Quick Prototypes」を選択します。ほかの選択肢もありますが、後日説明をします。
選択後、右下の「CREATE」ボタンをクリックして前準備は完了です。

準備が完了すると、以下のような画面になります。最初は何も表示されていませんが、分析対象データセットの変数やアルゴリズムの選択などをするために、「DESIGN」タブをクリックします。

左ペイン中にいくつかのメニューが並んでおり、それぞれデータセットに関するものやアルゴリズムに関して設定を変更することが可能です。

Train/Test Set では、アルゴリズムを適応するデータセットの分割方法について指定ができます。サンプリングの割合や具体的な行数を指定したりすることが可能です。

次にMericsの画面では、何を指標として最適化を目指すのかを指定することが可能です。AUCなのかLoglossなのか、Accuracyなのか…。分析の目的にあった指標を選ぶことで、それぞれのモデルで最適な値を目指して学習をしてくれます。

Feature Handlingの画面では変数の取り扱いをどうするかを選択できます。分析対象に各変数を入れるかどうか、欠損値だったらどう扱うかなど、処理を行うことができます。また、項目内の値も分布として表示されますので、

Feature Generationは、変数結合（Pairwise liner combinations / Pairwise polynomial combinations / Explicit pairwise interactions) を選択することができます。これらは複数組み合わせることも可能です。ただし、お気づきのように変数組みあわせとなるので、元の変数が多い場合は、多数の変数組み合わせが発生するため、アルゴリズムを実行する際に時間がかかるので注意をしてください。

Feature Reductionは上記と反対で、変数を減らす方法を指定できます。分析対象との相関が強いもの、Tree-Based、PCAを使った変数選択などを利用できます。

続いて、Modelingの項目に移ります。

Algorithm では、Dataikuで事前に組み込まれたどのアルゴリズムを利用するかを選択することができます。Predictionで選べるモデルは11種類（Random Forest、XGB、ロジスティック回帰、SVMなど）あり、On/Offを選択するだけで適応できます。

また、選択したアルゴリズムの右側にはそれぞれのアルゴリズムのパラメータを指定することが可能です。パラメータを変更したい場合には役に立つかもしれません。

HyperParameters では、Grid Searchの反復回数や並列数の指定、クロスバリデーションのやり方などを指定することができます。

これら以外の項目もありますが、ここでは割愛します。

様々な選択項目を紹介して設定するところが多いなと感じられたかもしれません。
しかし指定できる内容はコードで指定する部分がカバーされていて、マウスのみで指定できるため、実際コードを書くよりはかなり楽に指定ができます。
最低限、Algorithm の項目で使いたいアルゴリズムを選ぶだけでも動かすことは可能です。そのような場合の結果はベンチマークとして利用するのもよいかもしれません。

では実際に動かしてみましょう。
必要な設定が完了したら、右上にある「Train」ボタンをクリックして実際にアルゴリズムを回してみましょう。

Trainボタンをクリックすると、画面が切り替わり、しばらくすると以下のように結果を返してくれます。
左ペインには指定したアルゴリズムが表示され、指定した評価メトリックが計算されます。適応したアルゴリズムの中で、一番良いアルゴリズムには、トロフィーマーク🏆が表示されます。
また、中央ペインのグラフは時間と評価メトリックのグラフが表示されます。その下には、各アルゴリズムの影響度の高い変数が表示されます。一つの画面で各アルゴリズムの結果が分かりやすく表示されます。

各アルゴリズムの詳細な結果を見る場合には、左ペイン中の各モデルをクリックしてください。

今回は一番スコアの良かった、Random Forestを参照しています。先ほどの設定と同様に、左ペインで様々な結果を表示できます。

（今回はすべての項目を紹介するのは難しいため、主だった項目のみ紹介します）

まずはDecision Tree。決定木のように、どの項目が分岐になったのかを確認することができ、しかも改装をインタラクティブに深堀することが可能です。

続いて、Valuable Importance。データサイエンスをやったことがある方であれば一番最初に見る綱目ですね。重要な変数になります。

次に Confusion Matrix(混合行列）。これもよく見るのではないでしょうか。こちらも表を見るだけでなく、Cutoff部分をスライダーにて動かすことができるため、インタラクティブにAccuracyを計算することができます。

Lift Chart はチャートが2つあり、ランダムなパターン（線形のパターン）に対して今回のモデルがどのぐらいリフトするのかを見ることができます。

ROC curv。 ROC曲線といわれるチャートもDataikuでは結果として自動で作成してくれます。

これら以外でもGrid Searchの結果や、どの変数を適応したのかなど、適応したアルゴリズムに対して、様々な情報を自動的に計算をしてくれます。

実行時間は、データセットの大きさやどのぐらいアルゴリズムを選択したか、Dataikuを動かしているマシンのスペックにもよりますので一概に言えませんが、これだけの情報（結果）をDataikuは返してくれます。