Azure Machine Learningを使ってみよう03~Rを使ってデータを増やす~

Azureにはオンラインで利用できる機械学習Machine Learning(Azure ML)が提供されており、様々なパーツをドラッグ&ドロップするだけで簡単に機械学習を使うことが出来ます。

今回は前回の続きとして、Rを使って一分のデータを増やします。

今回のサンプルデータは以下のURLにあるように21カラム目の信用リスクか2(高い)場合、投資リスクが5倍になるという前提があるため、該当するデータを5倍に増やします。

事前準備

・ Microsoft Azure Machine Learningのアカウント
・ ブラウザ

必要スキル

・ 特になし

1. 前回の続きで以下の画面が表示されている状態です。
result

2. モデルからSplitとExecure R Scriptをキャンバスに追加します。
cap17

3. Metadata EditorとSplitを接続し、Splitのプロパティの分割する比率を0.5⇒0.7に変更します。
ここで設定した値の分だけランダムで左側に割り振られます。
cap18

4. 続いてSplit下部左とExecute R Scriptの上部左を接続します。
cap19

5. Execute R Scriptのプロパティを編集します。
スクリプトが折りたたまれているのでクリックすると広がるので、そこで編集します。

以下がカラム21の信用リスクが2(高い)時にデータを5倍に増やすスクリプトです。
cap20

dataset1 <- maml.mapInputPort(1) data.set<-dataset1[dataset1[,21]==1,] pos<-dataset1[dataset1[,21]==2,] for (i in 1:5) data.set<-rbind(data.set,pos) maml.mapOutputPort("data.set") 6. Splitの右下にも同様に接続するので、Execure R Scriptをコピー&ペーストし、接続を修正します。 なおコネクタを修正するには ・既存の線を右クリックで削除する方法 ・新しい線を引くこと のいずれでも修正されます。 cap21

以上でRによるリスク分だけのデータを増やすという作業を行いました。
次回は取り込んだデータを機械学習に取り込んで行きます。

お楽しみに!

この記事を書いた人

azure-recipe-user