Azure VMでData Science Virtual Machinesをデプロイする

Michaelです。

今回は、データサイエンスに特化したVM「Data Science Virtual Machines」の概要とリソースのデプロイについてご紹介します。

Data Science Virtual Machines概要

Data Science Virtual Machines (DSVM)は、データサイエンス専用にカスタマイズされたVM イメージで、データ分析や機械学習、ディープラーニングのトレーニングで使われる一般的なツールがプリインストールされています。
DSVMには、以下3つのエディションが用意されており、使用する目的に合わせてエディションを選択できます。いずれのエディションもマシンイメージの使用料は無料となっており、使用するVMインスタンスの時間課金のみで利用することができます。

エディション Windows Linux
2016 2012 Ubuntu CentOS
Data Science Virtual Machine
Deep Learning Virtual Machine ディープラーニング向けにチューニング × ×
Geo AI Data Science VM with ArcGIS ESRI 社のArcGIS Proを追加して地理空間分析機能を強化 × × ×

「Data Science Virtual Machine」に関してはWindows (2016、2012)とLinux (Ubuntu、CentOS)の4つのOS、およびバージョンがサポートされますが、プリインストールされるツールが一部異なっています。

大まかに、WindowsではMicrosoft Office Pro-Plus (要Officeライセンス)やPower BI DesktopといったOfficeスイートが搭載され、Linuxでは、Chainer、Caffe、Keras等のディープラーニングフレームワークが充実しているというような差異があります。

※含まれるツールの詳細はこちらを参照ください

対応インスタンスとリージョン

DSVMは、GPUインスタンスのNC (v1)、NCv2、NCv3、およびNDシリーズのみでデプロイできます。

2018年11月現在でこれらのインスタンスが利用できるリージョンは以下の通りです。

日本 米国 アジア太平洋 ヨーロッパ カナダ イギリス オーストラリア インド 韓国
製品 西日本 東日本 米国西部 2 米国中南部 米国中北部 米国東部 米国東部 2 東南アジア 西ヨーロッパ 北ヨーロッパ カナダ中部 英国南部 オーストラリア東部 インド中部 韓国中部
NC シリーズ
NCv2 シリーズ
NCv3 シリーズ H1
2019
Q1
2019
Q2
2019
ND シリーズ

日本の国内リージョンでは、NVIDIA Tesla V100搭載のNCv3シリーズが2019年上半期に東日本でGA予定となっており、それまでは海外リージョンでしかDSVMを利用できません。

クォータを確認

サブスクリプションに対してGPUインスタンス作成に制限が掛けられている場合があるため、DSVMインスタンスを作成する前に、インスタンスのクォータを確認します。

Azureポータルの「すべてのサービス」⇒「サブスクリプション」を選択して、インスタンスを作成するサブスクリプションを選択します。

メニューから「使用量+クォータ」選択し、検索フィルタを設定してクォータを表示します。
検索フィルタにはDSVMが利用できるNC、NCSv2、NCSv3およびNDSのvCPUについて、使用するリージョンのすべてのクォータを表示するように設定します。

作成予定のインスタンスファミリのvCPUクォータ残数を確認します。
作成するインスタンスのvCPU分のクォータが残っていない、もしくはインスタンスファミリのクォータがない場合はインスタンスが作成できないため、サポートで制限緩和申請を行う必要があります。
今回は、48 vCPU分のクォータが残っているNC (v1)シリーズの最小スペック「Standard NC6」(6 vCPU)で作成するため制限緩和申請は行いません。

インスタンスの作成

今回は、Windows 2016の「Data Science Virtual Machine」を作成します。

Azureポータルの「+リソースの作成」をクリックし、検索バーに「DSVM」を入力して検索します。
検索結果の中から「Data Science Virtual Machine – Windows 2016」を選択して、作成をクリックします。

インスタンスサイズの諸設定を入力していきます。今回は、インスタンスサイズに「Standard NC6」を選択しますが、NC (v1)シリーズのインスタンスを選択する場合にはディスクのオプションで必ず「Standard HDD」を選択する必要があります。
ネットワーク等、その他の設定に関してはデフォルト設定のまま進めても構いません。

基本

ストレージ

ネットワーク

管理

ゲストの構成

一通りの設定が完了したら確認画面が表示され、設定の検証が行われます。「検証が成功しました」の緑のチェックが表示され、設定事項に誤りがないことを確認したら「作成」をクリックしてインスタンスを作成します。

設定に沿ってVMインスタンスやネットワークインターフェースが作成されていきます。作成完了までは10~20分程度の時間がかかります。
すべてのリソースが作成されると「デプロイが完了しました」の表示とともに「リソースに移動」のボタンが表示され、作成されたインスタンスを確認することができます。

VMインスタンスへの接続

DSVMインスタンスが作成されたので、作成したインスタンスに対してリモートデスクトップ接続を試してみます。

作成したVMインスタンスの「概要」ページで「接続」ボタンをクリックします。表示されるブレードの「RDP」タブを開き、「RDPファイルのダウンロード」をクリックしてRDPファイルをダウンロードします。

ダウンロードしたRDPファイルを開くと自動的にVMインスタンスへのリモートデスクトップ接続が始まります。接続の際、VMインスタンスのWindows認証が表示されるため、インスタンス作成時に設定したユーザー名とパスワードを入力してログインします。

接続に成功するとWindows Server 2016のデスクトップが表示され、JupyterやPowerBIといったツールがインストールされていることが確認できます。

まとめ

DSVMは、使用できるインスタンスタイプの制限から現状で海外リージョンしか使用できないことや、サブスクリプションのクォータ制限によって下準備が思いのほか大変になることがあるため、若干利用する敷居は高くなっています。
ただ、デプロイさえすればツールをインストールする手間がなく、すぐにデータ分析やAI開発を始めることができるため、データ分析、AI開発やGPGPUのコンピューティングリソースとしての検証から使い始めてみてはいかがでしょうか。

この記事を書いた人

azure-recipe-user