Koalas: Easy Transition from pandas to Apache Spark 記事翻訳してみた

はじめに

2019年4月に Tony Liu 氏と Tim Hunter 氏によって投稿されました「 Koalas: Easy Transition from pandas to Apache Spark 」の記事を翻訳してまとめてみました。
本記事のリンクと、Reynold Xin 氏が Spark + AI Summit で Koalas の公式アナウンス発表の動画のリンクは下記になります。

■本記事リンク
Koalas: Easy Transition from pandas to Apache Spark

■Koalas の公式アナウンス発表動画リンク
Announcing Koalas Open Source Project | Reynold Xin (Databricks), Brooke Wenig (Databricks)

Koalas とは

本日、Spark + AI サミットにて Koalas という PySpark の データフレーム API を増強させ、pandas と互換性を保たせる新しいオープンソースプロジェクトを発表しました。
Python のデータサイエンスはここ数年間で拡大し、データサイエンティストは pandas を使ってデータセットに取り掛かるようになりました。pandas はデータを解析をするのにとても役立ちます。
実際に、pandas の read_csv は学生がデータサイエンスを始める際の最初のコマンドとしてよく使われてます。
しかき、そんな pandas にも弱点はあります。それは、ビッグデータに向いてないということです。

■pandas の抱える弱点

  • pandas は1台のマシンで対処できる小さなデータセット向けにデザインされているため、ビッグデータには不向き
  • とても大きなデータに取り組む場合は PySpark に移行するか、pandas でも利用できるデータにダウンサンプルする必要がある

しかし、Koalas の登場によりデータサイエンティストは新しいフレームワークを覚えずとも、1台のマシンから分散環境に移行することができます。
下記にあるように、1つのパッケージを他に置き換えるだけで pandas のコードを Koalas にスケーリングすることができます。

■pandas

[crayon-62863c5f2faf7241775437/]

■Koalas

[crayon-62863c5f2fb00333563600/]

pandas は Python データサイエンスにとってスタンダードな言語

Python がデータサイエンスにおける1次言語として現れたことで、コミュニティは numpy や matplotlib、pandas などを含む、最も重要なライブラリをベースに言語を開発していきました。
これらの言語をデータサイエンティストが利用できれば、結果に向けて自分たちの考えをフルに表現し、そしてアイディアを辿ることができます。彼らは何かを概念化し、そしてすぐに実行に移すことに長けています。
しかし、自分たちの言語外のライブラリで取り組むこととなると、話は別です。
つまずいたり、数分おきにスタックオーバーフローを確認する羽目になり、自分たちのコード実行の為だけワークフローを割くこととなります。PySpark は簡単に利用することができ、pandas に非常に似ているとしても、2つは異なる言語なので、改めて学ぶ必要があることには変わりません。

Databricks では、以下の3つの理由から pandas を Spark で使えることはデータサイエンティストやデータドリブンな機関の生産性を高めると信じております。

■3つの理由

  • pandas か PySpark のどちらをデータセットに対して使うかの選択が不要となる
  • pandas で記述したコードも Spark に簡単にスケールアップできる
  • PySpark を学ぶ必要が無いので、より多くの機関やデータサイエンティストがビッグデータに取り組める

カテゴリ変数を用いた機能エンジニアリング

データサイエンティストは、ML モデルを構築する際、カテゴリ変数によく出くわします。
その際によく使われるテクニックは、ダミー変数としてカテゴリ変数をエンコードすることです。
下記のデータフレームを例にすると、コールの方法・近隣情報・ユニットタイプといった複数のカテゴリ変数があります。
pandas の get_dummies メソッドは、データフレームにダミー変数としてカテゴリ変数をエンコードするのにとても便利です。

■pandas を使ったエンコード方法

[crayon-62863c5f2fb04012275338/]
  • 変更前のデータフレーム
    image.png
  • 変更後のデータフレーム
    image.png

Koalas を使えば、先程の pandas のコードを下記の様に微調整することで、 Spark 上でも同じことができるようになります。

■Koalas のコード

[crayon-62863c5f2fb08492370027/]

タイムスタンプと計算

データサイエンティストはタイムスタンプに常に取り組む必要がありますが、これに常に関わるのはとても大変です。pandas を使った解決策を、下記の日付のデータフレームを例に紹介します。

■データフレーム

[crayon-62863c5f2fb0a442661434/]

pandas で End_date から Start_date を引く場合は、下記のコマンドを実行すれば可能です。

■コード

[crayon-62863c5f2fb0c004076541/]

■pandas で End_date から Start_date を引いた結果

[crayon-62863c5f2fb0e460692142/]

pandas を Koalas に置き換えれば、Spark 上でも同じことができます。
■Koalas のコード

[crayon-62863c5f2fb10850673287/]

下記に、Reynold Xin 氏が Spark + AI Summit で Koalas の公式アナウンス発表の動画のリンクを載せてますので、ぜひ御覧ください。

Announcing Koalas Open Source Project | Reynold Xin (Databricks), Brooke Wenig (Databricks)

おわりに

翻訳まとめは以上となります。
Koalas をまだ試したことがない方は、この機会にぜひ利用してみてください。

 

 

Azure Databricksの導入ならナレコムにおまかせください。

導入から活用方法までサポートします。お気軽にご相談ください。

Azure Databricksソリューションページはこちら

 

 


【AI入門】Databricks の特徴・機能について解説してみた!

はじめに

Databricks の公式YouTube チャンネルで紹介されている動画【Introduction to Databricks】について記事としてまとめました。
参考動画は英語です。英語が苦手な方でもこの記事で動画の内容を確認することができます。

本記事の概要

  • Databricks の公式YouTube チャンネルで紹介されている動画を記事にして解説しています。
  • Databricks にはどんな特徴や機能があるのかをまとめています。
  • サービスの特徴やクラスターの作成など簡単な操作方法について紹介します。

こんな方に読んでもらいたい

  • データ活用に関して興味のある方
  • そもそも Databricks って何?
  • これからAI・機械学習を始める方

本動画のリンクは下記から参照できます。

■リンク先
Introduction to Databricks

Databricks とは

Databricks の特徴

Databricksとは、Databricks 社が開発した 統合データ分析プラットフォームです。 Databricks を利用することで、ユーザは誰でも簡単に高度な解析ソリューションの構築とデプロイが可能となります。

https___qiita-image-store.s3.ap-northeast-1.amazonaws.com_0_321349_624d920e-ed7f-1f06-8d19-57e31287cfd5.png

■Databricks の利用手順と利用方法
① データの入ったストレージ(Cloud Storage、Data Warehouse、Delta Lake など)を用意
② ストレージに クラウド上の Apache Spark と Databricks が接続
③ 接続後は以下のサービスを利用することができます

  • Notebook や Dashboard など Workspace の作成
  • サードパーティ の BI ツールの使用
  • Spark アプリのカスタマイズ

Apache Spark のコンポーネントについて

https___qiita-image-store.s3.ap-northeast-1.amazonaws.com_0_321349_9d3d19f8-762e-1e8e-4a0d-158984b00765.png

Apache Spark には以下のコンポーネントが含まれております
■コンポーネント

  • Spark Core API
  • Spark SQL + DataFrames
  • ストリーミング
  • MLlib (機械学習)
  • GraphX (グラフ計算)

クラスタの立ち上げ

クラスタは、本番ETLパイプライン、ストリーミング分析、アドホック分析、機械学習などのデータエンジニアリング、データサイエンス、データ分析のワークロードを実行する一連の計算リソースと構成のことです。

https___qiita-image-store.s3.ap-northeast-1.amazonaws.com_0_321349_3fcaa0a0-0409-7350-2b41-c5a8689646a9.png

クラスタの立ち上げも簡単で、下記の項目を選択してクリックするだけです。
■選択する項目

  • クラスタ名
  • Spark のバージョン
  • インスタンスタイプ

豊富なビジュアルデザイン

https___qiita-image-store.s3.ap-northeast-1.amazonaws.com_0_321349_e7caa455-6404-da84-70ac-dc150db9b6aa.png
Databricks では以下の様なビジュアルデザインに関する機能があります。

■ビジュアルデザイン機能

  • Databricks 内でビジュアル化が可能(エクスポート不要)
  • 円グラフ、棒グラフ以外にも豊富なビジュアルの選択が可能

notebook へのアクセス制限

https___qiita-image-store.s3.ap-northeast-1.amazonaws.com_0_321349_74960425-a765-8469-9c8a-b1d74432980f (1).png

notebook には、以下の様な制限を設けることが可能です。

■設定可能な制限

  • 指定した notebook の公開設定
  • 指定した notebook へのアクセス可能なユーザの指定
  • アクセスできるユーザの notebook にたいする操作制限

コメント機能

https___qiita-image-store.s3.ap-northeast-1.amazonaws.com_0_321349_7fb214e4-3f84-fbcf-e874-a142f60a0207.png

ユーザ同士でコメント機能を用いたコミュニケーションも可能です。
これにより、作業の引き継ぎやちょっとした伝達も簡単に行うことができます。

クラスタの編集と新規作成

https___qiita-image-store.s3.ap-northeast-1.amazonaws.com_0_321349_515bf8d3-e1b4-43e1-ddc4-d5553c5a331c.png

Databricks の左端のタブにある「Jobs」を選択することで、既存のクラスタの再編集や、既存のクラスタの設定を用いたまま、新規にクラスタを作成することもできます。

おわりに

Databricks を活用することでデータがあるけどどんな風に活用していいかわからないといった問題を解決できるかもしれないと思いました。
リンク先の本動画でもDatabricks との特徴と機能についてまとまっています。ぜひご覧ください。

Azure Databricksの導入ならナレコムにおまかせください。

弊社は、Databricksのソリューションパートナーとしてお客さまのデジタルトランスフォーメーションの推進に貢献致します。

導入から活用方法までサポートします。お気軽にご相談ください。

Azure Databricksソリューションページはこちら
Databricks ソリューションパートナーに関してはこちら


WVD ARM環境構築

はじめに

Windows Virtual Desktop(WVD)の環境構築方法が更新されました。
追加機能の紹介・環境構築手順を中心に解説していきます。

※2020年5月20日時点ではプレビュー状態です。

WVD ARMとは

WVD 構築方法が Azure Portal で設定可能です。

サービスの内容に変更はありません。
WVDについて知りたい方は以下をご参照ください
リモートワーク環境をサポートする WVD概要・構築手順

WVD と WVD ARMとの違い

WVD構築手順を例に解説します。

  • 既存の WVD で行う作業。
    • エンタープライズアプリケーションの作成(専用サイトで作業)
    • テナント作成(Power Shellで作業)など
    • ホストプール作成
  • WVD ARM での作業
    • ホストプール作成 (Azure Portalでの作業)

以上のように作業工程が改善されました。
作業工程が削減、作業画面が統一によって環境構築も容易に行えます。

変更・追加された機能は以下の通りです。

  • エンタープライズアプリケーションが不要
  • グローバル管理者権限が不要
  • サブスクリプション登録に変更
  • Azure Portal から構築が可能
  • MetaDataを保存するリージョン(地域)が選択可能
  • ホストプール作成時に、グローバル管理者アカウント不要
  • ユーザー登録時に、グループ登録が可能
  • Workspace機能が追加 (既存のWVD構築ではテナント作成に当たる)
  • Azure Portalからユーザ管理が可能

詳細な機能紹介は以下をご参照ください。
新生 VDI 誕生! WVD ARM とは?

構築構築手順(WVD ARM版)

以下が大まかな手順です。

① Azure Portal にサインイン
② Azure Active Directory Domain Services での作業
③ WVD での作業(WVDv2)
④ 接続

※注意事項

  • Azure アカウントが必要です。
  • Azure Active Directory Domain Services を利用して、全てAzure内で構築を行います。

① Azure Portal にサインイン・② Azure Active Directory Domain Services での作業

以下から作業を行ってください。

① Azure Portal にサインインから② Azure Active Directory Domain Services での作業

③WVD での作業(WVD ARM)

WVD での作業は以下の2つです。
下記 URL 「Step3 : Host Pool(+Desktop)」から「Step4 : ユーザーアカウントの追加」まで行います。

  • ホストプールの作成
  • ユーザーの追加

■URL
https://www.cloudou.net/windows-virtual-desktop/wvd016/

以下の項目はURLに沿ってホストプールの作成を進める際の補足事項です。

Step3 : Host Pool(+Desktop)補足情報

■ Basics
image.png

  • Subscription  :利用するサブスクリプションを選択 Microsoft Azureなど
  • Resource group :WVD用に作成します。「新規作成」から名前を入力
  • Host pool name :接続画面に表示する名前を入力
  • Location :ADDS設定でのリージョンと同じ場所に設定
  • Host pool type :[Pooled/Personal] PooledとPersonalの違い
    • Pooled
      • Max session limit :最大ユーザー割り当て数
      • Load balancing algorithm [Breadth-first / Depth-first]詳細
    • Personal
      • Assignment type :[Automatic / Direct]

■ Virtual Machines
image.png
image.png

  • Resource group  :WVD用に作成したリソースグループ名を入力
  • Virtual machine location :他の設定で選択したリージョン(地域)と同じ場所を選択
  • virtual machine size :マシンスペックの選択
  • Number of VMs  :作成する仮想デスクトップの数
  • Name prefix :仮想デスクトップの名前を入力
  • Image :使用用途に適したものを選択
  • OS disk type :通信速度の選択
  • Virtual network :接続させる仮想デスクトップを展開する仮装ネットワークを指定
  • Subnet :VDIを展開するサブネットを指定
  • Public IP :基本的に不要
  • Network security group :使用用途に適したものを選択
  • Public inbound ports :インタネットからの接続を許可する or 許可しない
  • Specify domain or unit : ドメインを使用する or 使用しない
    ※今回はADDSを使用しているのでNoを選択しました。
  • AD domain join UPN :ドメイン参加ユーザーを指定
  • Password :参加ユーザーパスワード
  • Confirm password :再度同じパスワードを入力

■ Workspace
image.png

  • Register desktop app group :Yes
  • To this workspace :作成する Workspace名 を入力

④ 接続

以下のURLからアカウントにサインインのあと接続します。
https://rdweb.wvd.microsoft.com/arm/webclient
image.png
「許可」をクリック。

image.png

使用するリソースを選択します。

image.png
ユーザー名・パスワードを入力。

image.png
これで、無事接続完了です。

最後に

最後まで読んでいただきありがとうございました。

WVD ARM ではWVD管理機能のポータル統合が行われました。
以前ではPower Shell での作業だった、テナント作成・Application Groups作成やユーザー管理がAzure Portalでの操作が実現。WVD構築作業の効率化につながりました。

この機会にWVD環境を試しては如何でしょうか?


リモートワーク環境をサポートする WVD 概要・環境構築

はじめに

現在、リモートワーク環境構築をクラウドで利用できるこのサービスに多くの注目が集まっていると思いますが、Windows Virtual Desktop(WVD)についてご存知でしょうか?
2019年10月11日にリリースされた Microsoft 社が提供している Microsoft Azure を活用した新しいVDI(仮想デスクトップ)サービスです。今回は、WVD の特徴や Azure 上での実際に環境構築を手順を解説していきたいと思います。

WVD について

WVD とは

Windows Virtual Desktop(WVD)は、Microsoft 社が2019年10月11日にリリースした Microsoft Azure 内のVDI サービスです。
リモートワークの状況下では全てのオフィスワーカーの生産性を上げることを目的としたサービスです。

■WVD の特徴

  • OSやアプリなどを1つのサーバに集約して運用管理を実施
  • VDI 環境の構築に必要なアプリを Microsoft Azure 上で提供
  • 環境構築の整備を素早く実施することが可能
  • 導入後のセキュリティも Microsoft 社管理のため、ユーザー側での管理やメンテナンスの心配も不要

WVD の構成要素

以下の図はWVDの構成要素です。
image.png
Microsoft側・ユーザー側それぞれで管理・設定が必要なものをまとめました。

■Microsoft 側で提供・管理

  • Web Access:利用するWVDでのサイトを管理
  • Diagnostics:仮想環境ごとの利用状況の監視
  • Gateway:安全な通信経路の提供
  • Broker:ユーザーごとに仮想環境を割り振り
  • Azure SQL Database:接続するユーザーの情報を保存

■ユーザ側で設定

  • Desktops:仮想デスクトップ環境
  • Applications:仮想アプリケーション環境
  • ADDS:ユーザー認証基盤
  • User Profile:ユーザーごとの環境情報を保存するストレージ

WVD のメリット

WVD を使用する主なメリットを5つ紹介したいと思います。

1. Windows10 マルチユーザーが利用可能

一般に提供されている Windows10 は、1ユーザに1つのマシン環境が必要でした。WVD で提供される Windows10 は1つの仮想マシンに複数のユーザが同時に利用できます。ユーザごとに仮想マシンを利用しないため、クラウド利用・運用コストが削減できます。

2. Office365 が快適に利用可能

WVD の Windows10 には Fslogix テクノロジーが搭載されています。
Office365 のキャッシュフォルダーの最適化、プロファイルの高速化によって VDI 環境でのログイン速度やパフォーマンスの劣化を解決することができます。

3. Windows7 の無償セキュリティ延長プログラム

2020年1月にサービスを終了した Windows7 ですが、Azure 上で WVD を利用すると最大3年間の無償セキュリティ更新プログラムを受けられるため、 Windows7 を安全に保ち続けることができます。
Windows10 への移行が不要なアプリケーションや、再開発のコストを抑えるといった場合にも活用できます。

4. Azure によるコスト削減

WVD は Azure 上で提供・管理されています。 VDI 環境の拡張に容易に対応できるようデプロイの柔軟性を追求しており、 Azure の全ての地域にデプロイ可能です。そのため、利用者の活動拠点に合わせた設計が実現できます。
システムの上限を気にする必要も無く、小規模からの導入も可能です。

5. Microsoft 社の管理によるセキュリティの向上

Microsoft 社ではセキュリティの向上に力を入れており、下記の内容を実践することでセキュリティの工場と信頼性を確保しております。

■セキュリティ向上に向けた3つの企業努力

  • サイバーセキュリティーの開発に年間10億ドルの投資
  • データセキュリティとプライバシーを専門とするエキスパート3500人以上が活動
  • Azure は世界中に90以上のコンプライアンス認定を取得

WVD のライセンスと料金

WVD のライセンス

WVD を使用する OS バージョンによって、必要なライセンスは異なります。

image.png

※必要なライセンスに加えて、Microsoft Azure 利用料も発生します

WVD料金モデル

以下の条件で WVD を利用した場合の月額料金を簡単に見積もりました。
ご参考程度ですが、ご参照ください。

■利用構成

  • 利用ユーザー : 10人
  • 仮想マシンスペック : 簡単なデータ入力、ウェブブラウジング、Office製品の利用
  • ストレージ : 1個あたり128GB(頻繁に入出力が発生するアプリケーション等の利用を想定)
  • ライセンス : Microsoft365 E3(年間契約)

■マルチセッションの場合
image.png
※​1ユーザーあたり、3,480円/月

■シングルセッションの場合
image.png
※1ユーザーあたり、3,480円/月

※必要な仮想マシン台数がセッションごとで違いがあるため、Azrue 利用料に違いがあります。

  • シングルセッション 利用ユーザーごとに仮想マシンが必要
  • マルチセッション  1台に複数のユーザーが利用可能

環境構築手順

ここからは、環境構築の手順を紹介していきます。大まかな手順は以下となります。

① Azure Portalにサインイン
② Azure Active Directory Domain Servicesでの作業
③ WVDでの作業
④ 接続

※注意
・今回はAzure上で全環境構築を行います
・グローバル管理者権限を持つAzureアカウントが必要です。

① Azure Portalにサインイン

以下のURLからサインインします。
https://azure.microsoft.com/ja-jp/features/azure-portal/
サインイン後、「ポータル」をクリック

image.png
図の Azure Portal 画面に出たら、検索欄に「Azure Active Directory Domain Services」と入力します。

② Azure Active Directory Domain Services(ADDS) での作業

Azure Active Directory Domain Services(ADDS)では、下記 URL に沿って以下の作業を実施します。

■URL
https://docs.microsoft.com/ja-jp/azure/active-directory-domain-services/tutorial-create-instance#create-an-instance

■作業内容

  • インスタンスの作成
  • マネージドドメインのデプロイ
  • Azure 仮想ネットワークのDNS 設定を更新
  • Azure AD DS のユーザーアカウントを有効化

インスタンスの作成補足情報

■①基本情報の入力
image.png

  • サブスクリプション:設定時の状況により変動
  • リソースグループ:ADDS用のリソースグループを作る [新規作成]  ※リソースグループ 各システムを管理するもの
  • DNSドメイン名:インスタンスの作成内の考慮事項を下に作成
  • 地域:使用する リージョン(システムを保管する場所)を選択
  • SKU :価格プラン。使用用途により変動 価格プラン内容詳細
  • フォレストの種類:設定時の状況により変動

■②ネットワーク
image.png

  • 仮想ネットワーク: ※WVDをここで作った仮想ネットワークに所属させる
  • サブネット:ADDS内で使用

■③管理・メンバーの追加
image.png
以下の項目をクリック

  • ①「グループメンバーシップの管理」をクリック
  • ②「メンバーの追加」をクリック
  • ③追加するメンバー選び「選択」をクリック

③ WVD での作業

WVD での作業は以下の3つです。
下記 URL「ステップ3:エンタープライズアプリケーションの作成」から行っていきます。

  • エンタープライズアプリケーションの作成
  • テナントの作成
  • ホストプールの作成

■URL
https://www.cloudou.net/windows-virtual-desktop/wvd002/

以下の項目はURLに沿ってホストプールの作成を進める際の補足事項です。

ホストプールの作成補足情報

■基本
image.png

  • サブスクリプション :利用するサブスクリプションを選択 Microsoft Azureなど
  • リソースグループ : WVD 用に作ります。「新規作成」から名前を入力
  • リージョン :ADDS設定でのリージョンと同じ場所に設定
  • Hostpool name :ホストプール名を入力
  • Desktop type : 使用用途に沿って選択 PooledとPersonalの違い
  • Default desktop users :仮想デスクトップ環境にログインさせるアドレスを入力
  • Service metadata location :AADDS設定でのリージョンと同じ場所に設定

■Configure Virtual machines
image.png

  • Create an Availability set :設定時の状況により変動
  • Usage Profile :適した値を選択
  • Total users :適した人数を入力
  • Virtual machine size :適したサイズを選択
  • Virtual machine name prefix :仮想マシンの名前を入力 使用するVDI自体の名前

■Virtual machine settings
image.png

  • Image source :設定時の状況により変動
  • Image OS version :使用用途に適したOSバージョンを選択
  • Disk Type :使用用途に適した通信速度を選択  ※通信速度によって値段が変わります。
  • AD domain join UPN :管理者ユーザー
  • Admin Password :管理者パスワード
  • Confirm Password :もう一度管理者パスワード
  • Specify Domain or OU :設定時の状況により変動
  • Virtual network : WVD用で作ったものを選択
  • vmSubnet :WVD用サブネットを選択

■Windows Virtual Desktop information

image.png

  • Windows Virtual Desktop tenant group name :そのまま
  • Windows Virtual Desktop tenant name :環境構築手順・テナント作成で作ったもの
  • Windows Virtual Desktop tenant RDS Owner :UPNを選択
  • UPN :管理者アカウント
  • Password :管理者パスワード
  • Confirm password :再度一度管理者パスワード

④接続方法ここではWebクライアントに接続していきます。

以下のURLから登録したアカウントでサインインします。
https://rdweb.wvd.microsoft.com/webclient

image.png
「許可」をクリック。

image.png

使用するリソースを選択します。

image.png
ユーザー名・パスワードを入力。

image.png
これで、無事接続完了です。

補足

構築は解説や説明が分かりづらい部分もあると思うので、以下のリンクもご参照ください。

■ WVDについて

■環境構築

最後に

最後まで読んでいただきありがとうございました。

WVDでは 仮想マシン、ユーザーからの接続を受け付けるゲートウェイなど VDI環境構築に必要なサービスが全て Azure で提供されています。

WVDを使用したリモートワーク環境をこの機会にご検討してみてはいかがでしょうか?

 


5/21(木) 「自宅からでOK! Azure で始めるデータ分析ことはじめ ~ データ分析もリモートワークスタイルから ~」オンライン座談会を開催します!

はじめに

この度、マイクロソフト社と共同開催にて
「自宅からでOK! Azure で始めるデータ分析ことはじめ~ データ分析もリモートワークスタイルから ~」と題しましたオンライン座談会を開催することとなりました。

今回のウェビナーでは、

  • Azureを用いたデータ分析方法について、実際の事例から導入のための考え方や工夫のご紹介
  • Azure Windows Virtual Desktopを使ってリモートワーク環境下でセキュアに最適な分析環境の実践方法のデモンストレーション

を予定しています。

また、終了後には座談会形式で日頃のお悩みについて、口頭またはチャット機能でご質問いただけるQnAタイムも設けております。

こんな方におすすめです

  • AI活用をこれから導入を考えている方(データ分析未経験でも可)
  • リモートワークでのデータ分析環境にお困りの方

開催概要

スピーカー

日本マイクロソフト株式会社
塚本修一様

株式会社ナレッジコミュニケーション
中西 貴哉
井村 真樹

株式会社ナレッジコミュニケーションについてのご紹介

株式会社ナレッジコミュニケーションでは、これまで下記のような取り組みを行なっております。

■検証記事
・Azureデータ分析入門 #1 【はじめに】
https://azure-recipe.kc-cloud.jp/2019/09/excel-azure-notebook-databricks-01/
・WVD(Azure Windows Virtual Desktop)検証記事
https://azure-recipe.kc-cloud.jp/2020/05/remote/
・AzureML検証記事
https://azure-recipe.kc-cloud.jp/category/bigdata/

■実績掲載
名古屋大学様及び中部電力様 事例
https://prtimes.jp/main/html/rd/p/000000008.000004474.html
トヨタ情報システム愛知株式会社様 事例
https://www.zaikei.co.jp/releases/709075/

タイムスケジュール

ご参加方法

以下のURLをクリックしていただき、「イベントに登録」フォームで必要事項のご記入をお願いいたします。
https://mktoevents.com/Microsoft+Event/177302/157-GQE-382?ls=Website&lsd=AzureWebsite
申し込み完了後、Microsoft TeamsのURLを発行いたしますので、そちらからご参加をお願いいたします。

ランチタイムのお時間での開催になりますので、リラックスしながらご参加いただければと思います。
それでは、皆様のご参加を心よりお待ちしております。


Azure Remote Rendering やーる

Azure Remote Rendering(プレビュー)が昨日公開されたので、さっそく試してみました!

Azure Remote Renderingとは、データサイズの大きい3Dモデルをクラウドでレンダリングし、その結果をストリーミングすることで、リアルタイムにHoloLens2などのデバイスに表示することができるサービスです。

Azure Remote Renderingについて

システム要件について

remote rendering accountの作成

1.azure portal にログインし、remote renderingを検索、remote rendering account を作成します
image.png

2.リソース名、サブスクリプション、リソースグループを指定します
image.png

3.デプロイ完了したらリソースに移動してください
image.png

クイックスタート

下記のドキュメントを参考に進めていきます。
https://docs.microsoft.com/en-us/azure/remote-rendering/quickstarts/render-model

1.サンプルプロジェクトをクローンします

[crayon-62863c5f3058e765103630/]

2.UnityHubのリストに追加からARR\azure-remote-rendering\Unity\Quickstartを開きます
※Unityのバージョンは2019 3.1f1

image.png

3.Scenes->QuickStartを開きます

4.RemoteRenderingゲームオブジェクトを選択し、InspectorビューにアカウントIDとKey、ドメインを入力します

image.png

アカウントIDはリソースのremote rendering の概要に載っています。
image.png

リージョンの名前は、リソースグループから確認できます。例:米国東部なら、ドメインはeastus.mixedreality.azure.comです。
image.png

リージョンの名前について

5.UnityのPlayボタンを押すと表示されました!
image.png

表示するサンプルのモデルについて

Name Value
Required VM size standard
Number of triangles 18.7 Million
Number of movable parts 2073
Number of materials 94

表示するモデルのカスタマイズはこちらから

HoloLens2にデプロイ

こちらのドキュメントを参考にします
https://docs.microsoft.com/en-us/azure/remote-rendering/quickstarts/deploy-to-hololens

1.Build Settingsを開き、UWPにSwitch Platformして、下記のように設定し、フォルダを指定してBuild

image.png

2.ビルドしたフォルダの中にある.slnファイルをVisualStudio2019で開き、Release・ARM64で、リモートコンピュータ(HoloLens2のIPアドレス)を指定してCtrl+F5

藤本賢志(ガチ本)@pixivFANBOXはじめました@sotongshi

Azure Remote Renderingのサンプルやってみた

Embedded video

See 藤本賢志(ガチ本)@pixivFANBOXはじめました's other Tweets

PCにデプロイ(割愛)

こちらのドキュメントを参考にします
https://docs.microsoft.com/en-us/azure/remote-rendering/quickstarts/deploy-to-desktop


Data Lake Storage Gen 2 ファイルシステム情報確認方法 【Azure Databricks 接続用】

はじめに

Data Lake Storage Gen 2 で作成したファイルシステムを Azure Databricks に接続する際には、以下の情報が必要になります。

  • アプリケーションID
  • ディレクトリID
  • クライアントシークレット
  • ストレージアカウント名
  • ファイルシステム名

どたばたしていると控えておくのを忘れてしまうこともしばしば。
クライアントシークレットは一度しか発行されませんが、その他については再確認が可能です。
Azure コンソールからの確認手順を記しておきます。

ストレージアカウントとファイルシステム名の確認

コンソールのトップ画面から Azure Databricks を選択。(最新のリソースからアクセスしたほうが早いことも)
image.png

接続対象の Azure Databricks を選択。
2020-02-13_16h19_24.png

リソースグループをクリック。
2020-02-13_16h21_45.png

ここでストレージアカウント名 を確認できます。対象のストレージアカウントをクリック。
2020-02-13_16h23_35.png

コンテナを選択。
2020-02-13_15h31_08.png

こちらがファイルシステム名です。
2020-02-13_16h32_12.png

アプリケーションID と ディレクトリID の確認

トップ画面より、Active Directory を選択
2020-02-13_16h33_58.png

アプリの起動から、登録した内容をクリック。
2020-02-13_15h37_46.png

アプリケーションID と ディレクトリID が確認できました。
2020-02-13_15h38_45.png

 


Azure SQL Database 単一データベースの作成方法

こんにちは、kc-Dreamです。
今回は、SQL Databaseの単一(シングル)データベースをAzure Portalから構築する方法についてご紹介します。

Azure SQL Databaseについて

Azure SQL Databaseは下図の種類があり、今回ご紹介するのはシングルデータベースとなります。

image.png

 

  • 単一データベースは、フル マネージドの分離されたデータベースを表します。 このオプションは、信頼性の高い 1 つのデータ ソースを必要とする最新のクラウド アプリケーションとマイクロサービスがある場合に使用できます。 単一データベースは Microsoft SQL Server データベース エンジンの包含データベースに似ています。
  • マネージド(管理者常駐型)インスタンスは、Microsoft SQL Server データベース エンジンのフル マネージド インスタンスです。 これには、一緒に使用できる一連のデータベースが含まれています。 このオプションは、オンプレミスの SQL Server データベースを Azure クラウドに簡単に移行するため、および SQL Server データベース エンジンが提供するデータベース機能を使用する必要があるアプリケーションに使用します。
  • エラスティックプールは、CPU やメモリなどのリソースの共有セットを含む単一データベースのコレクションです。 単一データベースはエラスティック プールの内外に移動できます。

デプロイ モデル

構築方法

Azure PortalからSQL Databaseを選択し、新規SQL Databaseを作成していきます。

 

image.png

基本

image.png

  • サブスクリプションの選択
  • リソースグループの選択
    • 新規リソースグループの作成も可能
  • データベース名を入力
  • サーバー
    • SQLデータベースがのるサーバを新規作成を行います。
    • 既存サーバを使用することも可能です。
    • 新規作成する場合、サーバ名、ログインユーザ名、パスワード、場所を入力し作成を進めます。※SQL DatabaseはPaaSサービスなのでサーバを直接設定するようなことはできません。

image.png

  • エラスティックプールの使用有無
    • 本記事ではシングルデータベースの構築についてなので無を選択します。
  • データベースの設定より使用するSQL データベースのスペック等を選択します。 image.png

ネットワーク

image.png

  • ここではSQL Databaseへの接続方法について選択します。

追加設定

image.png

  • データソース
    • 新規に作成し使用する場合、なしを選択
    • バックアップから復元の場合には、バックアップを選択
  • データベース照合順序

タグ

image.png

  • タグ設定を行う場合、入力します。

確認および作成

  • 選択及び入力した設定項目を確認できます。また、SQL Databaseが起動できるかどうかの検証が行われます。
  • 問題なければ作成を選択
  • デプロイ後、バックアップ設定は変更することをオススメします。

おわりに

今回はシングルデータベースの構築についてご紹介しました。
マネージドインスタンス、エラスティックプールについての構築方法についても今後ご紹介したいと思います。


Azure LogAnalytics 番外編

こんにちは、kc-dreamです。
今回はAzure LogAnalyticsの番外編ということで、Kustoクエリについてご紹介します。

 

 

Kusto概要

Kusto は、ビッグ データに対する対話型分析を格納して実行するためのサービスです。
これはリレーショナル データベース管理システムに基づいており、データベース、テーブル、列などのエンティティをサポートし、複雑な分析クエリ演算子 (計算列、検索とフィルター処理、行、グループごとの集計、結合など) を提供します。

Kusto の概要

 

Kustoクエリとは

Kusto クエリは、データを処理して結果を返すための、読み取り専用の要求です。 要求は、構文を読みやすく、作りやすく、自動化しやすくするように設計されたデータフローモデルを利用してプレーンテキストで述べられます。 クエリでは、データベース、テーブル、列など、SQL に似た階層に編成されたスキーマ エンティティが使用されます。

概要

 

Kustoクエリの使用方法

[crayon-62863c5f30d7a163824210/]
  • Kustoクエリにはステートメントが1つありますが、それは表形式ステートメントです。 このステートメントは StormEvents という名前のテーブルの参照から始まっています (このテーブルをホストするデータベースはここでは接続情報の一部として暗に示されるだけです)。
  • そのテーブルのデータ (行)が StartTime 列の値でフィルター処理され、さらに State 列の値でフィルター処理されます。
  • "FLORIDA" 行の数がクエリにより返されます。

Kustoチートシートまとめ

SQLクエリからKustoクエリを使用する際のクエリをまとめています。

SQL から Kusto カンニングペーパー
SQL から Azure Monitor へ

 

LogAnalyticsで実際に使用してみる

別記事でご紹介しているので、参考にしてもらえると幸いです。
別記事リンクは以下になります。

Azure LogAnalytics 概要についてまとめてみた
Azure LogAnalyticsでWindowsServerを監視してみた
LogAnalyticsのデータ取得時間の調査方法

参考情報

Azure Monitor ログ クエリ
Kusto Query Language (KQL) from Scratch
Azure Monitor でログ クエリの使用を開始する

おわりに

Kustoクエリについては、Azure環境にてログや各種リソースメトリックを収集したデータを活用する際に使用するので、自身がよく使うコマンドは覚えておくのが便利です。


【Azure 初心者向け】Azure VM を利用してファイルサーバ構築を検討する

はじめに

Azure のファイルサーバを構築する際に考えられる構成をご紹介します。
特に Azure 仮想マシン(Windows) を利用した場合について解説します。

記事の概要

  • Azure Files を利用した場合のメリットデメリット紹介
  • Azure 仮想マシンを利用した場合でのメリットデメリット紹介
  • Azure 仮想マシンで利用するストレージの解説・接続方法の紹介

Azure でファイルサーバを構築する際の構成

① Azure Files を利用
② Azure 仮想マシン(Windows)を利用

この記事では、上記 2 パターンのうち Azure 仮想マシン(Windows)に焦点をあてご紹介します。

Azure Files を利用した場合

https___qiita-image-store.s3.ap-northeast-1.amazonaws.com_0_229923_32ba6b89-22e4-6f13-cc65-da91592c3013.png

【メリット】

  • ファイル共有の最大サイズが 1TiB
  • 構築が簡単

【デメリット】

  • NTFS による権限設定ができない
  • オンプレミス ドメインのリソースが利用できない
  • 同時アクセス数が多い場合、パフォーマンス低下が懸念される
  • SMB ポート利用が制限されるネットワークでは利用が現実的でない

Azure 仮想マシン(Windows)を利用した場合

【メリット】

  • 既存のオンプレミス環境との互換性が高く、ハイブリッドの構成も可能
  • オンプレミス ドメインのリソースを利用
  • 記憶域プールを構成することで 1 ドライブあたりの容量を最大化できる
  • スループットの変化に柔軟に対応できる
  • 容量の追加が容易
  • Reserved Instance でコストメリットを訴求

【デメリット】

  • 冗長構成をとる場合価格が2倍以上になる(単純に VM が2台構成)
  • ネットワークの構成やストレージの管理など、構築や管理にそれなりのコストがかかる

Azure 仮想マシンで使用するストレージ

Azure 仮想マシンで使用するストレージは、管理ディスクと非管理ディスクの 2 通りが利用できます。

管理ディスクと非管理ディスクでは課金の考え方が異なります。
SSD を利用しない場合は非管理ディスクを選択することでコストメリットが出せる場合もあります。

Azureディスクストレージの種類(2021 年 5 月 12 日現在)

Azure 仮想マシンがサポートするディスクドライブの最大容量は4TBです。
Windows Server の機能である記憶域プールを利用することで、より大容量のドライブを作成することが可能です。
また、使用する VM によりアタッチできるディスク本数が変動します。

下記記事は参考情報です。
Azure の Windows 仮想マシンのサイズ

ディスクを仮想化する記憶域プール機能 (1/3)

Azure VM に大容量ディスクを作ってみる

複数のディスクを利用する場合、
ディスクを配置するストレージアカウントは別々にすることをお勧めです。

同じストレージ アカウントに複数のディスクを配置すると、ストレージアカウントの iOPS 上限の影響を受けパフォーマンスが低下する場合があります。
※管理ディスクにはストレージアカウントの考え方がないため、管理ディスクを利用する場合は考慮の必要はありません。

https___qiita-image-store.s3.ap-northeast-1.amazonaws.com_0_229923_c2bf7d91-f84f-28d0-4803-d2bda5da578b.png

Azure 仮想マシンとの接続方法

オンプレミスのドメインリソースを利用する場合、VPN や ExpressRoute などの閉域回線を利用します。

ExpressRoute は価格は高めですが、送信転送量を料金に含めることで通信にかかる料金を固定できるプランが存在します。
一定以上の帯域を確保する必要がある場合、ExpressRoute の利用がお勧めです。

ExpressRoute の価格

VPN や ExpressRoute を利用する場合、VPN Gatewayが必要になります。

VPN Gateway の価格

冗長構成を組む場合
ファイルサーバーを冗長化するソリューションとして記憶域スペースダイレクトがあります。これは Azure 仮想マシンでも有効です。

ゲスト仮想マシン クラスターで記憶域スペース ダイレクトの使用

※この場合仮想マシンは最低2台、ストレージ容量は 2 倍必要なので、コストも 2 倍になります。

おわりに

Azure 仮想マシン(Windows) を利用したファイルサーバの構成について解説しました。
今回ご紹介した以外にも、Azure では様々な方法で構築することが可能です。
Azure でファイルサーバを検討する際の参考になれば幸いです。