Azure Databricksでpetastormやーる

はじめに

petastormやっていきまーす

開発環境

image.png

Spark から TensorFlow へのデータ変換を簡略化する

1.こちらのノートブックをやっていきます
https://docs.microsoft.com/ja-jp/azure/databricks/_static/notebooks/deep-learning/petastorm-spark-converter-tensorflow.html

2.ライブラリをインストール

3.ライブラリをインポート

エラー出た

Spark から PyTorch ノートブックへのデータ変換を簡略化する

1.こちらのノートブックをやっていきます
https://docs.microsoft.com/ja-jp/azure/databricks/_static/notebooks/deep-learning/petastorm-spark-converter-pytorch.html

2.ライブラリをインストール

3.ライブラリをインポート

エラー出た

Spark と Petastorm を使用してディープ ラーニング ノートブック用のデータを準備する

1.こちらのノートブックをやっていきます

petastorm – Databricks

2.ライブラリをインストール

3.ライブラリをインポート

3.ディレクトリを作成

4.データセット(mnist)をダウンロード

5.データセットの読み込み

6.データを配列に格納

7.Parquet形式へ変換

8.ライブラリをインポート

9.モデルの定義

10.parquet形式のデータのパスを定義

11.Parquet形式のデータをmake_batch_readerで読み取り、学習

12.ディレクトリの削除

13.ディレクトリが残っていた場合の確認

14.uuidを指定して削除

参考文献

Petastorm を使用してデータを読み込む – Azure Databricks

Azure Databricksの導入ならナレコムにおまかせください。

導入から活用方法までサポートします。お気軽にご相談ください。

Azure Databricksソリューションページはこちら