-
【Databricks】1000人分のワークスペースとクラスターを1日で作る方法【SDK for Python】
はじめに 今年1月から2月にかけて、「第2回 金融データ活用チャレンジ」が一般社団法人金融データ活用推進協会 (FDUA) 様の主催で開催され、3月8日に表彰式が行われました。 https://prtimes.jp/ma […]
-
Azure Policyの割り当て手順
Azure policyについてほとんど触った事がなかったんですが、 ポリシー追加割り当てをする機会がありましたので簡易なポリシー割り当て手順を残してみます。 設定できる手順はいくつかあると思いますが、ここで書く手順はそ […]
-
【Databricks SDK for Python】アカウントコンソール上の操作をコード化する
はじめに Databricks のアカウントコンソールでは、Databricks アカウント最上位の権限を持つアカウント管理者のみが、UnityCatalog 関連の設定や、ユーザー・グループ・ワークスペース管理などを行 […]
-
【PySpark】フィルタリング(filter)にて不等号(!=)を扱う際に気を付けるべき点
はじめに PySpark の filter 関数 は SQL でいうところの where みたいなもので、データフレームを指定した条件で絞りたい場合にフィルタリングできる関数になります。 PySpark を使用していると […]
-
生成AIを利用してSparkのデータフレームに対する洞察はできるのか
はじめに ChatGPTをはじめ、生成AIは非常に注目を浴びています。 そして現在では単に生成AIに一般的な回答を生成させるだけでなく、RAG や SQL Agent 等を利用して社内独自のデータに対して生成AIに抽出さ […]
-
Delta Live Tables を使用した際、意図した出力結果と違う場合に確認すべきこと
はじめに Delta Live Tables(略: DLT) とは Databricks にてデータのパイプライン処理を構築するときに利用できる便利なフレームワークです。 こちらのフレームワークを使用することでパイプライ […]
-
【Data and AI Summit 2023】世界中に聞いた!Databricksで最も興味のある新しい機能は?
はじめに 6/26 ~ 6/29 の期間、アメリカのサンフランシスコ(+オンライン)で「データ& AI」における世界最大規模のカンファレンスが Databricks 社主催で開かれました。 現地での参加人数はなん […]
-
【Databricks】クラスターが起動しない場合にはログをたどってみればよい件
はじめに Databricks でクラスターを立ち上げようとした際、なぜかクラスターが立ち上がらないことが過去に一度だけありました。 起動ボタンを押しても、数分後には何もなかったかのようにクラスターが停止している状態です […]
-
【PySpark】縦持ちデータを横持ちに変換(pivot)してデータを集計してみた
はじめに 本記事では PySpark でデータ加工や分析をされている方向けに、簡易的な縦持ちのテーブルを横持ちで見れる形へと回転するような変換をしていきます。 一般的にデータを見るという点では横持ちのテーブルの方が整って […]
-
【4. ビジュアル作成編】Databricksで生データの加工から可視化まで一気通貫しておこなってみた
はじめに 本記事は全4編によって構成されるうち、4つ目の記事となります。 前回ではDatabricks SQLにて可視化のためのクエリを作成しました。 今回はクエリ実行によって得られたテーブルを可視化し、ダッシュボード上 […]