【Databricks Data+AI Summit 2022】マネーボール時代のビックデータ-翻訳記事

はじめに

2022/6/27(月)~2022/6/30(木)の4日間、サンフランシスコと Web 会場で Data+AI Summit 2022が開催されました!
Data+AI Summit 2022 で発表された Databricks 最新情報をお知らせします。
■公式URL
https://databricks.com/jp/dataaisummit

MicrosoftTeams-image (9).png

Data+AI Summit 2022 とは?

Databricks社は、データ収集、加工、AI・データ分析、可視化までクラウド上でのデータ利活用に必要なあらゆる機能を備えたデータ分析統合プラットフォームを提供する会社です。

そのDatabricks 社が主催する世界最大規模のデータ&AIのカンファレンスである、Data+AI Summit 2022が開催されました!
今年は、Databricks のユースケースや、事例、新機能などに関する情報が発表されています。

ログインページは下記になります。
https://dataaisummit.com/login/
※メールアドレスの登録が必要です

本記事ではその中の「マネーボール時代のビックデータ 」のセッションについて翻訳、解説したいと思います。

マネーボール時代のビックデータ 概要

Data+AI Summit 2022 マネーボール時代のビックデータ の内容を翻訳し、まとめました。
要約した内容は以下になります。

  • マネーボールの時代と、それが野球の試合にどのように革命をもたらしたか
  • レンジャーズがDatabricksを使用して、すべてのデータパイプラインに流入する膨大な量のビッグデータを分析する方法
  • 機械学習とビッグデータを使用してヒットしたボールがどのように落ちるかを予測する方法と、予測を使用してバッティングを最適化する方法

 

マネーボール時代のビックデータ 詳細

Databricksを利用したユーザー企業概要

メジャーを代表する球団「テキサス・レンジャ-ズ」のシニアアナリストとデータエンジニアの2名が登壇してくださいました。

image.png

野球ファンであれば一度は聞いたことがある大球団ですが、一応紹介文を以下に記載しておきます。

テキサス・レンジャーズは、テキサス州アーリントンに本拠地を置くアメリカンリーグの西地区の球団です。
レンジャーズは2018年現在グローブライフ・フィールドを本拠地としておりますが、現在、同じアーリントン市内に新スタジアムを建設中となり、2020年のシーズンからは新スタジアムへの移転になります。
https://mlbtours.jp/?select_team=tex

マネーボールの時代と、それが野球の試合にどのように革命をもたらしたか

マネーボールとはマイケル・ルイスが書いた書籍で、2011年にはブラッド・ピットとジョナ・ヒルがオークランドAの幹部を演じ、映画化もされました。
image.png

題材であるビル・ジェームズはメジャーリーグでデータ分析から成功へのアプローチを見出した第一人者になります。
野球では打率が高いことが得点につながると思われがちですが、マネーボールで書かれているのは打率よりも出塁率の方が総得点と高い相関があるということでした。
結局のところ、野球では得点を取ることが勝つ手段なので、上記は重要な相関関係になるわけです。
つまりは打率が高い選手よりも出塁率を高い選手を安く起用することで、低価格かつより多くの試合に勝つことができるようになると解釈できます。

データの傾向から分析してスポーツをハックすることが当たり前となった現代のMLB(メジャー)では、球場に多くのカメラを様々な角度で設置し、スイング、ヒット速度、角度、スピン率、走塁タイムなど様々なデータを蓄積し、ビックデータとして活用しております。

image.png

テキサス・レンジャースが抱えていた課題

情報の統一化

他の企業野球のフロントと同様に、レンジャーズにも組織を前進させるための様々な分野に特化した内部部門があります。

情報の統合における問題は、レンジャーズが利用するすべてのテクノロジーが互いに統合されているかどうかによって、さらに難しくなっています。
また、5年後にどうなっているか、長い目で見てどのようなソフトウェアを選択するのがベストなのか、未来を予測することは不可能ではないにしても、これらを判断するには簡単には判断できない材料となっております。

データサイロ化

テキサス・レンジャーでは、API FTPのデータベース、外部と内部の両方のクラウドバケットからデータを取得しておりデータ形式も様々なため、効率的にデータを収集、処理をする必要がありました。
またデータがサイロ化された状態も散見し、様々な言語で書かれたスクリプトがオンプレミスやクラウドベースの異なるサーバー上で動作していた為、それぞれに適用した形のデータベースに保存されておりました。

image.png

解決方法

上記で紹介されているような課題の解決方法として採用されたのがDatabricksです!
DatabricksのノートブックでDelta Lakeに保存することで、あらゆるソースからデータを抽出する取り込みスクリプトを一元管理できるようになりました。

データを変換し、クレンジングをした上でステージテーブルに保存し、最終的にエンタープライズデータウェアハウスに取り込むことができるのです。
koalasとPysparkに新たに統合されたkoalasを使うことで、分散抽出も実行することができます。
image.png

機械学習オペレーションによって、機械学習モデルが開発から生産に至るまで反復し、変化する様子を追跡することができます。さらに、ML運用をデータと同じ統合された分析プラットフォームで行うことで、機械学習モデルを追跡することができます。

エンジニアリングでは、データが処理されているのと全く同じ場所でモデルとデータを結びつけることができ、これによりデータが抽出され変換されると同時にスコアを付け予測を生成することができるようになります。

こうすることで、選手や監督を含むステークホルダーに、超高速で洞察を伝えることができるようになりました。以前は、試合が終わってから選手に予測や指標を伝えるまで、最大で24時間かかっていましたが、今では数時間後には予測結果を提供できるようになっています。

まとめ

今回は野球でのデータ活用という切り口でDatabricksがどのように使用されているのか、どのようなベネフィットをもたらすのかという観点で話をされておりました。
本記事には詳細は記載しておりませんが、当日の審判のジャッジ傾向や縫い目のコンディションによる打球への影響など興味深いことも話されていました。

オンデマンドで視聴をすることができますので、公式ページをチェックしてみてください!

Data+AI Summit 2022 最新情報更新中!

■Data+AI Summit 2022ナレコム特設サイト
https://www.knowledgecommunication.jp/product/DataAISummit2022.html

Databricks導入ご相談申し込み受付中

Twitterでは現地の様子を随時更新中です。
https://twitter.com/KnowComInc