クラウドキーベンダーによるAI基盤戦略‐2023年5月時点の最強ベンダーは?
2023年5月は、EDIXイベントに3日参加したり、各クラウドベンダーの新製品の製品情報を集約したり、記事記載をすっかりさぼってしまっておりました。
ChatGPT関連の技術・ニュースに飽きたからとか、Bing Searchの利用率が全く増えないので、1カ月に1度のモニタリングに飽きたとかそういう事情は、、、少しだけです。それ以外にお客様プロジェクトが多忙を極めていたとか、PowerBI/PowerQueryのツールの癖を調べるのに異様に時間を使ってまったりと…想定外の業務状況でした。PowerBI/PowerQuery関連の情報は別途記載できるようにしたいと考えております。
Microsoft
EDIXイベントブースでMicrosoft Buildでものすごい発表しますよ!とお伺いしていたので、期待して待っていたのですが、ついにそのベールがはがされました。
Satya Nadella(サティア・ナデラ)CEO(最高経営責任者)は「全てのAIアプリケーションはデータから始まる。(Fabricは)私たちが何年もかけて取り組んできた製品だ。マイクロソフトのデータ関連製品として、(データベース管理システムである)SQL Server以来、最大の発表になるだろう」と力を込めた。
日経クロステックより
Microsoft Fabricとは何か
Power BI onlineにAzure Synapseファミリー(Azure製品)を組み込んだ物です。
PowerBI(Desktop)、Online、Azure SynapseをLakeDBで構成してOne Stopで使いやすくパッケージしている感じです。Azure Analysis Servicesのメモリ容量も付いてくるため、可視化パフォーマンスも高速で、LakeDBとAzure Analysis Servicesのメモリ空間が透過的につながるモードを使う事で更に高速に利用する事が出来るという夢のようなサービス体系です。
Microsoft Fabricのメリット
PowerBIをPremiumで契約している組織の場合は、ほぼ追加コストなく(OneLakeのストレージ費用やSynapse、Data Factoryの処理費用は出ると思いますが)、データ準備、可視化処理、Spark、Python、AzureML等様々なMicrosoftさんのAIツールを利用する事が出来ます
Microsoft Fabric - 複数のデータソースの統合
つまり、Azure製品で発生していた、Synapse serverlessのテーブルを他AI製品からアクセスできない(Synapse analyticsのspark nodeからもアクセスできないというギャグ)から離脱できたことがかなり大きいです。※ここまでは調査、検証済。AzureMLでこのデータをハンドリングできるかは未検証なので今後試します。
AWS、GCP等のクラウドベンダーのサーバー上に保持したデータも、(Parquer形式になっていればw)Fabricからアクセスしてデータ処理が出来るので、データを事前転送(コピー)すると言う無駄な作業もなくなります。(Parquet変換処理舐めてますよね?という印象は少しありますが、ここらへんの変換は各クラウドベンダーのツールで比較的変換難易度は高くない理解なので、作業をすることで色々便利になりますという事になります。)
また昔からの伝統的なデータのETL処理によるデータ取り込みもAzure Data Factoryを活用して実行できるので(DataFactoryがお客様のデータセンターにアクセスできない場合は、Datafactoryをお客様のサーバー環境にインストールする方法もありますので新たなETLツールを購入する事なく、同じ利用方法でデータをコピーする事が可能です)
Microsoft Fabric民主化されたETL
この部分が大きいと思うのですが、Azure Data Factory+Power Query( online) 機能が搭載されていて、通常データ抽出・準備作業はIT部門様に依頼する必要があった箇所がGUIでELT実行する事が可能です。
一般的なBI開発のミスとして多発する、『実はユーザーさんはデータを抽出したかっただけ』と言う問題は、Azure Data Factory+Power Query( online) で全て解決してしまいます。
リアルタイムBIを実現するAzure Data Explorerの搭載
これはリアルタイムなデータを可視化するツールとなるので、用途を縛りますが、実はAzure Monitor等のサービスの根本になっているADXが搭載されている事は非常に利便性が高く、リアルタイムな可視化を行いたい等のニーズに応えられます。(とは言え、KQLを勉強しなければならないのは少し学習コストが重い部分がありますが…)
リアルタイムなデータを可視化するだけであれば、他社ツール(サービス)でも処理は可能なのですが、S3、Blob等に入っているデータと同時に処理したい時は世界最高のコスパを提供するサービスに仕上がっています(価格体系的な問題も大きいのですが)
Microsoft Fabric Copilotの支援
通常、これだけの大量のサービスだと学習コストが重くなりすぎるのですが、これらのサービスをCopilot機能で、やりたい事を記載すればMicrosoftさんが(ChatGPTさんが)コードや設定をやってくれたり、PowerBIの可視化レイアウトを作ってくれたりするという恐ろしい機能があります。(もうデータ可視化エンジニアは全失業してしまうのではないかと背筋が凍る思いでした)
Microsoft Fabricネタバレ 最大の発表の背景と理由
Microsoftさんの組織構造上、アプリケーション製品(office365とか、PowerBIとか)とAzure製品は、販売・所轄部署が異なるので、営業の方も異なるレベルなため、確かに社内の人からしたら『最大の発表』になるのではないかと思われます。
ここ数日、PowerBIサイド、SQLサーバーサイドの勉強会に出て把握したお話で、何故FabricがPowerBIチーム側の製品としてリリースされたかというお話もお伺いしたのですが、NDAにひっかかる気がするので、今回は記載しません。(もし他のソースで公開されたら記載します)
Fabricの欠点
Premium契約が必須になりそう(月50万~)ハードルがいきなり高いです。
と思っていたのですが、AzureSKUを発見したので、もしかしたら、分析基盤としてFabricを採用できそうです。(リソースを色々入れたり出したり計算してみたいと、Synapse Analytics Serverlessで良いのでは?と言う疑問はまだ解決していませんので継続して調査します。
- Azure - コミットメントなしで 1 秒あたりに課金されます。
- Microsoft 365 - 月単位または年単位で請求され、月単位のコミットメントが設定されます
データカタログサービスがない
ETLツールがあるのにカタログがない?となっているのですが、リネージの管理等がないとこの手の基盤は使い物にならないので、別途で追加するなり検討する必要がありそうです。(もしかしたらステルスで開発しているかもしれません)
Azure Data Catalogがpurviewに統合されつつあるので、多分ここできちんと吸収されている(はず)です。調査できましたら別でご報告します。
データ品質管理ツールがない
SQLサーバーにはあるのに、何故ETL製品に入れないの?と言う謎しかない状態なのですが、何故かMicrosoftさんはデータ品質管理に関しては後ろ向きです。取り込むデータがいつも綺麗なんでいる夢の事象はありえないのは、分析現場の人間であれば痛いほど知っているお話なので、こればかりは、DQSをクラウド化してDataFactoryに入れ込んで欲しいお気持ちでいっぱいです。
流石にこの機能がないと、クラウドベンダーの機能単独でシステム設計すると言うお題の時は、GCPかAWSを使うしかない状態です。(データ品質とカタログ部分で外部ベンダーツールを採用すると、データファクトリーを使うメリットが霧散してしまうので、本当になんとかして欲しい所です。purviewが該当する機能になる可能性はあるので、期待して待つしかないのですが、DQSがあるのに何故サービス化しないかと言う謎が本当に大きいです。DataFactory内で手作りするサンプル等はありますが、あれだけだと不十分なので、本当に何とかして欲しい所(DataBricksさんがサービス出してるので、取り込んで!と言うお気持ちが…)
IBM
実は、Microsoftさんが、Fabricを出してくる少し前の2023年5月9日、米IBM、AIとデータの新基盤「WatsonX」を発表されていらっしゃいました。
IBMさんらしいと言えばらしいのですが、SPSS製品、DB2製品その他諸々を集約しつつ、最新の生成AI(ChatGPT)にも対応した基盤に仕上がってきています。
昔のWEXがどう製品展開されているかは別途詳細を調べてご報告いたします。(製品体系が複雑なので調査に少々お時間が必要でして…)
まとめ
GPT、LLMブームを受けて、AIブームが再開し、同時にLLM実行も可能なワンストップ基盤(AIプラットフォーム基盤)構築製品スタックを各社様が投入してきています。
これまでは、様々なコンポーネントを組み合わせるSIが発生していた部分が、各社のツールを契約する『だけ』で利用開始が可能な点が大きなメリットになりそうです。
これから、AIプラットフォームを検討される場合は、ワンストップで導入できるこれらのツールを検討する事も視野に入れられますね。(とは言え、Fabric上でTableauを使うような柔軟のある組み合わせが必要な時は、SIが必要そうなのと、結局その時は様々別要素を検討しないといけないので、やっぱり一筋縄ではいかなさそうです)
基本的な設計は、弊社が提供するLaplace DXと同様の設計思想になっている事を確認しておりますので、弊社の設計着想が結構イケてる!と自画自賛中です。製品選定のご相談は無償でご支援いたしますので、お気軽にお問い合わせください。