公開日:2024年4月11日

更新日:2024年9月5日

昨今、企業が扱うデータ量が膨大となったため、EXCELやCSVのデータを使ったレポート作成では時間と手間が大幅にかかるようになりました。
また、報告レポートの為に関数の多用により運用も属人化している状況で、課題を抱えている企業様も少なくないのでは無いでしょうか?

このような膨大なデータを「Snowflake」というデータウェアハウスを採用する事で、これらの問題を解決する事が可能です。

本記事から続く全3回のシリーズでは、SnowflakeとTableauによるExcelデータからの分析レポート作成のデモンストレーションを実施します。

第1回の本記事では、上記のような課題を解決に導くデータウェアハウスであるSnowflake(スノーフレイク)についてわかりやすく解説します。
第2回ではTableauについて解説し、第3回では実際に手持ちのExcelを、SnowflakeとTableauとで優れた分析レポートにするデモンストレーションをご紹介します。

本記事は2023年5月24日に弊社で開催したオンラインセミナー『手持ちのCSV/Excelとデータウェアハウスを組み合わせたデータ分析との共有による一歩先のデータ活用~Tableau PrepとSnowflakeを使ってデータ活用のノウハウを教えます~』の内容です。https://www.zdh.co.jp/event/20230524/

※第2回のレポート記事は以下よりご覧いただけます。
SnowflakeとTableauによる分析レポート作成のデモンストレーション(2)Tableauとは

1.Snowflake社とは

Snowflake(スノーフレイク)とは、企業名であり、同社が提供するサービス名でもあります。以下の文章では、企業名のSnowflakeを「Snowflake社」、サービス名のSnowflakeを単に「Snowflake」と記述します。まずはSnowflake社について解説します。

Snowflake社の歩み

2012年、Snowflake社はアメリカ合衆国のカリフォルニア州に設立されました。投資家から資金を調達し、企業名と同じ名のSnowflakeというサービスを開発し、2015年に一般提供が開始されました。

日本には2019年に参入し、2020年にはAWS東京、2021年にはAzure(アジュール)東京、2022年にはAWS大阪にてサービスを開始しました。

※AWSとは、アマゾン提供のクラウドコンピューティングサービスであり、AWS東京/大阪とはデータセンタが集積されている物理ロケーションです。同様にAzureとは、Microsoft社が提供するクラウドコンピューティングサービスです。

Snowflake社は、設立からわずか9年の2021年には、全世界で3,000人以上の従業員と、約5,000社の顧客を持つ企業に成長しました。2023年現在は、約7,200社の顧客を持つ大企業となっております。

Snowflake社の日本顧客

Snowflake社の日本顧客はこちらの企業ですが、これらはほんの一部です。このうち、弊社ジールがサポートさせていただいている企業は、スシローを経営するFOOD&LIFE COMPANIES様、IDPOSのサービスを行うJBtoBなどです。

Snowflake社のテクノロジーパートナーエコシステム

Snowflake社は様々なベンダーとパートナーを結び、開発をしています。

ビジネスインテリジェンス(BI)の領域では、Tableau、Power BI、ThoughtSpot、日本企業ではウイングアーク1stなど、様々なツールベンダーと連携しています。企業の意思決定に係わるデータインテグレーション、ETLや、企業内の異なるシステム間でデータを共有するEAIの領域では、Informatica、FiveTran、Tableau、dbt、denodoといった企業と連携しています。コンピューターに学習させて解析するマシンラーニング、データから有益な知見を得るデータサイエンスの領域では、SAS、DataRobot、Dataiku等々と連携し、リスクを最小限に抑えるセキュリティガバナンス領域でも、様々なツールベンダーと連携して開発を進めています。

この連携をSnowflake社では、テクノロジーパートナーエコシステムと呼んでいます。

以上より、Snowflake社は創業からわずか十数年で世界のデータの結集を支援するグローバルフォースとなったことが分かります。

2.オンプレミスとは・クラウドデータプラットフォームとは

続いてSnowflake社が提供するサービスであるSnowflakeの解説に移るのですが、まずは背景知識としてオンプレミスとは何か・オンプレミスの課題・クラウドデータプラットフォームサービスとは何かを解説します。

オンプレミスとは

1990年頃、世間では自社システムを使ったデータウェアハウス(DWH:Data Ware House)が導入され始めました。自社施設内にサーバーや通信回線等の環境を備えてシステム構築・運用を行うものであり、のちにオンプレミス型と呼ばれます。プレミス(premises)が英語で「建物」ですので、on the premisesで「建物内で」という意味です。

2000年代後半にクラウドコンピューティングが浸透し、クラウドでの運用も可能となりました。そのため、クラウドでの運用と区別して、「自社施設内にサーバー等を備えての運用」のことを「オンプレミス」と呼ぶようになりました。つまり「オンプレミス」は、「クラウド」の対義語です。

オンプレミスの課題

企業のデータ分析において、オンプレミス型で生じる様々な問題について解説します。まずは企業のデータ分析の流れを紹介します。

企業が持つ膨大なデータの一例が図の左側です。例えば、データソース、多数のトランザクションを同時に実行するOLTP業務系のデータベース、他社のシステムを提供するサードパーティのデータ、データ通信などの履歴記録、Webログのデータです。

これらの膨大なデータは、複数のシステム間で連携・活用できるよう、抽出・変換・書き出し(Extract・Transform・Load)などが必要です。これらを頭文字を取ってETL処理と呼びます。

ETL処理したデータは、データレイクやデータウェアハウスとよばれるデータベースに貯められます。そして、分析したい目的に合わせデータマートが作られ、最後にBIツールなどでデータ分析が行われます。以上が、データ分析の流れです。

※データレイクは情報の湖、データウェアハウスは情報の倉庫と称されます。データレイクはデータ形式や規模を問わずあらゆる情報を格納します。膨大なデータの収集と蓄積に長けている一方、集約されたデータを分析するためには、整理されていない膨大な情報を構造化しなくてはなりません。対して、データウェアハウスは情報に加工や変換を施して構造化し、データを分析しやすい状態で保管します。

※データマートとは、企業に蓄積された膨大なデータの中から、目的に応じて一部を取り出したデータベースです。例えば顧客へのメール送信を目的として「会員番号」と「メールアドレス」だけを取り出して構築されたデータベース等です。

図の水色の四角の中に書かれているのは、このような流れの中でオンプレミスを利用するが故の課題・問題です。

例えばETL処理のところですが、データが急に増えてきてもロード処理を簡単に拡張できない、オンプレミスを導入した代償として初期コストが高い、運用コストが高いなどがあります。下の方では、データをコピーして遠隔地保管することで、ガバナンスやセキュリティのリスクも生じます。またオンプレミスである以上、リソースには上限が決まっているため、迅速にパフォーマンスを上げることも、実効性能を上げることもできないという課題が生じます。

クラウドデータプラットフォームの誕生

2000年代中頃には、クラウド化の流れと共に、あらゆるデータを扱いやすくするデータレイクという言葉が流行り、分散したビッグデータを格納して処理できるHadoopが台頭しました。しかし、これらは様々なデータやユーザーをサポートするには不十分でした。

※Hadoop(ハドゥープ)とは、データを複数のサーバに分散し、並列して処理するミドルウェア(ソフトウェア基盤)です。テラバイト、ペタバイト級大容量データの分析などを高速処理できるため、「ビッグデータ」活用における主要技術として活用が進んでいます。

そこで、クラウドにデータを集めてプラットフォームとして利用する技術(クラウドデータプラットフォーム)が発展し、全てのデータ、全てのユーザータイプのサポートが可能となりました。そのサービスの一つが、Snowflakeです。

3.Snowflake(スノーフレイク)とは

本章では、Snowflakeというクラウドデータプラットフォームサービスが、前章で述べたオンプレミスの課題をどのように解決するのか、またSnowflakeを利活用するメリットを、わかりやすく解説します。

Snowflakeが解決する課題1:無限大に拡張可能

オンプレミスでは急にデータが増えた場合であっても、ストレージ・容量をすぐに増やすことは困難です。また、コンピューターリソースに限界があるため、同時実行性能が低下し、重いデータベースを操作するのにSQLがうまく回らないなど、拡張性に限界があります。

※SQL(シークェル、シーケル)とは、データベース言語の1つで、データベースの定義や操作を行えるものです。

対してSnowflakeでは、データボリュームに対して効率的に処理することで無限に対応できます。ユーザー数が増えても同様です。さらにSnowflakeでは、構造化データだけではなく、半構造化データ・非構造化データも対応可能であり、必要に応じてパフォーマンスを速くすることもできます。

図にUNLIMITED(無制限)とある通り、Snowflakeではデータウェアハウスで利用される処理特性に合わせてリソースの大きさ、数の変更が容易に可能です。

図の左側のETLの処理では、例えばSnowflakeでは日中はスモールサイズで処理し、夜間はラージサイズで、一気にかつ簡単に動かすことができます。

図の中央のBI視覚化は、例えば通常は一つのサーバーで動かし、月曜日の午前中だけは非常に多くのユーザーが同時実行するため、サーバーを順次増やして同時実効性能を上げることができます。

図の右側のデータサイエンスの人には大きいサーバーを割り当てられます。

さらに、Snowflakeでは全てのワークロード処理で一箇所のデータを参照し対応できます。したがって、情報の一貫性と正確性を確保するSingle Source of Truth(SSOT、信頼できる唯一の情報源)を実現できます。

Snowflakeが解決する課題2:コストの最適化

オンプレミスでは決まった量でしか利用することができません(キャパシティ契約)。さらに、この量まで使わなかった場合も費用が発生します。図の破線が従来型のキャパシティ契約ですが、使っていないところ(赤斜線)は無駄なコストが発生しています。また、午後5時付近でデータサイエンスを2XL使っていますが、従来型のキャパシティ契約ではこのように飛びぬけたパフォーマンスをすぐに得ることはできませんので、機会損失に繋がります。

対してSnowflakeでは、従量課金すなわち実際の利用量に対する課金です(図)。例えば午前3時から7時まではバッチで、その後BIユーザーやデータサイエンスが入って利用量が増えた場合も、使った分だけの課金なので、コストを最適化できますし、機会損失も生じません。

Snowflakeが解決する課題3:メンテナンスが容易

オンプレミスでは、バージョンアップやパソコン内の不要な情報をクリーンアップするチューニング、メンテナンス等々に対して人手がかかります。表の左側がオンプレミスですが、すべての項目でお客様が実施しなければなりません。

従来型のデータウェアハウス(表の中央)では、データセンターやソフトウェア、ハードウェアのメンテナンスなどはベンダー側となりますが、依然多くの項目はお客様で対応が必要です。

それに対しSnowflake(表の右側)は、全てをベンダー側が行います。DB管理、チューニング、索引データのインデクスやデータパーツチューニングの設定、管理、データを説明するためのメタデータや統計情報の取得、データベース管理システムに対する命令文であるクエリの最適化、障害や災害発生時の復旧のバックアップ、暗号化や監視サービスも、すべてSnowflakeが提供します。

つまり、Snowflakeはメンテナンス業務のすべてを代行するフルマネージドサービスです。お客様がすることは、自分で作ったアプリケーションや自分で作ったデータの管理だけですので、非常にメンテナンスが容易です。

Snowflakeが解決する課題4:安全で簡単なデータ共有

オンプレミス、および従来型のデータウェアハウスでは、様々な仕組みを作らなければならないので時間やコストがかかり、データをコピーしたり、リアルタイムのデータ連携は困難です。

対してSnowflakeでは、安全かつリアルタイムのデータ共有が可能です。そのため、データのコピーや移動の必要がなく、プライバシーなどのセキュリティ面でも安心です。Snowflakeでは、共有データを活用し価値を最大化する、データコラボレーションが可能です。

ここでSnowflakeが提供する3種類のデータ共有を紹介します。まずは「ダイレクトシェア」です。Snowflakeを持っている1対1のお客様同志は、数ステップの設定だけですぐにデータを共有できます。次に、それを1対複数の関係にしたのが「データエクスチェンジ」です。最後に「マーケットプレイス」は、Snowflakeの環境を持たないお客様も利用できる機能です。Snowflakeのマーケットプレイスにはサードパーティデータがあり、無償や有償ですぐに利用できるためコストがかかりません。こちらに自社のデータを上げることで、データの収益化も可能です。

ここでサードパーティデータとは何かと、その重要性を解説します。こちらの図の通り、自社内のデータをファーストパーティデータ、関連会社や取引先データをセカンドパーティデータ、第三者のデータやオープンデータのことを、サードパーティデータと呼びます。サードパーティデータは、例えば国や自治体が公表しているオープンデータ、データ収集を専門とする企業から入手したデータなどがあります。サードパーティのデータを連携することで分析を高度化できるため、非常に重要となります。

こちらが実際のSnowflakeのマーケットプレイスの画面です。ETL(抽出・変換・書き出し処理)は必要なく、データテーブルという形ですぐにデータを見ることができます。

Snowflakeの進化・新機能Snowpark

Snowflakeは、2014年にはクラウドネイティブ専用のデータウェアハウスでしたが、2019年には、様々なワークロードに対応できるプラットフォームである、クラウドデータプラットフォームに進化しました。さらに2020年には、様々な組織間や企業間でデータコラボレーションできるプラットフォームとして、データクラウドと呼ばれるサービスに進化しています。

さらに、2023年に新機能Snowparkがリリースされました。開発者フレームワークという、データサイエンティストやデータエンジニアが使うSCALAやPYTHONなどの言語とネイティブに連携できる機能を持ち、非常に強力なエンジンとして、進化しています。このように、常に進化を続けるのがSnowflakeの特長です。

ジール提供サービスのご紹介

オープンデータ活用サービス:CO-ODE

ここで、私たちジールが提供するオープンデータ活用サービス「CO-ODE(コ・オード)」を紹介します。国や自治体が公開するオープンデータを分析・加工しやすい形で提供するサービスです。企業のマーケティングにおいて、サードパーティデータとして利用しやすくなるため、スシロー様、リンナイ様、大林組様、小田急様などでご利用いただいています。このサービスは、マーケットプレイスに展開予定のため、ご興味があればご連絡ください。

株式会社ジールがSnowflake、Tableauと連携して提供できるサービス

私たちジールは、Snowflake社の日本法人が設立された2019年からパートナーとなり、多数の実績がございます。ETLのところからSnowflakeにデータをため込んで、Tableau等のBIで可視化していく領域について、一連のサービスに対応できます。詳しくは今後の第2回、第3回の記事をご覧ください。

まとめ

本記事は全3回のシリーズもの「SnowflakeとTableauによるExcelデータからの分析レポート作成のデモンストレーション」の第1回として、データウェアハウスであるSnowflakeについてわかりやすく解説しました。Snowflakeの何がすごいか、またSnowflakeを導入するメリットが、おわかりいただけたのではないでしょうか。

まずはSnowflake社の設立から現在までの歩みを述べ、次にオンプレミスの特徴とその課題について解説し、データウェアハウスとしてのSnowflakeが、いかに課題を解決し、現在も進化を続けているかを紹介しました。

第2回ではTableauについて解説し、第3回では実際に手持ちのExcelをSnowflakeとTableauとで優れた分析レポートにするデモンストレーションを紹介します。ぜひご覧ください。

第2回のレポート記事は以下よりご覧いただけます。

データ分析・データ活用・DX化に関する特典資料が無料でダウンロードできます


また、BI onlineでは現在、「業種別・製品別でよくわかる!データ分析・データ活用・DX化導入事例集」をプレゼントしております。

特典資料の内容は?

全30社以上の企業様の導入事例冊子をプレゼントいたします。


本特典冊子は、30社以上の事例概要を一気に読むことができる特別資料となっております。
ジールはこれまで30年以上・1000社を超えるお客様へ、データ分析・データ活用・DX化のご支援をさせていただいて参りました。
そのうち、導入事例への掲載をご了承いただきました30社以上のお客様への過去の導入事例につきましてまとめましたのが本特典資料です。

【資料サンプル】全30社以上の企業様の導入事例概要を一気にご覧いただけます。



業種別・製品別の過去事例をご紹介しておりますので、貴社の事業のデータ分析・データ活用・DX化のヒントになれば幸いです。 少しでも興味がある方は、以下よりお早めにダウンロードください。


特典資料を無料でダウンロードする

監修:岡本 真一(Okamoto Shinichi)

岡本 真一

株式会社ジール ビジネスディベロップメント部 マネージャー

Dr.Sum、OracleBI、CognosBI、LaKeelBIなどの開発、プリセールスを経験 。ジール入社後、SAP BO、SAC、MicroStrategy、Tableau、ThoughtSpot、YellowfinなどのプリセールスおよびジールのプリセールスBIチームのリーダーとしてBI製品選定サービス(Z-BISS)の立ち上げから推進まで牽引している。

専門分野:BI製品選定サービス(Z-BISS)の推進、ThoughtSpot、SAP BO、SAC、BusinessSPECTREなどのプリセールス#BIツール #Z-BISS #Tableau #ThoughtSpot #Yellowfin

新着記事