よくわかるAWS・クラウド

ビッグデータ活用
  • よくわかるクラウド
  • ビッグデータ活用
  • 支払い方法
  • 請求
  • AWS

データウェアハウスを解説!AmazonRedshiftとBigQueryの料金、特徴を比較

ビッグデータ分析をする上で基盤となるシステムのインフラをクラウド化することは必要不可欠となり、ここ数年でデータ分析利用のためのサービスは多くなりました。インフラでクラウドを利用するにも選択肢はいくつもあり、選定の担当者は導入前には迷うところだと思います。

今回は、様々なシステムからデータを収集、整理、保管する際に利用するデータタウェアハウスについての概要をご紹介します。また、後半ではデータ分析に利用されることが多いプロダクトとしてAWSが提供しているAmazon RedshiftとGoogleが提供しているBigQueryについて、料金と用途の点から比較していきます。本記事は、技術者ではないけれど、データ分析について意思決定に関わる方や興味を持つ方向けの記事となっています。

データウェアハウス(DWH)とは


データウェアハウス(DWH)は直訳すると「データの倉庫」となります。データウェアハウスとは、企業におけるさまざまなシステムから必要なデータを収集し、保管したデータベースです。通常のデータベースと異なり、はじめからデータ分析を目的としてデータが蓄積されるために、基本的に過去のデータを削除しません。

一般的にデータベースでは一定以上古いデータはバックアップをとって削除しますが、データウェアハウスでは過去から現在への変化も分析するため、大量のデータを保持しておく必要があります。データウェアハウスでは基本的にデータの削除を行わず、分析時に本番系のデータベースにアクセスしないため、本番データの不用意な編集リスクを避けられ、業務パフォーマンスに影響しないというメリットがあります。
過去にさかのぼって大量のデータを分析したい企業にはデータウェアハウスシステムの導入が効果的である可能性が高いと考えられます。

データウェアハウスを使うメリット

データ収集を効率化

企業にはそれぞれの部門で基幹システムや業務システムにデータを蓄積していますが、かつてそれらのシステムを横断してのデータ活用は難しい状態でした。しかし、それでは企業としてデータに基づいた総合的な経営分析はできません。

データウェアハウスを導入することで、企業内の複数のシステムから、必要なデータを収集し、時系列に沿って整理された状態でデータを蓄積することも可能になります。これにより、複数のシステムとの連携が容易に行えるようになり、組織全体のデータ収集の効率化にも繋がります。また、データ収集に時間をさく必要がなくなり分析をスムーズに行うことができます。

時系列順にすべてのデータが残る

データウェアハウスでは古いデータを保持した状態で新しいデータが追加されるため、長期的なデータを整理された状態で収集できます。データが上書きされるシステムの場合、上書きされる前のデータを参照することは難しくなってしまいますが、元データを残しておくことで、履歴を参照し、分析を行うことができます。

意思決定に活用できる

分析されたデータから意思決定をすることがデータウェアハウスを使う本来の目的になります。

データウェアハウスにより、複数システムのデータが収集されるので、より幅広い用途での分析が行えるようになります。過去から現在にわたる企業活動のデータに基づいた企業の意思決定を迅速に行えることは、データウェアハウスで収集したデータを分析することで得られる最大のメリットです。
これにより企業の意思決定者は勘と経験だけに頼ったり、不完全、低品質なデータを使用する必要がなくなります。

データウェアハウスとデータベース、データレイク、データマート、BIとの違い

データウェアハウスと似たデータを格納するシステムは、データベース、データーレイク、データマートなどがあります。これらとの違いをデータウェアハウスの特徴と合わせて確認していきましょう。

データベースとの違い

役割、目的の違い

データウェアハウスとデータベースは、求められる役割が異なります。

データウェアハウスはデータの分析に特化しています。データを分析、蓄積することにより、データに基づいた適切な意思決定を行うことを目的としています。

データベースは業務処理を実行することを目的としており、データ参照、更新や削除、複雑な検索を行うなど、データを使いやすい形で整理して保管します。そのため、「キー」などデータに番号をつける仕組み、また「インデックス」という目次をつけ効率的に処理する仕組みが備わっています。電話帳や、住所録といったものもデーターベースの一種です。

処理速度の違い

一般的なリレーショナルデータベースは行指向でデータを処理します。例えば、異なるシステム間で膨大な量のデータの処理を行おうとすると、非常に時間がかかる場合があり、本来のデータベースで行うべき業務に影響が出ます。

一方、データウェアハウスは、列指向でデータを処理するなど、膨大なデータを高速に処理するためのさまざまな仕組みが備わっています。

ディスク容量

データウェアハウスはデータを削除せず、明細として保管するため、データベースより容量のあるストレージを備えています。

一方、比較的容量の少ないデータベースでは、明細データをすべて保管することはできない場合もあるため、一定のルールによってサマリデータとして保管することが一般的です。この場合、長期的かつ詳細な分析が困難となります。

データレイクとの違い

保存できるデータ

データレイクは、複数のデータソース元から、構造化データ・非構造化データを問わずあらゆる種類のデータを加工をせずに元形式のままで保存しておくことができるデータ格納庫です。非構造化データーとはテキスト、画像、動画、音声、SNS投稿内容などといった規則性を持たないデータです。
また、エクセルやCSVファイルのように列と行があり、それぞれ関係性を持っているようなデータ(構造化データ)も保存できます。

それに対してデータウェアハウスは、基本的に構造化データのみが保存できるデータ格納庫です。

システム構築にかかる時間

データウェアハウスは、あらかじめどのようなデータを格納し、どのような情報が必要かを決めて設計します。そのため、構築に時間がかかります。

データレイクは、収集したデータを加工をせずにそのままの形式で保存できて構築にも時間はかからないのが利点ですが、データは整理された状態ではありません。

データウェアハウス、データレイクどちらを使うべきか?

データレイクにはさまざまな形式のデータを蓄積できるため、必要になった時点で取り出してきて、自由に加工して扱うことができます。しかし、非構造化データを活用する際には、データから必要な情報を抽出する為にスキーマを定義する技術が必要です。対して、データウェアハウスは最初の段階でスキーマ・構造を設計するため、初動時にデータエンジニアなどの専門家を入れる必要はありますが、その後はユーザーが決められた定義にそって分析を行います。

どちらを使うべきかは、医療、教育、輸送などの業種や企業内のプロジェクト内容など扱うデータによって異なります。また、構造化データのみ扱うのか、非構造化データを組み合わせる必要があるのかによってもデータレイク、データウェアハウスのどちらかを使うべきかは変わります。もしくは両方を使う必要が出てくるケースもあり、見極めていく必要があります。

データマートとの違い

データマート(Data Mart)とは、直訳すると「データの市場」です。データウェアハウスに保管されたデータの中から、目的に沿った必要なデータだけを抜き出したデータベースのことを指します。必要なデータのみを抜き出し、さらに使いやすいようにカスタマイズして保存します。結果として細かい分析ができる点がメリットになります。

BIとの違い

データウェアハウスはデータを集めて分析しやすいように変換して蓄積するデータの保管庫です。それに対しBI(ビジネス・インテリジェンス)とは、データウェアハウスやデータマートに蓄積されたデータを分析するツールです。
データを可視化させ、より視覚的にグラフなどで分析し、経営判断の材料として活用できます。

なお、データウェアハウスで複数のシステムからデータを収集する際、抽出・変換・加工を行う役割に特化したツールをETLと呼びます。ETLはExtract(抽出)Transform(変換)Load(格納)の略で、複数のシステムからETLでデータを抽出、変換、加工を行いデータウェアハウスにデータを保存し、そのデータをBIツールで分析します。データウェアハウス、ETL、BIの3つのツールが連携する事で、企業内のデータは抽出、分析して有効活用が行えます。

データウェアハウスの活用例

ECサイトのデータ管理・分析

ECサイトでは顧客の購入履歴、商品閲覧履歴、お気に入りの登録状況、出店者の出品状況など多岐にわたるデータを管理します。データウェアハウスでこうしたデータを蓄積、集約し、BIツールなどで可視化、分析することで、例えば顧客のニーズに沿った商品の提案を行い、売り上げの向上にもつなげることができます。

航空会社での活用

航空会社では、国内、国際線の飛行機の運行状況、座席、顧客データの管理などのデータが数多くあります。データウェアハウスでは、それらを一元管理し、活用することで各種業務を高度化、高速化できます。

例えば、過去の顧客ごとの予約データやフライトごとの予約データを分析して、キャンセルによる空席をお客に合わせてディスカウントで提案し、空席を減らす取り組みなどが行えます。

Amazon Redshiftとは

Amazon Redshiftは、AWSが提供する高速で、スケーラブルなデータウェアハウスです。AWSはAmazon Redshift だけでなく、Amazon Athenaなど簡単に連携できるデータ分析サービスが充実しているため、S3でデータを蓄積していてデータ分析を始めたい、といった場合には非常に親和性高く構成をすることが出来ます。

Amazon Redshift

BigQueryとは

BigQuery は、Googleが提供するサーバーレスなエンタープライズ向けデータウェアハウスです。Amazon Redshift も高速処理が可能ですが、2018年10月時点でBigQueryはそれを上回るパフォーマンスであるという検証結果もあります。

BigQuery

BigQuery資料バナー

データ分析入門 これから始めるBigQuery基礎知識
・BigQueryとは
・BigQueryの特長
・BigQueryの利用シーン
・BigQueryの導入事例
・BigQueryとAmazon Redshiftの比較

Amazon RedshiftとBigQueryの課金方法の違い

Amazon RedshiftとBigQueryはどちらも従量課金ですが、料金体系が異なります。
BigQueryはサーバレスでクエリ課金、Amazon Redshiftはクラスターを常時立ち上げておく、時間課金です。※サーバレスなAmazon Redshift Spectrumというサービスもあります

Amazon Redshiftは、AWSで一般的に利用される仮想サーバーであるEC2などの料金体系と同じで、利用時間ごとに料金がかかるオンデマンドと、1年か3年の契約をし、利用量や時間に左右されない、リザーブドインスタンスがあります。利用するクラスターのタイプとノード数に応じた1時間あたりの料金を、利用時間分支払う体系となっており、米国東部(オハイオ)リージョンでは1時間当たり$0.25から利用が可能です。

一方、BigQueryはクエリ発行で利用した容量に対して課金する料金体系で、米国(マルチリージョン)では1TBあたり$5となっており、定額料金での利用も可能となっています。

オススメの使い方

Amazon Redshiftは時間課金で、BigQueryはクエリ課金であることから、

  • 定常的に分析する必要があるのであればAmazon Redshift
  • 定常的に分析せず、必要時だけ分析するのであれば、BigQuery

というのが基本的な考え方です。

また、Amazon Redshiftは米国東部(オハイオ)リージョンで高密度コンピューティング DC2が1時間あたり$0.25からスモールスタートが出来るため、検証の段階での利用は非常に向いています。その後、利用状況に応じていつでも数千コア、数テラバイトのRAM、数テラバイトのストレージを持つクラスターにすることが出来るため、その時々で段階的な料金設定をすることが出来ます。

利用状況に合わせて最適なサービスを

Amazon RedshiftとBigQueryでは、それぞれ異なるメリットを持ち合わせているので、社内での利用状況に合わせて選ぶのが良いでしょう。例えば、社内でのインフラは全てAWSもしくはGoogleで構成しているので親和性を保ちたい、あるいは基本AWSで構成したまま、一部BigQueryに移行など、重視する点によっても選択肢は変わってきます。

データウェアハウスとは、社内の複数のシステムに散在するデータを集約し、横断的なデータの活用を実現するツールで、さまざまな分野で活用されています。
専用ハードウェア製品の場合、データサイズに合わせて小規模な投資から利用可能です。
社内に蓄積するデータを最大限活用するためにのデータウェアハウス検討の参考となれば幸いです。

AWS運用や監視にお困りな方必見!

マンガでわかるAWS運用代行サービス

<マンガでわかる>
AWS運用代行サービスをわかりやすく解説!

こんなことを感じていませんか?
・AWS運用のために社内のリソースが足りずに困っている
・障害発生時の対応に不安がある
・運用だけでなく構成のアドバイスもあると嬉しい

おすすめのサービス

おすすめの記事

おすすめのカテゴリ