AWSで実現するデータ分析｜AWSが提供しているデータレイク・データウェアハウスツールの活用法

近年では、多くの企業がビジネスでデータ分析を活用しています。正しくデータ分析を行うためには、目的や規模に応じたデータ分析基盤の構築が欠かせません。今回の記事では、AWSでデータ分析基盤を構築することを想定し、AWSが提供する各種サービスおよびユースケースを紹介していきます。

データ分析基盤にはAWSがおすすめ
- 簡単に一気通貫のシステムを構築できる
- サービスが多彩で、ニーズに合ったシステムを構築できる
AWSが提供しているデータレイクツールとデータウェアハウスツール
- AWSデータレイクツール
- AWSデータウェアハウスツール
ユースケース
まとめ

データ分析基盤にはAWSがおすすめ

データ分析基盤を提供しているサービスは数多くありますが、データ分析基盤を構築する際にはAWSを利用することをおすすめします。なぜ、AWSでデータ分析基盤を構築するべきなのか、まずはそのメリットについてご紹介します。

簡単に一気通貫のシステムを構築できる

データ分析においてネックになりやすいのが、システム間のデータ移動です。複数のソリューションを連携させるシステムを構築する場合「連携がうまくいかない、余計にコストがかかる」といった問題が起こりえます。
AWSを利用した場合、サービス間のデータ移動もスムーズに行えます。そのため、各部署のシステムが連携されず業務効率の低下を招く、いわゆるデータのサイロ化問題^※も解消できます。また、データ収集から抽出・分析までをAWS上で、一気通貫で実施できるため、ユーザーが使いやすいシステムになるというメリットもあります。

※ データのサイロ化問題：企業のある部署・グループによって保有されるデータのうち、他の部署・グループからは容易にまたは全くアクセスできないデータのこと。

サービスが多彩で、ニーズに合ったシステムを構築できる

AWSは、データ分析基盤の構築・運用をサポートする、さまざまなサービスを提供しています。例えば、分析結果をわかりやすく可視化できる「Amazon QuickSight」や、標準SQLでS3内にあるデータを分析できる「Amazon Athena」、ビッグデータ処理の基盤に適した「Amazon EMR」など、さまざまなニーズに対応したサービスが展開されています。用途に応じてうまく使い分ければ、コストを抑えつつ効率的にデータ分析を行うことも可能です。

AWSが提供しているデータレイクツールとデータウェアハウスツール

では、データ分析に関して、AWSは具体的にどのようなサービスを提供しているのでしょうか。ここからは、AWSが提供するデータレイクツール、およびデータウェアハウスツールを紹介していきます。

AWSデータレイクツール

まず、AWSでデータレイクを構築する際に、役に立つツールを3つ紹介します。

Amazon S3

Amazon S3は、AWSが提供するオブジェクトストレージサービスです。業種や規模を問わず多くの企業で利用されており、ストレージサービスとしてウェブサイトやアプリケーションなどのデータバックアップ、および復元やアーカイブなど、ユーザーのさまざまなニーズに対応しています。高可用性・高耐久性を誇り、非構造化データもそのまま格納できることから、データレイク先としても利用可能です。

AWS Lake Formation

AWS Lake Formationは、簡単にデータレイクを構築できるツールです。通常データレイクを構築するには複雑な設定が必要で、時間がかかります。しかしAWS Lake Formationを利用すれば、データの置き場所とデータアクセス、セキュリティポリシーの設定をするだけでデータレイクの構築が可能です。そのため、最短数日でデータレイク環境を構築できます。

AWS Glue

AWS Glueは、データのETL（抽出・変換・書き出し）を行ってくれるフルマネージド型サービスです。データ統合時に必要なさまざまな作業を自動化できるほか、サーバーレスのためサーバー管理コストがかからないというメリットもあります。ETLジョブを並べ、ワークフローを組んでおけば自動化もできるため、新しいデータが入ったらすぐETL処理が実行されるような設定も実現可能です。

AWSデータウェアハウスツール

続いて、AWSでデータウェアハウスを構築する際に便利なサービスを紹介します。

AWS Redshift

AWS Redshiftは、AWSが提供するクラウドデータウェアハウスサービスです。「MPP(Massively Parallel Processing)」と呼ばれる超並列処理を採用しており、複数のノードで分散処理を行うことで、高速処理を実現しているのが特長です。そのおかげで、膨大なデータの分析や、複雑なクエリの実行もスムーズに行えます。

ユースケース

最後に、AWSを利用して実際にデータレイク・データウェアハウスを構築し、データ分析を行うことを想定した3つのユースケースを紹介します。

AWS上でデータレイクをスピーディーに構築したい場合

AWS上でスピーディーにデータレイクを構築したい場合は、さきほどご紹介したAWS Lake Formationを活用します。AWS Lake Formationで対象となるデータソースを指定後、データ加工・カタログ用のデータベースを作成し、ユーザーにアクセス権限を付与するだけでデータレイクに最低限必要な環境の構築が完了します。AWS Glueのジョブ設定やデータ分析に使用する他のAWSツールの設定を含めても、およそ数日でデータレイク環境を構築可能です。

なお、AWS Lake Formationを使用せずにAWS上で一からデータレイクを構築する場合、AWS IAM（Identity and Access Management）と呼ばれる、AWSの利用権限設定などを行う必要があります。IAMの権限設定の仕組みは複雑なため、専門的な知識が求められます。AWS Lake Formationを利用すれば、ツールの知識は必要になるものの、多くのケースでIAMによる複雑な権限設定から解放されるというメリットもあります。

新しいデータがS3に入ってきたら自動でETL処理を実行する仕組みを実現する場合

AWS Glueを使えば、S3に新しいデータが入ってきたことをトリガーにし、自動でETL処理を実行させる仕組みを実現できます。手順は簡単で、AWS GlueでETLジョブを作成した後、Lambda関数を使用します。「AWS S3上で新しく利用可能になったデータがあった場合、ETLジョブが実行される」というワークフローを構築するだけです。
また同時に、新たなデータセットをAWS Glueのデータカタログに自動で登録することも可能です。データカタログに登録しておけば、Amazon AthenaやAmazon EMRでの検索で利用できるようになります。

ちなみにAWSではAWS Glue Studioという、AWS Glueのジョブの作成やモニタリングを視覚的に行える「GUI（グラフィカルインターフェース）」のツールを提供しています。AWS Glue Studioを活用すれば、ほとんどコーディングなしでワークフローの構築・実行・監視を行うことができます。

突発的なトラフィックの急増に対応できる、サーバーレスのデータウェアハウスを構築する場合

サーバーレスのデータウェアハウスを構築する際は、Amazon Redshift Serverlessが役に立ちます。Amazon Redshift Serverlessを活用すれば、データウェアハウス（DWH）のインフラ管理は不要になります。トラフィック状況を監視し、必要に応じて自動でキャパシティーをスケーリングしてくれるため、余計なコストがかからない仕組みになっています。データ分析で起こりうる突発的なトラフィックの急増があっても、自動でスケールアップしてくれるので、コストを抑えつつも常に高いパフォーマンスで運用することが可能です。

なお、Amazon Redshiftにはクラスターと呼ばれる概念があり、Amazon Redshiftを用いてデータウェアハウスを構築する場合、利用規模に応じたインスタンスを選ぶ必要があります。Amazon Redshift Serverlessなら、クエリの実行時に自動でプロビジョニングを行い、必要に応じてスケールアップ・ダウンをしてくれるため、利用規模を気にせず気軽に利用できるというメリットもあります。

まとめ

このように、AWSが提供している各種サービスを組み合わせれば、自社のニーズに合った分析基盤システムを構築できます。しかしそれを実現し運用していくには、AWSに関する専門的な知識を持った人材が必要不可欠です。TOKAIコミュニケーションズでは、AWSを活用したデータ分析のサービスも提供しています。興味がある方はお気軽にご相談ください。