「社内に蓄積された膨大なデータを分析し、経営判断に活かしたい」 そう考えたとき、最大の課題となるのがデータ処理の「速度」と分析基盤の「構築・運用コスト」です。これらを解決する有力なソリューションが、AWSが提供するデータウェアハウス「Amazon Redshift」です。
本記事では、Amazon Redshiftがなぜ高速なデータ分析を実現できるのか、その仕組みや導入メリット、類似サービス(Amazon RDS、Amazon Athenaなど)との違い、そして具体的な活用事例をわかりやすく解説します。
【この記事で分かること】
- Amazon Redshiftの特徴と「高速処理」の仕組み(列指向・MPP)
- AWSの他データベースサービス(Amazon RDS, Amazon Aurora, Amazon Athena)との使い分け
- 大手企業(MUFG、NTTドコモ)における大規模導入事例
- 従量課金やServerlessを含む料金体系の概要
|
資料ダウンロード
AWSの基本から、コスト削減、セキュリティ対策、そして具体的な導入事例まで、AWS活用に必要な情報がこの一冊にまとまっています。
|
目次
Amazon Redshiftとは
Amazon Redshiftは、AWSが提供するフルマネージド型の「クラウドデータウェアハウス(DWH)」サービスです。 ペタバイト規模(テラバイトの1000倍)の構造化・半構造化データに対しても、SQLを使用して高速に分析クエリを実行できるのが最大の特徴です。BIツール(可視化ツール)のバックエンドとして、あるいは機械学習のためのデータ基盤として、多くの企業で採用されています。
なぜ「データウェアハウス」が必要なのか
一般的なデータベース(RDB)は、日々の取引記録(トランザクション)を保存するのには向いていますが、数億行にわたるデータを集計・分析する処理は苦手で、時間がかかってしまいます。Amazon Redshiftのようなデータウェアハウスは、最初から「分析」に特化して設計されているため、膨大なデータでも数秒〜数分で結果を返すことができます。
なお、データ分析基盤については、以下の2記事で詳しく説明しています。興味のある方はあわせてご参照ください。
AWSで実現するデータ分析|AWSが提供しているデータレイク・データウェアハウスツールの活用法
Amazon Redshiftが「高速」な理由とメリット
Amazon Redshiftを導入する最大のメリットは、圧倒的な処理速度と拡張性です。これを支えているのが、以下の主要な技術です。
1. 列指向ストレージ(Columnar Storage)
Amazon Redshiftは「列(カラム)指向」でデータを保存しています。 一般的なデータベース(行指向)は、1行分のデータをまとめて読み込むため、不要なデータまで読み込んでしまい分析が遅くなります。対して列指向は、「売上金額」や「日付」といった必要な列(項目)だけを読み込むため、分析時のディスクI/Oを劇的に削減し、高速化を実現します。
また、列ごとに似たデータが並ぶためデータ圧縮が効きやすく、ストレージ容量の節約(コスト削減)にもつながります。
2. 超並列処理(MPP:Massively Parallel Processing)
MPPとは、複数のコンピューター(ノード)に処理を分散させて並列実行する仕組みです。 Amazon Redshiftでは、リーダーノードがクエリを受け取り、実際の計算処理を複数のコンピュートノードに均等に割り振ります。データ量が増えても、ノードを追加することで処理速度を維持・向上させることが可能です。
3. 他のAWSサービスとのシームレスな連携
データレイクである Amazon S3 やETLツール、機械学習サービスとスムーズに連携できる点も大きなメリットです。
- Amazon S3 (Redshift Spectrum): S3にあるデータをロードせず、直接クエリを実行して分析可能。
- AWS Glue: データの抽出・変換・ロード(ETL)を自動化。
- Amazon QuickSight: 分析結果をグラフやダッシュボードで可視化。
他のAWSデータベースサービスとの違い
AWSではAmazon Redshift以外にも、複数のデータベースサービスを提供しています。類似サービスとの違いは以下の通りです。
| サービス名 | 目的 | 特徴 |
|---|---|---|
| Amazon Redshift | 高度なデータ分析、膨大なデータの処理 | 列指向のストレージで処理が高速 |
| Amazon RDS | オンライントランザクション処理、他データベースの管理 | 行指向ストレージでデータの一貫性を保持するのが得意 |
| Amazon Aurora | オンライントランザクション処理 | Amazon RDSのオプションの一つ 読み込み負荷を分散する仕組みを有する |
| Amazon Athena | 膨大なデータの処理 | 自動でリソース割り当てを行う |
Amazon RDS
Amazon RDSはマネージド型リレーショナルデータベースで、AWS上でリレーショナルデータベースを管理するサービスを集めたものです。
Amazon RDSではデータベースの構築やバックアップ、スケールなどの管理作業が比較的簡易に行えます。
データ分析を主とするAmazon Redshiftとは用途が異なり、Amazon RDSはトランザクション処理やその他データベースの管理を行うサービスです。またAmazon Redshiftが列指向であることに対して、Amazon RDSは行指向であるという違いもあります。(列指向については後述します)
RDSについて詳しくは下記記事をご参照ください。
AWS RDSとは? 導入メリット・料金体系・インスタンスタイプなどを紹介
Amazon Aurora
Amazon AuroraはAmazon RDSのサービスのひとつで、トランザクション処理に用いられます。MySQLやPostgreSQLと完全な互換性があり、可用性やセキュリティーの高さが特長です。
Amazon Athena
Amazon Athenaは、サーバーレスで従量課金を採用しているデータ分析サービスです。
Amazon S3と接続ができ、ペタバイト規模のデータ分析を可能としています。
Amazon Redshiftとはデータ分析という用途は同じで、異なるのはリソースの割り当て方です。Amazon Athenaは自動でリソースの割り当てを行います。作業者の手間がかからない反面、負荷が高い場合に処理が遅くなり、コストも比較的高くなる可能性があります。Amazon Redshiftは手動でもリソースを割り当てることが可能で、負荷が高くなったときなどに対処しやすいのが特長です。
Amazon Redshiftの活用事例
ここからは、Amazon Redshiftを活用している企業の事例を2つご紹介します。
三菱UFJフィナンシャル・グループ(MUFG)
三菱UFJフィナンシャル・グループ(MUFG)は、メガバンクの三菱UFJ銀行を傘下に持ち、国内外のさまざまなビジネス分野で金融サービスを行う企業グループです。経営戦略にDXを掲げており、その第一段階として、AWSを活用して三菱UFJ銀行の各種システムのデータを一元管理する取り組みを進めていました。
三菱UFJ銀行は、従来システムごとにデータを個別で保存していたためにデータ収集が難しく、データを効果的に活用できていないという問題を抱えていました。経営管理システムやリスク管理システムなど、20ほどの情報システムがオンプレミスで稼働しており、蓄積されていたデータも、数年分しかないという状態だったそうです。そこで、データ分析プラットフォームを構築することを決め、データレイクはAmazon S3、データウェアハウスにAmazon Redshiftを採用しました。
その結果、約4,000万件の顧客口座情報や、過去10年分の取引明細などの構造化データと、口座振替依頼書の画像データなど非構造化データの収集に成功。データ量は2022年12月時点でデータレイクが約500TB、データウェアハウスが約80TBにまで達し、Amazon Redshift導入前と比べて2倍以上のペースでデータが増加しています。Webベースのポータルサイトを構築し、データレイク上のデータに対してメタ情報を付与することで、簡単にデータの検索や抽出ができるようになっており、増加したデータも有効活用できているとのことです。
また、データを可視化するBIツールを本部と営業店に展開し、誰でもデータの利活用ができるようにしています。営業店では全店、全顧客のデータを横断的に検索できるようになり、大きな負荷となっていたデータの加工業務や集計作業が、大幅に軽減されました。
NTTドコモ
携帯キャリア通信大手のNTTドコモでは、2014年から全社共通のデータ分析基盤としてAmazon Redshiftを採用しています。統合データ分析基盤ができる以前は、企業内で設備やサービスごとにデータウェアハウスが分かれていました。そのため、総合的な分析を行う際には部署間での調整が必要で、時間を要していたそうです。また、顧客情報など漏えいが許されない情報を扱ううえで、セキュリティー基準を満たす必要がありました。そこで同社はスケーラビリティが高く、Amazon VPCやAWS IAMなどのセキュリティーサービスを活用できる、Amazon Redshiftを選定しました。
稼働後の2021年には、Amazon RedshiftがDS2ノード※からRA3ノードにアップグレードされ、パフォーマンスが改善。ETL処理における処理速度は、従来の1.2~1.4倍にまで上昇したことで、利用者にSQLデータを提供するまでにかかる時間を約3時間短縮させることに成功しました。2022年4月時点で総データ量は6PB、データ加工処理の対象となる1日のデータ量は50TBにのぼり、蓄積された膨大なデータがデータ分析に活用されています。
※DS2ノードは、現在では廃止されています。
Amazon Redshiftの料金体系
Amazon Redshiftの料金体系は、大きく分けて2つのモデルがあります。 (※2025年11月時点の情報です。最新料金はAWS公式サイトをご確認ください)
1. Amazon Redshift Serverless(推奨)
データウェアハウスの管理を自動化するモデルです。クラスターの構築や調整が不要で、システムが自動的にリソースをスケーリングします。
- 課金体系: アプリケーションが稼働していた時間(RPU時間)に対する従量課金。
- メリット: 使用していない時間は課金が停止するため、利用頻度に波がある場合にコスト効率が良い。
2. プロビジョニング型(従来のノード選択型)
使用するノードタイプ(RA3やDC2など)と台数を指定して起動するモデルです。
- オンデマンド料金: 1時間あたりの定額従量課金。
- リザーブドインスタンス: 1年または3年の長期利用契約を結ぶことで、大幅な割引(最大75%程度)が適用されます。24時間稼働し続ける本番環境ではこちらがお得になるケースが多いです。
まとめ
企業に蓄積されたデータは活用できれば価値あるものとなりますが、データの保管にも一定のコストがかかります。そのため、かかるコスト以上の成果をデータ分析によって生み出す必要があります。
Amazon Redshiftを活用すれば、他のサービスと組み合わせて高速なデータ分析を行えるデータ分析基盤の構築が可能です。
この機会に、Amazon Redshiftの導入を検討してみてはいかがでしょうか。データウェアハウスの導入や、その他データの利活用についてお悩みの方は、ぜひ当社までご相談 ください。豊富な導入実績を持つ当社が、お客様のニーズに合った最適なプランを提案いたします。
関連サービス
おすすめ記事
-
2024.05.14
Amazon QuickSight活用事例3選|さまざまな業界で広がるAmazon QuickSightを活用したデータ分析
-
2023.09.28
Amazon QuickSight入門|活用事例やダッシュボード作成時のポイントを紹介!
-
2023.08.21
Snowflakeでデータ分析がどう変わる? Snowflakeを利用するメリットやAmazon Redshiftとの違いを解説!
-
2022.12.07
AWSで実現するデータ分析|AWSが提供しているデータレイク・データウェアハウスツールの活用法
-
2022.12.06
AWSで実現するデータ分析|そもそもデータ分析基盤とは?
