データウェアハウスの進化

TeradataのData Warehouseソリューション

データウェアハウス:
分析財団

データウェアハウスとは何ですか?

データウェアハウスは、統合された一貫性のある詳細なデータを経時的に追跡し、メタデータとスキーマを使用してそれらの間の関係を確立するデザインパターンまたはデータアーキテクチャです。

データウェアハウスの起源

データウェアハウスの概念は、1988年にBarry DevlinとPaul MurphyがIBM Systems Journalに画期的な論文を発表したときに始まりました。 彼らのビジョンは、1990年代初頭にBill InmonとRalph Kimballが提供したデータベース実装のより具体的な定義の必要性を引き起こしました。Gartnerは2005年に定義をさらに明確にしました。現在、データウェアハウスに関する議論には、データウェアハウスソリューションの実装方法と場所も含まれています。例えば、クラウドの中で、あるいはオンプレミスとクラウドの間でハイブリッドな形でなどです。

データウェアハウスは、テーブルのコレクションではなく、テラバイト単位で測定されたものでもありません。 これはデザインパターンであり、多くの特徴を備えたデータアーキテクチャです。

サブジェクト指向

組織が日常的に使用するビジネスエンティティとプロセスを反映します。 サブジェクトエリアの詳細レベルが重要です。詳細データが存在する場合、それはデータウェアハウスです。 要約または限られたデータのみが存在する場合、それはデータマートです。

統合、一貫性

データの形式と値はすべてのテーブルで標準化されており、ユーザーが理解できる完全で正確なデータを保証します。 また、整合性も必要です。たとえば、対応する顧客レコードがないと購入トランザクションを実行できません。

不揮発性履歴

ウェアハウスは、データの変更をキャプチャし、時間の経過に伴うデータの変更を追跡します。 すべてのデータは保持され、トランザクションの更新によって変更されることはありません。 従来型、ハイブリッド型、クラウド型のいずれであっても、データウェアハウスは事実上最も意味のあるデータの「企業メモリ」です。

データはどのようにしてデータウェアハウスに入りますか?

データソース

200または500の異なるアプリケーションがデータをウェアハウスに送信することは珍しくありません。ウェアハウスは、そのようなすべてのデータをサブジェクト領域に統合および統合します。 ウェアハウスは、エンタープライズリソースプランニング(ERP)、顧客関係管理(CRM)、サプライチェーン管理(SCM)などのアプリケーションから入力を受け取ります。

ウェブページでのマウスクリックからのクリックストリームデータは、機械車両などからのセンサーデータと同様に別のソースです。 JSON(JavaScript Object Notation)など、行と列に準拠していないがデータウェアハウスにキャプチャされている非構造化データもあります。

データ統合

データがデータウェアハウスデータベースに入る前に、データ統合ステップを通過します。これは、複数のソースからのデータを単一の結果に合理化する複雑なプロセスです。 元々、これは抽出、変換、および読み込み(ETL)と呼ばれていました。これは、データをソースから取得し、絞り込んでから、データウェアハウスのリレーショナルテーブルに読み込む必要があるためです。

データクレンジング

最新の統合プロセスには、破損または不正確なレコードの検出と修正を含むデータクレンジングが含まれます。 エラーは、入力の誤り、ハードウェアの破損、または単純な人為的エラーが原因で発生します。 データ統合タスクは、複数のアプリケーションからの最良で最も正確で最も完全なデータを、ウェアハウス内のクリーンで信頼性の高い「ゴールデンレコード」に結合します。

データの読み込み

データは、通常は1日中、継続的なプロセスでウェアハウスにロードされます。 データの読み込みは、ウェアハウスのビジネス目的、つまり質問への回答を見つけるための基盤につながります。 データサイエンティストは高度な数学を適用してパターンや異常を見つけ、ビジネスアナリストはレポートとダッシュボードを視覚化して使用します。

データの読み込みは、ビジネスユーザーにデータを配信するというビジネス目的、つまり洞察を得てビジネス上の課題に対する答えを見つけることにつながります。 データサイエンティストは、高度な数学を大量のデータに適用して、パターンや異常を見つけます。 多次元分析では、すべてのデータが高度に要約され、地域、都市、営業担当者、販売された製品などによるロールアップの迅速なレビューが可能になります。 エグゼクティブとビジネスアナリスト(または「市民データサイエンティスト」)は、視覚化されたレポートとダッシュボードを使用します。これらはすべて、管理対象データのソースであるデータウェアハウスから取得されます。

クラウドデータウェアハウスとTeradata Vantage

Teradataと業界全体の両方が、クラウドの展開とスケーラビリティの利点を組み込むように進化しました。 同社の主力製品であるTeradata Vantageは、Teradata Databaseの強力な基盤の上に構築されており、2011年にAster Dataで取得した高度な分析機能を組み込んでいます。

Vantageは、Amazon Web Services(AWS)、Microsoft Azure、Google Cloud、Teradataインフラストラクチャ(Teradata CloudまたはCustomer Cloud)、およびVMware仮想化ソフトウェアを実行する汎用ハードウェアで利用できます。

AWSデータウェアハウスソリューション上のVantage
アマゾンウェブサービス(AWS) Teradata VantageでAWSインフラストラクチャを使用する
Azureデータウェアハウスソリューション上のVantage
Microsoft Azure AzureリソースをTeradata Vantageと組み合わせる
Google Cloud Data Warehouse Solutions上のVantage
Google Cloud Teradata VantageでGoogle Cloudを活用する
クラウド分析を今すぐ始めましょう

分析をクラウドに取り入れます

ホワイトペーパーのダウンロード