The Evolution of the Cloud Data Warehouse

Teradata's Data Warehouse

Data Warehousing:
The Analytic Foundation

データウェアハウスの起源

データウェアハウスのコンセプトは、1988年にBarry Devlin(バリー・デブリン)氏とPaul Murphy(ポール・マーフィー)氏がIBM Systems Journalに画期的な論文を発表したことから始まりました。この論文がきっかけとなり、1990年代初頭にBill Inmon(ビル・インモン)氏と Ralph Kimball(ラルフ・キンボール)氏がデータベースの実装方法をより具体的に定義し、2005年にはGartner社がさらに定義を明確化しました。現在では、クラウドオンプレミスとクラウドのハイブリッドなど、どこにどのように実装するかということも議論の対象となっています。

データウェアハウスは、テーブルの集合体でもなければ、テラバイト単位で計測されるものではありません。データウェアハウスはデザインパターンであり、多くの特徴を持つデータアーキテクチャです:

サブジェクト指向

企業が日常的に扱っているビジネスエンティティとプロセスを反映します。主題となるエリアをどれだけ詳しく説明できるかが重要です。詳細なデータが存在する場合、それはデータウェアハウスです。要約されたデータや限定されたデータの場合、それはデータマートです。

統合され一貫性がある

データのフォーマットや値がすべてのテーブルで標準化されており、ユーザーが理解できる完全で正確なデータが確保されています。また、データには整合性がなければなりません。たとえば、倉庫では、対応する顧客記録のない購買取引は実行できません。

時間変動性と不揮発性

ウェアハウスはデータの変更を捉え、時間の経過に伴うデータの変化を追跡します。すべてのデータは保持され、取引の更新では変更されません。従来型、ハイブリッド型、クラウド型のいずれであっても、データウェアハウスは、最も意味のあるデータの 「企業の記録」として有効です。

データウェアハウスにデータを入れる方法

Data Sources

データウェアハウスには、200から500の異なるアプリケーションからデータが送られてくることも珍しくありません。データウェアハウスでは、これらのデータをすべて対象分野に集約して統合します。ウェアハウスには、エンタープライズ・リソース・プランニング (ERP)、カスタマー・リレーションシップ・マネジメント (CRM)、サプライチェーン・マネジメント (SCM) などのアプリケーションからデータが送られてきます。

Webページ上でマウスがクリックされたときに得られるクリックストリームデータはや、機械車両のセンサーデータなども入力されます。また、JSON (JavaScript Object Notation) のように、行や列に適合しない非構造化データも存在しますが、これらもデータウェアハウスに取り込まれます。

データウェアハウスとデータ統合のステップ

データは、データウェアハウスのデータベースに入る前に、データ統合のステップを通過します。これは、複数のソースからのデータを合理化して1 つの結果にする複雑なプロセスです。元々は、データをソースから取り出して精査し、データウェアハウスのリレーショナルテーブルに読み込む必要があったため、これをETL(抽出、変換、読み込み)と読んでいました。

データクレンジング

最新の統合プロセスには、データクレンジングが含まれます。これは、破損した記録や不正確な記録を検出して修正することです。不良データが記録に入ったり、ハードウェアの破損が発生したり、単純な人為的ミスが原因である場合があります。データ統合タスクでは、複数のアプリケーションから最も正確で最も完全なデータを、クリーンで信頼性の高い「ゴールデンレコード」に統合して、ウェアハウスに保存します。

データウェアハウスとデータの読み込み

データウェアハウスにデータを読み込む作業が継続的に行われ、ほとんどの場合1日中行われます。データの読み込みは、リレーショナルデータベースの計算時間を大量に消費します。その主な理由は、ロードジョブが失敗した場合に必要となるすべてリカバリ処理です。

データの読み込みは、ビジネスユーザーにデータを提供し、ビジネス上の問題に対する洞察や答えを見つけるというビジネスを運営していく上での目的につながっていきます。データサイエンティストは、大量のデータに高度な数学を適応し、パターンや異常を発見します。多次元分析では、すべてのデータが高度に要約され、地域、都市、営業担当者、販売した製品などのロールアップを素早く確認することができます。経営幹部やビジネスアナリスト (または 「市民データ サイエンティスト」 ) は、レポートやダッシュボードを視覚化して使用しますが、管理されたデータのソースであるデータウェアハウスから引き出されます

The Cloud Data Warehouse and Teradata Vantage

Both Teradata and the industry at large evolved to incorporate the benefits of cloud deployment and scalability. Teradata Vantage, the company’s flagship offering, builds on the strong foundation of Teradata Database and incorporates advanced analytic capabilities acquired with Aster Data in 2011.

Vantage is available for Amazon Web Services (AWS), Microsoft Azure, Google Cloud, Teradata infrastructure (Teradata Cloud or Customer Cloud), and commodity hardware running VMware virtualization software.

AWS and Vantage Data Warehouse Solutions
Amazon Web Services Use AWS infrastructure with Teradata Vantage
Azure and Vantage Data Warehouse Solutions
Microsoft Azure Combine Azure resources with Teradata Vantage
Google Cloud and Vantage Data Warehouse Solutions
Google Cloud Leverage Google Cloud with Teradata Vantage
Get started now with cloud analytics

Take your analytics into the cloud

Download White Paper