データレイクとは何ですか?

データ レイクとデータ ウェアハウス はどちらも設計パターンですが、これらは反対です。データ ウェアハウスは、高い同時実行性を備えた品質、一貫性、再利用、およびパフォーマンスを実現するために、データの構造とパッケージ化を実現します。データ レイクは、元の生データの忠実性と長期保存に焦点を当てた設計パターンで倉庫を補完し、新しい形式の分析的な俊敏性を提供しながら、低コストで保管します。

データ レイクの値

データ レイクは、データ量の爆発から経済的に活用し、価値を引き出す必要性を満たしています。新しいソース(Web、モバイル、接続デバイス)からのこの「暗い」データは、過去に廃棄されることが多かったが、貴重な洞察が含まれている。大量のデータに加えて、新しい形式の 分析が、データから価値を管理し、導き出す新しい方法を要求します。

データ レイクは、あらゆる形式の生データを大規模にキャプチャ、調整、探索する、長期的なデータ コンテナーのコレクションです。データ マート、データウェアハウス、および推奨エンジンなど、複数のダウンストリーム施設が描画できる低コストのテクノロジによって実現されます。

ビッグデータの傾向に先立ち、データ統合はデータベースなどの何らかの永続化で情報を正規化し、その情報を作成しました。これだけでは、企業内のすべてのデータを管理するだけでは不十分であり、それを構造化しようとすると、その価値が損なわれます。そのため、ダークデータがデータベースにキャプチャされることはめったにありませんが、データサイエンティストは暗いデータを掘り下げて繰り返す価値のあるいくつかの事実を見つけることがよくあります。

データ レイクと新しい形式の分析

Spark などのテクノロジや他の技術革新により、手続き型プログラミング言語の並列化が可能になり、まったく新しい種類の分析が可能になりました。これらの新しい形式の分析は、グラフ、テキスト、機械学習アルゴリズムなど、答えを得て次のデータと比較し、最終的な出力に達するまで、その答えを比較して、規模で効率的に処理できます。

データ レイクと企業のメモリ保持

長期間使用されていないデータをアーカイブすると、データ ウェアハウスのストレージ領域を節約できます。データ レイク設計パターンが登場するまでは、パフォーマンスの高いデータ ウェアハウスやオフライン テープ バックアップ以外は、時折アクセスするために、より古いデータを配置する場所はありませんでした。仮想クエリ ツールを使用すると、ユーザーは 1 つのクエリを使用して、データ ウェアハウス内の温かいデータとホット データと一緒にコールド データに簡単にアクセスできます。

データ レイクとデータ統合

業界は、データ変換コストを最大限に活用する方法について完全に円を描いています。データ レイクは、従来の ETL (抽出、変換、負荷) サーバーよりも低コストでスケーラビリティが向上するため、企業はデータ統合アーキテクチャを再考する必要があります。最新のベスト プラクティスを採用している組織では、データ レイク、データ ウェアハウス、ETL サーバーで、それぞれ独自の機能と経済性を備えているため、何百ものデータ統合ジョブのバランスを取り直しています。

共通データ レイク落とし穴

表面的には、データ レイクは簡単に表示され、大量の構造化データと非構造化データを管理および利用できます。しかし、彼らは見かけほど単純ではなく、失敗したデータレイクプロジェクトは多くの種類の産業や組織で珍しいことではありません。初期のデータレイクプロジェクトは、ベストプラクティスがまだ出現していなかったため、課題に直面していました。今、固体設計の欠如は、データ湖が完全な価値を提供しない主な理由です。

データサイロとクラスタの急増: データレイクは参入障壁が低く、クラウドでその場しのぎのことが可能であるという考えがあります。これにより、冗長データと、2 つのデータ レイクが調整されず、同期の問題が発生する不整合が発生します。

データ アクセスの目的の競合: セキュリティ対策の厳格化の決定とアジャイル アクセスの間にはバランスの取れた方法があります。すべての利害関係者を調整する計画と手順を整備する必要があります。

限定商用市販ツール: 多くのベンダーはHadoopまたはクラウドオブジェクトストアに接続すると主張していますが、提供物には深い統合が欠けており、これらの製品のほとんどはデータレイクではなくデータウェアハウス用に構築されています。

エンド ユーザーの採用の欠如: ユーザーは、優れたコーディングスキルを必要とするため、データ レイクから答えを得るのは複雑すぎる、またはデータ干し草の山の中に必要な針を見つけることができないという認識を持っています。

データ レイク デザイン パターン

データ レイク設計パターンは、成功した実装を導く一連のワークロードと期待を提供します。データ レイク テクノロジと経験が成熟するにつれて、アーキテクチャとそれに対応する要件が進化し、主要ベンダーが実装に関する合意とベスト プラクティスを持つものになりました。テクノロジーは重要ですが、テクノロジーとは無関係な設計パターンが最も重要です。データ レイクは、複数のテクノロジに基づいて構築できます。Hadoop 分散ファイル システム (HDFS) は、ほとんどの人が最初に考えるものですが、必須ではありません。