Subscribe to the Teradata Blog

Get the latest industry news, technology trends, and data science insights each week.



テラデータはソリューションやセミナーに関する最新情報をメールにてご案内する場合があります。 なお、お送りするメールにあるリンクからいつでも配信停止できます。 以上をご理解・ご同意いただける場合には「はい」を選択ください。

テラデータはお客様の個人情報を、Teradata Global Privacy Policyに従って適切に管理します。

データメッシュについての13の考察

データメッシュについての13の考察
私は、 Zhamak Dehghani氏が最初に提唱したデータメッシュのコンセプトについて、同僚やお客様とたくさんの議論を交わしてきました。現在、数人の同僚と共にホワイトペーパーを執筆しています。ホワイトペーパーは、レビューやフィードバックを繰り返し行って仕上げるため多大な努力を要します。そこで、この機会に、なぜ私たちがここまでデータメッシュに熱心なのか、その理由を簡単にご説明したいと思います。

#1 分析ソリューションの設計と構築は、少なくとも3つの理由から困難です。まず、要件があいまいで流動的であることが多いからです。第二に、これらのソリューションは、現在のビジネス上の問題とは無関係なプロセスや目的で生成されたデータの再利用に依存しているからです。第三に、分析的なインサイトをビジネスプロセスに統合するには、複雑なトレードオフを発見し、理解し、評価する必要があるからです。

#2 これらの理由から、成功するデータとアナリティクスのプラットフォームは、段階的に構築されてきました(間違いなく常にそうでした)。このような理由から、成功するデータドリブン企業は、現実世界の要求に沿ったデータ製品を迅速に提供することに重点を置いているのです。

#3 データの専門家はアジャイルソフトウェア開発手法の採用が比較的遅いものの、これらの手法が採用された場合、自動化ツールや DevOps プロセスと組み合わせ、データ製品の市場投入までの時間が 10 倍改善することがしばしば見受けられます。これがテラデータのDataOpsフレームワークとツールの開発の動機となっています。

#4 データメッシュのコンセプトとDomain-Driven Design(DDD)の原則は、大きな問題領域(データプラットフォームの開発)を、アジャイル開発方法と「2枚のピザ」のような開発チームを使って、処理可能な一連の小さな問題(個々のデータ製品)に分解するためのフレームワークとアプローチを提供しています。

#5 DDD の基本は、 ドメイン間の明示的な相互関係を定義する「境界のあるコンテキスト」という考え方です。「データはデータを愛する」ものであり、機能やドメインの境界を越えて結合される必要があることが多いため、 これらの相互関係が個々のデータ製品に「設計されている」ことを保証する軽量のガバナンスとデータ管理プロセス が重要となります。このプロセスでは、異なるドメイン間のデータを確実かつ正確に結合して比較するために必要な主キー/外部キーの関係の最小セットを理解し、定義し、実施することが極めて重要です。また、データやデータ製品の発見と再利用を可能にする適切なビジネス、技術、運用のメタデータも重要です。

#6 部門間にまたがるデータ製品の実現をサポートするために、エンタープライズドメインを作成することが適切な場合があります。そして、相互運用性が基盤となるデータ製品のために設計されている場合、これらの部門間にまたがるデータ製品をより良く、より安価に、かつより迅速に構築することができます。

#7「軽量」は重要な点です。過剰なエンジニアリングと過剰なモデリングは、データ製品の開発を遅らせる原因となります。 特に、MVPデータ製品の開発時のように、どのデータが頻繁に共有、比較されるかが不明な場合は、テラデータのLIMAフレームワークのような「軽量な統合」アプローチが好ましい場合が多くあります。 「バイモーダル」分析 とデータラボも重要な役割を果たしています。

#8 技術的負債は、デジタルトランスフォーメーションの大きな足かせとなっています。技術的負債を減らすためには、データ製品の再利用は不可欠です。ほとんどのデータは、クレンジングと絞り込みのプロセスを経るまで、ほとんど価値を持ちません。可能かつ現実的であれば、同じデータを本質的に同じようなデータに何度も繰り返し適用する データ変換プロセスが重複する「パイプラインジャングル」 を構築するのではなく、これの作業を一度だけ行うべきです。非常に多くの企業が、まさにこの理由から 機械学習の取り組みをサポートするために、Feature Storesの利用に移行しています。

#9 データメッシュのコンセプトで最も重要なのは、コンテナ化されたインフラストラクチャを迅速にプロビジョニングする能力だと信じている人もいますが、それは違います。 インフラストラクチャのプロビジョニングは、クラウドの導入モデルがそれをよりシンプルに、より迅速に行うようになる前から、「テントの中の長い柱」ではありませんでした。このテントの長い柱は、データをクレンジングし、セマンティックに整列させて、確実に共有、比較ができるようにするものです。 最近の例では、 基本的なCOVIDに関する指標を扱う際の注意点として、単一のドメイン内であってもいかに複雑であるか(そしてその結果がどれほどマイナスであるか)を紹介しています。

#10複雑なデータ製品の開発を統合したからといって、自動的にその展開も統合される訳ではありません。実際、データメッシュソリューションを導入する企業には、様々な導入方法があります。これらの異なる戦略は、基本的に異なるエンジニアリングのトレードオフに関連しているため、企業はこれらの選択を正しく理解し、意図的に決定することが重要です。一般的には、データメッシュの展開には、(1) スキーマの共存、(2) スキーマの接続、(3) スキーマの分離という3つの異なる方法があります。これらの選択肢は相互に排他的なものではなく、実際の実装ではほとんどの場合、これらのアプローチを組み合わせて使用し続けることになることにご留意ください。

#11 グローバルに展開する3,000社の企業のデータプラットフォームでは、低いレベルでも、50以上の分析アプリケーションがサポートされており、年間10億回以上のクエリが実行されています。今後10年間でクエリ量は2桁以上増加すると考えられています。多くの企業の分析ワークロードは、「複雑な処理状況を把握」「継続的に変化するデータに繰り返し実行」「不可欠なビジネスプロセスへ組み込み」といった特徴を持っています。また、マルチコアCPUのパフォーマンスの向上は、ネットワークやストレージのサブシステムのパフォーマンスの向上を上回る傾向にあります。これらの理由により、スキーマの共存とスキーマの接続の戦略は、非常に多くのシナリオにおいて、重要なパフォーマンス、スケーラビリティ、およびTCOの利点を提供し続けています。スキーマ接続戦略では、テラデータの QueryGrid テクノロジーのような、高性能でスケーラブルなデータファブリックを使用することを前提としています。

#12 データメッシュのコンセプトは、データプラットフォームや複雑なデータ製品の迅速な開発において、インテリジェントな分解を中心に据えているため、弊社では熱心に取り組んでいます。データメッシュをベースにしたアーキテクチャを実装するための推奨アプローチは、ドメインごとに個別のスキーマを作成することです。データ・スチュワードシップ、データ・モデリング、およびスキーマ・コンテンツの作成は、構築中の特定のドメインに関するビジネス知識を持つエキスパートが担当します。このアプローチにより、すべての企業データを 1 つのスキーマに統合する際の障害が解消されます。ドメイン指向(必要に応じてセマンティックにリンクされた) のスキーマは、企業内のビジネスの重点分野に沿ったデータ製品のコレクションを提供します。

#13 ほとんどの大企業は、複数の地域で事業を展開しており、複数のクラウドサービスプロバイダー (CSP) を利用するケースが増えています。そのため、コネクテッド・データウェアハウスは、大規模なデータメッシュの導入に欠かせないものとなっています。CSPや地域内で、特定のビジネスドメインに沿った複数のスキーマを単一のスケーラブルなデータベースインスタンスに共存させることで、導入時の俊敏性と実行時の高パフォーマンスという 2 つの長所を提供します。

このトピックの詳細については、近日中に本格的なホワイトペーパーでご説明します。
Portrait of Martin Willcox

(Author):
Martin Willcox

Martin leads Teradata’s EMEA technology pre-sales function and organisation and is jointly responsible for driving sales and consumption of Teradata solutions and services throughout Europe, the Middle East and Africa. Prior to taking up his current appointment, Martin ran Teradata’s Global Data Foundation practice and led efforts to modernise Teradata’s delivery methodology and associated tool-sets. In this position, Martin also led Teradata’s International Practices organisation and was charged with supporting the delivery of the full suite of consulting engagements delivered by Teradata Consulting – from Data Integration and Management to Data Science, via Business Intelligence, Cognitive Design and Software Development.

Martin was formerly responsible for leading Teradata’s Big Data Centre of Excellence – a team of data scientists, technologists and architecture consultants charged with supporting Field teams in enabling Teradata customers to realise value from their Analytic data assets. In this role Martin was also responsible for articulating to prospective customers, analysts and media organisations outside of the Americas Teradata’s Big Data strategy. During his tenure in this position, Martin was listed in dataIQ’s “Big Data 100” as one of the most influential people in UK data- driven business in 2016. His Strata (UK) 2016 keynote can be found at: www.oreilly.com/ideas/the-internet-of-things-its-the-sensor-data-stupid; a selection of his Teradata Voice Forbes blogs can be found online here; and more recently, Martin co-authored a series of blogs on Data Science and Machine Learning – see, for example, Discovery, Truth and Utility: Defining ‘Data Science’.

Martin holds a BSc (Hons) in Physics & Astronomy from the University of Sheffield and a Postgraduate Certificate in Computing for Commerce and Industry from the Open University. He is married with three children and is a solo glider pilot, supporter of Sheffield Wednesday Football Club, very amateur photographer – and an even more amateur guitarist.

View all posts by Martin Willcox

Teradata Vantageを使用して、複雑なデータと分析を回答に変えましょう。

お問い合わせ