記事

オープンテーブルフォーマット(OTF)とは何ですか?

オープンテーブルフォーマットについてさらに詳しく学びましょう。

テーブル形式はデータレイクの効率性と効果を高める役割を果たします。構造化されたデータ保存と管理のアプローチを提供することで、オープンテーブル形式は従来のデータレイクではしばしば欠けている組織化の層を導入します。彼らはデータレイクの上に抽象化の層を提供し、データベースのような機能をもたらします。この構造化されたアプローチにより、アクセスパターンやクエリ性能に最適化された方法でデータが格納されるため、より効率的なデータクエリと分析が可能になります。

テーブル形式がデータレイクを効率化する主な方法の一つは、スキーマオンリード機能を可能にすることです。これにより、データレイクは異なるフォーマットや構造を持つ様々なソースからのデータを、事前のスキーマ定義を必要とせずに対応できます。その結果、データエンジニアやアナリストはデータ準備や変換作業に時間を割くのではなく、データから洞察を導き出すことに集中できます。さらに、書き込み時にスキーマ検証を強制できるため、データの品質と一貫性が保証され、エラーや異常の可能性を低減します。

テーブル形式はまた、トランザクションサポートやACID準拠をデータレイクに導入し、データの整合性と一貫性を確保します。これは、データが頻繁に更新される環境や、複数のユーザーが同時にデータにアクセスし修正する環境で特に重要です。アトミックトランザクションをサポートすることで、オープンテーブル形式はデータレイクが組織にとって信頼できる真実の情報源となり、正確かつタイムリーな意思決定を促進します。さらに、インクリメンタル処理やタイムトラベルなどの機能により、データレイクの柔軟性が向上し、組織は時間経過で変化を追跡し、必要に応じて過去のデータにアクセスできるようになります。これらの機能により、オープンテーブルフォーマットはデータレイクの運用を最適化し、データ資産の潜在能力を最大限に引き出すための不可欠なツールとなっています。

現在業界でよく使われている3つのオープンテーブル形式、Apache Iceberg、Linux Foundation Delta Lake、Apache Hudiは機能的に同等です。それぞれのエコシステム、開発者、貢献者コミュニティは異なるため、利用ケースやワークロードの具体的な要件に応じて利用可能なサポートエコシステムを選び、OTFを選ぶのが理にかなっているかもしれません。3つのOTFはすべてACIDトランザクションとバージョン管理、スキーマ進化、タイムトラベルをサポートしており、複雑なクエリワークロードを高性能で処理し、多数の同時ユーザーからの書き込みも可能です。

Teradataは、マルチクラウドおよびマルチデータレイク環境におけるOTF、カタログ、クラウドサービスプロバイダー(CSP) 向けにオープンエコシステムを提供します。

この独自でオープンかつ接続されたOTFサポートのアプローチにより、Amazon Web Services(AWS)、Glue、Hive Metastore、Unityなどのオープンカタログを用いて、Apache IcebergやDelta Lakeテーブルに保存されたデータのクロス読み込み、クロス書き込み、クロスクエリが可能になります。

この将来に見慣れたアプローチにより、企業は真に現代的なデータ戦略を採用し、比類なき機敏さと柔軟性を備え、データを移動・複製・変換することなく大規模に 信頼できるAI を提供できます。

最新情報をお受け取りください

メールアドレスをご登録ください。ブログの最新情報をお届けします。



テラデータはソリューションやセミナーに関する最新情報をメールにてご案内する場合があります。 なお、お送りするメールにあるリンクからいつでも配信停止できます。 以上をご理解・ご同意いただける場合には「はい」を選択ください。

テラデータはお客様の個人情報を、Teradata Global Privacy Statementに従って適切に管理します。