はじめに
はじめまして! 2024年8月にTeradataに入社をしました、プリンシパル データサイエンティストの渡辺と申します。私はTeradataにて、企業のデータ活用のご相談の承りやPoCの実施、デモンストレーションやワークショップの実施、そして本記事のようにエバンジェリスト的な活動などを担当しております。
この記事では、私が思うTeradataのデータ分析プラットフォーム「Teradata VantageCloud」の優れている点をお伝えいたします。入社直後の現在の私だからこそ、Teradataに染まっていない客観的な視点から率直な所感をお伝えできると思います。
自己紹介
私はこれまで、ゲーム業界、コンサルティング企業、大手Web系企業などに所属してきました。途中、大学院で博士号を取得したり、その後に大学でデータ分析講義の非常勤講師をしたりしたこともあります。これまでの職場では、データサイエンティストとして、自社やクライアント企業の多種多様なデータの分析や、機械学習モデルの構築に携わりました。また、機械学習エンジニアとして、億単位のユーザーを対象とする大規模な機械学習システムや特徴量データストアの開発も経験しました。
今回は、こうした過去の経験も踏まえ、私が身をもって実感しているTeradata VantageCloudの良さを、特に日本で活動するデータサイエンティスト、機械学習エンジニアの視点からお伝えできればと思います
Teradata VantageCloudの概要
Teradata VantageCloudは、Teradataが提供するハイブリッド/マルチクラウドデータ分析プラットフォームです。AWS、Azure、Google Cloudで利用できるだけでなく、オンプレミス環境、そしてこれらを組み合わせるマルチクラウド、ハイブリッドクラウドで構築することができます。超並列アーキテクチャや高度なワークロード管理による、非常に高いコストパフォーマンスを誇っています。さらに単なるデータベースではなく、高速なデータ分析、AI/MLの活用を支援する強力なアナリティクス機能群「ClearScape Analytics」を搭載した、オールインワンなデータ分析プラットフォームです。
ClearScape Analyticsは、Teradata VantageCloudのデータベース上で完結する高速・多機能なIn-Database分析関数、他社サービスやオープンソースプログラミング言語との連携を可能にするAPI群、モデルのデプロイからモニタリングまでのライフサイクル全体を管理できる仕組みなどを提供しています。詳しくは後述いたします。
Teradata VantageCloudのココがすごい!
すごいポイント1:Pythonで「いつも通り」使える
Teradata VantageCloudを使うことで、大規模なデータに対しても高速で簡潔に処理を実行できます。特に、プログラミング言語(以下、単に「言語」と表記)の観点から強調したい長所は、世の中で広く使われている言語をそのまま使える点です。
私は過去に、とあるプラットフォームに特有の言語を主に使う現場にいました。そこでは、大半のデータサイエンティストがその言語の習得に励み、日々の業務の大半でその言語を利用していました。しかし、その言語は、Pythonのように広く世間一般で使われているものではありませんでした。データサイエンティストの立場としては、世間的にマイナーな言語に精通しても活躍の幅が広がらず、自身のキャリアを考えるとマイナー言語への特化は歓迎できることではありません。実際、前述の現場では、Pythonを使う数少ない案件に参加希望者が集まるような傾向も見られました。
特に、現在のAI/ML分野では、Pythonの利用が事実上ほぼ必須となっています。日々Pythonが活用できる環境であることは、データサイエンティストにとって非常に重要です。プラットフォーム特有の言語などに依存している環境は、データサイエンティスト人材の確保を困難なものにし、その傾向は今後さらに強くなってゆくことが推測されます。
さらに、日本はKaggleの人気が高く、Pythonによるデータサイエンススキル習得の志向性がより強いと考えられます。Kaggleとは、主にPythonを使って構築した予測モデルの精度を競うコンペティションプラットフォームであり、AI/MLに携わる世界中の技術者が参加しています。Kaggleの成績優秀者には、上位称号である「Master」や、さらに上の最上位称号である「Grandmaster」などの称号が与えられます。このMasterとGrandmasterの国別の人数で、いずれも日本はアメリカについで世界第2位です。そして、いくつかあるGrandmasterの区分の中でも、モデル精度を競うコンペティション本体で最上位の成績を残した「Competition Grandmaster」の人数で、日本はなんとアメリカを超え世界一に君臨しています。このように、日本はKaggleへの参加が非常に盛んな国です。この事実は、Pythonに慣れ親しんだデータサイエンティストの割合が日本は他国よりも多いことを示唆している、とも言えるでしょう。
Teradata VantageCloudは、teradatamlライブラリやOpen Analytics Frameworkといった仕組みによって、「いつも通り」Pythonを使った分析が可能です。teradatamlライブラリは、Teradata VantageCloudの大きな特徴である強力なIn-Database処理を、Python経由で実現できるものです。teradatamlの特筆すべき長所は、関数などの記法がpandas、polars、scikit-learnといった、データサイエンティストにはお馴染みの一般的なライブラリとよく似た形になっていることです。データサイエンティストは、pandasなどを「いつも通り」使うかのようにteradatamlを使い、Terada VantageCloudの強力な計算資源を並列処理で活用できます。Teradata VantageCloudには長年培われてきたSQLベースの独自の記述方法がありますが、teradatamlライブラリを使えば、それを意識することなく「いつも通り」のPythonで処理を記述できます。(R向けに同様の機能を提供するtdplyrというパッケージもあります。)
Open Analytics Framework(OAF)では、Pythonで書かれたスクリプトをTeradata VantageCloudクラスタに配布し、クラスタ側での分散処理を実現できます。「いつも通り」開発したPythonコードを、大規模なコードに対して簡単かつ効果的に適用でき、さらにスケーリングも容易です。OAFでは、Pythonスクリプト以外のファイルも配布できるため、例えば機械学習モデルのファイルを同時に配布して利用する、といったことも可能です。
そして、新たにNVIDIA社のGPUを2024年11月からAWS上で使用することが可能になりました。これにより、PyTorchなどのライブラリを使ったスクリプトをOAFで動かし、GPUでの高速な計算処理やモデル学習をすることも可能になりました。
機械学習モデル関連では、Teradata VantageCloudには「Bring Your Own Model(BYOM)」という機能があります。BYOMを使うと、別途作成した機械学習モデルをそのまま Teradata VantageCloudにインポートし、推論処理に利用することが可能です。つまり、Kaggleと全く同じようにPythonで「いつも通り」作成した機械学習モデル(いわゆるディープラーニングモデルもOK!)を、BYOMでそのままデプロイして稼働させることができますし、こちらもスケーリングが可能です。
以上のように、Teradata VantageCloudは、Pythonを「いつも通り」使えて、さらにその能力を最大限に引き出せる環境が揃っています。この点は、現場のデータサイエンティスト、機械学習エンジニアにとって非常にフレンドリーであることはもちろん、将来的な分析組織の健全運営や規模拡大を見据えた際にも重要な観点と言えるでしょう。
すごいポイント2:機械学習システムの構築はTeradata VantageCloudひとつでOK
機械学習システムには、データの取得に始まり、データの前処理、モデル学習、モデル評価、モデルのデプロイ、モデル稼働状況のモニタリング……という、多くのステップが存在します。これらは互いに性質の全く異なる処理であり、様々なサービスを複雑に組み合わせて開発することが多いです。
実際、私は普段から様々な場所で、クラウドプラットフォームのマイクロサービスやソフトウェアのロゴマークが多数ならび、それらが多くの矢印で繋がっている、複雑なアーキテクチャ図をよく目にします。AI/MLに携わる方の中には、そうした図を目にしたことがある方が、少なからずいらっしゃると思います。よく見かける典型的な例を図1に示します(実際のロゴマークをここで使うわけにはいかないので、汎用的なアイコンで代替したイメージ図です)。
図1 典型的な機械学習システムのアーキテクチャ図
前述のとおり、機械学習システムの各ステップはそれぞれの処理内容が異なるため、アーキテクチャの構成要素も多様になりがちです。しかし、各要素をつなげてフローを実装することは容易ではなく、その維持・運用にも労力がかかります。多くの場合、開発にはインフラストラクチャに精通したエンジニアの協力が必要になるでしょう。図1には多くの矢印が書かれていますが、たとえ同一のクラウドサービスプロバイダー内部であったとしても、これらの矢印を実現し稼働させるためには、様々なインフラストラクチャの技術が必要になる場合が多いです。
Teradataでは、こうしたAI/MLシステムで必要となるステップを「Analytics 1-2-3」と称し、そのすべてをTeradata VantageCloudだけで実現できるようになっています(図2)。
図2 Analytics 1-2-3の3つのステップ
いわば、図1にある様々なサービスを、たったひとつの「Teradata VantageCloud」という大きなロゴマークだけに置き換えることが可能、ということです。図1をTeradata VantageCloudひとつで置き換えられる部分を図3に示します。図1では各要素をつなぐ多数の矢印を実現するためのインフラストラクチャの技術が必要でしたが、図3では各要素がTeradata VantageCloudという単一の箱の中に入っているので、もはやインフラストラクチャの技術は不要となります。
図3 Teradata VantageCloudひとつで、様々なサービスを置き換えられる
Teradata VantageCloudは、ただの分析用データベースではなく、データ分析、データ前処理、モデルの学習・評価・推論、そしてデプロイからスケジュール実行、モニタリングまで、すべてこなせるオールインワンな分析エコシステムを実現するプラットフォームなのです。
これらの一連の処理は、Teradata VantageCloudで提供する「ModelOps」というツールを通じて、GUIでの操作・管理も可能です。ここでも、インフラストラクチャの専門的な技術は不要で、データサイエンティストはモデルに関する処理だけに専念できます。また、前述のBYOMはここでも利用可能で、別で構築済みのモデルを取り込んでデプロイすることも可能です。
すでに稼働しているシステムがあれば、それを一度に全面的に置き換えるのは難しい面もあると思います。この点、Teradata VantageCloudは言わば「大は小を兼ねる」であり、システムの一部分にTeradata VantageCloudを使って、他の部分は別のサービスやソフトウェアを組み合わせて使う、ということも可能です。Teradata VantageCloudには、他のツールからスムーズに移行したり、他のツールと有機的に結合して使ったりするための様々な仕組みが備わっています。
また、「特定の分野に特化した専用ツールを使いたい」「利用者のスキルセットに合わせてツールを選定したい」といったような状況もあると思います。前述の通り、Teradata VantageCloudはオールインワンなデータ分析プラットフォームではありますが、様々なツールと組み合わせても使えます。このように、適材適所なツール選択が可能というのも、Teradata VantageCloudの利点です。
すごいポイント3:最先端の大規模言語モデル(LLM)も活用できる
このたび、Teradata VantageCloudに、新たな機能「Bring Your Own Large Language Model(BYO-LLM)」が加わりました。(2024年10月からAWS、2025年上期にAzure、Google Cloudで利用可能に)前述のBYOMが拡張されたもので、近年話題の生成AIで必須の大規模言語モデル(Large Language Model / LLM)もTeradata VantageCloud内で利用できるようになりました。
著名なLLMサービスは、とても便利である反面、あくまで各サービス提供側のサーバー環境で稼働しています。つまり、利用する企業側から見ると、これらのLLMの利用は「外部へのデータ送信」になります。このため、最近では、いわゆる社外秘の内容を含むテキストや数値を自社のシステム内で小規模なLLMや小規模言語モデル(SLM)で処理させたい、という需要が高まっています。
BYO-LLMでは、組織内のTeradata VantageCloudにLLMをデプロイして利用できます。オープンソースのAIモデルが集まるプラットフォーム「Hugging Face」には、数多くの学習済みモデルがあります。これらをそのままBYO-LLMで利用すれば、社外秘情報をそのままLLMに適用できる環境を、組織内に完結した形で簡単に構築できます。Hugging Faceには、日本語利用に特化したLLMも多数公開されていますので、日本国内での業務やサービスのためのLLM利用にも向いています。
また、LLMの用途は生成AIだけではありません。トピック抽出、分類、クラスタリング、類似文書検索、不正検出などなど、テキストデータにまつわる様々な用途にBYO-LLMを活用できます。例えば、かつて形態素解析やTF-IDF法などを駆使しても良い結果につながらなかったテキスト分析であっても、いまLLMを使って再チャレンジすれば有意義な結果につながる可能性があります。
そして、BYO-LLMでも、NVIDIA社のGPUが利用可能です。GPUを使うことで、CPUと比較して最大300倍のスピードで推論を実行できます。Teradata VantageCloud内で完結した処理なので、大容量データの移動も不要です。
Teradata自体は歴史が長く、「古臭い」「伝統的」という印象を持たれる方もいらっしゃるかもしれません。しかし、実際にはこのBYO-LLMのように、これまで40年以上にわたり、その時々の最新のデータ分析テクノロジーを取り込み、便利に利用できる分析エコシステム環境を整えてきているのです。
すごいポイント4:課金のプレッシャーやストレスからの解放
データ分析プラットフォームの中には、SQLクエリなどを実行するごとに、その処理量に応じた従量課金が発生するものがあります。処理の実行前に処理量を事前に見積もる機能があったりもしますが、大規模すぎる処理をうっかり実行してしまい一瞬で数十万円を溶かしてしまった(=課金を発生させてしまった)、といった話も見聞きします。
こうした環境の場合、データサイエンティストは、処理実行のたびに処理量に注意する必要があります。もちろん、不要な計算量を削減することは、クラウドテクノロジーを活用する技術者として望ましい姿勢です。しかし、本格的な開発ではない日々のデータ分析の段階で、常に処理量を自発的に強く意識しなければならず、かつそのミスが膨大な費用につながりうるという状況は、担当者にとって強いストレスになり得ます。
Teradata VantageCloudには、意図せぬコスト超過を回避・抑制する数々の機能が備わっています。例えば、ユーザーの設定したしきい値に計算リソース消費が達したらアラートメールで自動通知する機能、計算クラスタの起動・停止をスケジュール設定できる機能、オートスケールの有無を選択できる機能などがあります。また、他のプラットフォームと比較すると、Teradata VantageCloudは非常にクエリ当たりのコストパフォーマンスが良いプラットフォームです。
さらに、Teradataは、ClearScape Analyticsの機能を時間単位の課金体系で安価に活用できるオンデマンドエンジンAI Unlimitedも展開しています。限られた時間しか使わない小規模な利用の場合には、AI Unlimitedでお得に利用することも可能です。
このように、Teradata VantageCloudは、費用面に起因するストレスやプレッシャーからデータサイエンティストを解放し、データサイエンティストが伸び伸びと活躍できる環境を提供します。
おわりに
この記事では、ひとりの日本のデータサイエンティストの観点から、Teradataのデータ分析プラットフォームTeradata VantageCloudの優れた点を紹介してきました。Teradata VantageCloud は、日本の多くのデータサイエンティストに対してフレンドリーであり、現場のデータサイエンティストが気持ちよく活躍できる環境を提供します。また、機械学習システムをオールインワンで実現できるほか、他のサービスやツールとの効果的な連携も可能です。さらに、最先端のLLMを効果的に活用できる環境も提供もします。
AI時代のデータ分析プラットフォーム選定にあたっては、経営層が「会議室」で一方的に決めるのではなく、それを多用するデータサイエンティストからの「現場」の意見を尊重することが重要です。そして、Teradata VantageCloudであれば、経営層のみならず、多くのデータサイエンティストの要望にも応えられると確信しております。
私をはじめTeradataのメンバーは、お客様の現場のデータサイエンティストの皆様とご一緒にお話をさせていただける機会を、いつでも大歓迎いたします。データ分析の専門家の見地を交えたお話をさせていただきながら、現場の皆様がより効率的に気持ちよく業務を進められる、サステナブルなデータ活用環境の実現に向けたお手伝いをさせていただけましたら幸いです。
【筆者について】
日本テラデータ株式会社
プリンシパル データサイエンティスト
博士(工学)
渡辺 哲朗
これまでに、データ分析コンサルティング企業、大手メッセージングアプリ企業、複数の大手ゲーム系企業にて、データサイエンティスト、機械学習エンジニア、エンジニアリングマネージャーなどを歴任。また、国立大学にて、研究員や非常勤講師などを歴任。現在 Teradata では、日本でただひとりのプリセールス領域担当プリンシパルデータサイエンティストとして、多方面の様々な企業に向けたデータ活用のガイド、本格導入前の PoC の実施、デモンストレーションやワークショップの実施などに従事。ネットワークスペシャリスト、情報セキュリティスペシャリストなどの IT 系資格を多数保有。会計業界での業務経験もあり、日商簿記1級などの会計系資格も保有。ねこが好き。