データアーキテクトとメタデータ

先日「データアーキテクト」という職種について書かれた記事を読みました。

データアーキテクトは、エンタープライズデータ管理のフレームワークの可視化や設計の任に当たり、業務要件から技術要件への変換や、データの規格および基準の定義といった役割を担う。このフレームワークは、データの計画、設計、実装、生成、収集、維持、利用、保存など、データのライフサイクル全体のプロセスを扱う

データアーキテクトに求められ役割とスキル(前) - データアーキテクトに求められ役割とスキル:CIO Magazine


データ分析をする人から見ると、とても頼りにしたい人材です。


後半部分のデータのメンテナンスに関わる部分はもちろん、前半の設計、実装、生成も担当してくれるのは非常に助かるのではないでしょうか。


企業のデータは、ビッグデータと呼ばれるほど大量のデータが蓄積されています。


しかし、その多くはいわゆるゴミデータやそのままではビジネスに活用できないデータで、データ分析の担当は分析を行う前にまずそのデータの整備から手を付けなければならないといった課題を抱えることが少なくありません。


最近ではデータエンジニアなどの関連人材も増えてきて、データ分析基盤やデータの整備も進んできている企業も増えているので、こうした課題は以前よりは減ってきている感はあります。


しかし、新たなサービスや商材、システム等が増えるにつれ、新たなデータはどんどん生成されていくので、なかなかデータ整備の仕事もなくなるということもないでしょう。


とはいえ、ログや履歴関連のデータはシステム設計時にある程度集計レポートのイメージも固められることが多く、その後の分析においてデータがぐちゃぐちゃで困るということはあまり多くないかもしれません。


大変なのはマスタ関連のデータかと思います。


商品名や取引先といったマスタは名寄せをきちんと行っていればそれほど混乱は招かないかもしれませんが、タグなどのメタデータといったものは取り扱いが難しいのではないかと思います。


例えば、商品やサービスなどをある程度ひとまとめにして管理するための「カテゴリ」や「種別」といったデータや、画像などのデータを分類するためのアノテーションデータなどです。


おそらくシステムの設計時からしっかり収集できるような仕組みが実装されていればある程度管理されやすいのかもしれませんが、なかなかそうしたデータの使い道(分析方法など)も想定されていないと最初から実装してもらえる可能性も低くなります。


さらにメタデータはルールもきちんと整備されていないと、設定する際の基準がぶれてしまうのでメンテナンスも非常に大変になります。


例えば、ネコかタヌキがよく判別できない画像だとどちらにタグ付けすれば良いのか困るなど、ですかね。


しかし、画像・テキスト・音声といった非構造なデータをタグデータを付けて機械学習等によって分類することで、これまでにない新たなアプリケーションがサービスがどんどん生まれています。


カテゴライズ系のメタデータも、これまで商品Aと商品Bを買っていたというファクトしかわからなかったところが、商品にメタデータがついていると、例えば高級商品をよく買っているとか、健康志向の商品をよく買っているということがわかるようになり、より顧客のインサイトが見えてくるといった可能性もあります。


とはいえ、こうしたメタデータは客観性という意味では、当然ながらログなどのファクトデータに比べると低いと思われますので、粒度や精度にもよりますが全面的に鵜呑みにしてよいものかというとそうではないかもしれません。


ただ、ゴミデータに新たな価値を与える可能性もあると思われるので、今後さらに注目が集まり、収集・管理されることも増えてくるかもしれません。


そうなったときに、冒頭で紹介したデータアーキテクトの役割はさらに重要なものになるのではないでしょうか。


呼び方やその他の関連職種との役割分担などは今後流動的に変わっていくかもしれませんが、メタデータの今後とともに引き続きウォッチしておきたい職種ですね。