（株）データサイエンスコンソーシアム

データを前にしてどうしたらよいのか困っていませんか？

皆様の目の前にとあるデータがあるとします。それを活用したいと考えた時、そのデータそのものが最初から明確な目的をもって収集されたデータならば、その活用の道筋もはっきりしていてあまり悩む必要もないでしょう。しかし、既存の、それも大量のデータに『埋もれている価値』を見つけ出すとしたら，話はそう簡単ではありません。
まずその全体像をつかむ必要がありますが、利用できるデータの形はさまざまです。特に業務の必要に伴って知らず知らずのうちに蓄積したデータは、解析という目的を考えていないだけその扱いは厄介です。

データ解析においては、俗に【とりあえず全体像をつかめるようデータをまとめ整形する作業だけで7-8 割の時間を費やしてしまう】といわれます。実際には、残りの時間で何とか結論らしきものを大急ぎでまとめるといったやっつけ仕事になってしまうのが実情です。これでは本当に役立つ価値を見つけだすことなど及びもつかないことと思われます。

また、一口に全体像をつかむといっても、相手は無味乾燥な数字や文字です。教科書にあるような簡単なデータならまだしも、実際に扱わなければならないデータは複雑で大量なものです。手作業でさまざまな側面からデータを眺め全体像をつかむことには自ずから限界があるのです。故に結局は全体像をつかむことはあきらめてよく知られた解析法をやみくもに使ってみるしかなくなります。これでは、本当に役立つ価値を発見したいという当初の目的から大きく外れてしまうでしょう。

データ活用環境 TRAD

TRAD は TextilePlot, R and DandD の略称です。その用途といたしましては、さまざまな形態のデータを読み込み必要な形に整え、その上で、無味乾燥でつかみどころのない数字や文字のデータを視覚化し全体像をつかむ助けをするものであります。

TRAD での視覚化を担うのがTextilePlotで、並行座標プロットの一種ですが、「水平性規準」で各軸の位置・尺度を定めます。その副作用として、文字で表現されたいわゆる[カテゴリカルデータ]もその値の座標が定まり、[数値データ]と同等に扱うことができるようになります。TextilePlotの最大の特徴は特定の見方を反映した視覚ではないという点です．データ活用の初期段階では特に重要なポイントとなります。

R言語は利用されたことがある方はよくご存じでしょうがデータ解析を柔軟に行うための高度な環境です。TRADではTextilePlotをヒューマンインタフェースとする環境であるTAD(トロンアプリケーションデータバス)とRの間を自由に行き来できますので、様子をつかむにはTAD、高度な解析を行うにはRといった使い分けが威力を発揮します。

DandD は Data and Description つまり『データとその記述の一体化』を実現するためのファイル記述方式です．DandD ファイルは一つの XML インスタンスとして実装されていますが，いわば画像データに対するPDFファイルのような役割を果たします。よく「データは入手したけど、わからないことだらけ」という現象が起きますが、DandD ファイルで入手すればそのような心配はなくなりますし、あとから記述を追加することで表現をより豊かにすることもできるのです。

官活

ようやく e-stat という形で官庁データが公開され、自由に入手できるようになりましたが、いざ使おうとすると様々な困難に見舞われます。基本的に印刷物の形態を踏襲しているため、さまざまな形のデータテーブルの集まりでしかなく、どのデータテーブルをどう使ったらよいのかすら見当のつかないことも多いのです。さらにその形式もさまざまですので、本当に使える形にするにはかなりの作業量が必要になります．タダほど高いものはないという言葉が一瞬頭をよぎる瞬間です。

「官活」は官庁データさらには一般的なオープンデータを DandD 化するプロジェクトで、その最初のプロダクトとして「厚労省患者調査データ」を DandD化したものを TRAD のインスタンスライブラリの一つとして一般公開しております。本プロジェクトの遂行によりTRADの様々な機能拡張と効率化も必要となり、TRADもいまや十分実用に耐える環境になって参りました．現在公開している「厚労省患者調査データ」以外のライブラリに関してはお問合せください（)．

InterDatabase®

ネット上などに散在する，さまざまな形態のデータベースやデータファイルなどをシームレスに活用する仕組みがInterDatabaseです．InterDatabase のInterには「さまざまなデータベースをまたがる」と「ネットワークをまたがる」という２つの「またがる」の意味が含まれています．当初からDandD インスタンスは，データの値そのものを含める必要はなく，ネット上に存在するデータベース，データファイルへの参照で代替できるよう設計されていますので，この機能を利用することで InterDatabase は実現されています．

DandD インスタンスを用いることで，異なるデータベースやデータファイルを参照することで生じる表現の違いも容易に吸収でき，データの実体は必要になった段階で取得すればよいので効率的です．もちろん大きなデータベースでも，SQL で必要な部分を参照することで済みます．また，似た形式のデータソースなら，DandD インスタンスを使い回すことができる点も，InterDatabase 利用の利点です．

ユーザにデータソースの違いを意識させずに活用できる環境，それがInterDatabase です．詳細はお問合せ（）ください．

多言語対応

いまやデータは国境を越えて活用される時代です．そのとき壁となる言語の違いを乗り越えやすくする仕掛けがDandDには最初から組み込まれています．タイトルなどデータの説明に相当する部分はまだしも，変量名やカテゴリカルデータの水準などが多国語対応かどうかは壁が乗り越え易いかどうかを大きく左右します．TRAD のインスタンス例はその多くが，すでに日本語，英語の両国語対応になっていますが，何国語でも容易に対応可能です．DandDインスタンスを多国語対応に書き換える機能のTRADへのアドオン，お問合せをお待ちしております（）．

データを前にしてどうしたらよいのか困っていませんか？

データ活用環境 TRAD

官活

InterDatabase®

多言語対応

リンク