2014-03-14 体験セミナー企画の背景と意図
本体験セミナーは、我々のこれまでの研究教育経験から、データサイエンスの真髄をすこしでも体験してみることがきっと皆様の今後のデータサイエンスの導入の大きな助けとなるに違いないという思いで企画いたしました。世の中で、R の使い方を覚え、伝統的な統計手法を学ぶことが「データサイエンス導入」だと思われている節がありますが、データサイエンスの真髄は『新たな発見をし、それを価値(収益)に結び付ける』ところにあります。「発見」ですから、当然のことながら試行錯誤を伴います。他の科学と同じくデータサイエンスにも王道はないといってよいでしょう。しかし、これまでの経験に学ぶところが多いのも他のサイエンスと同じです。その経験をどのように蓄積したらよいか、そもそもデータをどう扱ったらよいか、発見を助けるとはどういうことなのか、そんなことをここ何十年と研究してまいりました。その成果の一端である DandD や TextilePlot についても、本体験セミナーでできるだけご紹介いたします。データ解析環境 R
データ解析環境 R のルーツは、ベル研究所で作り上げた S というデータ解析環境にあります。開発者はデータサイエンスのルーツでもある「探索的データ解析(EDA)」を提唱した J.Tukey の弟子たちです。したがって、R は単にさまざまなパッケージが便利に使える無料の統計解析ソフトウエアではありません。データサイエンスの真髄を具現化した計算環境です。ゲノム解析のような複雑で大規模なデータ、今風にいえば[ビッグデータ]を日常的に扱わなければならない研究分野で10年以上前からRが標準的なソフトウエアとなったのも当然のことです。 30年前から S の先進性に注目し、開発に協力し、翻訳書や著書の出版を通じてその普及に努力してきた小生が、20年ほど前からデータサイエンスというパラダイムを提唱してきたのも当然の流れかもしれません。データサイエンスの実践に「統計」は本当に必要か?
「統計」という言葉から受ける印象は人によって大きく異なります.エクセルやBI (Business Intelligence)などに備わっているさまざまなツールを使ってデータを表なり図の形にまとめてレポートするのが統計と思われている方も、推定なり検定なりのファンシーな道具を使いこなすことこそが統計だと思われている方もいらっしゃるでしょう。 しかし、データサイエンスの立場からすると、これらは手段でしかありません。どのように目的を達成するかのほうがずっと重要です。本セミナーはここに重点を置きます。
たとえば、データの裏を読みそこに何が潜んでいるか探るためには、よく考えを巡らせさまざまな道具を駆使する必要があります。そうでなければデータの海に溺れるか表面をなでるだけで終わってしまいます。散布図一つとっても、思慮深く作った散布図とそうではない散布図では解析者の直観をうまく引き出せるかどうかその効果に大きな違いが生まれます。
また、データを見る目を養うために、いわゆる推測統計学(数理統計学)の素養が必要になることもあります。しかし推測統計学は厳密性を追求するあまり、あまり現実でない仮定のもとでなにか結論らしきものを導く枠組みになっているきらいがあります。その意味では統計学の講義が嫌われるのもよくわかります。一言でいうと【イキイキした世界】には感じられないですから。しかも推測統計の理論はなかなか複雑で微妙なため「方法を覚えそれを使えばよい」と割り切って、R のさまざまな統計的方法の使い方を勉強すればよいということになりがちです。これは、しばしば重大な「誤用」に繋がります。さまざまな前提があり限界があることを無視して「方法」だけが独り歩きすることほど危険なことはありません。
本セミナーでは「統計」を表だって持ち出すことはしません。最強の学問でもなんでもないからです。 必要になったら使う、しかし方法だけを独り歩きさせることはしない。そんな方針でセミナーを進めます。
本体験セミナーのポイント
「疑似体験」
データサイエンスと S や R といったソフトウエアは密接に関係していますので、本セミナーでもRを基盤ソフトウエアとして用いて疑似体験していただきます。出席者のみなさんに R を使っていただきながら進めることも考えましたが、これまでの教育経験からすると、R の基本操作は覚えられたものの、データサイエンスそのものは身につかなったということになりがちですので、今回は講義の間にR でのデモンストレーションを挟むといった形の疑似体験セミナーにさせていただきました。 R自体の操作を勉強するには自習がもっとも効果的だと思っておりますが、ご要望が多ければRの操作習熟も含めた訓練セミナーのような企画も考えたいと思います。なお、デモンストレーションで用いたデータやRスクリプトは講義資料とともにお持ち帰りになれるよう準備いたします。「統計解析の理論を身近なデータで理解」
本体験セミナーでは、統計解析の理論面についても十分理解していただければと思っております。本セミナーではデータ例として[POSデータ]と[株価データ]を取り上げます。その意図といたしましては身近なデータでも本当にデータサイエンスの精神を具現するとしたら、結構奥深いものがあるということを体験していただきたいと思ったからです。しかし、いずれもその具体性を超えてさまざまな場面に応用できる汎用性を備えています。解析の結果をどう解釈しどう価値の創造に結び付けるのか、そんな点にも注意しながら本セミナーを進めていきたいと思っております。「自由で楽しいセミナー」
出席者の積極的な参加を期待しております。自分がわからなかったことは他の出席者もわからないに違いないと思って、すこしでもわからないこと・疑問があればすぐ質問していただくことを期待しております。セミナー終了後,出席のみなさんが「楽しかった」「よく理解できた」という満足感をもって帰途につかれることが、本企画の最大の眼目です。柴田里程