データ解析の実際

マーケティング

マーケティングでの典型的なデータ解析は POS(Point of Sales)データの解析でしょう.実際,日々現場でどんな解析をし,どんな価値を生み出しているのか,秘密のベールに包まれていて,はっきりしたことはわからないのですが,売れ筋商品を見つけ出したり,データマイニングで何等かのヒントを見出したりといった,断片的な解析が多いのではないでしょうか.刻々集まるPOSデータを総体として理解し,完全に利用しきっているかといえば,そうでもない気がします.下記の論文は,世の中でPOS が普及し始めた時代の論文ですが,かなりの手間をかけ,試行錯誤を繰り返した結果で今でも輝きを失っていないと思います.「データを解析しつくし,広く通用するモデルを作り上げる」ことを実践した研究成果だからです.みなさんの参考になれば幸いです.

  1. 柴田里程,中園美香,あるマーケティングデータのモデル化,日本統計学会誌, 25, 245-260, 1995. データのDandD インスタンス

金融

リーマンショック以来,数理ファイナンス,金融工学の熱気も一段落したようですが,それはデリバティブ取引という一種のゲームの枠組みを支える役目が一段落しただけで,金融データの取り扱いとその解析,それにもとづくリスク管理といった基本的な流れはいまだに変わっていないと思います.

金融時系列をいくつかの成分に分解するというアイディアは古くからありますが,局所回帰( lowess )をうまく使いこなせば, かなりのことが見えてきます.

  1. R.Shibata and R. Miura, Decomposition of Japanese Yen interest rate data through local regression, Financial Engineering and the Japanese Markets, 4, 125-146, 1997
  2. 本論文で用いられたデータ(生)
    市場の休日,うるう年なども考慮したR データフレームのダンプ
    ただし,日付 (date)はtsオブジェクト(関数timeで年単位の時間に変換可)

ランダム性を含んだニューラルネットワークはあまり使われていませんが,金融時系列のようにランダム性が重要な側面となる場合には極めて有効で,他のモデルでは達成できないような高精度の予測が可能です.

  1. 上辻茂男,柴田里程,時系列モデルと学習 -金融時系列を例としてー,情報処理,42, 27-31, 2001
  2. S. Kamitsuji and R. Shibata, Effectiveness of Stochastic Neural Network for Prediction of Fall or Rise of TOPIX, Asia-Pacific Financial Markets, 10, 187-204, 2003

秒単位で記録されるような tick data の場合には,時点のランダム性と値のランダム性を同時に考える必要があります.また,取引がクラスターをなす場合にはクラスターに分割した上でのクラスター単位でのモデル化が有効です.

  1. R. Shibata, Statistical Aspects of Instantaneous FX Bid Prices, The 3rd International Conference on Finanacial Engineering and Statistical Finance, 66-73, 2003
  2. R. Shibata, Modelling FX new bid prices as a clusterd marked point process, Proceedings in Computational Statistics 2006, Physica-Verlag, Heidelberg, 2006
  3. 秒単位の為替レートデータをマーク付きクラスター点過程としてモデル化.両側指数分布に従う理由も明らかにされている.

生態系

金融時系列を局所回帰によっていくつかの成分に分解する方法は,金融時系列に限らず有効です.同じ方法で, 宅地開発によってどのような野鳥種がどのような影響を受けるのかを明らかにしたのが次の論文です.

  1. 島津秀康, 柴田里程,局所回帰による時系列の分解から明らかになった野鳥羽数の環境要因変化との関連性,日本統計学会誌,34, 187-207, 2005

スポーツ

これまで競泳のコーチングは,おもに「ストローク長」と「ストローク回数」を増やすことで成績の向上を目指してきたが, 微分法的式モデルを導入することにより,実はいかにスピードを落とさずにターンできるかどうかが勝敗を大きく左右する ことを明らかにしたのが次の論文です.

  1. H. Shimadzu , R. Shibata and Y. Ohgi, Modelling Swimmers' Speeds over the Course of a Race, Journal of Biomechanics, 41, 549-555, 2008

ゲノム

家系情報を的確に取り入れ,注意深く解析すれば,より正確に疾患遺伝子の位置を同定できることを示したのが次の論文です.

  1. Y. Sugaya and R. Shibata, Exploration of the disease locus by a careful evaluation of the likelihood polynomial for pedigree data. Journal of Human Genetics, 56, 383-389, 2011
  2. Y. Sugaya and R. Shibata, Probability inheritance algorithm and its implementation. J. Statistical Computation and Simulation, DOI: 10.1080/00949655.2014.915032, 2014.

海洋調査

海洋の生態系の調査データは,調査船を出して浚渫し得られた種ごとの個体数,重量などからなるが, 個体数0のケースが圧倒的に多く,このことが解析を困難にする.これを克服するには適切なモデルを 導入して背後にある現象を浮かび上がらせる必要があるが,本研究では確率微分方程式モデルを導入する ことによって,本調査の主目的であったトロール漁の影響を種ごとに明らかにすることができたのが次の論文である.

  1. M. Naka, R.Shibata and R. Darnell, Detection of ecological disturbances to seabed fauna through change of weight distribution. J. Japan Statist. Soc.,42, 185-206, 2012

同音語

同音語を区別するのにアクセントがどの程度の役割を果たしているのかを明らかにしたのが次の論文です. また,大阪アクセントの方が同音語の弁別に役に立っていると思われていたが,データ解析の結果はそうでは ないことを示しています.

  1. 柴田武,柴田里程,アクセントは同音語をどの程度弁別しうるか —日本語・英語・中国語の場合—, 計量国語学, 17-7 1-11, 1990
  2. 柴田武, 柴田里程,杉藤美代子,高際陸, アクセントの同音語弁別力 —東京アクセントと大阪アクセント—, 計量国語学, 19, 277-292, 1994