統計的因果推論に関する研究

IT技術の発展に伴い大量のデータが収集・蓄積されるようになったことで,様々な場面においてデータに基づいた意思決定を行うことが一般的になってきています.また,多変量解析や機械学習の手法を用いてデータを分析するためのソフトウェアも多く開発されており,データサイエンスの専門家でなくともデータ分析が比較的容易にできる環境が整備されつつあります.しかし,データを分析する際に,分析の目的やデータの背後にある構造を考えずに分析をしてしまうと,分析の結果として得られた知見が誤ったもの・無意味なものになってしまう危険性があります.

統計的因果推論とは,何らかの行動をした場合の効果を統計的に分析する方法に関する理論で,理論・応用の両面で盛んに研究されています.例えば,「広告メールを顧客に送付するという行動をとったときに,それがどの程度売り上げ増加に寄与するか」といった問題に対して統計的なアプローチで解決を試みます.統計的因果推論の理論には,因果ダイアグラム・構造的因果モデルに基づくもの,潜在反応理論に基づくものなどがあります.また手法には傾向スコアに基づくものや操作変数を利用するものなどがあります.このように一つの問題に対して様々なモデル・手法が提案されている背景には,

  • 因果効果の数学的な定義の仕方は一意ではないこと
  • どのように因果効果を定義したとしても,データの生成メカニズムに対して何らかの仮定を置かない限り因果効果の推定は難しく,また仮定の合理性の検証も難しいこと

などが挙げられます.

本研究室では,主にベイズ統計学的な視点から統計的因果推論の問題を扱い,新しい推定手法の開発やその性能の実験的・理論的解析を行っています.

ベイズ的スパースモデリングに関する研究

計測技術・ネットワーク技術の向上に伴い多様なデータを収集・分析することができるようになりました.伝統的な統計学や多変量解析の研究では,変数の個数はデータの個数(サンプルサイズ)よりも小さい状況を想定していましたが,最近のデータ分析では,その大小関係が逆転しているような状況も少なくありません.このような状況で,通常の統計解析手法や多変量解析の手法をそのまま適用すると,あまり意味のない結果が導かれる可能性があります.しかし,見かけ上は変数の個数が多いように見えても,本質的に意味のある変数の個数は見かけよりもずっと少ないということもあります.データをもとに,背後にある本質的でシンプルな構造を明らかにする方法に関する研究がスパースモデリングに関する研究です.

ベイズ的スパースモデリングでは,スパース性を誘導するような事前分布を仮定して事後分布を計算することで,本質的な構造を明らかにすることができます.また,事後分布は非常に多くの情報を含んでいるため,実験計画に用いるなど様々な活用方法が考えられます.本研究室では様々な問題に対するベイズ的スパースモデリングの応用や,事後分布を活用する方法に関する研究を行っています.

符号理論の分散コンピューティングへの応用に関する研究

近年,機械学習などで処理をするデータの量は飛躍的に増加していて,コンピュータ単体の性能を向上させるだけでは高速に処理をすることが難しくなっています.そこで,データを多数のコンピュータに分散して並列処理を行う分散コンピューティングの研究が盛んに行われています.分散コンピューティングにおいては,コンピュータの数が多くなれば処理時間は単調に減少するように思われるかもしれませんが,実際にはある一部のコンピュータの計算が遅いと,全体の処理時間が増加する可能性があります.また,分散処理を行う際に処理するデータを配布する際の通信量がボトルネックとなって,全体の処理時間が増加する場合もあります.これらの問題を符号理論の技術により解決をしようとする研究が注目を浴びています.

一言に分散コンピューティングと言っても,具体的にどのような計算を行うかは目的によって変わってきます.また,コンピュータの数やコンピュータ間の通信環境など,システム環境によって,システムの問題点も変わってきます.本研究室では,計算したい対象,計算アルゴリズム,システム環境を考慮した適切な符号理論技術を構築する研究を行っています.