文字サイズ + 標準
トップページ教育情報の公表 ≫ 博士学位論文公開 詳細(甲第15号)

博士学位論文公開 詳細(甲第15号)

学位記号番号
授与年月
氏名
専攻
甲第15号
2015/3/25
塚越  清
環境・生命工学
題  目

確率密度関数の推定としての正規混合分布の解析とその周辺に関する研究

論 文 要 旨

 世の中には膨大なデータが氾濫し、我々はデータの洪水に巻き込まれているといっても過言ではない。 しかしながら、いくら大量の情報を与えられてもそれは複雑な世界の一部分を切り取った不完全な部分情報に過ぎない。数理統計学の目的はその型、および母数の観点から母集団分布を明らかにすること。そのため我々は、データの背後にある必要な構造を適切に抽出する必要がある。そのための様々な情報処理手法が研究されている。 

 その一つとして確率密度関数の推定がある。確率密度関数の推定としてはNonparametricな方法としてHistogram,Kernel法による方法がある。これらの方法はBand幅が一定でデータへの適応性をもう少し高めたいと思い、knotsの選択とその多重度を決めることにより、よりデータへの対応が柔軟になる方法としてVariation Diminishing Spline 関数による方法を定案する。また、この方法の利点は、knotsとnodesからその特性値が計算でき、データの縮小にも役立つ。

 環境電磁波の問題、音響モデル、水産資源の年齢別漁獲データ、花粉飛散データ、医薬品に対する臨床細菌検査における耐性菌の存在などの観測データは、しばしば異なったグループに分割され、その特徴は異なった均一でない分布に従い、全体の母集団は混合分布になり混合分布の解析が必要となる。

 このように生物学、物理学、社会科学など幅広い分野において、一つの母集団をいくつかの部分母集団に分離する問題は混合分布問題としてその重要性が認識されている。

 混合分布は統計学では古い歴史をもち、統計学におけるさまざまな研究の積み重ねがある。1,800年代の終わりから、Pearsonなどから研究され、様々な手法が適応されている。

 混合分布の問題は加重和という単純な形をしているにも関わらず、モデルの非線形性などから解析は複雑になってくる。混合分布では、混合分布を構成する個々の要素分布の推定問題に帰着される。

 これは、全体としてはパラメータの推定が困難な推定問題を解くことに帰着する。混合分布モデルの問題点は、パラメータの推定にある。パラメータの推定法は、様々考えることができるが、一般的には非線形最小二乗法によるl2ノルムを最小にする問題に帰着させるか、尤度関数を用いて最尤推定量を求める問題に帰着する。

 尤度関数を用いて最尤推定量を求める方法にはEMアルゴリズムがある。しかし、これら2つの手法には初期値の選択という問題点がある。上手く、初期値の選択をしなければ数値計算の結果の収束が望めなくなることがある。また、初期値を与える必要から、当然要素分布の数が解っていなければ計算は不可能となる。

 本論文では、要素分布の数が不明の場合の混合分布のパラメータ推定について、信号処理でよく用いられるWavelets手法を用いる。特に、正規分布関数と関連する(正規分布関数の1次導関数が0の点では平均を与え、2次の導関数が0の点は標準偏差に関連している。) Gaussian Waveletsを用いる。

 Waveletsのスケールに対するパワースペクトラムが最大になるところでは信号のパワーが最大であるところを基準として要素数とパラメータの決定を行う。 一次のGaussian Waveletsが0になる点は極大値、極小値を与えるという性格から平均値の位置を求められる。また、二次のGaussian Waveletsが0になる点は変曲点を示す性格から標準偏差を求められる。また、解析においては花粉飛散データと臨床細菌検査における耐性菌の観測データを用いて非線形最小二乗法による推定、EMアルゴリズムによる推定と比較してこの手法の有効性を検証する。

 花粉飛散データは関東近辺に於いては、春先は杉と檜の花粉の飛散が確認され、天候により、飛散状況も異なり、そこに中国からの黄砂も混ざってくる。

 臨床細菌検査は耐性菌のデータでS、M、Iの3種類に分類される。ここで提案する方法は、非線形最小二乗法による推定、EMアルゴリズムによる推定と異なり初期値が必要なく、従って要素数不明の場合に適用できる。

 統計では、混合分布モデルは、測定値セットが個々の観測データが属する部分母集団を識別することを要求せずに、母集団内の部分母集団の存在を表わすための確率モデルである。

 形式的に、混合分布モデルは、母集団の中で観測データの確率分布を表わすことに相当する。しかしながら、「混合分布」に関連した問題は部分母集団の中から母集団の特性を引き出すことに関係があるが、「混合分布モデル」は同時に母集団についての観測データだけを与えられた部分母集団の特性に関する統計的推測を作るために部分母集団の同一性情報なしで使用される。

 混合分布モデルを観測データに適合させるいくつかの方法は、仮定された部分母集団の同一性が個々の観測データ(あるいはそのような部分母集団への軽重)に起因すると考えるステップを含んでいる。

 本論文では、これらの事柄を、 Kernel関数を用いた確率密度関数の推定問題、Spline関数を用いた確率密度関数の推定問題との、要素関数の1次結合という類似性から考察した。Kernel関数を用いた確率密度関数の推定問題におけるBand幅の取り方、Spline関数を用いた確率密度関数の推定問題のknotsの配置、Wavelets解析におけるTranslate,Scaleの取り方には相通じるものがある。

 その応用として、品質管理の問題では層別手法としての有効性が確認され、耐性菌の解析では菌の薬への感性の判別が可能になり、花粉の飛散状況の解析では様々な花粉の飛散時期とその量の比率の推定が可能になった。

審査委員
  
職名
氏名
  
職名
氏名
主査
教授
鍾  寧
委員
教授
岡野 素之
委員
教授
井田 憲一
委員
准教授
松本 浩樹
学外委員
教授
山城 光雄
論文審査の要旨

 環境電磁波の問題、音響モデル、水産資源の年齢別漁獲データ、花粉飛散データ、医薬品に対する臨床細菌検査における耐性菌の存在などの観測データは、しばしば異なったグループに分割され、その特徴は異なった均一でない分布に従い、全体の母集団は混合分布になるため混合分布の解析が必要となる。このように生物学、物理学、社会科学など幅広い分野において、一つの母集団をいくつかの部分母集団に分離する問題は混合分布問題としてその重要性が認識されている。

 本論文では、要素分布の数が不明の場合の混合分布のパラメータ推定について、信号処理でよく用いられるWavelets手法を用いる。特に、正規分布関数と関連する(正規分布関数の一次導関数が0の点では平均を与え、二次の導関数が0の点は標準偏差に関連している)Gaussian Waveletsを用いる。

 Waveletsのスケールに対するパワースペクトラムが最大になるところでは信号のパワーが最大であるところを基準として要素数とパラメータの決定を行う。一次のGaussian Waveletsが0になる点は極大値、極小値を与えるという性格から平均値の位置を求められる。また、二次のGaussian Waveletsが0になる点は変曲点を示す性格から標準偏差を求められる。また、解析においては花粉飛散データと臨床細菌検査における耐性菌の観測データを用いて非線形最小二乗法による推定、EMアルゴリズムによる推定と比較して提案手法の有効性を検証する。

 花粉飛散データは関東近辺に於いては、春先は杉と檜の花粉の飛散が確認され、天候により、飛散状況も異なり、そこに中国からの黄砂も混ざってくる。また、臨床細菌検査は耐性菌のデータでS、M、Iの3種類に分類される。ここで提案する方法は,非線形最小二乗法による推定、EMアルゴリズムによる推定と異なり初期値が必要なく、従って要素数不明の場合に適用できる利点がある。

 統計では、混合分布モデルは、測定値セットが個々の観測データが属する部分母集団を識別することを要求せずに、母集団内の部分母集団の存在を表わすための確率モデルであり、形式的に、混合分布モデルは、母集団の中で観測データの確率分布を表わすことに相当する。しかしながら、「混合分布」に関連した問題は部分母集団の中から母集団の特性を引き出すことに関係があるが、「混合分布モデル」は同時に母集団についての観測データだけを与えられた部分母集団の特性に関する統計的推測を作るために部分母集団の同一性情報なしで使用される。混合分布モデルを観測データに適合させるいくつかの方法は、仮定された部分母集団の同一性が個々の観測データ(あるいはそのような部分母集団への軽重)に起因すると考えるステップを含んでいる。

 本論文では、これらの事柄を、Kernel関数を用いた確率密度関数の推定問題、Spline関数を用いた確率密度関数の推定問題との、要素関数の一次結合という類似性から考察した。Kernel関数を用いた確率密度関数の推定問題におけるBand幅の取り方、Spline関数を用いた確率密度関数の推定問題のknotsの配置、Wavelets解析におけるTranslate,Scaleの取り方には相通じるものがある。

 その応用として、品質管理の問題では層別手法としての有効性が確認され、耐性菌の解析では菌の薬への感性の判別が可能になり、花粉の飛散状況の解析では様々な花粉の飛散時期とその量の比率の推定が可能になった。

» 博士学位論文公開一覧へ