2013.10/29 主成分分析概略
統計学の目標が、多数の複雑なデータから本質を見抜くことにある(注)ならば、主成分分析を一言で言うと、データを見渡せる場所を探し、そこからデータを調べる方法となる。
データを見渡せる場所、とは、データには誤差がつきものなので、データそのものの変動が最大になっている場所となる。人間が集めるデータは、ある仮説に基づき集められる場合が多いが、その仮説で集められたデータの変動がいつも最大になるとは限らない。これは現象を科学という視点で見たときに全てを見通せるとは限らない、ということを意味している。
科学的に説明がつかない現象も含めて目の前のデータを集めなければいけないのが、毎日の実務作業である。開発業務では、とにかく新製品の納期に合わせて、技術開発を進めなければならない。そのため基礎科学の視点で全てを解明しながらデータを集めることができなくなる。
例えば界面活性剤の特性値にはHLB値、曇点、分子量、融点などがあり、カタログを見るとこれらの値がデータとして示されている。界面活性剤の教科書には、HLB値で界面効果を表現できるとある。しかし、カタログの値を主成分分析してみると、HLB値の視点と分子量その他の項目を寄せ集めたデータが第Ⅰ主成分として出てくる。
すなわち、カタログの項目とは異なる別の項目でデータを整理でき、その整理されたデータ表では、元のカタログデータの変動よりも、データの変動が大きくなっている、それが第Ⅰ主成分になる、ということである。
もう少し手続き的な言い方をすれば、カタログ値の項目で並べられたデータをコンピューターで処理すると新たな項目のデータ表に置き換えられ、元のデータ表の変動と新たなデータ表の変動を調べると新たなデータ表の変動が大きくなっている。このようなデータ変換の方法とその変動が最大となったデータ群を元に解析する手法が主成分分析という手法である。
界面活性剤のカタログ値を主成分分析にかけると、HLB値と相関の高い項目には、HLB値とそれ以外の因子の情報を加えたデータになっている。この軸ともう一つ別の軸を持ってきてサンプル集団をプロットすると、HLB値で分類した場合と異なるサンプル群が見えてくる。
電気粘性流体をゴムに封入したときに耐久性が悪くなる問題を界面活性剤で解決したときに主成分分析で分類された群を利用して問題解決を行った。HLB値だけでは隠れてしまっていた界面活性剤が、主成分分析を行い新たに作成した特性表から答として選ばれてきた。
このようにデータ表を処理して別のデータ表を作るのだから、行列計算になる。ゆえに主成分分析に線形代数が出てくるのである。
(注)タグチメソッドのロバスト設計という目標と異なる。タグチメソッドが統計ではない、と言われるゆえんである。技術と科学の目標の違いである。
(補足)界面活性剤の機能をモデルで説明するときにHLB値は便利で分かりやすい。しかし現実の複雑系ではHLB値だけで界面活性効果を制御できない。界面活性剤はHLB値である程度のあたりをつけることは可能だがそれだけで解決できない問題が存在し、やってみなければ分からない世界である。しかし、このような世界で主成分分析は一つの手がかりを与えてくれる。またこの手法で予想外の主成分が見つかったりすると貴重なノウハウになる。しかし科学偏重の風土の会社では主成分分析を用いたことを隠しておいた方が良い場合がある。例えば界面活性剤をHLB値以外の因子で選択した、という説明は難しく怪しい方法と言われる場合がある。
pagetop