2013.10/27 多変量解析の前に
多変量解析を理解する為には、統計の基本的考えを理解していなければならない。統計の基本とは、現象を把握するためにサンプリングを行い、サンプリングされたデータから現象を推定する、という考え方である。
対象とする現象の一部から抽出したデータで現象を推定しようとするから、誤差の問題が発生する。誤差とは、自然で起きている実際の値Xと、サンプリングされて測定されたデータxとの差である。ここで問題が起きる。Xを知りたいからサンプリングしたのだが、Xは絶対に知ることのできない値である。これがよく分からない人がいる。世の中にはどんなことをしても知ることのできない事柄がある、という現実をまず認めることから統計学は始まる。
知ることのできないXを推定するために、サンプリング数を増やして平均をとり、xの平均値~xをXと等しいのではないか、と推定する。統計学の本を読むと母集団Xの値を推定するためにサンプル集団の平均値を求める、とさらっと書いてある。統計という学問を誤解する人はこの段階ですでに“気がつかずに”つまずいている。どのような努力を払っても実際の値が分からないから平均値でその値を推定している、ということは大事な考え方である。サンプリングの仕方で平均値もばらついているのである。例えばサンプリング数を大きくしてゆくと、平均値のばらつきも小さくなってゆき日常生活で無視できるばらつきのレベルになる。
実際の値をばらつく平均値で推定するのだから、サンプリングしたデータ全体の変動が気になってくる。それを表わしているのが偏差とか分散とか呼ばれる値である。平均値はサンプリングデータの総和をサンプリングした個数で除する、という手順は小学校で習うので違和感は無いが、偏差とか分散あたりで難しく感じ始める。そして教科書を読み進むと線形代数が出てくるのが多変量解析の教科書で、そこまで読み進むと教科書を投げ出し、統計学は難しい、となる。
おおよそ自学自習の経験が少ないと不得意な内容を読み進めようとしないのが凡人の常である。実はどのような難解な本でも10回程度我慢して読むと何とかわかったような気がしてくる。昔の格言で「読書100ぺん――」というのがあったが、100回まで読まなくても10回程度で分かり始める。
人によりあるいは難しさによりその回数は変わるが、我慢して何度も同じ本を読む習慣を凡人が身につけるとどのような分野でも努力すれば理解できるという自信がつく。日科技連の「多変量解析」という本は6回程度読んで理解でき、重回帰分析のプログラムを組むことができた。そして偏差とか分散について2回目あたりで教科書の説明が専門外の読者を考えていないことに気がついた。日科技連の「多変量解析」は専門書として優れているが、入門書として不適格な書物だと思う。まえがきに、「専門外の人は10回読んでみてください」と注意書きを書くべきである。
基本統計量というパラメーターは統計という学問をうまく体系づけるために考え出されたパラメーターである。偏差の値については、小学校高学年あたりで最大値と最小値の差であると習う。要するにサンプリングしたデータのばらついている様子を大雑把につかむにはこの説明は便利だ。中学校になり、標準偏差を習う。そして分散という値についてもその説明文で接する。すなわち統計量にはデータのばらつきの表し方がいくつもあるのである。そして必要に応じてそれらを使い分けているだけである。この感覚が統計学を理解するときに大切である。
故田口先生は、それらをSN比で統一し、タグチメソッドの体系を創り上げたスゴイ先生だ。データのばらつきは、誤差因子により引き起こされるので、考えられる誤差因子のすべてを調合してSN比を求めるのがタグチメソッドのコツである。SN比が最大になるように、すなわち誤差因子に対してばらつきが小さく”安定に”なるように制御できる因子を調整してばらつかない機能部品を開発する、これがタグチメソッドにおける偏差の考え方である。そして誤差に対して安定に機能が発現するように材料設計する方法がロバスト設計である。タグチメソッドの美しさは、誤差-ばらつき-ロバスト設計という考え方で統一されている点である。難解な統計学と一線を画する品質工学すなわち技術という学問である。
田口先生がアメリカでタグチメソッドを指導されているときに、相関係数をラテン方格に割り付けて実験計画法を行うアイデアを思いつき、高純度SiCの開発に使用していたが、SN比までアイデアを拡張することは考えなかったので、田口先生のスゴサを身にしみて感じている。
データの散らばり具合をタグチメソッドではSN比で表現し直感的にロバストをあげる、という考え方を分かりやすくしたが、多変量解析では、分散とか、共分散、偏差平方和などいろいろな言葉が出てくる。しかし、これらが単なるデータの散らばり具合を表すパラメータとわかれば理解が早い。あとは定義を覚えるだけである。すなわち統計学という体系を創り上げるための決め事をまず覚えなければならない、ということ。頭の善し悪しでは無いのである。SN比でそれらを統一した田口先生は改めてスゴイと思う。
多変量解析を理解する為に統計学を学ばなければならない。統計学は科学分野の学問である。技術のタグチメソッドと異なり、真実を明確にするための約束事=言葉の定義を覚えなければ理解できない。タグチメソッドはロバスト設計のコツを伝承すれば誰でもできるようになる。技術だからである。科学分野の教科書はどれも難しい。それは、哲学書であり、その世界感を理解する為にその世界で使われる専門用語=知識を覚えなければならないからである。考え方の理解は知識の量に左右される。
pagetop