2013.10/28 多変量解析の基礎事項
具体的な式は教科書を見て欲しいがばらつきの表現のパラメーターとしてまず覚えなければならない定義を以下に。その他にも難解な言葉は多いがまず以下を丸暗記しなければ多変量解析の教科書を読むときに苦労する。
偏差:測定値と平均値の差
変動(偏差平方和):偏差の平方和
分散:
偏差を平方してたし合わせ、その値を足し合わせたサンプル数で割った値である。すなわち変動をサンプル数で割った値である。なぜ偏差の平方和にしているのか。測定値と平均値の差をそのまますべて足し合わせると0になるからである。いつも0では情報が消えたのと同じなので、平方和をとってばらつきの尺度にしているのである。サンプル数で割ったときには標本分散と呼ぶ、という説明も教科書には載っている。これは(サンプル数-1)で分散を求めることもあるからだ。これも理由無く書いている。昔電卓の標準偏差を求めるキーにNとN-1の2種類存在するのを見て奇異に思ったことがあるが、サンプル数が少ないときにN-1を使う、とその道のプロが教えてくれた。なぜかと尋ねたら、Nではサンプル数が少ないときにばらつきを過小評価することになるからN-1で割るのだ、と説明してくれた。意地悪くNとN-1の境界の個数は、と尋ねたら答は返ってこなかった。
ここで大事なことは、多変量解析では平均値よりも分散の値が主役になる。分散は測定値の持つ情報量を表現している、という説明まで教科書に書かれている。
標準偏差:
分散の平方根。平均値と同じ次元になる。標準偏差などと命名されているので普通の感覚で導かれた式だと思っていたが、データの平方和の平均(分散)を平方根にした、すなわち平方して求めた値を平方根で元の次元に数値を戻しただけである。なぜ平方根にしたのか、といえば平方して和を求めたので平方根にしただけである。初めてこの言葉に触れたときに、平方根を取る理由が分からなくて大変難解に感じた。単なる定義である。
共分散:
2変数間の関係を表す分散で、(x1-xの平均値)*(y1-yの平均値)+(x2-xの平均値)*(y2-yの平均値)-――とたし合わせサンプル数で割った値。これも情報量を表現するための定義。
相関係数:
共分散をそれぞれの変数の標準偏差で割った値。標準偏差や共分散が定義されると相関係数という値が何か意味ありげにこれらの数で表現される。科学の数学表現を考えている人たちは表現が美しくなるようにいろいろ定義を考えてゆく。専門外がそれを理解しようとする時に美しさよりもそれぞれの由来を考えて悩む。
分散共分散行列:分散と共分散をまとめた対称行列のこと。
相関行列:相関係数の対称行列のこと。
pagetop