活動報告

新着記事

カテゴリー

キーワード検索

2013.10/23 多変量解析とは(1)

調査や実験を行うときにデータを収集するが、データの収集は通常計画的に行われる。この時目的変数をyにしてx-y座標系にデータをプロットするために一因子だけのデータを集めるというのは稀で、多数の因子についてデータを収集する。例えば洋服の開発では、人間の体形データが必要である。この時身長以外に胸囲や腹囲、腕の長さ、座高など複数の項目すなわち因子についてデータが収集される。

 

集められたデータは、個人別にまず整理される。この時エクセルなどの表計算ソフトを使用し一覧表にまとめたり、予め用意しておいたデータベースにデータを入力してデータの組み替え加工をしやすいようにまとめたりする。

 

このように複数の項目について集められたデータ、すなわち多変数のデータのことを多変量データと呼び、それを解析して多変量データの中に隠れている各項目の関係その他を解析する手法が多変量解析である。最近ビッグデータ時代といわれているが、インターネットの世界からある目的のために仮説を立て因子を選びロボットを使い集められたデータも多変量データであり、これを多変量解析しているだけである。

 

ゆえに先日30年以上前のブームの再来と表現したが、30年前インターネットは無かったので再来と言っても中身は異なる。昔は多変量データを集めるにも大変な労力が必要になったが、今はインターネットの世界にロボットを放ち、容易に多変量データを集めることが可能である。

 

30年前は3年程度で下火になったが、恐らく10年以上続くブームになるかもしれない。あるいは、オタクのアニメ同様に様々なビッグデータを活用した各種トレンド解析が企業だけで無く個人の生活に入り込み一つの文化になるのかもしれない。そのようになったらタグチメソッド以上の文化大革命である。

 

タグチメソッドは技術系の開発メソッドとして定着し、企業によっては品質工学社内大会を行っているところも多い。しかし、実際のところ各企業でタグチメソッドを積極的に推進しているのは、残念なことにタグチオタクだけである。一般の生活にまで浸透するようなムーブメントになっていない。もし家庭の主婦がSN比を意識して料理を作るぐらいのブームになれば、オフクロの味も復活するのかもしれない。

 

因子をラテン方格に割り付け、実験の一部実施で因子の関係を導く実験計画法も多変量データを扱うので多変量解析の一つに入れても良いが、統計学では実験計画法は別のカテゴリーで扱い多変量解析には入れない。ゆえにタグチメソッドでL18以上の実験を組み外側に3水準ほどの誤差因子を割り付け多変量データを扱っていても、多変量解析とは言わない。

 

また実験計画法でデータを収集するときには、予めラテン方格に割り付けられた因子の水準で実験を計画的に行い、実験量を減らしても因子の寄与率等が計算できる仕組みが用意されているので実験手順に制約ができるが、多変量解析では、集める試料の個数と調査項目が決められておれば無作為にデータを収集すればよく、データ収集の時に実験計画法のように気をつかう必要は無い。だからロボットに機械的にデータを集めさせることが可能となる。誤差を調合するときに入れ忘れた誤差の影響を受けないのかびくびくする必要も無い。変動も重要なデータとして扱う。

 

但し、集められたデータに対しどのような手法で解析を進め、どのような結論を導き出すのか、すなわち仮説は予め立てておいた方が好ましい。データを集めてから多変量解析の手法を検討する手順で進めている場合も見られるが、解析された結果を考察するときに調査項目すなわち調査に取り上げた因子に不満が出て、せっかく収集したデータを棄却したりしてムダが出たりする。そもそもそのような解析では解析結果の信頼性が怪しくなる。ビッグデータの効率的な収集と解析に仮説は重要な役割がある。

 

 

 

カテゴリー : 一般 連載

pagetop