活動報告

新着記事

カテゴリー

キーワード検索

2023.01/28 多変量解析(3)

技術開発で遭遇する多因子問題は数値を扱う。数値化できない場合には標準モデルを設定し、それを基準にして量的問題に変換して数値化し実験を行う。


ゆえに、たいていの問題では、数量を処理して因子間の相関に注意しつつ、目的とする変量を最適化できるように改良を繰り返す作業でそれを解くことになる。


基本機能を明確にでき、その信号因子があれば、信号因子のノイズに対するロバストをあげる制御因子をラテン方格に配置し実験を行い、分散分析により有意となった制御因子を見出し、それを用いて基本機能のロバストをあげる改良を行う手法はタグチメソッドである。


これは昔ながらの多変量解析と大きく異なるが、それでも多数の因子を整理して問題を解くという視点では多変量解析と呼びたくなる。これを多変量解析と呼んだ瞬間に言葉の概念の拡張が行われることになる。


奥野先生の教科書に書かれた内容だけを多変量解析と呼ぶべきか、それともタグチメソッドも多変量解析の一つとしてとらえるのか、これを誰かが明確に決めなければ、データサイエンスの学問も混乱する。


ディープラーニングのひどい教科書によると統計手法を用いない機械学習をディープラーニングと呼ぶ、としているものもある。しかし、得られた結果の妥当性を議論するときに、何らかの統計手法を用いることになるので、この概念には無理がある。


さらに驚くのは、1ページにわたる説明を理解すると、重回帰分析には統計手法を用いる場合と用いない場合があり、後者は機械学習の一つ、などという説明になっているものもある。


この説明が間違っていることは明らかであり、重回帰分析を用いるときに回帰の精度を上げるために変数をたくさん取り込んで行くと、変数間の相関に高い組み合わせが現れることになる。


これをどのように処理するのかは重回帰分析の重要なスキルとノウハウの一つであり、ただ回帰の結果をあげることが正しい処理とは限らないのだ。


データサイエンスという学問の説明について一度整理する必要があると思っている。当方が社会に出たときにアカデミアで情報工学設置のブームがあった。5年ほど前からデータサイエンスの学科設置がブームであるが、看板の説明が怪しければ情報工学同様におかしな学問になる。当方は昔からデータサイエンスという言葉を使ってきたがーー

カテゴリー : 一般

pagetop