2023.09/15 線形回帰
この10年、マテリアルズインフォマティクスのブームだったが、相関関係による回帰が主に利用された手法ではないだろうか。データ駆動により見出された数式なり学習機械を用いて得られる回帰と分類の効果が、データサイエンスにより現象の理解に貢献する,というのがマテリアルズインフォマティクスである。
その中で線形回帰は、データサイエンスを意識せず昔から使われてきた手法であるが、せっかくこの10年データサイエンスを意識したので、もう一度基礎から見直していただきたい。
ポリマーアロイの設計においても線形回帰は、エクセルのソルバーで簡単に活用でき、新素材開発に貢献するので、その正しい意味をよく理解しておきたい。
y=ax+bは小学校の算数でも出てきそうな式であるが、あまりにも簡単ゆえに甘く見ている人が多い。線形回帰ではbに誤差項が含まれてくるのだが、2つの意味がある。
一つは誤差を認めたうえで、yを予測するための式、という意味であり、他の一つはyとxにはあらかじめ式で示された形式知に基づく関係があり、何らかの影響で誤差が発生している、という意味である。
前者と後者は同じことを言っているのではないかとか、前者と後者の意味の違いがよく分からない、と言ってはいけない。よく読み返していただきたい。
前者では、単なる誤差を含んだ予測を行うための式でしかないが、後者ではyとxの間に科学の形式知で保証された関係があるので、誤差項には、深く解析すると意味のある何らかの情報が含まれている、と踏み込んでyとxの関係を述べている。
すなわち、前者における誤差項は測定ばらつきなどの統計的に純粋な誤差であり、その誤差を解析してみても何ら現象に秘められた情報を取りだすことができないが、後者では誤差を考察することにより、単なる統計ばらつき以外の情報が見えてくる。
線形回帰で残渣分析を行う必要があるのはこのためであり、現象に隠れた何らかの情報が誤差に含まれていないか考察する習慣を身に着けたい。
来週開催される難燃化技術セミナーでは事例をもとにこのあたりを説明するので興味のあるかたは弊社へ問い合わせていただきたい。
50年近く前からマテリアルズインフォマティクスを実践し、それが原因でFDを壊されるような嫌がらせを受け、それを組織が隠蔽化するというので命が惜しくて転職している。マテリアルズインフォマティクスは半世紀ほど前には非科学として嫌われた手法である。
企業内の事件であり、なかなかすべてを表に出せないので、マテリアルズインフォマティクスと科学の微妙な関係について詳しく書けないが、昔はその手法を忌嫌う「科学こそ命」な研究者が多かった。
仮説ではなく学習機械で問題解決する方法は50年近く前から行われていた。来週のセミナーではその証拠もご披露する。それだけではない。最近のAIの手法についてプログラムを組み実験を行った結果との比較も交えて、「ある手法」の優位性を解説する。
「ある手法」とは、アレである。ただしここでは阪神の優勝の意味ではない、50年以上前から知られているアレである。アレとAIとの比較は、珍しい発表だと思っているので問い合わせていただきたい。アレのほうが使い方によりAIより便利である。
カテゴリー : 一般
pagetop