2024.03/13 データサイエンスの効果的活用方法(2)
優秀なA君の一声で英文のマニュアルを前に当方が紀伊国屋書店へ走った話は、以前この欄に書いてあるので、技術データの集約に主成分分析と重回帰分析が使えそうだ、という結論を出した理由を公開する。
多変量解析には様々な手法があるが、日々の開発業務に多変量解析を導入したいと思ったなら、主成分分析と重回帰分析をマスターしておくと良い。難しくない。
その他の手法も実務に使えるが、ほとんどはこの二つの手法で問題解決できる。あとは、マハラノビスのタグチメソッドでも勉強すればよい。判別分析の代わりに使える。
このような観点から、弊社のサイトで主成分分析と重回帰分析のプログラムを公開しているので活用していただきたい。無料開放している理由は、Pythonを使えば数行でプログラミングできるソフトウェアーだからである。
但し、弊社のサイトの手法では、IBM3033の統計パッケージの計算方法に合わせてある。実は行列演算のアルゴリズムの違いで固有値の値が少し変わる。大勢に影響はないが、MZ80Kを買うまでお世話になったIBM3033(注)に敬意を払ってそのアルゴリズムを真似ている。
ただし、弊社のサイトのプログラムはJAVAスクリプトで作成している。だからIBM3033と同じプログラムではない。同じプログラムではないが、学位論文を書くときに用いたデータを使って、計算結果が同じになるのか検証している。
(注)配属された研究所では、仮説に基づく実験が強制された。誰でも仮説を立案できるわけではない、という思想があり、仮説立案能力が研究者として必須の能力とまで言われる管理職もいた。さらに高卒がダメなのはその能力が無い、という誤解もあった。義務教育では数学や理科でその方法を学んでいる。このような風土だったので、実験データは仮説に基づき集められていた。
しかし、実験データというものにはばらつきがつきもので、そのばらつきの中には、仮説立案の時に気がつかなかった情報が入っていることがある。それは、未知の機能であったり、仮説に反する現象を引き起こす因子であったり、有象無象の情報である。仮説に基づく実験結果をただグラフ化して満足しているのは二流以下の研究者である。
入社した時には某大学の教授になられていた方の逸話が残っていた。その部長は、自説に合わないデータを受け付けなかったという。ある担当者の話では、理論曲線から外れた実験データをグラフに書き入れていたら、その点が理論曲線に合うまで残業で実験をさせられたという。この部長に指導される学生は不幸だと思った。
STAP細胞の事件で不思議に思うのは、STAP細胞の再現をできなかった話はニュースとなったが、実験の中で観察された現象について詳細なコメントが公開されていない。自殺された方が、STAP現象というものが観察された談話をインタビューで述べておられたが、その詳細は語られなかった。これからの科学をささえてゆく若い人は、この事件について検証した方が良い。特に科学ライターを目指される方には否定証明なるもののいい題材である。仮説により集められた実験データには、現象に潜む仮説以外の機能なり因子なり未知の知識も隠されている。
カテゴリー : 一般
pagetop