2023.02/14 データサイエンスとは何か
4年ほど前のコロナ禍直前に、アカデミアではデータサイエンスの講座設置ブームがあった。当方が社会に出たときに、情報工学科の設置ブームがあった時と少し異なり、一過性であり最近沈静化している。
そもそも情報工学科があるというのにデータサイエンス学科を新たに設置する発想を理解できなかった。さらに最近不思議に思うのは多変量解析も機械学習の一つ、などと説明している著書があることだ。
多変量解析のアルゴリズムを用いる機械学習はあっても良いが、多変量解析のすべてが機械学習ではない。さらに最小二乗法も機械学習のアルゴリズムになりうるが、機械学習にすべて含まれるわけではないのだ。
理由は、データマイニングにおいて、コンピューターには計算部分だけ依存し、解析は人の頭で行う多変量解析の手法が50年ほど前から行われていたからである。グラフ用紙だけで行う勘ぴゅーた方式もある。
勘ぴゅーたの性能が今でも向上しているか確認するために、早期退職前PETボトルをベースにした多成分ポリマーアロイ再生材の開発をエクセルを使った多変量解析で行っている。
中国で再生材の開発を行ったので手元にソフトウェアーが無かった。それでエクセルと頭脳を使って材料開発を行ったのだが、勘ピューターは冴えていた。
そもそもデータサイエンスは、サイエンスの意味が、材料科学という時の科学と少し異なることに気がつかれているだろうか。サイエンスという意味は科学であり、ややこしいことを書いているが、材料科学では、材料が関わる、あるいは材料そのものの真実を明らかにする研究が主体である。
すなわち実体が科学の対象として、存在するのだ。ところがデータサイエンスでは、数字の関係性について推論を科学的に展開する研究を行い、実体は科学で検証されて初めて現れる。
これがデータサイエンスのサイエンスと材料科学という時の科学と大きく異なるところである。数字を扱うのでデータサイエンスは数学と捉えると、これまたおかしなことになる。数学を研究実現のために、あるいはその成果を実用化するために用いるが、データサイエンスは数学ではないのだ。
本日のこの欄を理解できた方の頭脳は40歳より若い柔軟性を持っている。恐らく孔子のような人は理解できないかもしれない。40過ぎても惑うことができなければデータサイエンスを理解できない、と思っている。
惑うことは未熟を意味しない。新しいアイデアが湧き出てきても惑うのだ。ゲーテは老人になっても少女に恋をした詩を書いているが、技術者はいくつになっても新しい技術にチャレンジし続ける。データサイエンスの導入について悩んでいる方はご相談ください。
カテゴリー : 一般
pagetop