活動報告

新着記事

カテゴリー

キーワード検索

2023.01/12 データサイエンスのデータ

マテリアルズインフォマティクスはじめデータサイエンスの大流行であるが、そもそもデータサイエンスが何か、あるいは科学とは何か、を正しく理解しているのだろうか。


まず、科学が産業革命を加速したことを知らない人が多い。1800年前の女性科学者が、と書いている某女性「科学評論家」の記事を読み、初笑いした(TVでも見かける有名な方である。)。


およそ科学に対する理解はこの程度なのか、と笑った後にため息が出たが、論理学が完成して科学が誕生したことぐらいは知っておいてほしい。あのニュートンでさえ、科学者ではない、とマッハに言われているのだ。


データサイエンスにおけるデータは、科学では仮説に基づく実験により得られた、実験において発生した現象を記述できる実体である。


科学に基づく実験以外で得られるデータは、科学的に収集されたデータと言う意味ならば、それは統計的に正しく評価されたデータのことであることを忘れてはいけない。


すなわち、データサイエンスで扱うデータには、科学に基づく実験データとその他のデータの2種類が存在することを忘れてはいけない。後者は40年ほど前には非科学的データと呼ばれていたのである。


例えば、ゼロコロナ政策を180度転換した中国がコロナ死者数を少なく発表している。このデータについてWHOは非科学的データと非難しているように、データがすべて科学的では無いのだ。


一方、科学と非科学の境界を明確に理解していなければ、科学的データを見分けることができない。本日日本の宇宙飛行士のいいかげんな研究データ扱い(注)について、本人から釈明の記者会見が行われるが、STAP細胞であれだけ大騒ぎしても公的研究機関の研究者は懲りないのだ。


民間では常に市場という厳しい裁判所で研究データの審判を受けることになる。科学的データでなければ実験室の再現を市場で期待することができない。


また、科学的データでもそのばらつきにより、市場で痛い目に合うのだ。ロバストを追求した実験データについて科学的検証が加えられたデータではじめて市場で安心してその再現性データを収集することができる。


(注)本日この研究者の監督責任が公開され、最も軽い処分が下されたが、研究担当者はそれよりも2階級重い停職だった。

カテゴリー : 一般

pagetop