2024.04/12 データサイエンスと私(5)
「統計でウソをつく法」という数式を使わないで学ぶ統計学の入門書がブルーバックスから出版されている。ロングセラーの名作だが、タイトルが秀逸である。
統計処理された結果は、データの信頼性まで示されるので騙される人が多い。「6デイズ7ナイツ」では、ファッション誌のアンケート結果について恋人同士で喧嘩する光景が描かれている。
そこでは、統計データをまとめるときに、自分たちの都合の良いデータを集めて、雑誌の趣旨に合うように統計処理結果を操作している、と編集長である主人公をデートの最中に彼氏が責めるのである。
デートの最中に彼女の仕事を批判する無粋な男で、主人公のアン・ヘッシュにふられるのだが、データの扱い方で統計処理の結果が変化する問題を彼は語っており、その発言内容は間違っていない。
データサイエンスを科学の分野に応用しようとする時に、データマイニングでは知を求めている人が、必要な知を適切な手法で取り出せるようにデータ処理からアルゴリズム最適化まで自ら行うのが好ましい。
そのために適切なアルゴリズムを自ら組み立てる能力が必要があり、いやがおうでもプログラミングスキルを研究者は磨かなければならない。
すなわち、データマイニングとは、データとアルゴリズムを駆使して新たな知を導き出す作業であり、プログラミングスキルとデータの前処理スキルが研究者に求められている。
このことを幸運にもゴム会社の新入社員研修で情報工学学科出身者から学んだ。また、柔軟な思考風土のタイヤ部門で研修できたことも運が良かった。
当時いきなり研究所に配属されていたならば、データサイエンスを研究に応用しようなどと考える機会など無く、科学馬鹿になっていたかもしれない。
科学は自然現象を理解する一つの方法であるが、アン・ヘッシュ演じる編集者が男と女の関係を理解しようとデータサイエンスを用いたように、形式知に近い結果が得られるようデータマイニングする方法も現象を理解する一つの方法である。
これを科学的ではない、という無粋な科学者は、自然現象から見捨てられるかもしれない。アン・ヘッシュ演じるロビンが彼氏を捨ててハリソン・フォード演じるクインに走ったように、自然現象は孤島で知恵を絞って常識にとらわれず問題解決にあたる技術者に新しい機能を与えてくれる。
カテゴリー : 一般
pagetop