2024.04/15 データサイエンスと私(6)
データマイニングを行う時に科学のように仮説を設定する必要はない。一方金曜日に話題に出したアン・ヘッシュ演じる女性編集長のように恣意的にデータマイニングを行う方法もある。
どのような姿勢や方法でデータマイニングを行っても同じ結果になるならば、データサイエンスの手法は科学の手法と言いたくなるのだが、アンヘッシュが元カレから責められていたように、データの前処理により、データマイニングの結果は左右される。
新入社員研修でタイヤの軽量化を目的として、20社の同一サイズのタイヤを解剖し構造データを収集した。当初目的では構造データを整理するまでだったが、情報工学科出身の新入社員が多変量解析をやろうと言い出した。
このあたりの話は、以前この欄に紹介しているので、詳細を省略するが、データ解析にIBM3033に用意されていた統計パッケージを使用している。
この時、多種類の構造データをすべて入力し、どの種類のデータを選択するのか検討している、というのはあとづけの説明である。
最初に収拾した構造データをすべて入力したところ、20種類のタイヤデータに対して変数が20種類を超えていたために、期待した結果が得られなかった。
すぐにメンバーの一人が情報工学科出身者を叱責している。そして、データ入力方法から皆で検討しなおした、というのが正直な姿である。
すなわち手元にあるデータを何でもコンピューターに放り込めばデータマイニングできるわけではないのだ。やはり、期待している結果に対応する最適なデータ入力方法の検討が必要である。
アン・ヘッシュの元カレが非難していたように、都合の良いデータ群を選んだり、次元を調整するためにデータを加工しなければ、データマイニングでよい結果が得られない。
カテゴリー : 一般
pagetop