活動報告

新着記事

カテゴリー

キーワード検索

2024.04/15 データサイエンスと私(6)

データマイニングを行う時に科学のように仮説を設定する必要はない。一方金曜日に話題に出したアン・ヘッシュ演じる女性編集長のように恣意的にデータマイニングを行う方法もある。


どのような姿勢や方法でデータマイニングを行っても同じ結果になるならば、データサイエンスの手法は科学の手法と言いたくなるのだが、アンヘッシュが元カレから責められていたように、データの前処理により、データマイニングの結果は左右される。


新入社員研修でタイヤの軽量化を目的として、20社の同一サイズのタイヤを解剖し構造データを収集した。当初目的では構造データを整理するまでだったが、情報工学科出身の新入社員が多変量解析をやろうと言い出した。


このあたりの話は、以前この欄に紹介しているので、詳細を省略するが、データ解析にIBM3033に用意されていた統計パッケージを使用している。


この時、多種類の構造データをすべて入力し、どの種類のデータを選択するのか検討している、というのはあとづけの説明である。


最初に収拾した構造データをすべて入力したところ、20種類のタイヤデータに対して変数が20種類を超えていたために、期待した結果が得られなかった。


すぐにメンバーの一人が情報工学科出身者を叱責している。そして、データ入力方法から皆で検討しなおした、というのが正直な姿である。


すなわち手元にあるデータを何でもコンピューターに放り込めばデータマイニングできるわけではないのだ。やはり、期待している結果に対応する最適なデータ入力方法の検討が必要である。


アン・ヘッシュの元カレが非難していたように、都合の良いデータ群を選んだり、次元を調整するためにデータを加工しなければ、データマイニングでよい結果が得られない。

カテゴリー : 一般

pagetop