2013.10/24 多変量解析とは(2)
朝出勤のために電車に乗る。電車の中ではスマホでSNSに書き込んだり、インターネットでニュースを閲覧したりする。会社近くの駅で降りコンビニにはいり、SUICAで買い物をする。会社についてコーヒーを飲みながらイントラネットで社内のニュースを見つつ外部のホームページをついでに閲覧して知識を少し蓄える。
朝の仕事を開始するまでの行動だけでも、次のようにいっぱいデータを世の中に提供している。
1.出勤時間
2.通勤区間
3.通勤区間における電車の速度
4.SNSに書き込んだ情報
5.どのようなニュースに関心があったか
6.朝の買い物で購入される品物
7.ホームページ閲覧時間
8.ホームページ閲覧ページ数
9.ホームページの経由地
10.興味を持ったホームページ
11.その他
通勤電車の混み具合を調査したければ、上記1,2,3の情報をインターネット上から集めればよく、JRではSUICAの情報を基に実施している。最近ではその情報を販売する、と報道されて問題になった。
今消費者がどのような事柄に関心があるかは、4-10までの情報を集めれば傾向がわかる。さらにそこへ閲覧時間が加われば、消費者の分類も可能である。ビッグデータが話題になっているが、膨大なデータに対してどのような目的で活用するのかが重要である。また逆に企業の活動方向を定めるのにどのようなデータを集めるのかという知恵が必要となる。
すなわちビッグデータの活用には、科学者が自然現象に対峙してきた姿勢を支えた科学の知識が要求される。その知識とは統計学であり、統計学の多変量解析に今注目が集まっている。
しかし多変量解析については、1971年に日科技連から奧野忠一らによる「多変量解析法」という著書が発表されている。これは40年以上前に科学的に確立された手法である。統計学ではないが、マハラビノスタグチメソッドという手法も普及してきた。
40年以上前は、マイコンも登場していなかったので、大型コンピューターに用意された高額なソフトウェアーパッケージで販売されていた。新入社員の頃IBM3033へパンチカードでデータを供給し、主成分分析を行ったことがあるが、入力から出力まで2時間かかった記憶がある。今なら入力にかかる30分程度の時間で出力が得られるのに、昔のコンピューターは、マルチタスクでCPUを占有することができず固有値の計算にも時間がかかっていた。
pagetop