2023.01/27 多変量解析(2)
50年近く前には、それしかなかった、という理由で高価な奥野先生が編集された多変量解析の教科書を購入した。そこに、線形代数を利用し多変量データを解析する手法という説明があった。
その後統計学の一分野として多変量解析は発展し、現代のデータサイエンスの時代に至る。その過程でパーセプトロンを利用する大量データの解析方法が生まれている。
パーセプトロンの原理はコンピューターの動作と同じだが、これを何層も使用し拡張するソフトウェアーをコンピューターで動かす行為は、牛に肉骨粉(牛を処理した粉)を食わせているような行為を頭に浮かべてしまう。さらに牛で狂牛病が起きたことを想像し、その手法を初めて知った時にぞっとした。
ディープラーニングも同じで、Pythonでプログラミングすれば無料の豊富なライブラリーのおかげで容易にそれを実行できる。しかし、これが問題である。
解こうとしている問題に対して、最適なアルゴリズムを用いないと、正しい答えが出ているのかどうか不明である。また教師データの前処理が悪ければ、不良教師が反社学生を生み出すような事態になる。
Pythonには無料のライブラリーだけでなく、無料のツールもあり、試行錯誤でプログラミングできる環境が整っている。しかし、目の前の問題に対してどのようなアルゴリズムで対応したらよいのかは無料で提供されていない。
弊社のセミナーでも1万円の受講料が必要である。ただし、これは極めて安いと考えていただきたい。例えばPythonの基礎としてパーコレーションのプログラムのエンジン部分を受講者だけに無料サービスしているが、そこでは、コンピューターで乱数を用いるときのノウハウを開示している。
コンピューターの乱数については、簡単なアルゴリズムでプログラミングしたいときに適当なものが無い。Pythonの無料ライブラリーには乱数発生の関数があるが、これは昔用いたLatticeCの標準ライブラリーよりも出来は良いが、それでも規則性が現れる。
乱数のアルゴリズムひとつでも、自分の目的とする問題解決のためにひと工夫必要となる。コンピューターの乱数は、どのようなアルゴリズムでも疑似乱数となるので、用いる数値の範囲で規則性を排除できるようなアルゴリズムが必要となる。
カテゴリー : 一般
pagetop