楽天が優勝してしまいました。MVPは無失点で日本シリーズ2勝した美馬投手です。そして驚いたのは9回に田中投手が投げたこと。ファンサービスにしてはやり過ぎです。しかし、田中投手の投球には、少しヒヤリとしました。
この日本シリーズで楽しめたのは、星野監督、男・仙一の采配です。第6戦でまさかの敗退。先行された2点は取り返し可能な得点圏内でも田中投手の希望に添って9回まで投げさせた。リスクを敢えて選んだ指揮官に7回以降0点で抑えて応えたその力投。田中投手を研究し尽くした巨人打線を気迫で押さえ込みました。そして第7戦では本人の志願により9回の登板。
さすがに疲れていたのか150キロ台は出ませんでしたが、得意のスプリットで走者を出しながらも0点で抑えた。小学校時代バッテリーを組んだ巨人坂本選手には3球ともスプリット。リアルタイムに投手の投球が説明される現在のシステムのおかげで鳥肌が立ちました。昨日の試合内容を考えると巨人は相当に田中投手を研究していたことが伺われ、この日の9回もランナーを出しながらの展開、その中で彼を3球3振で抑えたところはドラマとして、できすぎです。坂本選手の現在の状況ではファールで粘って投手を苦しめるか、あるいはフライでアウトになるのかが自然の流れのような。
確実に勝てると思っていた第6戦を落とし、160球も前日に投球していたら常識的には起用しない。また投手の立場でも疲労は本人が一番分かっているわけだから、負けたら大変な試合で志願する行動などできない。多くの人がその筋書きを期待していても常識ではあり得ない展開で、単にファンサービスという説明では語れない仰天のドラマでした。
この日本シリーズは想定外の筋書きでありながらドラマとして最高の展開にできた立役者は、ここぞというところでセオリーを無視した大胆なリーダーの采配と、それにチーム一丸となって応える理想的な組織プレーだったと思います。また、第7戦の田中投手の志願は、日常がセオリー通りのマネジメントで形式的な思考のリーダーであったなら、起こりえなかったことと思われます。
ISOの普及でビジネスがマニュアル化し、またマネジメントに関する勉強会も盛んに行われ、日々の組織運営が形式的になってしまっているのではないかと感じています。田中投手ははじめからスーパーヒーローではなく、彼より先行してイケメンのハンカチ王子というキラキラヒーローに隠れていた時代がありました。スーパーヒーローを育てる風土は常識やセオリーにはとらわれない大胆で情熱的なリーダーにより作られる、と思います。人を育てる風土からMVPの美馬投手も生まれたのではないでしょうか。
カテゴリー : 一般
pagetop
昨日の日本シリーズは、恐らく歴史に残るのではないだろうか。楽天は田中将大投手でまさかの敗戦だが、巨人は原監督が「マー君を倒して本当のV2達成」と日本シリーズ前に発言しているので、今日の第7戦の結果次第では昨日の試合の歴史評価が変わってくる。しかし、昨日の各選手の活躍に対する評価は永遠に変わらないだろう。
恐らく楽天のユニホームを着た田中将大投手を来年見ることはできないだろう。勝ったままメジャーにゆくのか、連勝が30でストップしてメジャーにゆくのか、日本シリーズの結果以外の楽しみがあった試合で、楽天や巨人ファンでなくとも昨日の試合を見ていた人は多かったのではないだろうか。
実は昨日は田中投手の負けを期待して試合を見ていた。巨人ファンでもなく、アンチ楽天ファンでもないが、田中投手の負けっぷりを見たかった。彼が先制点を取られ味方の援護無く敗戦投手となった時を彼の最後の試合で見たかった。
筋書きの無いドラマは残酷である。期待した筋書きよりも残酷な流れになった。先制点を取ったのは楽天である。プロ野球ではあまり見かけないロペスのトンネルのエラーで先制点が入ったのだが、そのロペスに同点打を打たれた。さらに調子の良くなかった高橋に決勝打を、6回にはまたもロペスに打たれ2点差にされた。
あまりにも格好悪い打たれ方である。凡人であればここでへこむであろう。あるいはプライドの高い天才であれば、腐って調子を崩すであろう。しかし、彼はそのどちらでも無かった。自ら続投を志願した。2点差ならばまだ取り返せる可能性があり、投手交代という判断が常識的な采配であったが星野監督はそれを許した。そして彼は監督の期待に応え7回以降0点でおさえ、9回には球数が160を越えても剛速球で三振を取った。
昨日はヒーローやドラマがたくさん生まれた。しかし野球にあまり興味の無い人でも昨日の田中投手の凄さ、それと責任感のあり方を9回の彼の投球から学んだのではないだろうか。田中将大投手は負けても勝ち投手のような試合だった。福島原発の事故以来、リーダーの無責任な姿を見続けてきただけに感動が大きかった。
楽天ファンには申し訳ないが、昨日の試合は2-0で田中投手が完投勝ちをしていたら平凡な試合だったのだろう、と想像する。責任感と誇り高きプレイヤーとそれを支える指揮官のあるべき姿、自分のエラーを自ら挽回する助っ人、力の落ちてきたベテランはどのように働くべきかなどサラリーマンが学ぶべき事例の多い試合だった。本日は、巨人の優勝よりも楽天の優勝のほうがドラマ性があり、銀次選手がMVPでもとれば最高のドラマになるのではないだろうか。その時の星野監督の優勝インタビューを聞きたい。美馬投手ガンバレ!
カテゴリー : 一般
pagetop
高分子の難燃化技術を科学的に研究するときに難しい点は、実際に燃焼しているときに作用する難燃化要素の機能を証明することである。その場観察が最も良い方法であるが、高分子の燃焼時に分子が機能しているところをその場観察する手法が無い。コーンカロリーメーターでは、1917年に発見された酸素消費量1kgに対して有機材料の燃焼カロリーが13.1MJと一定である観察結果を利用して燃焼に実際利用された酸素の量を求め、燃焼挙動のその場観察に成功している。
発生ガスと残渣からリンの難燃化機構を推定した研究報告も30年以上前に発表されているが、その場観察の結果ではなく説得力が乏しい。このような状況で難燃化に作用する元素の寄与については一般化された理論は未だ提案されていない。ハロゲンと三酸化アンチモンの組み合わせが最も効果がありそうだ、と経験的に信じられているだけだ。
35年前に燃焼時の熱を利用してガラスを生成し空気を遮断するとともに燃焼面の粘度上昇でドリッピングを抑えることができないか、というアイデアを思いついた。もともとこのアイデアは、リン酸エステル系難燃剤を検討していて、燃焼後の残渣にリン原子がほとんど残っていないことに着目し考案したアイデアである。当時の論文には、リン酸エステル系難燃剤は燃焼時の熱でオルソリン酸として揮発し空気を遮断する効果がある、と書かれていた。またその効果でチャー生成を促進している、という考察まであった。
しかしこの考察は、ホスファゼンで変性したポリウレタン発泡体の難燃化を研究し怪しいことが分かった。ホスファゼンを使用した場合には、燃焼後も生成されたチャー面に添加量に相当するリンとして残存しているが、リン酸エステル系難燃剤の場合にリンは全く残っていない。そしてホスファゼンのリンの難燃効果をLOIの増加率で表現するとリン酸エステル系難燃剤に含まれているリンの1.3倍程度高かった。
すなわちオルソリン酸として揮発したリンのユニットは機能していない可能性が出てきた。むしろリンを含むユニットは燃焼時に溶融した高分子の中で機能すると効果的に作用すると考えた方が観察された現象とうまく合いそうに思われた。そこでリン酸エステルを燃焼時に燃焼系内に閉じ込める手法として無機高分子のガラスに着目し、アイデアを練り上げた。
カテゴリー : 連載 高分子
pagetop
多数の設計因子が複雑に絡んでいる問題は、ラテン方格を利用してタグチメソッドで解決される場合が多い。しかし多変量解析を用いて問題解決することも可能である。ただしその時にロバストの保証は工夫する必要があるが、現場の問題の中にはタグチメソッドで解きにくい問題もある。その様な時には多変量解析が役立つ。
例えば混練に用いた二軸混練機が異なると、その仕様が同一であってもポリエチレンの流動特性が異なることが知られている(注)ように、高分子材料の物性はプロセスの履歴に影響を受ける。これは、ポリエチレン以外の樹脂でも射出成形条件が樹脂のロットに左右される問題として存在し、とりわけ精密部品で深刻な悩みである。毎朝数ショットを試し打ちし射出成型条件を微調整してから生産を始める方法で問題解決している。
これらはタグチメソッドで解決できるかどうか、という議論とは異なる問題として捉え、どのように生産を早く立ち上げることができるのかシステムの工夫などのノウハウを見つけることこそ大切である。
コンパウンドをノイズとして扱い、成形プロセスの最適化を行えばタグチメソッドで解決できる、とタグチメソッドのコンサルタントは指導されるかもしれない。その手順で解決がつく場合もあるが、解決つかない問題も存在していることを認めることはタグチメソッドの信頼性を正しく流布するために重要である。
このことは、品質工学フォーラム創設時の会誌に竹とんぼの事例が載っており、タグチメソッドで最適化したけれど安定に飛ぶ竹とんぼを完成できなかった話題が紹介されている。正直な記事である。およそ何でも切ることができるハサミとか、どんな金属でも穴を開けるドリルとか、万能をうたっている商品には怪しい香りがする。道具は適材適所で使うのが原則で、タグチメソッドもそのような道具の一つである。
またタグチメソッドで解決つくかもしれないが、タグチメソッドで解決するよりも開発速度が速く、日々の生産も効率が良くなるノウハウが存在する場合も無理矢理タグチメソッドを用いる必要は無いと考えている。この時のノウハウとして多変量解析が使われる場合がある。
かつてNHKで放送された“ものつくりの現場”の番組で車の窓に使用されているゴムパッキン(ゴム枠)の押出工程の話題を扱っていた。ゴムパッキンの生産開始時には数度ゴムを押出し、図面で寸法精度を確認しながら金型の温調や冷却タイミングを決める、そしてその方法と金型設計が属人的ノウハウである、として紹介されていた。現場の紹介ビデオでは、金型と冷却ゾーンにモザイクがかかり怪しい雰囲気を醸し出していたが、金型からは多数の電源コードが下に垂れていた。
高分子の押出金型のヒーターを多数に分割し、金型内を流動する高分子材料のレオロジー特性を温度で制御する方法が知られている。このときヒーターの分割方法や金型の口金など金型設計はノウハウで高分子材料の成形を事業としているメーカーのコア技術である。
どのような材料が流れてきても設計図どおりの寸法のゴム部品を押し出すことができる技術は技の世界である、とNHKの番組は伝えたかったのだろうと思うが、この技術はタグチメソッドでも問題解決が難しい。むしろ融通の利く多変量解析でロバストの高い方法を探った方が問題を早く解決できる。
高分子材料はそれ自身ノイズを多く含んだ材料である、という感覚は重要で、未知のノイズが生産現場で突然現れることもある。現場の問題によってはタグチメソッドで解決するよりも素直に変動を認め多変量解析で安定生産を行うノウハウを構築した方が良い場合が存在する。
蛇足であるが、高分子材料に含まれるノイズは混練技術によりその変動を小さくできる。ゴムの混練はコストの高いバンバリーとロールの組み合わせプロセスで1世紀以上行われてきた。生産効率の高い多軸混練機が発明されても使用されていない。これはゴム部品の品質を安定化するためにコストの高い混練システムを採用しなければいけないからである。樹脂の混練技術者がゴムの混練技術に学ぶべきところは多い。
(注)これはタグチメソッドを用いても解決つかない問題の一つである。もちろん多変量解析でも解決はできない。システムを変更しなければいけない問題である。問題解決可能なシステムとノウハウがあるので弊社に相談して欲しいが、“システム選択は技術者の問題“というのは故田口先生の口癖であった。この意味の中にはタグチメソッドで問題解決できないシステムが存在する、という意味も含まれている。扱うシステムによっては、タグチメソッドで問題解決できる場合、多変量解析で問題解決した方が簡単な場合、そのシステムを諦めた方が良い場合等について問題解決の道具を使う前にまず考えることが重要である。
カテゴリー : 一般 連載
pagetop
重回帰分析は、2変数の単回帰分析が実務でよく使われているので説明の必要は無いかもしれないが簡単に概略を述べる。
サンプリングされた2種類のデータ群、xとyの2変数の間の関係を求めるためにx軸とy軸の平面にデータ(x,y)の組をプロットする。そしてある一次式y=ax+bの直線のまわりにそのプロットが集まっていると、この二変数の間に相関がある、と仮定する。そして相関係数を求め相関の度合いを評価したり、求められた一次式から目的変数の推定値を求めたり、その推定値とサンプリングされたデータからのズレを評価したりして解析を進める。
この時、xを説明変数、yを目的変数と呼び、この分析方法を単回帰分析という。解析の結果、二変数の間に強い相関がありその相関を説明できる仮説がほぼ正しいと判明すると、一次式は現象の予測式として使えるようになる。現象を予測し、誤差分析を繰り返しながら真実に迫っていくのが単回帰分析の手法である。
単回帰分析に対して重回帰分析とは、その説明変数が多くなった回帰分析のことで、多変量解析の中ではよく使われている。重回帰分析で使用される重回帰式のyを目的変数といい、xを説明変数と呼ぶのは単回帰分析と同じである。そして目的変数を多数の説明変数の一次式の関数として求め解析を進める方法もほぼ同様であるが、ここで一次式である点を忘れてはいけない。
さらに気をつけなければいけないのは、説明変数を多数導入すると重回帰式の信頼度は上がるが、その結果お互いに相関のある説明変数を取り込む問題が出てくる。説明変数の間の相関が高くなると目的変数に対する説明変数の寄与を正しく評価できなくなる。説明変数の目的変数に対する寄与を標準偏回帰係数で求めるときに、各説明変数の間に相関が無く(これを一次独立という)信頼度が高い重回帰式が理想ですが、そのような重回帰式を組み立てられる場合は稀である。高い相関のある説明変数が取り込まれたときの重回帰式は目的変数に対する説明変数の寄与を求めるときには注意が必要である。
説明変数間に高い相関があり、どうしても全ての説明変数を入れた重回帰式を組み立てたい場合には、主成分分析と組み合わせて重回帰式を求める。すなわち説明変数について主成分分析を行うと一次独立の変数に変換できるので、この変換された新たな変数を説明変数として重回帰式を組み立てる。この手法にはコンピューターが不可欠である。
あるいは、説明変数を減らしても良い場合には、相関の強い説明変数のどちらかを棄却して重回帰分析を行う。これを自動的に行う方法もあり、段階式重回帰分析と呼ばれている。段階式重回帰分析では、一つづつ説明変数を取り込むときに説明変数の相関を評価している。技術開発では説明変数に対してある程度の重要度が決まっている場合が多いので段階式重回帰分析はあまり使用されない。
説明変数間の相関が低い重回帰式が得られたなら標準偏回帰係数(偏微分)を用いて目的変数に対する説明変数の寄与を調べる。ここで標準偏回帰係数を用いるのは単なる偏回帰係数では説明変数の単位にその値が影響を受けるので、用いることができないから。
このほか残渣分析を用いて回帰式がどの程度サンプル集団の説明ができるのか調べる手順は単回帰分析の時と同様である。昨日まで説明した主成分分析に比較して重回帰分析は単回帰分析に似ているので親しみやすい多変量解析手法である。
カテゴリー : 一般 連載
pagetop
主成分分析は元のデータ群に対して変数軸の回転を行い、変動が最大となる新たな軸でデータを眺めているだけである。
主成分分析ではデータの変動が最大となる軸、すなわちその軸でデータを整理するとデータが最も散らばってプロットされる。ここでは複雑な数式を書くことができないので軸を回転して新たな軸を求める計算方法を書かない。
ただし、計算の考え方を少し説明すると、ある条件の下で変動が最大になる条件、すなわちある条件の下で関数の極値を計算で求める。この時、ラグランジュの未定係数法が出てくる。
多変量解析の教科書で化学系の人間が読んでいて嫌になるのは学生時代にマジメにやらなかった線形代数の計算が出てくる点。改めて線形代数の教科書を買い込み勉強することになる。
線形代数を理解できると、主成分分析の計算は、ただ分散共分散行列の固有値を計算で求めているだけ、ということに気がつく。これは、ラグランジュの未定係数法の極値条件で最大値をとる必要条件なのだが、計算手続きとして主成分分析の計算を眺めると極めて単純である。
教科書では数ページにわたり式が展開され専門外の人間に恐怖を与えているが、固有値問題と理解すれば怖くない(このように書くと統計学の先生に叱られるかもしれない)。
分散共分散行列の最大固有値に対する固有ベクトルの成分が、元のデータに対する新たな第Ⅰ主成分の軸の方程式の係数となる。このようにして第二主成分、第三主成分と元のデータの変数に応じて新たな軸を求めてゆく。このようにして求められた新たな軸でデータを検討する方法が主成分分析である。
計算方法を理解すると主成分分析はデータのばらつきが大きくなる軸で整理しているだけ、と実感し納得できる。線形代数の詳細な計算の理解など不要である。むしろ計算された結果の考察が重要である。
教科書を読むと、新たな軸に名前をつけよ、とある。新たな軸に名前をつけると資料分析に役立つ、とあるがどのような名前をつければ良いか迷うことがある。子供の名前でも苦労したのである。日々の日常業務で命名に時間を使っていたのでは仕事が進まない。軸に名前をつけることにどれだけの意味があるのか執筆者に突っ込みたくなるが、昔の本である。
30数年間の開発で使っていたのは、主成分の方程式の係数を見て、大きい係数の項目のかけ算の表現を名前とする方法である。また、求められた主成分方程式の軸では無く実際にそのかけ算の値を軸として整理し直したこともあった(注)。
ビッグデータブームとしてテレビで取り上げられることが多くなった主成分分析であるがテレビで仰々しく報じているような科学の進歩の壮大な成果というほどのものではなく、その中身は意外に簡単なのである。
データが巷にあふれてきたので約半世紀前の手法で整理して眺めているだけである。しかし、それでインフルエンザの流行が事前にわかったりするのだから便利で、このような便利な手法を実務で利用しないのはもったいない。
(注)主成分分析では統計学的に分散が最大となる軸でデータを整理してゆく。しかし、実務的には新たに求められた主成分の軸よりも、その軸の方程式から推定される技術的な意味のある軸で整理しなおした方が理解しやすい場合がある。最大の分散でデータを眺めることにはならないが、データ群を理解するときに、主成分と異なるそのような軸で眺めた方が直感的に理解しやすい。また、その軸を求める過程で、アイデアがひらめくこともある。実務的には主成分分析で全てのデータを特徴付けることよりも、軸を変えてデータを見直すこと、すなわち視点を変えてデータを見直す作業そのものが重要である。
重要なポイント:
実務で主成分分析を行う意義は、目前のデータを異なる視点でまとめ直すところにある。その結果新たなアイデアが生まれることもあるが、新しい事象が見つからないこともある。後者の結果が得られたからといって主成分分析が無駄な作業という意味ではない。なぜなら、企業の研究開発ではあらゆる視点でデータを見直すことは重要な作業だからである。
カテゴリー : 一般 連載
pagetop
統計学の目標が、多数の複雑なデータから本質を見抜くことにある(注)ならば、主成分分析を一言で言うと、データを見渡せる場所を探し、そこからデータを調べる方法となる。
データを見渡せる場所、とは、データには誤差がつきものなので、データそのものの変動が最大になっている場所となる。人間が集めるデータは、ある仮説に基づき集められる場合が多いが、その仮説で集められたデータの変動がいつも最大になるとは限らない。これは現象を科学という視点で見たときに全てを見通せるとは限らない、ということを意味している。
科学的に説明がつかない現象も含めて目の前のデータを集めなければいけないのが、毎日の実務作業である。開発業務では、とにかく新製品の納期に合わせて、技術開発を進めなければならない。そのため基礎科学の視点で全てを解明しながらデータを集めることができなくなる。
例えば界面活性剤の特性値にはHLB値、曇点、分子量、融点などがあり、カタログを見るとこれらの値がデータとして示されている。界面活性剤の教科書には、HLB値で界面効果を表現できるとある。しかし、カタログの値を主成分分析してみると、HLB値の視点と分子量その他の項目を寄せ集めたデータが第Ⅰ主成分として出てくる。
すなわち、カタログの項目とは異なる別の項目でデータを整理でき、その整理されたデータ表では、元のカタログデータの変動よりも、データの変動が大きくなっている、それが第Ⅰ主成分になる、ということである。
もう少し手続き的な言い方をすれば、カタログ値の項目で並べられたデータをコンピューターで処理すると新たな項目のデータ表に置き換えられ、元のデータ表の変動と新たなデータ表の変動を調べると新たなデータ表の変動が大きくなっている。このようなデータ変換の方法とその変動が最大となったデータ群を元に解析する手法が主成分分析という手法である。
界面活性剤のカタログ値を主成分分析にかけると、HLB値と相関の高い項目には、HLB値とそれ以外の因子の情報を加えたデータになっている。この軸ともう一つ別の軸を持ってきてサンプル集団をプロットすると、HLB値で分類した場合と異なるサンプル群が見えてくる。
電気粘性流体をゴムに封入したときに耐久性が悪くなる問題を界面活性剤で解決したときに主成分分析で分類された群を利用して問題解決を行った。HLB値だけでは隠れてしまっていた界面活性剤が、主成分分析を行い新たに作成した特性表から答として選ばれてきた。
このようにデータ表を処理して別のデータ表を作るのだから、行列計算になる。ゆえに主成分分析に線形代数が出てくるのである。
(注)タグチメソッドのロバスト設計という目標と異なる。タグチメソッドが統計ではない、と言われるゆえんである。技術と科学の目標の違いである。
(補足)界面活性剤の機能をモデルで説明するときにHLB値は便利で分かりやすい。しかし現実の複雑系ではHLB値だけで界面活性効果を制御できない。界面活性剤はHLB値である程度のあたりをつけることは可能だがそれだけで解決できない問題が存在し、やってみなければ分からない世界である。しかし、このような世界で主成分分析は一つの手がかりを与えてくれる。またこの手法で予想外の主成分が見つかったりすると貴重なノウハウになる。しかし科学偏重の風土の会社では主成分分析を用いたことを隠しておいた方が良い場合がある。例えば界面活性剤をHLB値以外の因子で選択した、という説明は難しく怪しい方法と言われる場合がある。
カテゴリー : 一般 連載
pagetop
具体的な式は教科書を見て欲しいがばらつきの表現のパラメーターとしてまず覚えなければならない定義を以下に。その他にも難解な言葉は多いがまず以下を丸暗記しなければ多変量解析の教科書を読むときに苦労する。
偏差:測定値と平均値の差
変動(偏差平方和):偏差の平方和
分散:
偏差を平方してたし合わせ、その値を足し合わせたサンプル数で割った値である。すなわち変動をサンプル数で割った値である。なぜ偏差の平方和にしているのか。測定値と平均値の差をそのまますべて足し合わせると0になるからである。いつも0では情報が消えたのと同じなので、平方和をとってばらつきの尺度にしているのである。サンプル数で割ったときには標本分散と呼ぶ、という説明も教科書には載っている。これは(サンプル数-1)で分散を求めることもあるからだ。これも理由無く書いている。昔電卓の標準偏差を求めるキーにNとN-1の2種類存在するのを見て奇異に思ったことがあるが、サンプル数が少ないときにN-1を使う、とその道のプロが教えてくれた。なぜかと尋ねたら、Nではサンプル数が少ないときにばらつきを過小評価することになるからN-1で割るのだ、と説明してくれた。意地悪くNとN-1の境界の個数は、と尋ねたら答は返ってこなかった。
ここで大事なことは、多変量解析では平均値よりも分散の値が主役になる。分散は測定値の持つ情報量を表現している、という説明まで教科書に書かれている。
標準偏差:
分散の平方根。平均値と同じ次元になる。標準偏差などと命名されているので普通の感覚で導かれた式だと思っていたが、データの平方和の平均(分散)を平方根にした、すなわち平方して求めた値を平方根で元の次元に数値を戻しただけである。なぜ平方根にしたのか、といえば平方して和を求めたので平方根にしただけである。初めてこの言葉に触れたときに、平方根を取る理由が分からなくて大変難解に感じた。単なる定義である。
共分散:
2変数間の関係を表す分散で、(x1-xの平均値)*(y1-yの平均値)+(x2-xの平均値)*(y2-yの平均値)-――とたし合わせサンプル数で割った値。これも情報量を表現するための定義。
相関係数:
共分散をそれぞれの変数の標準偏差で割った値。標準偏差や共分散が定義されると相関係数という値が何か意味ありげにこれらの数で表現される。科学の数学表現を考えている人たちは表現が美しくなるようにいろいろ定義を考えてゆく。専門外がそれを理解しようとする時に美しさよりもそれぞれの由来を考えて悩む。
分散共分散行列:分散と共分散をまとめた対称行列のこと。
相関行列:相関係数の対称行列のこと。
カテゴリー : 一般 連載
pagetop
多変量解析を理解する為には、統計の基本的考えを理解していなければならない。統計の基本とは、現象を把握するためにサンプリングを行い、サンプリングされたデータから現象を推定する、という考え方である。
対象とする現象の一部から抽出したデータで現象を推定しようとするから、誤差の問題が発生する。誤差とは、自然で起きている実際の値Xと、サンプリングされて測定されたデータxとの差である。ここで問題が起きる。Xを知りたいからサンプリングしたのだが、Xは絶対に知ることのできない値である。これがよく分からない人がいる。世の中にはどんなことをしても知ることのできない事柄がある、という現実をまず認めることから統計学は始まる。
知ることのできないXを推定するために、サンプリング数を増やして平均をとり、xの平均値~xをXと等しいのではないか、と推定する。統計学の本を読むと母集団Xの値を推定するためにサンプル集団の平均値を求める、とさらっと書いてある。統計という学問を誤解する人はこの段階ですでに“気がつかずに”つまずいている。どのような努力を払っても実際の値が分からないから平均値でその値を推定している、ということは大事な考え方である。サンプリングの仕方で平均値もばらついているのである。例えばサンプリング数を大きくしてゆくと、平均値のばらつきも小さくなってゆき日常生活で無視できるばらつきのレベルになる。
実際の値をばらつく平均値で推定するのだから、サンプリングしたデータ全体の変動が気になってくる。それを表わしているのが偏差とか分散とか呼ばれる値である。平均値はサンプリングデータの総和をサンプリングした個数で除する、という手順は小学校で習うので違和感は無いが、偏差とか分散あたりで難しく感じ始める。そして教科書を読み進むと線形代数が出てくるのが多変量解析の教科書で、そこまで読み進むと教科書を投げ出し、統計学は難しい、となる。
おおよそ自学自習の経験が少ないと不得意な内容を読み進めようとしないのが凡人の常である。実はどのような難解な本でも10回程度我慢して読むと何とかわかったような気がしてくる。昔の格言で「読書100ぺん――」というのがあったが、100回まで読まなくても10回程度で分かり始める。
人によりあるいは難しさによりその回数は変わるが、我慢して何度も同じ本を読む習慣を凡人が身につけるとどのような分野でも努力すれば理解できるという自信がつく。日科技連の「多変量解析」という本は6回程度読んで理解でき、重回帰分析のプログラムを組むことができた。そして偏差とか分散について2回目あたりで教科書の説明が専門外の読者を考えていないことに気がついた。日科技連の「多変量解析」は専門書として優れているが、入門書として不適格な書物だと思う。まえがきに、「専門外の人は10回読んでみてください」と注意書きを書くべきである。
基本統計量というパラメーターは統計という学問をうまく体系づけるために考え出されたパラメーターである。偏差の値については、小学校高学年あたりで最大値と最小値の差であると習う。要するにサンプリングしたデータのばらついている様子を大雑把につかむにはこの説明は便利だ。中学校になり、標準偏差を習う。そして分散という値についてもその説明文で接する。すなわち統計量にはデータのばらつきの表し方がいくつもあるのである。そして必要に応じてそれらを使い分けているだけである。この感覚が統計学を理解するときに大切である。
故田口先生は、それらをSN比で統一し、タグチメソッドの体系を創り上げたスゴイ先生だ。データのばらつきは、誤差因子により引き起こされるので、考えられる誤差因子のすべてを調合してSN比を求めるのがタグチメソッドのコツである。SN比が最大になるように、すなわち誤差因子に対してばらつきが小さく”安定に”なるように制御できる因子を調整してばらつかない機能部品を開発する、これがタグチメソッドにおける偏差の考え方である。そして誤差に対して安定に機能が発現するように材料設計する方法がロバスト設計である。タグチメソッドの美しさは、誤差-ばらつき-ロバスト設計という考え方で統一されている点である。難解な統計学と一線を画する品質工学すなわち技術という学問である。
田口先生がアメリカでタグチメソッドを指導されているときに、相関係数をラテン方格に割り付けて実験計画法を行うアイデアを思いつき、高純度SiCの開発に使用していたが、SN比までアイデアを拡張することは考えなかったので、田口先生のスゴサを身にしみて感じている。
データの散らばり具合をタグチメソッドではSN比で表現し直感的にロバストをあげる、という考え方を分かりやすくしたが、多変量解析では、分散とか、共分散、偏差平方和などいろいろな言葉が出てくる。しかし、これらが単なるデータの散らばり具合を表すパラメータとわかれば理解が早い。あとは定義を覚えるだけである。すなわち統計学という体系を創り上げるための決め事をまず覚えなければならない、ということ。頭の善し悪しでは無いのである。SN比でそれらを統一した田口先生は改めてスゴイと思う。
多変量解析を理解する為に統計学を学ばなければならない。統計学は科学分野の学問である。技術のタグチメソッドと異なり、真実を明確にするための約束事=言葉の定義を覚えなければ理解できない。タグチメソッドはロバスト設計のコツを伝承すれば誰でもできるようになる。技術だからである。科学分野の教科書はどれも難しい。それは、哲学書であり、その世界感を理解する為にその世界で使われる専門用語=知識を覚えなければならないからである。考え方の理解は知識の量に左右される。
カテゴリー : 一般 連載
pagetop
創業から今年初めまで電子出版事業を行ってきましたが、アクセス数が少なく、現在閉店しております。しかし、まれに過去に出版しました書籍に関して問い合わせがきておりますので、現在再開の準備を進めております。再開まで少しお時間をいただきたいと思っています。
ちなみに過去の弊社の出版物は、他社と同様の書籍スタイルから電子セミナースタイル、音の出る語学書などで、電子出版の新スタイルを市販されていないコンテンツで提案してきましたが、普及までに至りませんでした。もしご興味のございます方は、下記へお問い合わせください。
eメール:yasuo.ku(@マーク)kensyu323.com
カテゴリー : 宣伝
pagetop