指導社員の完璧な企画書で欠けていたのは、どの銘柄の材料で目標を実現できるのか、という答である。指導社員に質問したら、それが見つかればこのテーマは終了だという答が返ってきた。シミュレーションはあくまで仮想の物性についてその組み合わせを計算しただけであり、実際の材料について材料メーカーの技術資料にその情報が書かれていないから、まず材料のデータベースを蓄積する必要がある、と言われた。
データベースを作る意味があるのか、と尋ねたら、シミュレーションした結果の再現性を確認する目的にデータを収集するのでデータベースには意味が無く、物性を実現できる処方さえあれば良い、と明確な回答を頂いた。テーマは防振ゴムに最適な樹脂補強ゴムの開発だが、問題を整理すると市販されている樹脂とゴムの最適な組み合わせを見つける問題になる。
このような問題では、最適な組み合わせが存在しない場合には1年経っても問題解決できないことになる。シミュレーションではできることになっているが、シミュレーションに用いられた粘弾性曲線と仮説どおり一致する樹脂なりゴムが見つからない場合には不可能ということになる。もし最適な組み合わせが存在するならば、それを早く見つけることが最も重要な仕事になる。
シミュレーションデータを一晩眺めながら、実験時間を短縮できる評価法を考え出した。すなわち材料を製造するプロセスの時間短縮は難しいが、評価法はサンプル数を減らしたり評価時間を短くしたりすることで短縮できる。テーマで最も時間がかかるのは公開情報の無い粘弾性データの収集で、1サンプルの準備から結果が出るまで4時間かけることになっていた。それを20分ですませる方法を考案した。
指導社員に実験の進め方の変更を願い出たら了解が得られたので、その方法で実行したら2ケ月でシミュレーションに合致した材料を見つけることができた。即ち1年間のテーマを3ケ月で終了できそうな見通しが得られた。ところが完成した処方を指導社員の了解を得ないで上司が後工程にプレゼンテーションしてしまったので問題が起きた。すぐに商品企画会議でその処方をエンジンマウントに使うことが決定され、研究所のテーマではなくなった。すなわち残り10ケ月の仕事が無くなったのである。
------------------------------
(注)当時研究所はすでに成果主義のマネジメントが行われていた。実験手順も決まっていた完璧な企画書を前に、新入社員の立場で成果というものを考えたところ、開発期間を短縮することぐらいしかなかった。上司に確認したところ、もし年内(3ケ月)に処方が見つかればボーナス倍増ぐらいの成果、という冗談が飛び出した。その言葉に挑戦します、と応えたら上司は笑っていたが、後日本当に冗談だったのでモチベーションが下がった。明日はこのあたりについて。
また、弊社で研究開発必勝法プログラムを販売しているが、そのアイデアの基本構想はこの頃できた。指導社員の完璧な企画書は、確実に開発期間を短縮できる、と感じた。その企画書には、開発ターゲットが明確に記され、それを探索する手順まで示されていた。すなわち、開発ターゲットが明確になると、探索手順は複数あることに気がつく。明確な開発ターゲットの機能を実現する目的だけに絞ったときの手順は極めて簡素化される。iPS細胞を実現するヤマナカファクター発見に用いられた発想法である。
しかし、実際に開発計画を組む場合には、定常業務品である質評価の一部を取り入れて行う場合がほとんどである。開発ターゲットから考えを進めないからである。荒削りでも良いから最初に開発ターゲットを実現してからそれに合わせて社内規格で要求されるデータを集めれば開発時間を大幅に短縮できる。要するに数研出版のチャート式数学に書かれていた「結論からお迎え」というチャート式格言は受験数学だけで無く実務でも有効である。
弊社の研究開発必勝法は、「結論からお迎え」という格言を実務の中でどのように展開するのか、32年間の開発経験をもとにノウハウを一般化したプログラムである。
カテゴリー : 一般 連載 高分子
pagetop
ゴム会社で技術者としてスタートした。6ケ月間の新人研修の後10月1日に樹脂研究グループへ配属された。そこではスーパーフィラーに採用された樹脂補強ゴムの研究開発が行われていた。スーパーフィラーは、タイヤのビード部分に実用化された樹脂補強ゴムで硬くて弾力性のあるゴムだ。
硬いゴムを設計するには、架橋密度を上げる方法とフィラーであるカーボンブラックを増量する方法が知られていた。しかし、この両者の方法でゴムの硬度を上げると靱性が下がる。硬くて脆くないゴムの処方技術は当時ハイテク分野の技術であり、ミシュランが最初にその開発に成功し、半年遅れてブリヂストンが実用化に成功した。この時使われたのが樹脂補強ゴムで、樹脂は3次元化して硬くなる熱硬化性のフェノール樹脂が使用された。
この樹脂補強ゴムの高次構造は樹脂の海の中にゴムの島が存在する海島構造で、フェノール樹脂以外の樹脂でも同様の高次構造を取ることができれば、硬くて靱性の高いゴムを設計できるのだが、組み合わせる樹脂の種類によりゴムの高次構造が変化し目標物性とほど遠いゴムができたりするので、多種類の樹脂とゴムの中からその組み合わせを見つけなくてはいけない難しい技術であった。
樹脂補強ゴムは硬くても靱性の高いゴム、という物性の特徴以外に、動的粘弾性に一般のゴムと異なる特徴が見られた。すなわち樹脂補強ゴムでは損失係数が高くなる周波数領域が広がるのだ。例えば自動車では、アイドリング中と走行中ではエンジンの振動数が異なり、アイドリング時にも走行時にも対応してエンジンの振動を防ぐ防振ゴム材料の設計は難しい。しかし、樹脂補強ゴムでは広い周波数領域でエネルギー損失が大きいゴムを設計できるので、使用状態で振動モードが変化する機器の防振ゴムとして最適な材料を設計できる。
指導社員は材料物性に秀でた能力の方で、樹脂補強ゴムの設計について組み合わせるゴム物性と樹脂物性のあるべき姿をシミュレーションで明確にしていた。そして、その明確な方針の下で材料探索を行うのが新入社員としての一年間のテーマであった。指導社員の立案された開発計画と材料設計処方案は完璧であった。あまりにも完璧で、残されていたのは樹脂とゴムの粘弾性を評価し、それを組み合わせたときに粘弾性がどのように変化するのか調べる肉体労働だけであった。
そして目標通りの粘弾性カーブを実現するゴムができたときに、組み合わせられた樹脂とゴムの粘弾性のカーブがシミュレーションどおりになっていることを確認するだけであった。但し樹脂の分子構造とゴムの分子構造はシミュレーションでも不明だった。
カテゴリー : 一般 連載 高分子
pagetop
高分子の難燃化技術を科学的に研究するときに難しい点は、実際に燃焼しているときに作用する難燃化要素の機能を証明することである。その場観察が最も良い方法であるが、高分子の燃焼時に分子が機能しているところをその場観察する手法が無い。コーンカロリーメーターでは、1917年に発見された酸素消費量1kgに対して有機材料の燃焼カロリーが13.1MJと一定である観察結果を利用して燃焼に実際利用された酸素の量を求め、燃焼挙動のその場観察に成功している。
発生ガスと残渣からリンの難燃化機構を推定した研究報告も30年以上前に発表されているが、その場観察の結果ではなく説得力が乏しい。このような状況で難燃化に作用する元素の寄与については一般化された理論は未だ提案されていない。ハロゲンと三酸化アンチモンの組み合わせが最も効果がありそうだ、と経験的に信じられているだけだ。
35年前に燃焼時の熱を利用してガラスを生成し空気を遮断するとともに燃焼面の粘度上昇でドリッピングを抑えることができないか、というアイデアを思いついた。もともとこのアイデアは、リン酸エステル系難燃剤を検討していて、燃焼後の残渣にリン原子がほとんど残っていないことに着目し考案したアイデアである。当時の論文には、リン酸エステル系難燃剤は燃焼時の熱でオルソリン酸として揮発し空気を遮断する効果がある、と書かれていた。またその効果でチャー生成を促進している、という考察まであった。
しかしこの考察は、ホスファゼンで変性したポリウレタン発泡体の難燃化を研究し怪しいことが分かった。ホスファゼンを使用した場合には、燃焼後も生成されたチャー面に添加量に相当するリンとして残存しているが、リン酸エステル系難燃剤の場合にリンは全く残っていない。そしてホスファゼンのリンの難燃効果をLOIの増加率で表現するとリン酸エステル系難燃剤に含まれているリンの1.3倍程度高かった。
すなわちオルソリン酸として揮発したリンのユニットは機能していない可能性が出てきた。むしろリンを含むユニットは燃焼時に溶融した高分子の中で機能すると効果的に作用すると考えた方が観察された現象とうまく合いそうに思われた。そこでリン酸エステルを燃焼時に燃焼系内に閉じ込める手法として無機高分子のガラスに着目し、アイデアを練り上げた。
カテゴリー : 連載 高分子
pagetop
多数の設計因子が複雑に絡んでいる問題は、ラテン方格を利用してタグチメソッドで解決される場合が多い。しかし多変量解析を用いて問題解決することも可能である。ただしその時にロバストの保証は工夫する必要があるが、現場の問題の中にはタグチメソッドで解きにくい問題もある。その様な時には多変量解析が役立つ。
例えば混練に用いた二軸混練機が異なると、その仕様が同一であってもポリエチレンの流動特性が異なることが知られている(注)ように、高分子材料の物性はプロセスの履歴に影響を受ける。これは、ポリエチレン以外の樹脂でも射出成形条件が樹脂のロットに左右される問題として存在し、とりわけ精密部品で深刻な悩みである。毎朝数ショットを試し打ちし射出成型条件を微調整してから生産を始める方法で問題解決している。
これらはタグチメソッドで解決できるかどうか、という議論とは異なる問題として捉え、どのように生産を早く立ち上げることができるのかシステムの工夫などのノウハウを見つけることこそ大切である。
コンパウンドをノイズとして扱い、成形プロセスの最適化を行えばタグチメソッドで解決できる、とタグチメソッドのコンサルタントは指導されるかもしれない。その手順で解決がつく場合もあるが、解決つかない問題も存在していることを認めることはタグチメソッドの信頼性を正しく流布するために重要である。
このことは、品質工学フォーラム創設時の会誌に竹とんぼの事例が載っており、タグチメソッドで最適化したけれど安定に飛ぶ竹とんぼを完成できなかった話題が紹介されている。正直な記事である。およそ何でも切ることができるハサミとか、どんな金属でも穴を開けるドリルとか、万能をうたっている商品には怪しい香りがする。道具は適材適所で使うのが原則で、タグチメソッドもそのような道具の一つである。
またタグチメソッドで解決つくかもしれないが、タグチメソッドで解決するよりも開発速度が速く、日々の生産も効率が良くなるノウハウが存在する場合も無理矢理タグチメソッドを用いる必要は無いと考えている。この時のノウハウとして多変量解析が使われる場合がある。
かつてNHKで放送された“ものつくりの現場”の番組で車の窓に使用されているゴムパッキン(ゴム枠)の押出工程の話題を扱っていた。ゴムパッキンの生産開始時には数度ゴムを押出し、図面で寸法精度を確認しながら金型の温調や冷却タイミングを決める、そしてその方法と金型設計が属人的ノウハウである、として紹介されていた。現場の紹介ビデオでは、金型と冷却ゾーンにモザイクがかかり怪しい雰囲気を醸し出していたが、金型からは多数の電源コードが下に垂れていた。
高分子の押出金型のヒーターを多数に分割し、金型内を流動する高分子材料のレオロジー特性を温度で制御する方法が知られている。このときヒーターの分割方法や金型の口金など金型設計はノウハウで高分子材料の成形を事業としているメーカーのコア技術である。
どのような材料が流れてきても設計図どおりの寸法のゴム部品を押し出すことができる技術は技の世界である、とNHKの番組は伝えたかったのだろうと思うが、この技術はタグチメソッドでも問題解決が難しい。むしろ融通の利く多変量解析でロバストの高い方法を探った方が問題を早く解決できる。
高分子材料はそれ自身ノイズを多く含んだ材料である、という感覚は重要で、未知のノイズが生産現場で突然現れることもある。現場の問題によってはタグチメソッドで解決するよりも素直に変動を認め多変量解析で安定生産を行うノウハウを構築した方が良い場合が存在する。
蛇足であるが、高分子材料に含まれるノイズは混練技術によりその変動を小さくできる。ゴムの混練はコストの高いバンバリーとロールの組み合わせプロセスで1世紀以上行われてきた。生産効率の高い多軸混練機が発明されても使用されていない。これはゴム部品の品質を安定化するためにコストの高い混練システムを採用しなければいけないからである。樹脂の混練技術者がゴムの混練技術に学ぶべきところは多い。
(注)これはタグチメソッドを用いても解決つかない問題の一つである。もちろん多変量解析でも解決はできない。システムを変更しなければいけない問題である。問題解決可能なシステムとノウハウがあるので弊社に相談して欲しいが、“システム選択は技術者の問題“というのは故田口先生の口癖であった。この意味の中にはタグチメソッドで問題解決できないシステムが存在する、という意味も含まれている。扱うシステムによっては、タグチメソッドで問題解決できる場合、多変量解析で問題解決した方が簡単な場合、そのシステムを諦めた方が良い場合等について問題解決の道具を使う前にまず考えることが重要である。
カテゴリー : 一般 連載
pagetop
重回帰分析は、2変数の単回帰分析が実務でよく使われているので説明の必要は無いかもしれないが簡単に概略を述べる。
サンプリングされた2種類のデータ群、xとyの2変数の間の関係を求めるためにx軸とy軸の平面にデータ(x,y)の組をプロットする。そしてある一次式y=ax+bの直線のまわりにそのプロットが集まっていると、この二変数の間に相関がある、と仮定する。そして相関係数を求め相関の度合いを評価したり、求められた一次式から目的変数の推定値を求めたり、その推定値とサンプリングされたデータからのズレを評価したりして解析を進める。
この時、xを説明変数、yを目的変数と呼び、この分析方法を単回帰分析という。解析の結果、二変数の間に強い相関がありその相関を説明できる仮説がほぼ正しいと判明すると、一次式は現象の予測式として使えるようになる。現象を予測し、誤差分析を繰り返しながら真実に迫っていくのが単回帰分析の手法である。
単回帰分析に対して重回帰分析とは、その説明変数が多くなった回帰分析のことで、多変量解析の中ではよく使われている。重回帰分析で使用される重回帰式のyを目的変数といい、xを説明変数と呼ぶのは単回帰分析と同じである。そして目的変数を多数の説明変数の一次式の関数として求め解析を進める方法もほぼ同様であるが、ここで一次式である点を忘れてはいけない。
さらに気をつけなければいけないのは、説明変数を多数導入すると重回帰式の信頼度は上がるが、その結果お互いに相関のある説明変数を取り込む問題が出てくる。説明変数の間の相関が高くなると目的変数に対する説明変数の寄与を正しく評価できなくなる。説明変数の目的変数に対する寄与を標準偏回帰係数で求めるときに、各説明変数の間に相関が無く(これを一次独立という)信頼度が高い重回帰式が理想ですが、そのような重回帰式を組み立てられる場合は稀である。高い相関のある説明変数が取り込まれたときの重回帰式は目的変数に対する説明変数の寄与を求めるときには注意が必要である。
説明変数間に高い相関があり、どうしても全ての説明変数を入れた重回帰式を組み立てたい場合には、主成分分析と組み合わせて重回帰式を求める。すなわち説明変数について主成分分析を行うと一次独立の変数に変換できるので、この変換された新たな変数を説明変数として重回帰式を組み立てる。この手法にはコンピューターが不可欠である。
あるいは、説明変数を減らしても良い場合には、相関の強い説明変数のどちらかを棄却して重回帰分析を行う。これを自動的に行う方法もあり、段階式重回帰分析と呼ばれている。段階式重回帰分析では、一つづつ説明変数を取り込むときに説明変数の相関を評価している。技術開発では説明変数に対してある程度の重要度が決まっている場合が多いので段階式重回帰分析はあまり使用されない。
説明変数間の相関が低い重回帰式が得られたなら標準偏回帰係数(偏微分)を用いて目的変数に対する説明変数の寄与を調べる。ここで標準偏回帰係数を用いるのは単なる偏回帰係数では説明変数の単位にその値が影響を受けるので、用いることができないから。
このほか残渣分析を用いて回帰式がどの程度サンプル集団の説明ができるのか調べる手順は単回帰分析の時と同様である。昨日まで説明した主成分分析に比較して重回帰分析は単回帰分析に似ているので親しみやすい多変量解析手法である。
カテゴリー : 一般 連載
pagetop
主成分分析は元のデータ群に対して変数軸の回転を行い、変動が最大となる新たな軸でデータを眺めているだけである。
主成分分析ではデータの変動が最大となる軸、すなわちその軸でデータを整理するとデータが最も散らばってプロットされる。ここでは複雑な数式を書くことができないので軸を回転して新たな軸を求める計算方法を書かない。
ただし、計算の考え方を少し説明すると、ある条件の下で変動が最大になる条件、すなわちある条件の下で関数の極値を計算で求める。この時、ラグランジュの未定係数法が出てくる。
多変量解析の教科書で化学系の人間が読んでいて嫌になるのは学生時代にマジメにやらなかった線形代数の計算が出てくる点。改めて線形代数の教科書を買い込み勉強することになる。
線形代数を理解できると、主成分分析の計算は、ただ分散共分散行列の固有値を計算で求めているだけ、ということに気がつく。これは、ラグランジュの未定係数法の極値条件で最大値をとる必要条件なのだが、計算手続きとして主成分分析の計算を眺めると極めて単純である。
教科書では数ページにわたり式が展開され専門外の人間に恐怖を与えているが、固有値問題と理解すれば怖くない(このように書くと統計学の先生に叱られるかもしれない)。
分散共分散行列の最大固有値に対する固有ベクトルの成分が、元のデータに対する新たな第Ⅰ主成分の軸の方程式の係数となる。このようにして第二主成分、第三主成分と元のデータの変数に応じて新たな軸を求めてゆく。このようにして求められた新たな軸でデータを検討する方法が主成分分析である。
計算方法を理解すると主成分分析はデータのばらつきが大きくなる軸で整理しているだけ、と実感し納得できる。線形代数の詳細な計算の理解など不要である。むしろ計算された結果の考察が重要である。
教科書を読むと、新たな軸に名前をつけよ、とある。新たな軸に名前をつけると資料分析に役立つ、とあるがどのような名前をつければ良いか迷うことがある。子供の名前でも苦労したのである。日々の日常業務で命名に時間を使っていたのでは仕事が進まない。軸に名前をつけることにどれだけの意味があるのか執筆者に突っ込みたくなるが、昔の本である。
30数年間の開発で使っていたのは、主成分の方程式の係数を見て、大きい係数の項目のかけ算の表現を名前とする方法である。また、求められた主成分方程式の軸では無く実際にそのかけ算の値を軸として整理し直したこともあった(注)。
ビッグデータブームとしてテレビで取り上げられることが多くなった主成分分析であるがテレビで仰々しく報じているような科学の進歩の壮大な成果というほどのものではなく、その中身は意外に簡単なのである。
データが巷にあふれてきたので約半世紀前の手法で整理して眺めているだけである。しかし、それでインフルエンザの流行が事前にわかったりするのだから便利で、このような便利な手法を実務で利用しないのはもったいない。
(注)主成分分析では統計学的に分散が最大となる軸でデータを整理してゆく。しかし、実務的には新たに求められた主成分の軸よりも、その軸の方程式から推定される技術的な意味のある軸で整理しなおした方が理解しやすい場合がある。最大の分散でデータを眺めることにはならないが、データ群を理解するときに、主成分と異なるそのような軸で眺めた方が直感的に理解しやすい。また、その軸を求める過程で、アイデアがひらめくこともある。実務的には主成分分析で全てのデータを特徴付けることよりも、軸を変えてデータを見直すこと、すなわち視点を変えてデータを見直す作業そのものが重要である。
重要なポイント:
実務で主成分分析を行う意義は、目前のデータを異なる視点でまとめ直すところにある。その結果新たなアイデアが生まれることもあるが、新しい事象が見つからないこともある。後者の結果が得られたからといって主成分分析が無駄な作業という意味ではない。なぜなら、企業の研究開発ではあらゆる視点でデータを見直すことは重要な作業だからである。
カテゴリー : 一般 連載
pagetop
統計学の目標が、多数の複雑なデータから本質を見抜くことにある(注)ならば、主成分分析を一言で言うと、データを見渡せる場所を探し、そこからデータを調べる方法となる。
データを見渡せる場所、とは、データには誤差がつきものなので、データそのものの変動が最大になっている場所となる。人間が集めるデータは、ある仮説に基づき集められる場合が多いが、その仮説で集められたデータの変動がいつも最大になるとは限らない。これは現象を科学という視点で見たときに全てを見通せるとは限らない、ということを意味している。
科学的に説明がつかない現象も含めて目の前のデータを集めなければいけないのが、毎日の実務作業である。開発業務では、とにかく新製品の納期に合わせて、技術開発を進めなければならない。そのため基礎科学の視点で全てを解明しながらデータを集めることができなくなる。
例えば界面活性剤の特性値にはHLB値、曇点、分子量、融点などがあり、カタログを見るとこれらの値がデータとして示されている。界面活性剤の教科書には、HLB値で界面効果を表現できるとある。しかし、カタログの値を主成分分析してみると、HLB値の視点と分子量その他の項目を寄せ集めたデータが第Ⅰ主成分として出てくる。
すなわち、カタログの項目とは異なる別の項目でデータを整理でき、その整理されたデータ表では、元のカタログデータの変動よりも、データの変動が大きくなっている、それが第Ⅰ主成分になる、ということである。
もう少し手続き的な言い方をすれば、カタログ値の項目で並べられたデータをコンピューターで処理すると新たな項目のデータ表に置き換えられ、元のデータ表の変動と新たなデータ表の変動を調べると新たなデータ表の変動が大きくなっている。このようなデータ変換の方法とその変動が最大となったデータ群を元に解析する手法が主成分分析という手法である。
界面活性剤のカタログ値を主成分分析にかけると、HLB値と相関の高い項目には、HLB値とそれ以外の因子の情報を加えたデータになっている。この軸ともう一つ別の軸を持ってきてサンプル集団をプロットすると、HLB値で分類した場合と異なるサンプル群が見えてくる。
電気粘性流体をゴムに封入したときに耐久性が悪くなる問題を界面活性剤で解決したときに主成分分析で分類された群を利用して問題解決を行った。HLB値だけでは隠れてしまっていた界面活性剤が、主成分分析を行い新たに作成した特性表から答として選ばれてきた。
このようにデータ表を処理して別のデータ表を作るのだから、行列計算になる。ゆえに主成分分析に線形代数が出てくるのである。
(注)タグチメソッドのロバスト設計という目標と異なる。タグチメソッドが統計ではない、と言われるゆえんである。技術と科学の目標の違いである。
(補足)界面活性剤の機能をモデルで説明するときにHLB値は便利で分かりやすい。しかし現実の複雑系ではHLB値だけで界面活性効果を制御できない。界面活性剤はHLB値である程度のあたりをつけることは可能だがそれだけで解決できない問題が存在し、やってみなければ分からない世界である。しかし、このような世界で主成分分析は一つの手がかりを与えてくれる。またこの手法で予想外の主成分が見つかったりすると貴重なノウハウになる。しかし科学偏重の風土の会社では主成分分析を用いたことを隠しておいた方が良い場合がある。例えば界面活性剤をHLB値以外の因子で選択した、という説明は難しく怪しい方法と言われる場合がある。
カテゴリー : 一般 連載
pagetop
具体的な式は教科書を見て欲しいがばらつきの表現のパラメーターとしてまず覚えなければならない定義を以下に。その他にも難解な言葉は多いがまず以下を丸暗記しなければ多変量解析の教科書を読むときに苦労する。
偏差:測定値と平均値の差
変動(偏差平方和):偏差の平方和
分散:
偏差を平方してたし合わせ、その値を足し合わせたサンプル数で割った値である。すなわち変動をサンプル数で割った値である。なぜ偏差の平方和にしているのか。測定値と平均値の差をそのまますべて足し合わせると0になるからである。いつも0では情報が消えたのと同じなので、平方和をとってばらつきの尺度にしているのである。サンプル数で割ったときには標本分散と呼ぶ、という説明も教科書には載っている。これは(サンプル数-1)で分散を求めることもあるからだ。これも理由無く書いている。昔電卓の標準偏差を求めるキーにNとN-1の2種類存在するのを見て奇異に思ったことがあるが、サンプル数が少ないときにN-1を使う、とその道のプロが教えてくれた。なぜかと尋ねたら、Nではサンプル数が少ないときにばらつきを過小評価することになるからN-1で割るのだ、と説明してくれた。意地悪くNとN-1の境界の個数は、と尋ねたら答は返ってこなかった。
ここで大事なことは、多変量解析では平均値よりも分散の値が主役になる。分散は測定値の持つ情報量を表現している、という説明まで教科書に書かれている。
標準偏差:
分散の平方根。平均値と同じ次元になる。標準偏差などと命名されているので普通の感覚で導かれた式だと思っていたが、データの平方和の平均(分散)を平方根にした、すなわち平方して求めた値を平方根で元の次元に数値を戻しただけである。なぜ平方根にしたのか、といえば平方して和を求めたので平方根にしただけである。初めてこの言葉に触れたときに、平方根を取る理由が分からなくて大変難解に感じた。単なる定義である。
共分散:
2変数間の関係を表す分散で、(x1-xの平均値)*(y1-yの平均値)+(x2-xの平均値)*(y2-yの平均値)-――とたし合わせサンプル数で割った値。これも情報量を表現するための定義。
相関係数:
共分散をそれぞれの変数の標準偏差で割った値。標準偏差や共分散が定義されると相関係数という値が何か意味ありげにこれらの数で表現される。科学の数学表現を考えている人たちは表現が美しくなるようにいろいろ定義を考えてゆく。専門外がそれを理解しようとする時に美しさよりもそれぞれの由来を考えて悩む。
分散共分散行列:分散と共分散をまとめた対称行列のこと。
相関行列:相関係数の対称行列のこと。
カテゴリー : 一般 連載
pagetop
多変量解析を理解する為には、統計の基本的考えを理解していなければならない。統計の基本とは、現象を把握するためにサンプリングを行い、サンプリングされたデータから現象を推定する、という考え方である。
対象とする現象の一部から抽出したデータで現象を推定しようとするから、誤差の問題が発生する。誤差とは、自然で起きている実際の値Xと、サンプリングされて測定されたデータxとの差である。ここで問題が起きる。Xを知りたいからサンプリングしたのだが、Xは絶対に知ることのできない値である。これがよく分からない人がいる。世の中にはどんなことをしても知ることのできない事柄がある、という現実をまず認めることから統計学は始まる。
知ることのできないXを推定するために、サンプリング数を増やして平均をとり、xの平均値~xをXと等しいのではないか、と推定する。統計学の本を読むと母集団Xの値を推定するためにサンプル集団の平均値を求める、とさらっと書いてある。統計という学問を誤解する人はこの段階ですでに“気がつかずに”つまずいている。どのような努力を払っても実際の値が分からないから平均値でその値を推定している、ということは大事な考え方である。サンプリングの仕方で平均値もばらついているのである。例えばサンプリング数を大きくしてゆくと、平均値のばらつきも小さくなってゆき日常生活で無視できるばらつきのレベルになる。
実際の値をばらつく平均値で推定するのだから、サンプリングしたデータ全体の変動が気になってくる。それを表わしているのが偏差とか分散とか呼ばれる値である。平均値はサンプリングデータの総和をサンプリングした個数で除する、という手順は小学校で習うので違和感は無いが、偏差とか分散あたりで難しく感じ始める。そして教科書を読み進むと線形代数が出てくるのが多変量解析の教科書で、そこまで読み進むと教科書を投げ出し、統計学は難しい、となる。
おおよそ自学自習の経験が少ないと不得意な内容を読み進めようとしないのが凡人の常である。実はどのような難解な本でも10回程度我慢して読むと何とかわかったような気がしてくる。昔の格言で「読書100ぺん――」というのがあったが、100回まで読まなくても10回程度で分かり始める。
人によりあるいは難しさによりその回数は変わるが、我慢して何度も同じ本を読む習慣を凡人が身につけるとどのような分野でも努力すれば理解できるという自信がつく。日科技連の「多変量解析」という本は6回程度読んで理解でき、重回帰分析のプログラムを組むことができた。そして偏差とか分散について2回目あたりで教科書の説明が専門外の読者を考えていないことに気がついた。日科技連の「多変量解析」は専門書として優れているが、入門書として不適格な書物だと思う。まえがきに、「専門外の人は10回読んでみてください」と注意書きを書くべきである。
基本統計量というパラメーターは統計という学問をうまく体系づけるために考え出されたパラメーターである。偏差の値については、小学校高学年あたりで最大値と最小値の差であると習う。要するにサンプリングしたデータのばらついている様子を大雑把につかむにはこの説明は便利だ。中学校になり、標準偏差を習う。そして分散という値についてもその説明文で接する。すなわち統計量にはデータのばらつきの表し方がいくつもあるのである。そして必要に応じてそれらを使い分けているだけである。この感覚が統計学を理解するときに大切である。
故田口先生は、それらをSN比で統一し、タグチメソッドの体系を創り上げたスゴイ先生だ。データのばらつきは、誤差因子により引き起こされるので、考えられる誤差因子のすべてを調合してSN比を求めるのがタグチメソッドのコツである。SN比が最大になるように、すなわち誤差因子に対してばらつきが小さく”安定に”なるように制御できる因子を調整してばらつかない機能部品を開発する、これがタグチメソッドにおける偏差の考え方である。そして誤差に対して安定に機能が発現するように材料設計する方法がロバスト設計である。タグチメソッドの美しさは、誤差-ばらつき-ロバスト設計という考え方で統一されている点である。難解な統計学と一線を画する品質工学すなわち技術という学問である。
田口先生がアメリカでタグチメソッドを指導されているときに、相関係数をラテン方格に割り付けて実験計画法を行うアイデアを思いつき、高純度SiCの開発に使用していたが、SN比までアイデアを拡張することは考えなかったので、田口先生のスゴサを身にしみて感じている。
データの散らばり具合をタグチメソッドではSN比で表現し直感的にロバストをあげる、という考え方を分かりやすくしたが、多変量解析では、分散とか、共分散、偏差平方和などいろいろな言葉が出てくる。しかし、これらが単なるデータの散らばり具合を表すパラメータとわかれば理解が早い。あとは定義を覚えるだけである。すなわち統計学という体系を創り上げるための決め事をまず覚えなければならない、ということ。頭の善し悪しでは無いのである。SN比でそれらを統一した田口先生は改めてスゴイと思う。
多変量解析を理解する為に統計学を学ばなければならない。統計学は科学分野の学問である。技術のタグチメソッドと異なり、真実を明確にするための約束事=言葉の定義を覚えなければ理解できない。タグチメソッドはロバスト設計のコツを伝承すれば誰でもできるようになる。技術だからである。科学分野の教科書はどれも難しい。それは、哲学書であり、その世界感を理解する為にその世界で使われる専門用語=知識を覚えなければならないからである。考え方の理解は知識の量に左右される。
カテゴリー : 一般 連載
pagetop
ゴム会社から写真会社へ転職したときのキャリアは、セラミックスの研究者であった。ゴム会社で住友金属工業との半導体用高純度SiCのJVを立ち上げるまで、炭化物以外に窒化アルミや窒化珪素などの非酸化物系セラミックスの研究開発を推進していた。数年間は一人で担当しており、スタッフ職という位置づけであった。
スタッフ職なのでセラミックス以外のテーマの支援も行っており、ゴムを初めとして高分子関係のテーマに接する機会も多かった。ゆえに写真会社で高分子技術を担当すると言っても違和感は無かったが、学位を取得しようとしていたセラミックスに比べると圧倒的に知識が不足していた。そこで役にたったのが、新人時代に50万円の研修で1年間勉強させて頂いた多変量解析を初めとする統計の知識であった。
転職先の部署で隘路にはまっているテーマを見つけては、実験データを多変量解析していた。フィルムのスクラッチ試験を主成分分析で解析したときには、スクラッチ試験で傷の付き方が幾つかに分類されることを発見した。担当者に尋ねてもその事実に気がついていなかった。
スクラッチ試験器は2台あり、同じサンプルでこの2台の傷の付き方を調べたところ、微妙に異なっている。担当者は誤差範囲だという。その日から、どちらの試験器で試験を行ったのか記録させることにした。すると片方の試験器で傷がつきにくくなっていることが傾向として現れた。1サンプルでは誤差範囲という言い訳はできても、Nが大きくなってくると有意差検定の精度があがる。有意差検定でクロとなれば試験器の差を認めざるを得ない。
面白いことに、この機種の差はサンプルの処方設計に依存して大きくなったりしている。単純に試験器のメンテナンスの問題なのだが、針先の形状の違いが振動の差を生み出し処方の差を検知しているのである。これをヒントに動的にスクラッチ試験を行い、薄膜の粘弾性を解析する装置を発明した。クズデータと思われるデータを多変量解析にかけたら新しい技術のヒントが生まれたのである。その上この薄膜粘弾性測定試験器は、新しい技術「写真フィルムのプレッシャ-故障防止技術」を開発するのに活躍した。多変量解析さまさまである。
また、酸化スズゾルを用いた帯電防止層の開発のきっかけとなったのは、酸化スズゾルの粒子には導電性が無いと結論づけられたクズデータ群である。このデータ群とイオン導電体による帯電防止層のデータ群をいっしょに重回帰分析にかけた。誤差分析を行ったところ、パーコレーション転移前は、酸化スズゾルに含まれる微粒子の導電性が高いという可能性が出てきた。
酸化スズゾルに含まれる粒子の比重が極めて大きいので、体積分率を基準にしたときの添加量の多いところまで検討していなかった問題もあったのだが、酸化スズゾルに含まれる粒子の導電性が良好、という統計データは金星であった。すなわち、否定的結論を出したデータを解析し直したところ有益な見通しが得られた。
一連の解析は、当時主流であった16ビットのPC9801を改造した32ビットのマシンで行っていたので1時間もかかっていない。大半がデータをインプットする時間であった。プログラムはLattice Cで作成した自前のソフトウェアーである。当時このCの処理系にはライフボート社から多数のライブラリーが販売されており、統計計算のソフト開発が容易な環境であった。日科技連で受講した研修の復習をするため日曜日にプログラムを作成していた。プログラムを作成したら難しく見えた多変量解析も簡単に見えてきた。
多変量解析では因子間に相関が高ければ、必ず何らかの傾向が現れる。それが固有技術の観点から説明できれば良いが、説明のつかないときには注意が必要である。偶然の結果なのか気がついていない因子が存在するのか統計の視点と技術の視点から検証しなければならない。転職して一年間多数のデータを解析してみたが、偶然の相関よりも実験ミスの傾向の方が多かった。測定装置のメンテナンス不足のようにデータが少ない段階で気がつかない実験ミスが転職した職場に多いことを発見した。
カテゴリー : 一般 連載
pagetop