プログラミングスキルは、データサイエンスを学ぶ上で重要である。情報工学科を卒業してきて、プログラミングは嫌いです、と平然と言う人がいる。どのように勉強してきたのか、あるいはどのような指導を受けてきたのか、このような言葉を聞くと疑問に思う。
プログラミング以外の研究もあるので、というのがそのような情報工学専門家の意見だが、データサイエンスを異分野で活用する時に、プログラミングスキルが不要という人はデータサイエンスをよく理解していない人だ。
今の時代ならば、最低でもPythonぐらいは自由自在に使えなくてはいけない。ChatGPTがあるので敷居は大変低い。弊社のセミナーを1日聞けば誰でもプログラミングスキルが身につく。
なぜデータサイエンスでプログラミングスキルが必須なのか。それはデータ処理にプログラムが必要だからである。プログラムはプログラマーに作らせればよい、と言っていては駄目である。
プログラムでデータ処理するときに試行錯誤しながらデータ処理を行う場合があるからである。すなわち、データ処理方法の妥当性を得られた結果だけでなくデータ処理方法を考える過程も考慮する必要があるからだ。
これはどのような意味なのか。数理モデルで問題を解くときに、モデルの立案方法は科学ならば真理が一つなので一つに定まるが、データサイエンスを現象に応用しようとする時に科学的プロセスとならないからである。
カテゴリー : 一般
pagetop
データから情報を取りだす技術が情報工学であるが、今はデータから「知」を取り出すことが求められる時代となった。すなわちデータマイニングをどのように行うのか、が情報工学の研究対象である。
しかし、まだ完璧に成功しているわけではない。「コンピューターの処理によりデータから取り出された情報」を知になるのかどうか、人間が確かめねばいけない段階である。
これは、当方が40年以上前から取り組んできた状況とさほど変わっていない。当方がデータサイエンスで解をだすと、周囲のスタッフが「科学的に求められたものではない」とイジメてきたのである。
これをいじめでは無く指導と受け取り、データサイエンスで得られた解を科学的に改めて証明し、解を求めてきた。
転職の原因となった電気粘性流体の問題では優秀なスタッフ6人が長期間かけて出した否定証明の科学的に完璧な解をデータサイエンスにより一晩で解を出すことができたのは、このような努力を10年以上してきたからである。
ちなみに本当のAIと呼べるものは、かつて話題になった「マトリックス」という映画で描かれた世界に登場した「AI」である。また、マテリアルズ・インフォマティクスでも十分な知となっていないから、それをネタに研究論文を書ける時代なのだ。
当方は先月開催された日本化学会年会で、40年以上前に当方が当時の情報工学の先端レベルの方法で行った手法と今マテリアルズ・インフォマティクスで話題になっている手法との比較を科学の解を添えて発表した。
この発表の目的は、相関が期待される現象では、40年以上前の手法でも十分に現在でも通用する、ということを示したかったからである。
また、30年以上前にはタグチメソッド(TM)が生まれアメリカで普及し始めた。その後、この手法が日本に輸入されて現在に至るが、TMでは、実験計画を立案し最低限のデータ収集で知が得られることをご存知ない方が今でもいる。
TMは、単なる品質工学という意味だけでなく、技術者が基本機能を正しく定義した時に新たな知を手順に従うだけで得られる巧みな手法である。手法そのものがアルゴリズムとなっており、マテリアルズ・インフォマティクスと呼べる。
カテゴリー : 一般
pagetop
昨日NHKクローズアップ現代で、小林製薬紅麹問題を取り上げていたが、品質管理問題に深く言及していないだけでなく、元グンゼ技術者の匿名条件の談話に疑問が残った。
公知のように今回の紅麹は1987年にグンゼが研究開発し、50数件の特許で固められた科学の成果である。すでに基本特許が切れていたので匿名者は製造方法を機密性の高いノウハウと表現し、発酵過程で異物は入らないので、粉砕工程以降で異物が入ったのかもしれない(注)、と説明していた。
また、特許によれば嫌気性条件で培養しているので好気性の青カビが繁殖するのを防ぐことができる。この匿名技術者は自信をもって培養過程における他のカビの繁殖を否定したのだろう。
ところが、この点について出演した専門家の見解は、発酵過程で青カビが入ったのだろうと解説し、NHKも番組の構成でこの見解の違いをクリアーに表現していた。
一方、発酵過程のサンプルが抜き取り保管されていることが説明されたが、その他の工程の抜き取りサンプルが存在しないとした。これは品質管理上問題があるサンプリング手法である。
また、グンゼの匿名技術者の発言と比べると違和感が出てくる。匿名技術者が発酵過程で異物が入らない工程と自信を持って発言しているのに、何故他の工程でサンプリングを行っていないのかである。
特許によれば培養タンクは空気以外のガスで満たされていることになっている。ゆえに青カビなどが入る余地はない、と言っている点は理解できる。しかし、このタンクに投入する紅麹原料の品質管理について放送では語られなかった。
数人の専門家がこの事件について語っていたが、やや残念だったのはグンゼの特許について言及していなかった点である。当方が特許を調べたきっかけは、他の紅麹製造者が30日で発酵を終えるところを小林製薬は50日かけているところに疑問を持ったからである。
ニュースに報じられた専門家の意見として発酵時間が長いので異物が入るリスクが高い、という意見が早くから出されていた。恐らく匿名技術者もこの専門家の意見の存在を知っていて、発酵段階では絶対にありえないとしたのだろう。
特許を読むと、もし窒素ガスを循環させていたとしたならば他の製造法に比べれば異物の入るリスクは激減する。それゆえ粉砕工程以降と科学的な推論を匿名技術者は展開されたのだろうと想像している。
この問題は、報じられている内容から品質管理技術が稚拙だったために起きたと予想されるが、驚くのは、今回のような問題のある品質管理を行っているところが多いようだ。また、それに気がついていない企業もあるようだ。いろいろヒアリングを行って日本の品質管理技術の問題に気がついた。
品質管理技術や品質工学は弊社の得意領域であり、特にタグチメソッドはPythonを使い分かり易くご指導しております。お問い合わせください。
また、本紅麹製造技術についてご相談されたい方もお問い合わせください。今回の問題でかなり勉強をさせていただきました。
(注)小林製薬は、工場の移転を行っており、移転の理由がこの匿名者の見解にあったとすると、これまでの小林製薬の対応は不誠実である。推定が入るので詳細は述べないが、すでに死者が出ているので工場移転理由のすべてを公開すべきである。
カテゴリー : 一般
pagetop
大学4年時に在籍した有機合成の講座は、優秀な研究者ばかりでレベルが高かった。卒業後DICの役員になられた方や、相模中央研所長になられた方、東工大教授になられた方などが同じ研究室にいた。
有機合成デザインをコンピューターで行うコーリーが推進していた研究の話題が、時々雑談で行われていた。最初はそのような話題について行けなかったが、その後当時について名づけられた「第一次AIブーム」となるような状況を説明した本を読み有機合成デザインだけでなく、様々な材料設計にコンピューター導入の研究がなされていることを知った。
大学院ではSiCウィスカーの講座で無機材料を有機合成の手法で合成する研究を行っている。いわゆる無機高分子の研究だが、この講座では、4年の時のような先端の話題が無かった。必死で先輩の話題についてゆく努力が不要だったので気楽だった。
ゴム会社に入社し、1か月半のグループ研修で情報工学出身者から情報工学についてご指導していただいた。この同期のおかげでデータサイエンスを業務に取り入れる動機ができた。
また、新入社員研修で多変量解析をIBM3033の統計システムで行った経験談は、以前この欄で書いているので省略するが、当時情報工学科ができたばかりであり、その学問の姿がよくわからない時に、この同期から聞いた話はその後の勉強の手引きとなった。
すなわち、情報としての「データ」の重要性であり、「データ」から有用な情報を取りだす技術が情報工学である、というアルゴリズムが中心だった時代に大変勉強になった手引きを同期から学んだ。
カテゴリー : 一般 連載
pagetop
データサイエンスとの出会いの前に忘れてしまいたいコンピューターとの出会いがある。それは教養部の試験として出された「自分で課題設定し、プログラムを作れ」という課題に対し、受講者の中で数少ない「可」を取得した思い出である。
作成したプログラムが動作しなかったからである。当時授業を行なった先生にプログラムを見ていただいてもエラーは無かったので「優」であってもいいはずだが、プログラムが動作しなかったという理由で「可」とされた。「可」でも単位となるからいいだろうと言われた。
4年に進級した時に所属した講座は有機合成の研究室で、オーバードクターで分子軌道法を研究に用いられている方がいた。その先生が大学のコンピューターのフォートランにバグがあった、という話をされていたので、教養部の試験で作成したパンチカードを渡し、動作確認して頂いたら動いた。
すなわち、教養部の試験の時にはバグのあったフォートランのシステムだったので当方のプログラムが動かなかっただけの可能性が出てきた。しかし、もう成績を「優」にしていただけない。
コンピューターとの初めての出会いは、コンピューターシステムのバグのおかげで成績が悪かった、という忘れたくても忘れられない思い出となった。
また、この体験があったので、8bit時代にはアセンブラーが主要言語であり、16bitコンピューターの時代には実績のあるLattice Cを迷わず使い始めました。
数値計算に使うには、出始めのMS-BASICは、やや問題がありました。次第に良くなっていったようですが、タグチメソッド(TM)のSN比の値がCで計算した場合と少し異なっていたことがありました。要因効果図には現れない程度でしたが、少し気になり、今も自前のプログラムでTMを計算しています。
カテゴリー : 一般 連載
pagetop
Pythonで重回帰分析のプログラムを作成する過程を題材にプログラミングのご指導をいたします。4月の希望日を3つほど記入し、お申し込みください。受講料は1日WEBセミナー形式で3万円です。企業の研修としてご利用の場合には、人数で割引がございます。
PythonはBASICよりも習得が易しいプログラミング言語です。それでVBAよりも低コストで深層学習のプログラムまで作成できます。
昨年マイクロソフト社はエクセル365にPythonの実装を発表いたしました。Pythonの普及を無視できなくなったからです。当方はすでにエクセルをデータ整理に使用していません。
VBAの代わりに使用していたCやC#もほとんど使わなくなりました。Pythonで十分にデータ解析やその整理ができます。マイクロソフト社がエクセルにPythonを実装したのも当然です。
題材の重回帰分析につきましては、弊社のサイトでも無償でそのプログラムを公開していますが、Pythonプログラムを作成することにより、データ解析を手軽にできるようになります。
カテゴリー : 一般 学会講習会情報
pagetop
工場の不良には、外観からそれを見分けられる外観不良と外観から検査で見つけられない内部不良とがある。外観不良は外観検査で全数取り除くことが可能だが、内部不良は抜き取り検査となるので一部市場でクレーム問題を引き起こす。
これを最小限にする技術が品質管理技術(QC)である。日本はこの技術が高いことで知られ、戦後の成長はQCが支えた、と言われるほどだった。QC大国日本という言葉もあった。
しかし、バブル崩壊後、とりわけこの20年QC大国というのが恥ずかしい事件が多発している。最近では、昨年騒がれたホンダ車の燃料ポンプの問題がある。
低密度品のエンペラーが原因であることを部品メーカーが発表したが、密度管理は樹脂機能部品では常識である。そのための自動ラインを備えている工場もある。
すなわち、密度という内部不良を重量で全数管理しているのだ。全数管理なので内部不良でも市場に出てゆく不良率を低くすることが可能だ。
薬や食品でも不純物管理を正常品のシグナルを基に全数管理に近い体制とすることができる。例えば今騒がれている紅麹問題では、一部のロットだけの問題であることが明らかにされた。
すなわち、正常ロットのクロマトグラフィーを基準に異常ピークの検出を抜き取り検査で行えば、コストをかけず全数検査に近い品質管理体制とすることができた。
品質管理技術の基本が忘れられたようなトラブルがこの20年起きている。戦後のQCは戦前から技術者として活躍してきた人の遺産である。これが団塊の世代から我々の世代にうまく伝承されていない可能性がある。
心当たりのある企業は弊社にご相談ください。最高の品質で社会に貢献する企業で学んだ品質管理技術と故田口玄一先生から3年間直接ご指導いただいた体験を基にQC大国日本のQCを伝承いたします。
カテゴリー : 未分類
pagetop
昨日川勝知事が4月1日におこなった新卒者に対する挨拶について謝罪したが、謝罪発言にも知識に対する誤解があった。この方は、その年齢からドラッカーの著書を読んでいるはずだが。
ドラッカーは産業革命以降資本主義が発展し、知識資本の重要性が増してきた現代について、経営を担う労働者も含め知識労働者の時代と名づけた。
すなわち、第一次産業から第四次産業に従事する労働者はすべて知識労働者であって、その知識の種類が異なるだけと述べている。
おそらく4月1日の時にこのような視点で述べておれば問題とならなかったのに、無知で本音が出たのだろう。知識人の顔をしながら、その頭の中身は明治時代なのかもしれない。
知識には、経験知と形式知、暗黙知があることは紀元前から、すなわち人類が思索を行うようになった時代から知られていた。川勝知事もその程度はご存知のはずだ。
しかし、4月1日の発言は、日本の第一次産業や第二次産業の従事者には知識労働者がいないとしたのである。そして県庁のシンクタンクとしての機能があるから社会が成立している、と発言していた。
言葉の一部を切り取られて誤解を受けた、と述べていたが、全体を要約しても、ドラッカーが指摘した知識労働者の視点を欠いている。
形式知に偏らず経験知と暗黙知を地元の産業から吸収し、シンクタンクに働く知識労働者として活躍してほしい、と述べるのが正しかった。謝罪会見も含め知識労働者に対する理解の視点で0点の発言である。
日本には知識人のような顔をしながら、その知識の薄っぺらなことに気がついていないリーダーが多い。
カテゴリー : 一般
pagetop
データサイエンスは、データに潜む情報を取りだすための科学である。ゆえに、データに潜む情報を取りだす手法を論理的に明らかにするところが科学の方法である。
ところが、そのデータが何者であるかは科学的に明らかにしてくれない。正確には、データが何者であるかは、科学的にシルエットを描き出してくれるが、あくまでもそれはシルエットまでである。
すなわち、シルエットが科学的に真であるかどうかをデータサイエンスは保証してくれない。せいぜい確率的に何%の信頼度であるのか示してくれる程度で、ヤマカンよりあてになる程度だ。
例えば、マッハはニュートンの思考実験による研究成果を科学的成果と認めていない。最近の事例では、あみだくじ方式で見出されたヤマナカファクターも唯一の方法と未だ科学的に言えない。
換言すれば、ヤマナカファクター以外の方法が存在する可能性は残っている。これらは、データサイエンスの事例ではないが、データサイエンスによる成果が科学的成果ではない、という意味はこれらの科学的ではないということと同じである。
ニュートン力学はマッハが科学的ではないと言っても、高校の授業で習うのはニュートン力学である。あみだくじ方式によるヤマナカファクターも科学の成果として認められている。
イムレラカトシュは、否定証明だけが唯一の厳密な科学の方法であるが、科学と非科学の境界は時代により変化すると述べている。
1991年に当方はゴム会社から写真会社へ転職しているが、その原因は否定証明で科学的に真とされた「電気粘性流体の耐久性問題は界面活性剤で解けない」という仮説について、耐久性のある電気粘性流体をデータサイエンスによる成果で実現したからである。
当方の方法は非科学的と非難されただけでなく、すでにここに書いているがその後の業務の妨害も受けたので当方含め3人が転職している。
少なくとも1990年代まで日本ではデータサイエンスによる成果は非科学的とされた。また、タグチメソッドも日本で生まれながら、1980年代にアメリカで普及後日本に再輸入されて普及した経緯がある。
当方は1980年代のデータサイエンスを用いた難燃化技術成果について、深層学習で解きなおした成果とともにこの3月20日に日本化学会で発表している。この成果についてはセミナーでも公開してゆこうと思っている。
データサイエンスを導入した技術開発の手法をまとめ、すでにこの10年それを活用したセミナーを行ってきたので、企業内研修の教材として提供可能です。お問い合わせください。
カテゴリー : 未分類
pagetop
昨日各局のワイドショーでは、紅麹の問題を扱っていたがその取扱い方が同じでつまらなかった。なぜなら、当方が指摘している工程の品質管理の問題を議論しているところは無かったからである。
社会問題となっていることは先週から明らかであるが、不良の製品を4月から年末まで作り続けた問題を議論すべきである。正常な製品を作り続けた実績があるならば、正常な製品のクロマトグラフィーを基準にして、異常検出ができた。
いくら多成分のピークが出ていようと、今ならコンピューターで管理すれば異常ピークの検出が可能である。工程異常を検出できれば、今回の問題は発生していなかった。
工程異常を検出しながらも健康に影響を与える製品を生産していたなら、それは犯罪である。工程管理では紅麹以外の成分が何かまで分析する必要はなく、「紅麹以外のものができていないかどうか」ぐらいの検出は簡単である。
安定生産の実績があるので、正常生産のデータが豊富にあるはずだ。それをもとに工程が管理状態にある条件を決めることができる。また、工程能力も計算できる。
紅麹以外のものが検出されたなら、それは異常と判断し工程を止めなければいけない。このような基礎的な品質管理技術で死者を出さずに済んだ。
小林製薬は紅麹以外の食品も生産しているが、今回の問題からすぐにラインを止めた方が安全である。当方が小林製薬の社長ならば、工場を停止する。そして異常検出できる施策を行い、FMEAで不良率0を確認できてから工場を稼働する。
カテゴリー : 一般
pagetop