多変量解析ソフトウェア - gl s...(quantitative structure-activity...

8
Pattern Recognition Software for Windows NT & Windows 95/98 !"!"#$ !" ®

Upload: others

Post on 10-Jul-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Pattern Recognition Software for Windows NT & Windows 95/98

�� !"�� !"#$

�� !"

®

ケモメトリックスとは!? ケモメトリックス(Chemometrics)とは、1972年にスウェーデンのS.Woldが、化学(Chemistry)と計量学(Metrics)を組み合わせて作成した造語です。つまり、ケモメトリックスとは、「統計学的手法を適用し、最適手順や最適実験計画法の立案・選択を行うとともに、化学データから得られる化学情報の最大化を目的とする化学の一分野」です。 さらに、ケモメトリックスは、統計・最適化・信号処理・分解能・検量・構造活性相関・パラメータ評価・パターン認識・ライブラリーサーチ・人工知能などの要素に分類されます。

 今日では、クロマトグラフィーや分光光度計、質量分析計などの分析機器とコンピュータの発達により、数百の変数をもつデータを1日で数多く収集できます。例えばガスクロマトグラ

フィーの場合、香料やガソリンを分析すると、数百本のピークが検出されます。

 従来はこのような多変量データを処理しきれず、数本のピークのみに注目して解析していま

した。しかし、このような方法では、サンプルの全体的な特徴や、サンプル間の相違を把握す

ることが、困難です。つまり、全体の特徴を理解するためには、全てのデータを使って多変量

解析することが理想です。ケモメトリックス専用ソフトウエアのピロエットを用いると、クロ

マトグラムやスペクトルなど、膨大で複雑なデータを一括して読み込み、解析し、その中に潜

んでいる重要な情報を効率的に抽出できます。

 ピロエットを使用すれば、難解な数学や統計学の知識がなくても、ツールボタンとマウス操

作だけで、簡単に結果が得られます。解析結果も、理解しやすい図として表示されます。これ

から多変量解析を始める初心者はもちろん、ケモメトリックスに詳しいエキスパートの方まで、

全てのユーザーに最適なソフトウエアです。

 ピロエットには、ケモメトリックスの分野で使用される、代表的な以下のアルゴリズムが用

意されています。

探索的データ解析 全てのデータを使用して、客観的にサンプルの類似性やグループ、アウトライヤー、変数間

の関係を調べるのに適しています。多次元のデータを最大限に視覚化することにより、データ

全体の特徴を効率的に理解できます。ケモメトリックスの第一歩は、探索型データ解析から始

まります。

・階層的クラスター分析(Hierarchical Cluster Analysis)

・主成分分析(Principal Component Analysis)

分類 予めカテゴリーの分かっている既知サンプル(トレーニングセット)からモデルを構築し、客

観的に未知サンプルを各カテゴリーに分類する場合に使用します。良品と不良品の判別やサン

プル起源の判別に適用できます。

・KNN(K-Nearest Neighbor)

・SIMCA(Soft Independent Modeling of Class Analogy)

多変量の回帰分析 2つの事象(説明変数と目的変数)の関係を明確にする回帰モデルを構築し、回帰モデルか

ら未知サンプルの特性値を予測する場合に使用します。多変量の回帰分析では、単回帰分析よ

りも精度の高いモデルを構築できます。また、モデルや予測の信頼性を、客観的に診断できま

す。

・主成分回帰分析(Principal Components Regression)

・PLS (Partial Least Squares Regression)

・CLS (Classical Least Squares)

ピロエットとは

ケモメトリックスをもっと知りたい方へピロエットの開発元である Infometrix社は、インターネット上にホームページを開設しています。(http://www.infometrix.com/)ケモメトリックスの詳細については、以下の参考図書をご参照ください。・ケモメトリックス -新しい分析化学-:相島鐵郎著(丸善株式会社)・ケモメトリックス -化学パターン認識と多変量解析-:宮下芳勝・佐々木愼一著                                (共立出版株式会社)・分析化学のための多変量解析:三井利幸著(日本図書刊行会)

1

ケモメトリックスの応用分野= ケモメトリックスは、科学捜査、環境科学、地質学、食品化学、医学、薬学、バイオテクノロジー、合成化学、石油化学、考古学など、幅広い分野で利用されています。また、ケモメトリックスは、クロマトグラフィーや近赤外分光光度計、質量分析計、蛍光X線、NMR、複合センサーから得られる、分析データの解析に応用されています。

黒曜石中の金属成分による採石場の分類(PCA)

科学捜査、法医学・ひき逃げ事件の車種特定・現場に残された土壌の地理的解明

・麻薬流通ルートの解明

環境科学・カモメの卵中のPCB、PCDD、PCDFによる群生のパターン認識・PLSによるカニ中のPCDD、PCDFからの汚染源の距離と性別の予測・海洋のオイル汚染に関するクラスター分析によるオイルの識別・都市近郊の大気中の元素特性による大気汚染の原因と識別・焼却炉や金属埋め立て地付近の牛から採取された牛乳中のPCB、PCDD、PCDFによる パターン認識・パルプ工場から排出されるリグノスルホン酸のケイ光スペクトルのPLSによる定量・廃棄ダンプからのトランスオイルのKNNによる分類

・ディーゼルエンジンの排気臭と各種成分濃度の回帰モデルの作成

食品や飲料の分野・コーヒー豆の産地の識別・ガスクロマトグラフによる緑茶・紅茶・烏龍茶のパターン認識・複合ガスセンサーによる酒香気の識別・ガスクロマトグラフからのミルクの所蔵寿命の予測・添加物の混入や偽ブランド品の検査・ガスクロマトグラフによるバター中の脂肪のPLSによる定量

・NIRによるトマト果汁中のクエン酸含有量の予測

医学・薬学・バイオテクノロジー・近赤外スペクトルによる血液成分の監視・血液や尿の分析結果からの病名の判別・肺結核の原因となるバクテリアのHPLCによるパターン認識・尿タンパクのクロマトグラムからの肝臓障害患者の識別

化学、石油化学・ガスクロマトグラフによるジェット機燃料のパターン認識・近赤外スペクトルからのオクタン価の予測

・NMRスペクトルからのナフサの分類

定量的構造-活性/物性相関(Quantitative Structure-Activity Relationships/Quantitative Structure-Property Relationships)・チオールカーバイド類の殺菌活性と除草活性・SIMCA法による甘味物質の構造-味質相関

ブランドウイスキーの検査 (クラスター分析)

NIRスペクトルによるオクタン価の予測 (PLS)

ヘッドスペース /質量分析によるコーラの分類(PCA)

2

データの前処理と変換 読み込まれたデータの単位やスケールが統一されていない場合には、データの前処理が必要です。また、スペクトルデータでは、微分などによるデータ変換が必要になる場合があります。データの質を高めるために、前処理や変換を適切に行うことは、多変量解析を成功させる第一歩です。ピロエットは、以下の前処理機能と変換機能を備えています。

前処理(Preprocessing):平均化 オートスケール(正規化)レンジスケーリング 分散スケーリング

変換(Transform):微分(1次、2次 ) 平滑化 多種ノーマライズ

Log10 減算 乗算 MSC SNV(行のオートスケール)

ベースライン補正

お手持ちのデータをそのまま使えます クロマトグラムのデータ(ANDI/AIAフォーマット)や、近赤外分光計のデータ(JCAMPフォーマット)を、そのままピロエットで読み込めます。また、データ処理機独自のファイル形式も、多数サポートしています。表計算ソフトウエアとしてのMicrosoftExcelや Lotus1-2-3のファイルや、他のWindowsアプリケーションからの、コピー&ペーストも可能です。

読み込み可能なファイル形式ASCII (*.DAT)     Lotus 1-2-3 (*.WK*)    Excel(*.XL*)        AIA(*.CDF)         JCAMP(*.*DX)NIR Systems(*.DA)   LT Industries(*.DAT)    Galactic(*.SPC)      Perkin Elmer(*.SP)     KVB Analect(*.ASF) Mattson(*.ASB)    Brimsrose(*.DAT)     Guided Wave(*.ASC)上記のファイル形式以外に関しては、弊社営業所までお問い合わせください。

 読み込んだデータを、テーブルや図として視覚的に表現できます。多変量解析を実行する前に、データをさまざまな角度から観察することで、データ間の類似性、傾向、アウトライヤー等を発見できます。これらの情報は、多変量解析を行う上で、重要なヒントになります。

データの表示形式・テーブル  ・ラインプロット・二次元散布図   ・三次元散布図・マルチプロット

 ピロエットの3次元散布図は、マウスやツールボタンを使用して回転できるので、様々な角度からデータを観察できます。

読み込んだデータを視覚的に表現します

1次微分によるデータ変換例

3

 色々なアルゴリズムや条件で解析を繰り返しても、解析結果はすべて「オブジェクトマネージャ」によって効率的に管理されます。このため、すべての解析結果を、「オブジェクトマネージャ」からのドラッグ&ドロップで簡単に呼び出せます。 また、入力データや解析結果を保存する際にも、1つのファイルとして保存できるので、せっかくおこなった解析結果が、散逸することはありません。

オブジェクトマネージャによる管理

解析結果の集中管理

解析結果を効率的に観察できます 解析結果は、テーブル表示や散布図、ラインプロットなどに自由に変換し、様々な角度から観察できます。また、様々な機能によって、解析結果を効率的に観察できます。

〈図の部分的拡大〉 散布図やラインプロットの一部分を、マウス操作によって自由に拡大し、詳細に観察できます。

〈名前の表示〉 テーブルに入力したサンプル名や変数名を、図中で表示できます。異常値を発見した場合には、直ちにそのサンプル名や変数名を把握できます。

〈リンク機能〉 テーブルや図の一部をマウスで選択すると、それにリンクして、別の図の同一部分が自動的に選択されます。さらに、クローク機能によって、リンクされたサンプルのみを容易に確認で

きます。

〈色による識別〉 同じカテゴリーに属するサンプルを、同一色で表示できます。これによって、グループ間の関係や特長を、明確に識別できます。

〈サンプルの一部除外〉 異常値や一定のサンプルグループ、変数ブロック等を除外してから、再表示や再解析できます。また、除外したデータを、元に戻すことも簡単です。

4

ピロエットの解析手法をもっと知りたい方へ

階層的クラスター分析の結果(デンドログラム)

探索的データ解析-階層的クラスター分析(Hierarchical Cluster Analysis)

 階層的クラスタ分析(HCA)では、サンプル間の多変量距離(ユークリッド距離)をすべて計算して、比較します。多変量距離の小さいサンプルほど、性質が似ていることになります。距離の近いサンプルからクラスターを形成させ、すべてのサンプルが1つのクラスターになるまで、サンプルのグループ化を行います。その結果はデンドログラムとして表示されます。このデンドログラムの結果から、サンプル間の類似性やグループ、アウトライヤーを探索できます。

結 果:デンドログラム結合法:最短距離法、最長距離法、重心法、群平均法、     メジアン法、フレキシブル法、インクリメンタル法

探索的データ解析-主成分分析(Principal Component Analysis)

主成分分析の結果

 主成分分析は、データの分散を最大限に表現する新しい座標軸を見つける方法です。主成分分析を用いると、多次元データに含まれている情報を効率的に抽出し、集約できます。また、多次元のデータを最大限に視覚化できます。 結果として得られるスコアを調べることで、サンプルの分類やアウトライヤーを効率的に発見できます。また、固有値とローディングから重要な変数の組み合わせを見つけられます。 主成分分析は、主成分回帰分析法やSIMCA法にも応用されている重要な方法です。

結 果:スコア、ローディング、固有値、エラー、X残差、   X近似、モデリングパワー、アウトライヤー診断予 測:スコア、X近似、X残差、アウトライヤー診断

分類-KNN(K-Nearest Neighbor) KNNでは予めカテゴリーの分かっている既知サンプル(トレーニングセット)を使用してモデルを構築し、これをもとに未知サンプルの分類を決定する手法です。KNN法では、未知試料を多変量距離の近いサンプルへの投票数に基づいて、ノンパラメトリックに分類ができます。考え方がシンプルで、サンプル数の少ない環境でもモデルを構築できる利点があります。

モデル:投票結果、分類ミス、トータルミス予 測:予測クラス

KNNによるモデル構築と分類予測

5

分類-SIMCA(Soft Independent Modeling of Class Analogy)

SIMCAによる分類予測結果

 SIMCA (シムカ)法では各クラス毎に主成分分析を行い、サンプルの分布に基づく空間を設定します。さらに、この主成分モデルを未知サンプルに適用し、残差から未知サンプルをF検定により分類します。SIMCAでは、未知試料を以下の3種類のいずれかに分類します。・未知サンプルが単独のクラスだけに良くあてはまる場合・未知サンプルが複数のクラスに良くあてはまる場合・未知サンプルがどのクラスにもあてはまらない場合

モデル:スコア、ローディング、固有値、X残差、X近似、   アウトライヤー診断、クラス間残差、   クラス間距離、識別力、モデリングパワー予 測:スコア、X残差、X近似、クラス距離、クラス確率、   予測クラス

多変量の回帰分析-PLS(Partial Least Squares Regression)

PLSのモデルと予測結果

 PLS法では目的変数を考慮して説明変数の近似を算出し、回帰モデルを構築します。主成分回帰分析と同様に、構築されたモデルを使用することで、未知サンプルの特性値の予測が行えます。また、残差から未知試料の診断を行えます。

モデル:スコア、ローディング、固有値、   エラー (PRESS,SEC,SEV)、Y残差、回帰ベクトル、   X残差、アウトライヤー診断、モデリングパワー予 測:予測値、エラー(SEP)、X残差、確率

クロスバリデーション 主成分分析、回帰分析(PCR、PLS)では、最適な主成分数を決定するために、クロスバリデーションとステップバリデーションが用意されています。

多変量の回帰分析-CLS(Classical Least Squares) CLSでは、X=YK(目的変数をX、説明変数をY)として、Yを予測する回帰モデルを導きます。このモデルを使用して、未知サンプルの特性値の予測が行えます。逆にPCRやPLSでは、説明変数をX、目的変数をYとするため、ILS(Inverse Least Squares)とも呼ばれます。

多変量の回帰分析-主成分回帰分析(Principal Components Regression) 主成分回帰分析は、主成分分析で得られたスコアを説明変数として、重回帰式を算出する方法です。そのスコアを使用してモデルが構築されます。構築されたモデルを使用することで、未知サンプルの特性値の予測が行えます。また、残差から未知試料の診断を行えます。

6

品名

Pirouette (日本語オンラインマニュアル付き)

Pirouette (英語オンラインマニュアル付き)

Pirouette (アカデミック版・日本語オンラインマニュアル付き)

Pirouette (アカデミック版・英語オンラインマニュアル付き)

価格表Cat.No.

2710-35001

2710-35006

2710-35007

2710-35008

価格

680,000

550,000

400,000

400,000

◆画面はすべて英語です。◆ピロエット(日本語オンラインマニュアル付き)には、PDF形式の日本語オンラインマニュアルが付属されています。◆アカデミック版は教育機関(大学、高校等)への直販の場合にのみ適応されます。

システム構成・コンピュータ:PC/AT互換機    ・メモリ:32MB以上              ・CPU:Pentium 90MHz以上・ハードディスク:50MB以上の空き容量 (OS別に推奨するメモリ※+16MB以上を推奨) ・OS:Windows 95、98、NT4.0以上※Windows 95は 32MB、NTは64MB以上を推奨します。

Pirouetteは米国 Infometrix社の登録商標です。ジーエルサイエンス株式会社は米国 Infometrix社の日本およびアジア地域の総代理店です。Windowsは米国Microsof社の登録商標です。本文中に登場する製品の名称は、すべて関係各社の登録商標または商標です。本文中でのTMおよびRの表記は省略しています。

システム構成・価格表

D993TAB

1999.4

名古屋営業所��

京都営業所��

広島営業所��

九州営業所�

大 阪 支 店 ��

東北営業所��

筑波営業所��

千葉営業所��

北関東営業所��

武蔵営業所��

横浜営業所��

静岡営業所�

〒530-0043 �TEL.06(6357)5060 �

〒960-8201�TEL.024(533)2244�

〒300-0813 �TEL.0298(24)3281�

〒260-0028 �TEL.043(248)2441�

〒330-0038 �TEL.048(667)1611�

〒358-0032 �TEL.042(934)2121�

〒222-0033 �TEL.045(475)1144�

〒422-8063 �TEL.054(288)5252��

 �FAX.06(6357)4580�

�FAX.024(536)1518�

�FAX.0298(24)8326�

�FAX.043(248)2485�

�FAX.048(667)1656�

�FAX.042(934)3507�

�FAX.045(475)1145�

�FAX.054(288)5455

名古屋市東区代官町40-18��

京都市中京区烏丸二条上ル蒔絵屋町267��

広島 市中区 舟入町 2 - 20 ��

福岡市博多区古門戸町2-4��

 �

大阪市北区天満 2 - 1 - 10 � �

福 島 市 岡 島 字 長 岬 5 - 3

��

土 浦 市 富 士 崎 1 - 1 7 - 1

��

千葉市中央区 新町 1 - 13 ��

大 宮 市 宮 原 町 1 - 3 8 ��

入 間 市 狭 山 ヶ 原 2 3 7 - 2 ��

横浜市港北区新横浜2-12-11��

静 岡 市 馬 淵 3 - 2 - 2 5 �

〒461-0002 �TEL.052(931)1761�

〒604-0857 �TEL.075(256)0111�

〒730-0841 �TEL.082(233)1101

〒812-0029�TEL.092(291)5200��

�FAX.052(931)1814�

�FAX.075(256)0122�

�FAX.082(233)1110�

�FAX.092(291)2552� �

本社〒163-1130 東京都新宿区西新宿6丁目22番1号 新宿スクエアタワー30F�    〔営業部代表〕TEL.03(5323)6611 FAX.03(5323)6622

●本カタログ掲載の仕様その他は、改良等の理由により予告無く変更� することがありますので、あらかじめご了承ください。��

ご使用前には必ず「取扱説明書」をよくお読みのうえ、正しくお�使いください。�

安全に関するご注意�

http://www.gls.co.jp/

FAX.042(934)2128�

�FAX.024(534)2139��

ホームページ�

武 蔵 工 場 �技術開発部�

福 島 工 場 �

〒358-0032�TEL.042(934)2121�

〒960-8201�TEL.024(533)2244��

入 間 市 狭 山 ヶ 原 2 3 7 - 2 ��

福 島 市 岡 島 字 長 岬 5 - 3 �