تحلیل مولفههای اصلی p rincipal c omponents a nalysis ( pca )

35
رق ب و ب آ ت ع ن صاه گ ش ن دآ1 ی صلهای آ ه ف ل و م ل# ی ل ح تPrincipal Components Analysis (PCA) ی ن ش دو وی ن س و م ز# ی/ ی ا3 ن1390

Upload: tanya-finley

Post on 30-Dec-2015

204 views

Category:

Documents


1 download

DESCRIPTION

تحلیل مولفه‌های اصلی P rincipal C omponents A nalysis ( PCA ). موسوی ندوشنی پاییز 1390. مقدمه. در رگرسیون چندگانه، در پاره‌ای از موارد ملاحظه می‌شود که بین متغیرهای مستقل که برای پیشگویی متغیر وابسته به‌کار می‌روند، همبستگی معنی‌داری وجود دارد. - PowerPoint PPT Presentation

TRANSCRIPT

دانشگاه صنعت آب و برق 1

تحلیل مولفه های اصلیPrincipal Components Analysis

(PCA)

موسوی ندوشنی1390پاییز

مقدمه در رگرسیون چندگانه، در پاره ای از موارد مالحظه می شود

که بین متغیرهای مستقل که برای پیشگویی متغیر وابسته به کار می روند، همبستگی معنی داری وجود دارد.

در مورد فوق دیگر نمی توان از روش معمول )رگرسیونچندگانه( استفاده نمود.

در اینجا الزم است که با تکنیکی متغیرهای وابسته را بهسیستم مستقلی تبدیل نمود.

اگر یک تعبیر هندسی را در نظر آورید. متغیرهای مشاهدهشده حول محورهایی قرار می گیرند که شرط استقالل را

برقرار می کنند. این محورها حاصل چرخش محورهای قبلی است.

.به این تکنیک اصطالحا تحلیل مولفه های اصلی گویند

دانشگاه صنعت آب و برق 2

& Eigenvalve)مقدار و بردار ویژه Eigenvectorیک ماتریس )

قبل از شروع تحلیل الزم است که قدری با مقادیر و( ماتریس ها eigen vaues & eigen vectors)بردارهای ویژه

آشنا شد. ماتریس اگر رابطه زیر برایA برقرار باشد، آنگاه

مشخص نمود. X بردارر( و اسکال )می توان مقادیر AX=λX

در این معادله بایدλ و X را محاسبه نمود. برای حل معادله ماتریس واحد I نوشت که λIX را به صورت λXباال می توان

است.AX-λIX=0 → (A-λI)X=0است. بنابراین معادله اخیر وقتی برابر صفر است که یاX=0 و یا A-I=0

باشد یک جواب کامال خاص است، X=0باشد. اکنون اگر باشد.A-I=0بنابراین الزم است که

دانشگاه صنعت آب و برق 3

دنباله مقدار و بردار ویژه اگر معادله صفحه قبل برای مرتبه سه

بنویسیم چنین خواهد شد.

اگر معادله باال بدونXi نوشته شود، الزم ( برابر صفر گردد، A-Iاست که دترمینان )

که معادله مشخصه نام دارد.

دانشگاه صنعت آب و برق 4

11 1 12 2 13 3

21 1 22 2 23 3

31 1 32 2 33 3

) ( 0

) ( 0

) ( 0

A X A X A X

A X A X A X

A X A X A X

l

l

l

- + + =

+ - + =

+ + - =

11 12 13

21 22 23

31 32 33

0

A A A

A I A A A

A A A

l

l l

l

-

- = - =

-

دنباله مقدار و بردار ویژه بسط معادله مشخصه یک معادله درجه سوم

ایجاد می کند، که ریشه های معادله باال مقادیر ویژه را بدست می دهد. بنابراین تعداد

ریشه ها بستگی به مرتبه ماتریس دارد. برای ماتریس های متقارن ریشه های معادله حقیقی

است. با جایگزینی هر مقدار در دستگاه معادالت

و X1، X2قبل می توان آن را حل نمود و برای X3 جواب ها را یافت. هر دسته از متغیرهای

مذکور بردارهای ویژه را معین می کنند.دانشگاه صنعت آب و برق 5

مثال زیر را در نظر بگیرید.3×3ماتریس

معادله بر حسبλ.زیر است

.با حل این دترمینان معادله زیر حاصل می گردد λ3-3λ2+2.0482λ-0.09266=0

.با حل این معادله داریم λ1=1.9982, λ2=0.9532, λ3=0.0486

دانشگاه صنعت آب و برق 6

1 0.13 0.18

0.13 1 0.95

0.18 0.95 1

1 0.13 0.18 1 0.13 0.18

0.13 1 0.95 0.13 1 0.95 0

0.18 0.95 1 0.18 0.95 1

دنباله مثال1.9982= با جایگزینی مقدار λ1.داریم

:با حل معادالت فوق داریم

دانشگاه صنعت آب و برق 7

1 2 3

1 2 3

1 2 3

0.9982 0.13 0.18 0

0.13 0.9982 0.95 0

0.18 0.95 0.9982 0

X X X

X X X

X X X

1

2

3

0.21461

0.68786

0.69339

X

X

X

دنباله مثال0.9532= با جایگزینی مقدار λ2.داریم

:با حل معادالت فوق داریم

دانشگاه صنعت آب و برق 8

1 2 3

1 2 3

1 2 3

0.0468 0.13 0.18 0

0.13 0.0468 0.95 0

0.18 0.95 0.0468 0

X X X

X X X

X X X

1

2

3

0.97598

0.17862

0.12475

X

X

X

دنباله مثال0.0486= با جایگزینی مقدار λ3.داریم

:با حل معادالت فوق داریم

دانشگاه صنعت آب و برق 9

1 2 3

1 2 3

1 2 3

0.9514 0.13 0.18 0

0.13 0.9514 0.95 0

0.18 0.95 0.9514 0

X X X

X X X

X X X

1

2

3

0.03815

0.70348

0.70969

X

X

X

محاسبه مقادیر و بردارهای Rویژه در

> a=matrix(c(1,.13,.18,.13,1,.95,.18,.95,1),3,3, byrow=T) > a [,1] [,2] [,3] [1,] 1.00 0.13 0.18 [2,] 0.13 1.00 0.95 [3,] 0.18 0.95 1.00

> eigen(a,symmetric = FALSE) $values [1] 1.99816910 0.95318068 0.04865022

$vectors [,1] [,2] [,3] [1,] 0.2146239 0.9759514 -0.03814932 [2,] 0.6878692 -0.1787694 -0.70347523 [3,] 0.6933776 -0.1247409 0.70969517

دانشگاه صنعت آب و برق 10

خاصیت نرمالیزه و تعامد بردارهای ویژه

اگر جمع مربع درایه های بردارهای ویژه را محاسبه کنیم به عنوان مثال برای اولین مورد به برابر واحد است.صورت زیر است:

0.214612+0.687862+0.693392=1 این مطلب نشان می دهد که بردارهای ویژه نرمالیزه

شده اند. حاصل جمع ضرب هر یک از بردارهای ویژه برابر صفر

است. به عنوان مثال 0.21461*0.97598-0.68786*0.17862-0.69339*0.12475=0

این مطلب نشان می دهد که بردارهای ویژه دوبدو متعامدهستند.

دانشگاه صنعت آب و برق 11

دوران محورها مقدار و بردار ویژه می تواند محورها را از یک سیستم مختصات

به سیستم مختصات بچرخاند. می توان بردار را در یک سیستم بر حسب سیستم مختصات دیگر و کسینوس بین محورها محاسبه

تایی به صورت زیر است.3نمود. معادالت خرجش برای سیستم

در دستگاه باالXi بردار در سیستم مختصات اصلی و ،Yi بردار ،در سیستم دوران یافته می باشد. کسینوس جهت بین محورهای

i نشان می دهند. اندیس lijاصلی و محورهای دوران یافته را با مربوط به سیستم قدیم jمربوط به سیستم جدید و اندیس

است.

دانشگاه صنعت آب و برق 12

1 11 1 12 2 13 3

2 21 1 22 2 23 3

3 31 1 32 2 33 3

Y l X l X l X

Y l X l X l X

Y l X l X l X

= + +

= + +

= + +

دنباله چرخش محورها در فرم ماتریسی داریمY=RX که در آنR ماتریس دوران می باشد، که از عناصر lij .تشکیل شده است R

درجه می سازند.90را ماتریس متعامد می گویند. زیرا محورها با هم زاویه .فرض کنید که رابطه ی بین دو بردار درسیستم اولیه به صورت زیر است

AX1=X2

اکنون مي خواهیم رابطه ی این دو بردار در سیستم خرجش یافته چگونهخواهد بود.

.دو بردار به صورت زیر در سیستم دوران یافته بیان می شوند Y1=RX1, Y2=RX2

اکنون طرفین رابطه دو بردار سیستم اولیه درR.ضرب می کنیم RAX1=RX2

در رابطه اخیرR-1R.وارد می شود. لذا داریم RAR-1RX1=RX2

اگرB=RAR-1 فرض گردد، آنگاه داریم BY1=Y2

دانشگاه صنعت آب و برق 13

دنباله چرخش محورها اکنون می توان بیان نمود که ما ماتریس روابط تبدیل شده را

B است و ماتریس Aداریم. سیستم اصلی یا اولیه برابر سیستم دوران یافته می باشد.

بردارهایX1 و Y1 یکسان هستند منتها بردار X1 در سیستم نیز به Y2 و X2 در سیستم جدید است. برای Y1قدیم و بردار

ماتریس روابط را به RAR-1همین صورت است. عملیات سیستم جدید تبدیل می کند.

می توان نشان داد که هر ماتریسA به یک ماتریس قطری S است، اگر داشته باشیم.

S=Q-1AQ که ماتریسS را ماتریس طیفی گویند که عناصر قطری آن

، Qمقادیر ویژه و بقیه عناصر آن برابر صفر هستند. ماتریس است.Aماتریس نرمال شده بردارهای ویژه ماتریس

دانشگاه صنعت آب و برق 14

دنباله چرخش محورها اکنون از معادلهS می توان دو فرم نوشت، زیرا معکوس و

ترانهاده ماتریس های متعامد نرمالیزه برابر هستند. B=RAR-1, S=Q-1AQ

به طور خالصه معادلهAX1=X2 به صورت BY1=Y2 تبدیل شد. در این دوران محورهای جدیدی ایجاد شد که

ماتریس جدید و Bمحورهای اصلی نامیده می شود، که است. بنابراین کافی است که مقادیر و Sبرابر ماتریس

B و S محاسبه گردد و در معادالت Aبردارهای ویژه استفاده شود.

برای نمایش مناسب تر بجای محورهای اصلیY1 و Y2 از P1 و P2.استفاده می کنیم

P1=(p11,p12,p13)T, P2=(p21,p22,p23)T

دانشگاه صنعت آب و برق 15

طول و زاویه بردارها اگرxRp باشدع نرم یا طول بردار x نسبت(

( به صورت زیر تعریف می Ipبه ماتریس شود.

|| اگرx||=1.باشد. بردار یکه است زاویه بین دو بردارx,yRp که است به

صورت زیر تعریف می شود.

اگرp=2باشد، داریم

دانشگاه صنعت آب و برق 16

(0, ) Tx d x x x

cosTx y

x y

1 1

2 2

,x y

x yx y

دنباله طول و زاویه بردارها.آنگاه روابط زیر برقرار است

.اکنون داریم

دانشگاه صنعت آب و برق 17

1 1 2 1

1 2 2 2

cos cos

sin sin

x x y y

x x y y

1 1 2 21 2 1 2cos cos cos sin sin

T

x y x y

x y

x y

x y

تجزیه و تحلیل مولفه ها مالحظه شد که محورهای دوران یافته که

ناشی از مقادیر و بردارهای ویژه است، مبنای تحلیل محورهای اصلی است. با توجه

به شکل زیر می توان نوشت.

اگر کسینوس زاویه را برابرl=d/x ،فرض کنید آنگاه می توان نوشت که:

دانشگاه صنعت آب و برق 18

x

d

2 2 2 2 2) (x d x lxe = - = -

دنباله تجزیه و تحلیل مولفه ها رابطه صفحه قبل را برای مجموعP ،مولفه

می توان نوشت.

اگر این عمل رویn داده انجام شود، آنگاه انحراف کل عبارتست از:

اگر از معادله باال ازli ها مشتق گرفته شود ومعادالت را برابر صفر قرار گیرد. معادله

ماتریسی به صورت زیر است. دانشگاه صنعت آب و برق 19

2

2 2

1 1

P P

i i ii i

x l xe= =

æ öç ÷= - ç ÷ç ÷ç ÷è øå å å

2

2

1 1 1

n P P

ij i ijj i i

S x l x= = =

é ùæ öê úç ÷= - ç ÷ê úç ÷ç ÷ê úè øë û

å å å

) ( 0r I Ll- =

دنباله تجزیه و تحلیل مولفه ها:که در آن

•r ماتریس ضرایب همبستگی متغیر :xi.است •L.بردار کسینوس جهت ها است :

بنابراین با داشتن ماتریس ضرایب همبستگیو بردار ویژه سیستم جدید نتیجه می شود.

دانشگاه صنعت آب و برق 20

1

1,2, ,P

k kj jj

l x k Pz=

= =å L

رگرسیون مولفه ها اکنون بجای استفاده از مجموعهXi ها که همبسته اند، از

است، استفاده ki که kمجموعه متغیرهای متعامد می شود. اکنون می توان نگاه جدیدی به مساله رگرسیون

چندگانه افکند. حاال به جای استفادهY نسبت به Xi می توان Y نسبت به k

را در نظر گرفت. بنابراین معادله به صورت زیر در می آید.

استفاده از حروف کوچک به منزله این است که داده هااستاندارد شده اند. یعنی میانگین آن ها صفر و انحراف

معیارشان برابر یک است. در واقع ضرایبk به مثابه bi در معادله رگرسیون تلقی

می شود.

دانشگاه صنعت آب و برق 21

1 1 2 2 k ky a z a z a z= + + +L

دنباله رگرسیون مولفه ها معادله قبل را می توان بر حسبxi استاندارد

شده بیان نمود.

تاثیر1 در y برابر 11 است. اکنون مقادیر متاثر شده به شرح زیر تنظیم می شود.

دانشگاه صنعت آب و برق 22

1 11 1 21 31 3 1

2 12 1 22 2 32 3 2

1 1 2 3 3

i i

i i

k k k k ik i

l x l l x l x

l x l x l x l x

l x l l x l x

z

z

z

= + + + +

= + + + +

= + + + +

L

L

M

L

1 1 11 1 1 21 2 1 31 3 1 1

2 2 12 1 2 22 2 2 32 3 2 2

1 1 2 2 3 3

i i

i i

k k k k k k k k ik i

y l x l x l x l x

y l x l x l x l x

y l x l x l x l x

a a a a

a a a a

a a a a

= + + + +

= + + + +

= + + + +

L

L

M

L

دنباله رگرسیون مولفه ها 1در دستگاه قبلy پشتیبان مستقل 1 است

است و الخ. نظر به 2 پشتیبان مستقل 2yو xiها مستقل از مجموع yاینکه مجموع

می توان نوشت.

دانشگاه صنعت آب و برق 23

1 2 12 1 11 2 12 1

1 21 2 22 2

1 31 2 32 3

1 1 2 2

) (

) (

) (

) (i i i

y y y l l x

l l x

l l x

l l x

a a

a a

a a

a a

+ = = +

+ +

+ + +

+ +

L

دنباله رگرسیون مولفه ها این رابطه برای سه مولفه به شرح زیر

است.

اکنون دستگاه معادالت نرمال به شرح زیراست:

دانشگاه صنعت آب و برق 24

1 2 3 123 1 11 2 12 13 1

1 21 2 22 3 23 2

1 31 2 32 3 33 3

1 1 2 2 3 3

) (

) (

) (

) (i i i i

y y y y l l l x

l l l x

l l l x

l l l x

a a a

a a a

a a a

a a a

+ + = = + +

+ + +

+ + + +

+ + +

L

21 1 2 1 2 3 1 3 1 1

21 1 2 2 2 3 2 3 2 2

21 1 2 2 3 3

k k

k k

k k k k k k

y

y

y

a z a z z a z z a z z z

a z z a z a z z a z z z

a z z a z z a z z a z z

+ + + + =

+ + + + =

+ + + + =

å å å å åå å å å å

å å å å å

L

L

M

L

دنباله رگرسیون مولفه ها در معادالت نرمال تمام جمالتik به ازای

i≠k برابر صفر است، چون i ها متعامدهستند. نظر به جمل صفر نتیجه می شود که

دانشگاه صنعت آب و برق 25

1 11 2

11

2 22 2

22

3 33 2

33

2k k

kkk

y y

y y

y y

y y

z za

lzz z

alz

z za

lz

z za

lz

= =

= =

= =

= =

å ååå ååå åå

å åå

M

دنباله رگرسیون مولفه ها نشان داد که ضریب 1957کندال در

برابر i بر حسب yهمبستگی در معادلهمجموع همبستگی ها است. ضرایب همبستگی

مجزا به صورت زیر هستند.

بنابراین همبستگی کل برای اولینj دسته متغیرهای متعامد برابر است با:

دانشگاه صنعت آب و برق 26

2 21 1 12 22 2 2

2 2k k k

R

R

R

l a

l a

l a

=

=

=

M

2 2

1

j

j k kk

R l a=

= å

مثال

دانشگاه صنعت آب و برق 27

X1 X2 X3 X4 Y1.00 1.00 8.30 6.90 3.232.00 1.00 7.00 9.90 4.222.30 2.00 7.00 8.50 4.013.00 1.80 5.50 3.30 2.403.50 2.50 6.50 9.40 4.564.00 2.30 4.50 2.80 2.374.50 1.80 3.00 7.60 4.074.50 3.00 5.00 5.90 3.715.80 2.50 2.50 1.20 1.945.80 3.30 3.30 4.80 3.717.00 2.80 1.50 8.60 4.597.00 3.30 1.80 5.70 3.981.00 2.00 8.50 1.00 1.153.00 2.80 6.50 0.10 1.541.80 2.50 7.30 3.40 3.66

دنباله مثال ماتریس همبستگیXi ها با هم و همبستگیXi و

Y:به شرح زیر است

همانطور که مالحظه می شود، متغیرهایX1 و X3 قویا به هم 0.970با ضریب همبستگی -

دارای X2 و X1وابسته اند. هم چنین متغیرهای هستند.0.706ضریب همبستگی

دانشگاه صنعت آب و برق 28

X1 X2 X3 X4 Y

X1 1 0.70648 -0.97035 0.07752 0.30626X2 0.70648 1 -0.57484 -0.27669 0.05274X3 -0.97035 -0.57484 1 -0.05899 -0.27059X4 0.07752 -0.27669 -0.05899 1 0.90627

دنباله مثال مقادیر ویژه و بردارهای ویژه به شرح جدول زیر

هستند.

همانطور که در جدول باال مالحظه می شود، مولفهچهارم قابل اغماض است، زیرا مقدار ویژه آن ناچیز

است. بنابراین سه مولفه اصلی باقی می ماند که است.3.99مجموع مقادیر ویژه آنها برابر

دانشگاه صنعت آب و برق 29

1 2 3 4

2.51623 1.12177 0.35279 0.00920

X1 0.61731 0.15702 -0.15268 0.75562X2 0.51869 -0.32094 0.76620 -0.20224X3 -0.59015 -0.18016 0.48718 0.61800X4 -0.04013 0.91645 0.39025 -0.07880

Eigenvalues

Eigenvectors

دنباله مثال چگونگی محاسبه ضرایبbi ها با استفاده از

مولفه اصلی اول

دانشگاه صنعت آب و برق 30

1 2 3 41

1 2 3 42

1 2 3 43

1 2 3 44

11 11 21 31 41

12 12 22 32 42

13 13 23 33 43

14 14 24 34 44

) (

) (

) (

) (

x y x y x y x y

x y x y x y x y

x y x y x y x y

x y x y x y x y

l r l r l r l r

l r l r l r l r

l r l r l r l r

l r l r l r l r

l

l

l

l

a

a

a

a

= + + +

= + + +

= + + +

= + + +

11 2.5162

12.5162

[)0.30626* 0.61731( )0.51869* 0.05275(

) 0.59015* 0.27059( ) 0.04013* 0.90625(]

)0.3397(

0.13503

a = + +

- - + -

=

=

دنباله مثال

دانشگاه صنعت آب و برق 31

12 1.1218

11.1218

[)0.1570* 0.3063( ) 0.3209* 0.0527(

) 0.1802* 0.2706( ) 0.9165* 0.9063(]

)0.9106(

0.8116

a = + - +

- - + -

=

=

13 0.3528

10.3528

[) 0.1527* 0.3063( ) 0.7662* 0.0527(

)0.4872* 0.2706( ) 0.3902* 0.9063(]

)0.2155(

0.6108

a = - + - +

- + -

=

=

دنباله مثال.برای مولفه اول، ضرایب به شرح زیر است

.برای مولفه دوم، ضرایب به شرح زیر است

دانشگاه صنعت آب و برق 32

1

2

3

4

0.13502 0.61731 0.08335

0.13502 0.51869 0.07003

0.13502 ) 0.59015( 0.07968

0.13502 ) 0.4013( 0.00542

b

b

b

b

= ´ =

= ´ =

= ´ - =-

= ´ - = -

1

2

3

4

0.81164 0.15702 0.12744

0.81164 ) 0.32094( 0.26049

0.81164 ) 0.18016( 0.14623

0.81164 )0.91645( 0.7438

b

b

b

b

= ´ =

= ´ - =-

= ´ - = -

= ´ =

دنباله مثال.برای مولفه سوم، ضرایب به شرح زیر است

دانشگاه صنعت آب و برق 33

1

2

3

4

0.61082 ) 0.15268( 0.09326

0.61082 0.76620 0.46802

0.61082 0.48718 0.29758

0.61082 0.39025 0.23838

b

b

b

b

= ´ - =-

= ´ =

= ´ =

= ´ =

دنباله مثال اکنون در جدول زیر ضرایبbi ها را برای

مولفه های گوناگون مالحظه می کنید.

اگر معادله را به روش حداقل مربعات)رگرسیون چندگانه معمولی( در نظر بگیرید

به صورت زیر است.

دانشگاه صنعت آب و برق 34

Component b1 b2 b3 b4 Correlation R2 X Variance1 0.08335 0.07003 -0.07968 -0.00542 0.0459 2.516232 0.12744 -0.26049 -0.14623 0.74383 0.7390 1.121773 -0.09326 0.46802 0.29758 0.23838 0.1316 0.35279

1+2 0.21079 -0.19046 -0.22591 0.73841 0.7849 3.638001+2+3 0.11753 0.27756 0.07167 0.97679 0.9165 3.99079

Regression Coefficient

1 2 3 44.42650 0.75260 1.04386 0.53870 0.39251Y X X X X= - + - +

دنباله مثال اکنون اگر بخواهید معادله رگرسیون را با

داده های اصلی و سه مولفه مورد اشاره داشته باشید، به صورت زیر عمل کنید.

اکنون پس از محاسبات ضرایب معادله فوق)با در نظر گرفتن سه مولفه اصلی( نتیجه

می شود.دانشگاه صنعت آب و برق 35

1 2 3 4

1 2 3 4

1 1 2 2 3 3 4 4

1 1 2 2 3 3 4 4

ˆ y y y y

x x x x

y y y y

x x x x

S S S SY Y b X b X b X b X

S S S S

S S S Sb X b X b X b XS S S S

æ öç ÷ç ÷= - - - -ç ÷ç ÷ç ÷è øæ ö æ ö æ ö æ öç ÷ ç ÷ ç ÷ ç ÷ç ÷ ç ÷ ç ÷ ç ÷+ + + +ç ÷ ç ÷ ç ÷ ç ÷ç ÷ ç ÷ ç ÷ ç ÷ç ÷ ç ÷ ç ÷ ç ÷è ø è ø è ø è ø

1 2 3 4ˆ 0.06705 0.06544 0.43195 0.03418 0.33930Y X X X X= + + + +