hỆ thỐng thÔng tin thÔng minhfair.conf.vn/~lang/lecture/compintelligence/ci_3.pdfdài, chiedu...

12
5/22/19 1 H TH NG THÔNG TIN THÔNG MINH PGS.TS. Trần Văn Lăng Học viện Khoa học và Công nghệ, VAST NỘI DUNG Các hệ tho,ng thông minh có the1 dự a trên các tı́nh toán mang tı́nh thông minh. Nên có the1 sử dụng nhữ ng tri thức sau đây đe1 xây dự ng hệ tho,ng 1. Tư duy logic vớ i hệ tho,ng đieDu khie1n dùng Python 2. Machine Learning vớ i TensorFlow 3. Thuâ ̣t toán tie,n hóa dù ng Python THUẬT TOÁN K-MEANS HoD i quy tuye,n tı́nh, K láng gieDng gaDn nha ,t (KNN) là nhữ ng thuâ ̣t toán đơn giản trong supervised learning. Phân nhóm K-means (K-means clustering) là thuâ ̣t toán đơn giản trong unsupervised learning. Trong K-means clustering, nhãn của từ ng đie1m dữ liệu (Data point) không bie,t trướ c. Va,n đeD là làm the1 nào đe1 phân dữ liệu thành các cụm (cluster) sao cho dữ liệu trong cù ng một cụm có nhữ ng tı́nh cha,t gio,ng nhau. THUẬT TOÁN K-MEANS Trong KNN, sau khi phân lớ p xong thı̀ moYi đie1m dữ liệu chı̉ thuộ c một lớ p(Class) duy nha,t. Trong khi đó vớ i K-means, moYi phaDn tử có the1 thuộc nhieDu nhóm hay cụm (Cluster). Nhóm/cụm (cluster) ở đây là tâ ̣p hợ p các đie1m có các vector đă ̣c trưng gaDn nhau. Việc đo khoảng cách giữ a các vector thườ ng đượ c thự c hiện dự a trên các chuaYn như đã trı̀nh bày, trong đó khoảng cách Euclide đượ c sử dụng pho1 bie,n nha,t.

Upload: others

Post on 08-Jan-2020

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: HỆ THỐNG THÔNG TIN THÔNG MINHfair.conf.vn/~lang/lecture/compIntelligence/CI_3.pdfdài, chieDu rộng của cánh hoa và đài hoa. CaDn phân 150 dữ liệu này vào 3 nhóm

5/22/19

1

HỆ THỐNG THÔNG TIN THÔNG MINH

PGS.TS. Trần Văn Lăng

Học viện Khoa học và Công nghệ, VAST

NỘI DUNG

Cachetho, ngthongminhcothe1 dưatrencactınhtoanmangtınhthongminh.Nencothe1 sưdungnhưngtrithưcsauđayđe1 xaydưnghetho, ng

1. Tưduylogicvơihetho, ngđieDukhie1ndungPython

2. MachineLearningvơiTensorFlow

3. Thuattoantie,nhoadungPython

THUẬT TOÁN K-MEANS

• HoD iquytuye,ntınh,KlanggieDnggaDnnha, t(KNN)lanhưngthuattoanđơngiantrongsupervisedlearning.

• PhannhomK-means(K-meansclustering)lathuattoanđơngiantrongunsupervisedlearning.

• TrongK-meansclustering,nhancuatưngđie1mdư lieu(Datapoint)khongbie, ttrươc.Va,nđeD la lamthe1 naođe1 phandư lieuthanhcaccum(cluster)saochodư lieutrongcungmotcumco nhưngtınhcha, tgio, ngnhau.

THUẬT TOÁN K-MEANS

• TrongKNN,saukhiphanlơpxongthımoY iđie1mdưlieuchıthuocmotlơp(Class)duynha, t.TrongkhiđovơiK-means,moY iphaDntưcothe1 thuocnhieDunhomhaycum(Cluster).

• Nhom/cum(cluster)ơđayla taphơpcacđie1mco cacvectorđactrưnggaDnnhau.

• ViecđokhoangcachgiưacacvectorthươngđươcthưchiendưatrencacchuaYnnhưđatrınhbay,trongđo khoangcachEuclideđươcsư dungpho1 bie,nnha, t.

Page 2: HỆ THỐNG THÔNG TIN THÔNG MINHfair.conf.vn/~lang/lecture/compIntelligence/CI_3.pdfdài, chieDu rộng của cánh hoa và đài hoa. CaDn phân 150 dữ liệu này vào 3 nhóm

5/22/19

2

THUẬT TOÁN K-MEANS

• ThuattoangoDmcacbươcdưatrencacđie1mdưlieuX – lưuylakhongconhanvaso, nhomK.

• ChonK đie1mba, tkylamđie1mtrungtamcuacacnhom(Center)goilatrongtam(Centroid)haycongoilađie1mđaidien(RepresentativePoint)

• Tınhkhoangcachtưcacđie1mdưlieuđe,nK đie1mCentroid• Phanbo1 cacđie1mdưlieunayvaocacnhomcokhoangcachđe,nCentroidcuanhomnaygaDnnha, t

• TınhlaiCentroidcuaK nhomba_ngcachla,ytrungbınhcongcuacacđie1mđađươcganvaonhom.

ỨNG DỤNG K-MEANS

• Ứngdụng4:GiasưdưlieuhoalanIrisnhưtrongcacưngdungtrươc,nhưngchungtakhongbie, tđolaloaigı.Cancưvao4thanhphaDnđactrưnglachieDudai,chieDurongcuacanhhoavađaihoa.CaDnphan150dưlieunayvao3nhom.

• Dochưabie, t,nenchıla,yXlađie1mdưlieuđe1 phancum,conyđươcdungđe1 đanhgiake, tqua.

• Tımcaccentroidvake, tquaphancumthongquacachamthưviencuascikit-learn

• Ke, tquasaukhidungcacthưvien

• DođacodưlieuveD phannhomtrươcđo,nencothe1 đanhgiasaiso, theo:• Saiso, tuyetđo, itrungbınh,hoac

• Saiso, bınhphươngtrungbınh

• Xemke, tquadanghınhvơihamdisplay()đươcvie, tnhưsau

Page 3: HỆ THỐNG THÔNG TIN THÔNG MINHfair.conf.vn/~lang/lecture/compIntelligence/CI_3.pdfdài, chieDu rộng của cánh hoa và đài hoa. CaDn phân 150 dữ liệu này vào 3 nhóm

5/22/19

3

• Phanloaithanh3loailanđabie, t

• Ke, tquaphanloai K-MEANS VỚI TENSORFLOW

• La,ydưlieutưtaptiindưlieuhoalanIris

• Đưavaohua,nluyen100laDnđe1 cocacđie1mtrungtamvađie1mdưlieutheocum

Page 4: HỆ THỐNG THÔNG TIN THÔNG MINHfair.conf.vn/~lang/lecture/compIntelligence/CI_3.pdfdài, chieDu rộng của cánh hoa và đài hoa. CaDn phân 150 dữ liệu này vào 3 nhóm

5/22/19

4

• VelaiđoD thi

ĐỘ ĐO HIỆU NĂNG

• Độđohiệunăng (PerformanceMeasures)vơibaitoanphanlơp:

• Precision:haycongoilađochınhxac(Accuracy),cóbaonhiêucáiđúngđượclấyra.

𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 =𝑌+,-. ∩ 𝑦+.1+234

𝑦+.1+234• Trongđoytrue chobie, tnhưngdưđoanlađungsovơicacdưlieuthưytesting đabie, t

• Recall:goilađobaophuđe1 chıcóbaonhiêucáilấyralàđúng

𝑅𝑒𝑐𝑎𝑙𝑙 =𝑌+,-. ∩ 𝑦+.1+234

𝑦+,-.• Giatrinaynha_mxemxetmohınhtımđươccokhanang tổngquáthóa nhưthe, nao

• F1-Score:Tưhaiye,uto, độchínhxác Precisionva độbaophủ Recalngươitađưaramotchıso, naygoilatrungbìnhđiềuhòa(harmonicmean)cuacactieuchıtren.Quađothe1 hienđươcsưkhachquanhơnveD hieunangcuamohınh.

𝐹1 − 𝑆𝑐𝑜𝑟𝑒 = 2𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 × 𝑅𝑒𝑐𝑎𝑙𝑙𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑒𝑐𝑎𝑙𝑙

• OverMitting chıhientươngmohınh(thuattoan)coke, tquara, tto, t(quakhơp–overlit)trentapdưlieuhua1nluyennhưnglaixa,utrentapdưlieukie1mtra

• UnderMitting lahientương thuattoanđeDucoke, tquakhongto, ttrencataphua,nluyenvatapdưlieukie1mtra

• Đe1 đanhgiacha, tlươngnay,chungtatadung2đailương:TrainErrorvaTestError.

• Goiy lake, tquathưcsư,ypred lake, tquadưđoan.Thı

𝑇𝑟𝑎𝑖𝑛@,,A, =1

𝑁+,C23D

E,C23 F.+

𝑦 − 𝑦G,.HI

𝑇𝑒𝑠𝑡@,,A, =1

𝑁+.1+D

E.1+ F.+

𝑦 − 𝑦G,.HI

Page 5: HỆ THỐNG THÔNG TIN THÔNG MINHfair.conf.vn/~lang/lecture/compIntelligence/CI_3.pdfdài, chieDu rộng của cánh hoa và đài hoa. CaDn phân 150 dữ liệu này vào 3 nhóm

5/22/19

5

• Môhìnhđượccoilà

• Tốt(Goodfit)khiTrainError vàTestError đềunhỏ

• Overfitting(Quákhớp)khiTrainError nhỏvàTestError lớn• Underfitting(Quáxấu)khiTrainError vàTestError đềulớn.

ĐỘ ĐO ĐẶC TRƯNG CỦA DỮ LIỆU

• Kỳvọng(ExpectedValue):lagiatrimongđơihaygiatritrungbınh(mean)đe1 chıgiatrimongmuo, n.Đươctınhtoanđe1 bie1udieYngiatritrungbınhcotrongso, cuamottapcacdưlieu(bodưlieu).

• Kýhiệu:

ChoX latapdưlieu,𝑋 = 𝑥M , 𝑥I , … , 𝑥P ,xi đươchie1utheonghıalagiatricuaX theochieDuthưitrongkhonggianN chieDu(N đactrưng).

GiatrikyvongcuaX la𝜇 = 𝑚S = 𝐸[𝑋] = ∑2XMP 𝑝2𝑥2 ,vơipi latrongso, .

Trươnghơpđacbietkhi𝑝2 = ⁄M P , ∀𝑖 = 1, 𝑁 đolagiatritrungbınhtheonghıabınhthương,khiđo,𝜇 = M

P∑2XMP 𝑥2

ĐỘ ĐO ĐẶC TRƯNG CỦA DỮ LIỆU

• Độlệchchuẩn (StandardDeviation):Đosưkhacbietsovơigiatritrungbınh

• Kýhiệu:𝜎 = 𝑠 = 𝐸[𝑋 − 𝑚S]

• Phươngsai (Variance):Đe1 đosưphantanmangtınhtho, ngkecuadưlieu.Quađochobie, tkhoangcachgiưabie,n(cacđactrưng,cacchieDu)vơigiatrikyvong.

• Kýhiệu:𝑣𝑎𝑟 𝑋 = 𝜎I = 𝑠I = 𝐸[ 𝑋 − 𝑚S

I]

• Thưccha, t,phươngsailathươcđođobie,nthienhoacđơngianlađolươngmưcđolantruyeDncuabodưlieu.

• VeD mattoanhoc,nolađolechbınhphươngtrungbınhsovơigiatritrungbınh.Nenkhikyvongvơi𝑝 = M

Pthì phươngsaila:

𝑣𝑎𝑟 𝑋 =1𝑁D2XM

P

(𝑥2 − 𝑚S)I

Page 6: HỆ THỐNG THÔNG TIN THÔNG MINHfair.conf.vn/~lang/lecture/compIntelligence/CI_3.pdfdài, chieDu rộng của cánh hoa và đài hoa. CaDn phân 150 dữ liệu này vào 3 nhóm

5/22/19

6

ĐỘ ĐO ĐẶC TRƯNG CỦA DỮ LIỆU

• Hiệpphươngsai (Covariance):Đosưbie,nthiencungnhaucua2bodưlieu(trongkhiđophươngsaichıđe1 đocuamotdưlieu).Thưccha, t,hiepphươngsailathươcđomưcđomacacphaDntưtươngưngtưhaibodưlieudichuye1ntheocungmothương.

• Kýhiệu:

• ChoX vaY la2tapdưlieu,𝑋 = 𝑥M , 𝑥I , … , 𝑥P , 𝑌 = 𝑦M , 𝑦I , … , 𝑦P• HiepphươngsaicuaX vaY la

𝑐𝑜𝑣 𝑋, 𝑌 = 𝐸[(𝑋 − 𝑚S)(𝑌 − 𝑚c)]

• Khikyvongvơi𝑝 = M

Pthıhiepphươngsaisela

𝑐𝑜𝑣 𝑋, 𝑌 =1𝑁D2XM

P

(𝑥2 − 𝑚S)(𝑦2 − 𝑚c)

• HiepphươngsaidươngconghıalaX vaY colienquantıchcưc,tưclakhiX tangY cungtang.

• Hiepphươngsaiammotaquanhengươclai,

• Conhiepphươngsaiba_ngkhong,chotha,yca2bodưlieukhongquanhegıvơinhau.

ĐỘ ĐO ĐẶC TRƯNG CỦA DỮ LIỆU

• Matrậnhiệpphươngsai (CovarianceMatrix)cuamatranAco n dongvamcotvơicacvectorcotAj lamatranSA cocacthanhphaDnla(Sjk)vơi

𝑆de = 𝑐𝑜𝑣 𝐴d , 𝐴e = 𝐸 𝐴d − 𝜇gh 𝐴e − 𝜇gi

Aj =(a1j,a2j,..., anj)T,j =1,...,m

• Khiđo,

𝑆g =𝑐𝑜𝑣 𝐴M , 𝐴M ⋯ 𝑐𝑜𝑣 𝐴M , 𝐴k

⋮ ⋱ ⋮𝑐𝑜𝑣 𝐴k , 𝐴M ⋯ 𝑐𝑜𝑣 𝐴k , 𝐴k

ĐỘ ĐO ĐẶC TRƯNG CỦA DỮ LIỆU

• Vectorriêng (Eigenvector),giátrịriêng(Eigenvalue):ChomatranvuongA coca,pk,𝑢 = (𝑢M , … , 𝑢e )E lavectorriengva𝜆 ∈ ℝ lagiatririengcuaA ne,u

𝐴𝑢 = 𝜆𝑢• Tınhcha, t,𝜆 langhiemcuaphươngtrınh

det 𝐴 − 𝜆𝐼 = 0

TrongđoI lamatranđơnvi.

• Az pdung:𝑆g𝑢 = 𝜆𝑢

Page 7: HỆ THỐNG THÔNG TIN THÔNG MINHfair.conf.vn/~lang/lecture/compIntelligence/CI_3.pdfdài, chieDu rộng của cánh hoa và đài hoa. CaDn phân 150 dữ liệu này vào 3 nhóm

5/22/19

7

VAI TRÒ CỦA MA TRẬN HIỆP PHƯƠNG SAI

• BodưlieuA goDmm dưlieu(datapoint),moY idưlieucon thanhphaDnđactrưng.KhiđoA cothe1 bie1udieYnthanhmotmatrannhưsau:

𝐴 =

𝑎MM 𝑎MI𝑎IM 𝑎II

⋯⋯

𝑎Mk𝑎Ik

⋮ ⋮ ⋱ ⋮𝑎3M 𝑎3I ⋯ 𝑎3k

• Goi𝜇d lagiatritrungbınhcuacotthưj cuamatranA,giasư𝜇d =M

3∑2XM3 𝑎2d

• Va𝜎d lađolechchua1ncuacotthưj,taco𝜎d =M

3∑2XM3 (𝑎2d−𝜇d)

• Tưđaysuyraphươngsaicuacotthưj la1𝑛D2XM

3

(𝑎2d−𝜇d)2

• Cungnhưhiepphươngsaicuacotj vacotk cuamatranA la1𝑛D2XM

3

(𝑎2d−𝜇d)(𝑎2e−𝜇e )

• TưđaysuyramatranhiepphươngsaicuamatranA la:

𝑆g =1𝑛

D2XM

3

(𝑎2M−𝜇M)2 D2XM

3

(𝑎2M−𝜇M)(𝑎2I−𝜇I)

D2XM

3

(𝑎2I−𝜇I)(𝑎2M−𝜇M) D2XM

3

(𝑎2I−𝜇I)2

⋯⋯

D2XM

3

(𝑎2M−𝜇M)(𝑎2k−𝜇k)

D2XM

3

(𝑎2I−𝜇I)(𝑎2k−𝜇k)

⋯ ⋯ ⋯⋯⋯⋯⋯⋯⋯ ⋯ ⋱ ⋯ ⋯⋯

D2XM

3

(𝑎2k−𝜇k)(𝑎2M−𝜇M) D2XM

3

(𝑎2k−𝜇k)(𝑎2I−𝜇I) ⋯ D2XM

3

(𝑎2k−𝜇k)2

𝑆g =1𝑛

𝑎MM − 𝜇M 𝑎IM − 𝜇M𝑎MI − 𝜇I 𝑎II − 𝜇I

⋯⋯

𝑎3M − 𝜇M𝑎3I − 𝜇I

⋯ ⋯ ⋯ ⋯ ⋱ ⋯⋯𝑎Mk − 𝜇k 𝑎Ik − 𝜇k ⋯ 𝑎3k − 𝜇k

×

𝑎MM − 𝜇M 𝑎MI − 𝜇I𝑎IM − 𝜇M 𝑎II − 𝜇I

⋯⋯

𝑎M3 − 𝜇k𝑎I3 − 𝜇k

⋯ ⋯ ⋯ ⋯ ⋱ ⋯⋯𝑎3M − 𝜇M 𝑎3I − 𝜇I ⋯ 𝑎3k − 𝜇k

• Kyhieu

v𝐴 =

𝑎MM − 𝜇M 𝑎IM − 𝜇M𝑎MI − 𝜇I 𝑎II − 𝜇I

⋯⋯

𝑎3M − 𝜇M𝑎3I − 𝜇I

⋯ ⋯ ⋯ ⋯ ⋱ ⋯⋯𝑎Mk − 𝜇k 𝑎Ik − 𝜇k ⋯ 𝑎3k − 𝜇k

• Thı

𝑆g =M

3v𝐴 v𝐴E

Page 8: HỆ THỐNG THÔNG TIN THÔNG MINHfair.conf.vn/~lang/lecture/compIntelligence/CI_3.pdfdài, chieDu rộng của cánh hoa và đài hoa. CaDn phân 150 dữ liệu này vào 3 nhóm

5/22/19

8

• Motđacđie1mquantrongcuamatranhiepphươngsaiđola:

• Matranđo, ixưng

• Phươngsaithına_mtrenđươngcheochınh• Conhiepphươngsaithına_mơbenngoaiđươngcheochınh

• Nhưchungtatha,ykhimuo, nxemxetdưlieu,thıdưlieuphaiđươctraira,đieDuđocoynghıaphươngsaiphailơntheochieDucuadưlieu.

• Vıvay,khirutgondưlieuchungtamongmuo, nxoabơtcacchieDucotươngquanvơinhau(tưclachungphaiđoclaptuye,ntınh),tưclahiepphươngsaicuachungba_ng0

• Vıvay,matranhiepphươngsainenco:

• Giatrilơnna_mtrenđươngcheochınh

• Benngoaiđươngcheocogiatri0.• Conghıalanophailamotmatranđươngcheo(DiagonalMatrix)

• Va,nđeD đatralaphaibie,nđo1 icacdatapointbanđaDusaochohiepphươngsaicuanolamotmatranđươngcheo(goilacheohoa– diagonalization)

• Motđie1mcaDnlưuynưađola,phaichua1nhoadưlieutrươckhidungPCAđe1 rutgonđactrưng(cothe1 ba_ngCenteredPCAhoacNormedPCA)

• Bơivıne,usưdungđactrưngtheocactyle(scale)khacnhau,thıke, tquasesailenh.

• Lưuy,ne,ucacđactrưngcotylekhacnhau,thıphaisưdungmatrantươngquan(correlationmatrix)thaychomatranhiepphươngsai.

MINH HỌA MỤC ĐÍCH CỦA PCA

• Nhưvay,mucđıchcuaPCAla:

• Tımso, chieDuđoclaptuye,ntınhmacothe1 bieYudieYnkhonglamma, tmatdatapoint.

• Tưso, chieDumơicungchophepdưđoanhoacphuchoD ilaikıchthươcbanđaDu.• To1ngsaiso, cuaphepchie,udatapointlenchieDumơinaylanhonha, t

• Ơ~ đaycaDnhie1urohơnmotchutthe, naolasaiso, phepchie,u,mamucđıchlatımchieDu(tımtrucchınh)

Page 9: HỆ THỐNG THÔNG TIN THÔNG MINHfair.conf.vn/~lang/lecture/compIntelligence/CI_3.pdfdài, chieDu rộng của cánh hoa và đài hoa. CaDn phân 150 dữ liệu này vào 3 nhóm

5/22/19

9

• Giasưcobie,nđo1 i2chieDucuacacdatapointthanh1chieDunhưhınhphıatren,nghıalacaDntımmotđươngtha�ng(đươngmauhoD ng)đe1 chie,uta, tcacacdatapointlenđo.

• ConhieDukhanangđe1 chonđươngnay,nhưhınhbenco2khanangnhưvay(đươngmauhoD ngvađươngmauđotronghınhphıatren).

• To1 nggıatrihınhchie,utưđie1mmauxanh(datapoint)lenđươngđolalơnhơnto1 nggiatrihınhchie,utưcacđie1mmauxanhnaylenđươngmauhoD ng;nenchonđươngmauhoD nglamtrucchınh.

BIẾN ĐỔI VỀ MA TRẬN ĐƯỜNG CHÉO

• Hơnnưa,viecphantanmangtınhtho, ngkecuadatapointmauxanhcungtraiđeDutrenđươngtha�ngmauhoD nghơn(phươngsailơnhơn)

• Quađotatha,ymotcachtrưcquan:khito1 ngcacgiatrichie,unhohơnthıphươngsaicungsetanglen.

• Va,nđeD lataisaonhưvay.

• Trươche, t,phaibie,nđo1 icacdatapointbanđaDusaochomatranhiepphươngsaicuadatapointđươcbie,nđo1 inaylamotmatranđươngcheo.

• Nhưtren,goi

• SA lamatranhiepphươngsaicuatapdưlieu(dataset)A• SB lamatranhiepphươngsaicuatapdưlieu(dataset)BmaB=PA (vơiP lamatranchuye1nđo1 i)

• Vıxemxetdưatrenđolechchua1n,nencacmatranA vaB nayđươcđưaveD cacmatran v𝐴 va w𝐵 nhưslidetrươc,taco

𝑆g =M

3v𝐴 v𝐴E

𝑆y =M

3w𝐵 w𝐵E

• Quavaibie,nđo1 inhưsau

𝑆y =M

3w𝐵 w𝐵E=M

3(𝑃 v𝐴)(𝑃 v𝐴)E=M

3𝑃 v𝐴 v𝐴E𝑃E=𝑃(M

3v𝐴 v𝐴E )𝑃E=𝑃𝑆g𝑃E

• Vay𝑆y = 𝑃𝑆g𝑃E

• Lưuythem,• Giasưcon chieDu(n đactrưng)vam đie1mdưlieu(datapoint),thıA lamatran𝑛×𝑚(n dong,m cot).

• TacaDnrutgonthanhk chieDu,nenP lamatran𝑘×𝑛 đe1 B sela𝑘×𝑚

Page 10: HỆ THỐNG THÔNG TIN THÔNG MINHfair.conf.vn/~lang/lecture/compIntelligence/CI_3.pdfdài, chieDu rộng của cánh hoa và đài hoa. CaDn phân 150 dữ liệu này vào 3 nhóm

5/22/19

10

• Đe1 chatcheveD nhưngphaDntren,caDndungcactınhcha, tsau:

1. Nghichđaocuamotmatrantrưcgiao(orthogonalmatrix)chınhlamatranchuye1nvi(transposematrix)cuano

• Matrantrưcgiaolamatranmacaccottrưcgiaovơinhau(tıchvohươngcua2cotba, tkyba_ngkhong,tıchvohươngcuacungmotcotthıba_ng1– chınhxachơnđolamatrantrưcchuaYn– orthonomalmatrix)

2. Ne,uAlamotmatranđo, ixưnggoDmcacgiatrithưc,lacac𝜆2, 𝑖 = 1, 𝑘 la cac giatririengưngvơivectorrieng𝑢2 ∈ ℝk tươngưng;ne,unhưngui naylacacvectorkhackhong,thı{u1,u1, ...,uk}lamottaphơptrưcgiao.

3. GiasưA lamatran𝑛×𝑛 thưcđo, ixưng,saochocacgiatririengcuanolakhacnhau.ThıtoD ntaimotmatrantrưcgiaoP saochoP-1AP=D,ơđoD lamatranđươngcheomacacphaDntưtrenđươngcheolacacgiatririengcuaA.

• Vơi3tınhcha, tnay,tacothe1 chưngminhđươc𝑆y = 𝐷 tư𝑆y = 𝑃𝑆g𝑃E

• Tưđaycothe1 tha,y• CacthanhphaDnchınhcuaA chınhlacacvectorriengcuaSA

• Giatritrenđươngcheothưi cuaSB laphươngsaicuaA theocacthanhphaDnnay

• P goDmk vectorriengđaDutiencuaSA

GIẢM CHIỀU DỮ LIỆU

• GiamchieDudưlieu (DimensionalityReduction)lamottrongnhưngkythuatquantrongtrongMachineLearning(ML).

• Cacvectorđactrưng(FeatureVectors)trongcacbaitoanthưcte, cothe1 coso, chieDura, tlơn;

• ĐoD ngthơiso, maYutindưlieu(DataPointtrongML)cungthươngra, tlơn.

• Nenso, lươngdưlieucaDnlưutrưsequalơn,daYnđe,nvieckhokhanveD xưly.PhươngphapPhantıchthanhphaDnchınhlamottrongnhưngcachđơngiannha, tđe1 giamso, chieDudưlieu.

PHƯƠNG PHÁP PHÂN TÍCH THÀNH PHẦN CHÍNH

• PhươngphapphantıchthanhphaDnchınh(PrincipalComponentAnalysis-PCA),đaylamotphươngphapđươcsưdungnhieDukhicaDnphantıchtho, ngke

• DưlieutrongtrươnghơpnaychưaquanhieDuthanhphaDn(nhieDutrương),trongPCAthươnggoiđolachieDucuadưlieu.

• Va,nđeD đatralamthe1 naođe1 giamthie1uchieDudưlieumavaYnkhongma, tđithongtin,đoD ngthơivaYngiưlaiđươcnhưngthongtincaDnthie, t.

Page 11: HỆ THỐNG THÔNG TIN THÔNG MINHfair.conf.vn/~lang/lecture/compIntelligence/CI_3.pdfdài, chieDu rộng của cánh hoa và đài hoa. CaDn phân 150 dữ liệu này vào 3 nhóm

5/22/19

11

• MuctieucuaPCAlagiamso, lươnglơncacbie,ncotươngquanvơinhauthanhıtbie,nhơn,saochocacbie,nnaylato1 hơptuye,ntınhcuanhưngbie,ncuvachungkhongcotươngquanvơinhau.

• Cachlamlabie,nđo1 iquamotkhonggianmơimavaYndưđươcnhieDunha, tlươngthongtinbanđaDu,khonglamanhhươngtơicha, tlươngcuamohınhdưbao.

• Nhưvay,nhiemvutrongPCAlatımmottaphơpmơiveD so, chieDu(hoacmottaphơpcackhungnhın)saochota, tcacacchieDunaylatrưcgiaovơinhau(vadođođoclaptuye,ntınh)vađươcxe,phangtheophươngsaicdoctheonhưngchieDunay.

• PCAphailamcacviecnhưsau:• Tınhmatranhiepphươngsaicuacacdatapoint.

• Tımcacvectorriengvagiatririengtươngưng

• Sa�pxe,pcacvectorriengtheothưtưgiamdaDncuagiatririeng

• Chonk vectorriengđaDutiennhưlak chieDumơi

• Chuye1nđo1 icacdatapointbanđaDuvơinchieDutheokchieDunay.

CÁC BƯỚC CỦA PCA

• GoDmcacbươcchınhnhưsau:

1. TieDnxưlydưlieudưlieutrenkhonggianbanđaDu

2. Tınhcacmatranhiepphươngsai3. Tınhvectorrieng,giatririeng

4. Chonlưacacvectorđactrưngchokhonggianmơi5. Bie,nđo1 idưlieuvaokhonggianmơi

CHUẨN HÓA DỮ LIỆU

• KhidungPCA,co2phươngphappho1 bie,nkhichua1nhoadưlieuđe1 dưlieucocungtyletronggiaiđoantieDnxưlydưlieu

• CenteredPCA:mucđıchlađưata, tcacacđactrưngveD cungmotgo, ctoađonhưmatran v𝐴

• NormedPCA:gio, ngnhưCenterdPCA,nhưngđolechchua1nba_ng1.

• Trongtrươnghơpnay,cacphaDntưcua v𝐴 la |(C}h~�h)�htrongđo𝜎d lađolechchua1n

cuacotthưjcuamatranA.

Page 12: HỆ THỐNG THÔNG TIN THÔNG MINHfair.conf.vn/~lang/lecture/compIntelligence/CI_3.pdfdài, chieDu rộng của cánh hoa và đài hoa. CaDn phân 150 dữ liệu này vào 3 nhóm

5/22/19

12

ỨNG DỤNG MINH HỌA