1 4 data reduction 응용화학부 송상옥. 2 발표순서 o data reduction 의 필요성 o...
TRANSCRIPT
![Page 1: 1 4 Data Reduction 응용화학부 송상옥. 2 발표순서 o Data Reduction 의 필요성 o Dimension Reduction 의 역할 및 형태 o Dimension Reduction 의 구체적 방법](https://reader036.vdocuments.site/reader036/viewer/2022062407/56649e4c5503460f94b413d5/html5/thumbnails/1.jpg)
1
4Data Reduction
응용화학부송상옥
![Page 2: 1 4 Data Reduction 응용화학부 송상옥. 2 발표순서 o Data Reduction 의 필요성 o Dimension Reduction 의 역할 및 형태 o Dimension Reduction 의 구체적 방법](https://reader036.vdocuments.site/reader036/viewer/2022062407/56649e4c5503460f94b413d5/html5/thumbnails/2.jpg)
2
발표순서
Data Reduction 의 필요성 Dimension Reduction 의 역할 및 형태 Dimension Reduction 의 구체적 방법
![Page 3: 1 4 Data Reduction 응용화학부 송상옥. 2 발표순서 o Data Reduction 의 필요성 o Dimension Reduction 의 역할 및 형태 o Dimension Reduction 의 구체적 방법](https://reader036.vdocuments.site/reader036/viewer/2022062407/56649e4c5503460f94b413d5/html5/thumbnails/3.jpg)
3
왜 필요한가 ?
데이터가 너무 많으면– 예측 프로그램의 용량 초과– 해를 구하는데 걸리는 시간 지연
적절한 양의 데이터– 데이터에 포함된 개념의 복잡도에 의존
(model 의 complexity)– mining 이전에 알 수 없다 .– Ex) random data
![Page 4: 1 4 Data Reduction 응용화학부 송상옥. 2 발표순서 o Data Reduction 의 필요성 o Dimension Reduction 의 역할 및 형태 o Dimension Reduction 의 구체적 방법](https://reader036.vdocuments.site/reader036/viewer/2022062407/56649e4c5503460f94b413d5/html5/thumbnails/4.jpg)
4
Dimension Reduction 의 역할
![Page 5: 1 4 Data Reduction 응용화학부 송상옥. 2 발표순서 o Data Reduction 의 필요성 o Dimension Reduction 의 역할 및 형태 o Dimension Reduction 의 구체적 방법](https://reader036.vdocuments.site/reader036/viewer/2022062407/56649e4c5503460f94b413d5/html5/thumbnails/5.jpg)
5
Dimension Reduction 의 형태 Delete a column (feature) Delete a row (case) Reduce the number of values in a
column (smooth a feature)
transformation to new data set(PCA)
![Page 6: 1 4 Data Reduction 응용화학부 송상옥. 2 발표순서 o Data Reduction 의 필요성 o Dimension Reduction 의 역할 및 형태 o Dimension Reduction 의 구체적 방법](https://reader036.vdocuments.site/reader036/viewer/2022062407/56649e4c5503460f94b413d5/html5/thumbnails/6.jpg)
6
Best Features Selection
Impossible !– Search space– computational time
approximation– promising subsets– simple distance
measure– using only training
error
![Page 7: 1 4 Data Reduction 응용화학부 송상옥. 2 발표순서 o Data Reduction 의 필요성 o Dimension Reduction 의 역할 및 형태 o Dimension Reduction 의 구체적 방법](https://reader036.vdocuments.site/reader036/viewer/2022062407/56649e4c5503460f94b413d5/html5/thumbnails/7.jpg)
7
Mean and Variance
Cases : a sample from some dist. Spreadsheet mean and variance BUT, Dist. is unknown
Heuristic Feature Selection Guidance
![Page 8: 1 4 Data Reduction 응용화학부 송상옥. 2 발표순서 o Data Reduction 의 필요성 o Dimension Reduction 의 역할 및 형태 o Dimension Reduction 의 구체적 방법](https://reader036.vdocuments.site/reader036/viewer/2022062407/56649e4c5503460f94b413d5/html5/thumbnails/8.jpg)
8
Independent Features
Classification problem
k classes classification– k pairwise comparison
Regression = pseudo-classification
sig
BAse
BmeanAmean
n
B
n
ABAse
21
varvar
![Page 9: 1 4 Data Reduction 응용화학부 송상옥. 2 발표순서 o Data Reduction 의 필요성 o Dimension Reduction 의 역할 및 형태 o Dimension Reduction 의 구체적 방법](https://reader036.vdocuments.site/reader036/viewer/2022062407/56649e4c5503460f94b413d5/html5/thumbnails/9.jpg)
9
Distance Based Selection
Independent analysis + correlation analysis detect redundancy
Distance measure
– Independent feature
Branch-and-Bound Algorithm
TM MMCCMMD 211
2121
iiimim 212
21 varvar
iFDFD MM ,
![Page 10: 1 4 Data Reduction 응용화학부 송상옥. 2 발표순서 o Data Reduction 의 필요성 o Dimension Reduction 의 역할 및 형태 o Dimension Reduction 의 구체적 방법](https://reader036.vdocuments.site/reader036/viewer/2022062407/56649e4c5503460f94b413d5/html5/thumbnails/10.jpg)
10
Heuristic Feature Selection
Comparison measures– Significant Test
– Dm
– F-Test
![Page 11: 1 4 Data Reduction 응용화학부 송상옥. 2 발표순서 o Data Reduction 의 필요성 o Dimension Reduction 의 역할 및 형태 o Dimension Reduction 의 구체적 방법](https://reader036.vdocuments.site/reader036/viewer/2022062407/56649e4c5503460f94b413d5/html5/thumbnails/11.jpg)
11
Principal Components
Merging features– a new set of fewer columns
first k-component First principal component
– minimum euclidean distance Feature with a large variance
– excellent chances for separation of class or group of case values
SPS
![Page 12: 1 4 Data Reduction 응용화학부 송상옥. 2 발표순서 o Data Reduction 의 필요성 o Dimension Reduction 의 역할 및 형태 o Dimension Reduction 의 구체적 방법](https://reader036.vdocuments.site/reader036/viewer/2022062407/56649e4c5503460f94b413d5/html5/thumbnails/12.jpg)
12
Decision Trees
Dynamic logic approach– coordinated with searching for
solution advantageous in large feature
spaces recursive partitioning
![Page 13: 1 4 Data Reduction 응용화학부 송상옥. 2 발표순서 o Data Reduction 의 필요성 o Dimension Reduction 의 역할 및 형태 o Dimension Reduction 의 구체적 방법](https://reader036.vdocuments.site/reader036/viewer/2022062407/56649e4c5503460f94b413d5/html5/thumbnails/13.jpg)
13
Reducing Values Problem
Clustering problem
![Page 14: 1 4 Data Reduction 응용화학부 송상옥. 2 발표순서 o Data Reduction 의 필요성 o Dimension Reduction 의 역할 및 형태 o Dimension Reduction 의 구체적 방법](https://reader036.vdocuments.site/reader036/viewer/2022062407/56649e4c5503460f94b413d5/html5/thumbnails/14.jpg)
14
Rounding
k
kk
k
iyix
iyiythenixif
ixiy
10
121010,mod
)10int(
![Page 15: 1 4 Data Reduction 응용화학부 송상옥. 2 발표순서 o Data Reduction 의 필요성 o Dimension Reduction 의 역할 및 형태 o Dimension Reduction 의 구체적 방법](https://reader036.vdocuments.site/reader036/viewer/2022062407/56649e4c5503460f94b413d5/html5/thumbnails/15.jpg)
15
K-Mean Clustering
![Page 16: 1 4 Data Reduction 응용화학부 송상옥. 2 발표순서 o Data Reduction 의 필요성 o Dimension Reduction 의 역할 및 형태 o Dimension Reduction 의 구체적 방법](https://reader036.vdocuments.site/reader036/viewer/2022062407/56649e4c5503460f94b413d5/html5/thumbnails/16.jpg)
16
Class Entropy
k
iii
N
knkentErr
CCkent
)(*
Prlog*Pr
![Page 17: 1 4 Data Reduction 응용화학부 송상옥. 2 발표순서 o Data Reduction 의 필요성 o Dimension Reduction 의 역할 및 형태 o Dimension Reduction 의 구체적 방법](https://reader036.vdocuments.site/reader036/viewer/2022062407/56649e4c5503460f94b413d5/html5/thumbnails/17.jpg)
17
How many Cases?
적절한 sample size complexity Prediction method 와 긴밀하게 연관 빠른 시간 안에 적절한 해
Case reduction !! Basic approach (random sampling)
– Incremental samples– Average samples
![Page 18: 1 4 Data Reduction 응용화학부 송상옥. 2 발표순서 o Data Reduction 의 필요성 o Dimension Reduction 의 역할 및 형태 o Dimension Reduction 의 구체적 방법](https://reader036.vdocuments.site/reader036/viewer/2022062407/56649e4c5503460f94b413d5/html5/thumbnails/18.jpg)
18
A Single Sample
![Page 19: 1 4 Data Reduction 응용화학부 송상옥. 2 발표순서 o Data Reduction 의 필요성 o Dimension Reduction 의 역할 및 형태 o Dimension Reduction 의 구체적 방법](https://reader036.vdocuments.site/reader036/viewer/2022062407/56649e4c5503460f94b413d5/html5/thumbnails/19.jpg)
19
Incremental Samples
![Page 20: 1 4 Data Reduction 응용화학부 송상옥. 2 발표순서 o Data Reduction 의 필요성 o Dimension Reduction 의 역할 및 형태 o Dimension Reduction 의 구체적 방법](https://reader036.vdocuments.site/reader036/viewer/2022062407/56649e4c5503460f94b413d5/html5/thumbnails/20.jpg)
20
Average Samples
추가적인 bias 없이 variance error 를 줄일 수 있음
Best Solution Approach
![Page 21: 1 4 Data Reduction 응용화학부 송상옥. 2 발표순서 o Data Reduction 의 필요성 o Dimension Reduction 의 역할 및 형태 o Dimension Reduction 의 구체적 방법](https://reader036.vdocuments.site/reader036/viewer/2022062407/56649e4c5503460f94b413d5/html5/thumbnails/21.jpg)
21
Specialized Techniques
Sequential Sampling over Time– Time-dependent data– Sampling period 와 feature measuring
사이에 최적화 Strategic sampling of Key Event
– Net change > threshold (regression) Adjusting prevalence
– Low prevalence 에 대해 case 반복