curve fitting
DESCRIPTION
Curve Fitting. Regression 데이터가 상당한 크기의 오차를 포함한 경우 데이터의 일반적인 경향을 나타내는 하나의 곡선을 유도해 내는 방법. Interpolation 데이타값이 매우 정확한 값으로 알려져 있어 각 데이터점들을 직접 통과하는 하나의 곡선으로 보간 하는 방법. Curve Fitting 의 두 가지 접근 방법. Least-squares regression. Linear regression - 최소제곱근사시 가장 간단한 형태 - 관측치에 대해 직선으로 적합 - PowerPoint PPT PresentationTRANSCRIPT
국민대학교 기계•자동차 공학부 1
Curve Fitting
국민대학교 기계•자동차 공학부 2
# Regression 데이터가 상당한 크기의
오차를 포함한 경우 데이터의 일반적인 경향을 나타내는 하나의 곡선을 유도해 내는 방법
# Interpolation 데이타값이 매우 정확한
값으로 알려져 있어 각 데이터점들을 직접 통과하는 하나의 곡선으로 보간 하는 방법
Curve Fitting 의 두 가지 접근 방법
국민대학교 기계•자동차 공학부 3
Least-squares regression
# Linear regression
- 최소제곱근사시 가장 간단한 형태
- 관측치에 대해 직선으로 적합
- 최적의 직선을 구하기 위해선 모든 주어진
데이터의 오차의 합을 최소화 시키는 것
xaayeexaay 1010
국민대학교 기계•자동차 공학부 4
- ‘ 최적’적합을 위한 판별 조건 ( … 부적절한 방법들 )
a) 오차의 합을 최소화
b) 오차의 절대값의 합을 최소화
c) 최소최대 판별 조건 :
직선으로부터 떨어진 각 점의
변위가 최소가 되도록 선택
- 측정된 y 와 선형모델을 이용해 계산된 y 사이의
잔차에 대한 제곱의 합을 최소화하는 방법이 고려
)( 111
01
xaayen
ii
n
ii
n
ii
n
ii xaaye
1110
1
)(
211
10
1
2 )( xaayeSn
ii
n
iir
국민대학교 기계•자동차 공학부 5
- 정규방정식 (Normal equation)2
111
01
2 )( xaayeSn
ii
n
iir
])[(2
)(2
01
00
iiiir
iiir
xxaaya
S
xaaya
S
2
10
10
0
0
iiii
ii
xaxaxy
xaay
00 naa
iiii
ii
yxaxax
yaxna
12
0
10
)()(
)(
221 )( ii
iiii
xxn
yxyxna
xaya 10
n
yy
n
xx ii ,
에서
0a 1a과 를 구하기 위해 각각 편미분을 취하면
이므로 윗 식에 대입하면
2 원 1 차 연립방정식이 주어짐 . 이를 풀면
국민대학교 기계•자동차 공학부 6
- Quantification of error of Linear Regressiona) 선형회귀분석의 잔차는 각
데이터 점과 직선내의 점과 수직거리를 나타낸다 .
211
10
1
2 )( xaayeSn
ii
n
iir
2)() yyScf it 잔차의 제곱은 데이터와 평균 사이의 차이의 제곱
잔차의 제곱은 데이터와또 다른 중심경향의 추정 값인 직선과의
수직거리의 제곱
b) 데이터와 직선과의 차이는 데이터의 전체 범위에 걸쳐
유사한 크기를 갖는다 .
국민대학교 기계•자동차 공학부 7
c) 직선을 중심으로 한 데이터 점들의 분포는 정규분포를 이룬다 .
d) 윗 사항을 이용 , 오차의 정도를 산출해 낼 수 있다 .
결정계수 (Coefficient of determination)
상관계수 (correlation coefficient)
2n
SS r
xy
t
rt
S
SSr
2
2rr
* 다만 컴퓨터의 응용을 위해서는 r 에 대해서 다음과 같은 형태의 공식을 응용 하는 것이 편리 !
2222 )()(
))((
iiii
iiii
yynxxn
yxyxnr
1)
n
SScf ty
국민대학교 기계•자동차 공학부 8
- 비선형관계식의 선형화a) 선형최소제곱에 부적합한
데이터가 있을 시 이를 비선형으로 표현할 필요가 있음 .
b) 이에 따른 방법에는 다항식의 선형회귀분석이나 변환을 해서선형회귀분석에 용이하게 할 수 있음 .
xbayeay xb111 lnln1
xbayxay b logloglog 2211
33
3
33
111
axa
b
yxb
xay
국민대학교 기계•자동차 공학부 9
# Polynomial regressionexaxaxaay m
m 2210
n
i
mmir xaxaxaayS
1
22210
imi
mim
mi
mi
mi
iimimiii
iimimiii
imimii
yxxaxaxaxa
yxxaxaxaxa
yxxaxaxaxa
yxaxaxana
222
110
2242
31
20
132
210
2210
)1(
mn
SS r
xy
데이터를 m 차 다항식으로 확장한다면
잔차의 제곱합은 이다 .
계수를 구하기 위해 각각 계수에 따른 편미분을 하고 , 정규방정식을 구하면 다음과 같다 .
이로써 연립방정식을 풀어 , 각각의 계수를 구한다 .
표준오차는 다음과 같이 나타낸다 .
국민대학교 기계•자동차 공학부 10
# Multiple linear regression
- y 가 두개 또는 그 이상의 변수를 갖는 선형 함수인 경우
- 두개 이상의 변수를 갖는 함수의 실험값을 보간 하는데
특히 유용- 이러한 2 차원인 경우 회귀분석 ‘선’은 ‘평면’이 됨 .
exaxaayex 22110)
국민대학교 기계•자동차 공학부 11
- 계수들의 ‘최적’값은 다음과 같은 잔차의 제곱합을 고려
- 편미분을 취해 편미분들이 0 으로 될 때의 계수값을 결정
n
iiiir xaxaayS
1
222110 )(
)(2
)(2
)(2
2211022
2211011
221100
iiiir
iiiir
iiir
xaxaayxa
S
xaxaayxa
S
xaxaaya
S
ii
ii
i
iiii
iiii
ii
yx
yx
y
a
a
a
xxxx
xxxx
xxn
2
1
2
1
0
22212
21211
21
국민대학교 기계•자동차 공학부 12
Interpolation
# Newton 의 제차분보간다항식
§ Linear Interpolation
-가장 간단한 형태의 보간법-두개의 점을 직선으로 연결-관계식 유도
01
01
0
01 )()()()(
xx
xfxf
xx
xfxf
)()()(
)()( 001
0101 xx
xx
xfxfxfxf
국민대학교 기계•자동차 공학부 13
§ Quadratic Interpolation- 3 개의 데이터 점이 있을 경우 2 차 다항식으로 표현
22102 )( xaxaaxf ))(()()( 1020102 xxxxbxxbbxf
22
120211
1020100
ba
xbxbba
xxbxbba
0xx
02
01
01
12
12
2
01
011
020
)()()()(
)()(
)(
xx
xxxfxf
xxxfxf
b
xx
xfxfb
xfb
1xx
2xx
- 윗 식을 정리하여 각 계수를 b 항으로 나타내면
- 각각의 b 값을 구하면
국민대학교 기계•자동차 공학부 14
§ Newton 보간다항식의 일반적인 형식
- (n+1) 개의 데이터 점에 n 차 다항식을 적합시키는 것으로 일반화
- n 차 다항식
- 앞서서 한 것과 같이 , 데이터 점들은 계수 bi 을 구하는데 사용
)())(()()( 110010 nnn xxxxxxbxxbbxf
011
0122
011
00
,,,,
,,
,
)(
xxxxfb
xxxfb
xxfb
xfb
nnn
국민대학교 기계•자동차 공학부 15
],,,[)())((
],,[))((],[)()()(
01110
012100100
xxxfxxxxxx
xxxfxxxxxxfxxxfxf
nnn
n
0
02111011
,,,,,,,,,,
xx
xxxfxxxfxxxxf
n
nnnnnn
-n 차의 유한 제차분은 다음과 같이 표현
- 일반적인 보간 다항식
국민대학교 기계•자동차 공학부 16
§ Newton 보간다항식의 오차
- 함수의 고차거동을 따라 가기 위해서 연속적으로 항을 추가해
준다는 사실에서 Taylor 급수전개와 유사
- Taylor 급수에서처럼 절단오차에 대한 공식이 얻어짐 .
- (n+1) 차 도함수를 근사하는 데 유한제차분을 아래와 사용하면
-추가적인 데이터 점을 사용 , 오차를 추정하는데 사용
)())(()!1(
)(10
)1(
n
n
n xxxxxxn
fR
)())(](,,,,[ 1001 nnnn xxxxxxxxxxfR
)())(](,,,,[ 10011 nnnnn xxxxxxxxxxfR
국민대학교 기계•자동차 공학부 17
# Lagrange 보간다항식- Newton 다항식을 간단하게 공식화
n
iiin xfxLxf
0
)()()(
n
ijj ji
ji xx
xxxL
0
)(여기서
- 예를 들어
)())((
))((
)())((
))(()(
))((
))(()(
2
)()()(
1
21202
10
12101
200
2010
212
101
00
10
11
xfxxxx
xxxx
xfxxxx
xxxxxf
xxxx
xxxxxf
n
xfxx
xxxf
xx
xxxf
n
국민대학교 기계•자동차 공학부 18
- 에서 각 항 는 1 이
되고 모든 다른 점에서는
0 임
- 그러므로 각각의 곱인
는 에서 인 값을 가짐
- 즉 모든 곱들의 합은 모든 개의
데이터 점들을 정확히 지나는 차
다항식이 됨
ix
)(xLi
)()( ii xfxL
ixx
)( ixf
1n
n
)(xLi
국민대학교 기계•자동차 공학부 19
# Spline 보간법
- 앞장의 함수는 절단오차 및
초과등으로 인해 잘못된
결과를 이끌어 낼 수 있음
- Spline function :
데이터 점들의 부분집합에
저차다항식을 적용시키는
것
국민대학교 기계•자동차 공학부 20
§ Linear Splines
- 두 점을 가장 간단하게 연결시키는 것은 직선
- 정돈된 데이터 점들에 대한 1 차 스플라인은 선형함수의
집합으로 정의
)()()(
)()()(
)()()(
111
111
000
nnn xxmxfxf
xxmxfxf
xxmxfxf
10 xxx
21 xxx
nn xxx 1
- 여기서 mi 는 점들을 연결해 주는 직선의 기울기임
ii
iii xx
xfxfm
1
1 )()(
국민대학교 기계•자동차 공학부 21
§ Quadratic Splines
- m 차 도함수가 교점에서 연속하기 위해서 적어도 (m+1) 차의
스플라인이 사용되어야 함
- 데이터 점들 사이의 각 구간마다 각 2 차 다항식을 유도
- n+1 개의 데이터 점들에는 n 개의 구간이 존재하며 , 3n 개의 미지수
들이 결정 되어야 함 .
iiii cxbxaxf 2)(
국민대학교 기계•자동차 공학부 22
- 미지수 계산 방법
a) 이웃하는 다항식들의 함수 값은 내부 절점에서 같은 값
b) 첫번째와 마지막 함수는 반드시 끝점을 통과해야 함 .
c) 내부 절점에서 1 차 도함수는 같아야만 한다
d) 2 차 도함수는 첫번째 데이터 점에서 0 이라고 가정 , 즉 처음
두개의 점은 직선 !
)(
)(
1121
1111211
iiiiii
iiiiii
xfcxbxa
xfcxbxa
)(
)(2
0101201
nnnnnn xfcxbxa
xfcxbxa
baxxf 2)('
01a
)1(2 n
1n
2
국민대학교 기계•자동차 공학부 23
국민대학교 기계•자동차 공학부 24
§ Cubic Splines
iiiii dxcxbxaxf 23)(
-데이터 점들 사이의 각 구간마다 각 3 차 다항식을 유도
- n+1 개의 데이터 점들에는 n 개의 구간이 존재하며 , 4n 개의 미지수
들이 결정 되어야 함 .
- 미지수 결정법
a) 이웃하는 다항식들의 함수 값은 내부 절점에서 같은 값
b) 첫번째와 마지막 함수는 반드시 끝점을 통과해야 함 .
c) 내부 절점에서 1 차 도함수는 같아야 한다
d) 내부 절점에서 2 차 도함수는 같아야 한다
e) 2 차 도함수는 첫번째 데이터 점에서 0 이라고 가정 , 즉 처음
두개의 점은 직선 !
)1(2 n
2
1n
1n
2