x izjzf lj y 0 0 1 z - nsc.ru · 2019-12-19 · fzl_fzlbq_kdh_h`b^zgb_b ihklhyggmx^bki_jkbx 1 2 z...

$: X IZjZf lj Y 0 0 1 Z - nsc.ru · 2019-12-19 · fZl_fZlbq_kdh_h`b^Zgb_b ihklhyggmx^bki_jkbx 1 2 Z hrb[db 0 (i) 0 ( j) ^eyjZaebqguogZ[ex^_gbc i,j g_aZ\bkbfu . IZjZf_lj j ihdZau\Z_l$
Глава 6. Прогнозирование количественных переменных

В задаче распознавании образов: 1{ ,..., }Y KY D - набор

неупорядоченных значений, т.е. Y - качественная переменная;

Регрессионный анализ: Y R - вещественная переменная.

Дано:

случайная выборка объектов 1{ ,..., }

No o ;

набор переменных X1,...,Xn, ;

таблица данных ( )i

jx =Xj(o(i)

), 1,...,j n , ( ) ( )( )i iy Y o 1,...,i N ;

Цель анализа - предсказать значение переменной Y в

зависимости от значений X , для произвольного нового объекта; при этом минимизировать ожидаемую функцию потерь ( , )L y y

Обычно задается 2

( , )L y y y y .

Основные подходы в регрессионном анализе:

- Параметрические модели;

- Непараметрические методы;

- Метод опорных векторов (support vector regression, SVR);

- Сети (Radial Basis Functions, RBF);

- Логический (деревья регрессии);

- Коллективный;

- итд.

6.1. «Классическая» модель множественной линейной регрессии

( ) ( )0 1 1

i ii in nY x x ,

где Y(i) — случайное значение Y, соответствующее i-му

наблюдению,

ijx — i-е значение неслучайной переменной Xj; j = 1, …, n;

ε(i) - случайная ошибка, i = 1, …, N;

β0, …, βn — параметры модели.

Предполагается, что случайная ошибка имеет нулевое

математическое ожидание и постоянную дисперсию σ2, а

ошибки ε(i), ε

(j) для различных наблюдений i,j независимы.

Параметр βj показывает ожидаемое изменение Y при изменении

Xj на одну единицу измерения (при прочих неизменных значениях

переменных).

простейшая (одномерная)

линейная регрессия ( ) ) (

1( )

0 i i iY x

β0 коэффициент пересечения (с осью

X=0)

β1 коэффициент наклона

Пусть

0

1

n

β

- вектор параметров,

(1)

(2)

( )N

y

y

y

Y - вектор

наблюдений зависимой переменной Y,

(1) (1)1

(2) (2)1

( ) ( )1

1 ...

1 ...

... ... ... ...

1 ...

n

n

N Nn

x x

x x

x x

Х – «расширенная» матрица наблюдений

объясняющих переменных,

(1)

(2)

( )N

ε — вектор ошибок.

Модель в матричном виде: Y = Xβ + ε.

Нахождение оценок параметров: метод наименьших квадратов

(МНК, LS):

0 1

2

( ) ( )0 1

, ,...,0

( , ,..., ) minn

ni i

n j j

i j

S y x

.

( ) ( ) ( )

0

( ) 0, 0,1,...,n

i i i

j j l

i jl

Sy x x l n

( ) ( ) ( ) ( )

0

0, 0,1,...,n

i i i i

l j j l

i i j

y x x x l n

( ) ( ) ( ) ( )

0

, 0,1,...,n

i i i i

j j l l

j i i

x x y x l n

- система нормальных уравнений.

В матричном виде: T T(X X)β X Y

TX - транспонированная матрица.

Предположим, что существует обратная матрица T 1

(X X) (ранг(Х)=n+1). Тогда

T T 1

β (X X) X Y b,

где

0

1

n

b

b

b

b — вектор оценок параметров.

Модель: Y(i) = β0 + β1x

(i) + ε

(i), МНК-оценка параметров:

0 1b y b x ,

( ) ( )

1 ( ) 2 2

cov( , )

( ) ( ) Var( )

i i

i

i

i

y x N y xX Y

bx N x X

,

,y x - средние значения.

Теорема Гаусса-Маркова

Пусть выполняются условия классической модели. Тогда МНК-

оценки являются наиболее эффективными, т.е. обладают

наименьшей дисперсией среди всех линейных несмещенных

оценок.

0 1( , )

МНК не МНК

0 1( , )

best linear unbiased estimate (BLUE)

Пояснения. Линейная оценка :j любая оценка вида:

(1) ( )

1, ,... N

j j N jb c y c y ,

где ,i jc зависят только от X .

Несмещенная оценка:

[ ]j jE b .

Оценка МНК T T1

b (X X) X Y - линейная,

T T T T[ ] [ ] [ ]E E E1 1b (X X) X Y (X X) X Xβ ε

T T [ ]E1(X X) X X β β

- несмещенная.

Пусть b CY - любая другая линейная несмещенная оценка; T TC 1

(X X) X D. Можно показать, что

2Cov[ ] Cov[ ] Cov[ ] T b CY b DD var[ ] var[ ]j jb b .

Замечание: Cov[ ]b - это матрица ковариаций между элементами

вектора (на главной диагонали - дисперсии).

Анализ качества модели:

- определение степени соответствия модели и наблюдений

(дисперсионный анализ остатков);

- проверка гипотез о значимости оценок параметров и модели в

целом;

- проверка предположений классической модели.

6.2. Цель дисперсионного анализа регрессионной модели - проверить, насколько вариация (изменчивость) зависимой переменной объясняется включенными в модель факторами.

Пусть ( ) ( ) ( )i i ie y y

i -й остаток, где ( )( ) ( )

0 1 1 ...ii in ny b b x b x

прогноз для i -го наблюдения.

Остаточная вариация (residual sum of squares)

( ) 2

1

( )N

i

i

RSS e

;

Стандартная ошибка (несмещенная оценка дисперсии ошибки): 2 / ( 1)s RSS N n .

Общая вариация ( ) 2

1

( )N

i

i

TSS y y

;

Вариация, объясненная регрессией ( ) 2

1

( )N

i

i

ESS y y

.

Основное тождество вариации:

TSS ESS RSS (если 0 0 ).

( ) ( ) ( ) ( )( ) ( ) ( )i i i iy y y y y y

22( ) ( ) ( ) ( )( ) ( ) ( )i i i i

i i

y y y y y y

2( ) ( ) ( ) 2 ( ) 2( ) ( ) ( )i i i i

i i

y y y y y y +

( ) ( ) ( )2 ( ) ( )i i i

i

y y y y

=0 если 0 0

TSS

RSS ESS

Коэффициент детерминации 2 1R RSS TSS ESS TSS ; 2 [0,1]R

показывает степень подгонки модели к наблюдаемым значениям Y (чем ближе к 1, тем лучше).

для парной линейной модели 2 2

xyR r (коэффициент

корреляции)

Y

X

0RSS ,

TSS ESS т.е. регрессия полностью объясняет

вариацию Y

- Остаточная вариация – «необъясненная»

Пример.

2R можно использовать для сравнения моделей по

качеству (степени соответствия наблюдениям)

Недостаток 2R - автоматически увеличивается при

включении в модель дополнительных переменных (даже

если они незначимы).

Нормированный (скорректированный, adjusted)

коэффициент детерминации:

2 ( 1)1

( 1)adj

RSS N nR

TSS N

.

2 1adjR , но может быть 2 0adjR .

6.3. Гипотеза о значимости параметра

0 ” 0”j jH (насколько существенно влияние jX на Y ).

Проверка: t- критерий Стьюдента (предполагает нормальное

распределение + классическая модель).

1. Вычислить j

j observedj

bt

s , где js - стандартная ошибка параметра:

j js s q , jq j -й диагональный элемент матрицы T 1(X X) ,

2. Определить табличное критическое значение , – –1crt P N n , где

1 – ; P - заданный уровень значимости;

– – 1N n - число степеней свободы.

3. Если j observed crt t , то гипотеза отвергается ( jX значима), иначе

отвергается.

p-value: Prob[ | ]j j observed o jT t H , где jT величина с распределением

Стьюдента;

- чем меньше p-value, тем более значима jX .

Гипотеза о значимости регрессии в целом:

H0: ”β1 = β 2 = … = βn = 0”.

F-критерий: 2

2

1

1

R N nF

R n

подчиняется F-распределению (нормальное

распределение ошибки + классическая модель)

.

H0 отвергается на уровне значимости , если

Fobserved > Fcritical(; n; N–n–1),

где Fcritical(; n; N–n–1) определяется из таблицы F-

распределения, - уровень значимости.

p-value: Prob[ | ]observed oF F H

Таблица результатов дисперсионного анализа:

df

степень

свободы

SS

сумма

квадратов

MS

средний квадрат

(дисперсия)

observedF

Значи-

мость

F

Регрессия n ESS /ESS n Остаток 1N n RSS / ( 1)RSS N n

Итого 1N TSS / ( 1)TSS N

/

/ 1

ESS n

RSS N n ( )

observedP F F

Степень свободы: равна числу слагаемых в формуле для вариации, значения которых могут быть выбраны произвольно (независимо от других слагаемых). Например,

(1) 2 (2) 2 ( ) 2

.; . .;

( ) ( ) ... ( )N

произв y задано произв непроизв среднеедолжно совпасть с y

TSS y y y y y y . . 1d f N

Пример

Результаты

6.4. Обобщения линейной модели

6.4.1. Нелинейные модели

(используется линеаризация)

Например, показательная (экспоненциальная) модель: 10

XaY a e

0 1ln ln lnY Xa a .

Замена:

* *0 0 1 1ln ln lnY Y b a b a .

Получим линейную модель * *

0 1Y X LSb b

Другая форма модели: 0 1( )XY

Другие распространенные модели:

- степенная 1

0Y X ;

- логарифмическая 0 1 logY X ;

- полиномиальная степени d : 0 1 ... ddY X X ;

- циклическая: 0 1 2sin( )Y X , итд.

6.4.2. Модели с качественными переменными

введение фиктивных переменных:

Например, Y, X1, X2 количественные, 3 ( , )X a b -

качественная. Фиктивная переменная

3

3

1, ;

0, .

если X aX

иначе

0 1 1 2 2 3 3Y X X X

Коэффициент 3 : ожидаемое изменение Y при 1X по

сравнению с 0X .

Если 2L , то вводятся 1L фиктивных переменных.

Например, если 4 , , , X a b c то вводятся фиктивные

переменные

4(1)4

1, 1;

0, ;

если XX

иначе

4(2)4

1, ;

0, .

если X bX

иначе

Если (1)4 0X и (2)

4 0X 4X c .

Коэффициенты при фиктивных переменных в линейной модели

имеют смысл ожидаемого изменения Y по сравнению с базовым

уровнем.

6.5 Проблема мультиколлинеарности - коррелированность

(зависимость) двух или нескольких объясняющих переменных в

модели.

Последствия:

оценки коэффициентов регрессии - ненадежные (определитель

матрицы объясняющих переменных Tdet X X близок к нулю);

неустойчивые, т. е. сильно меняются при исключении

небольшой части наблюдений; результаты проверки

значимости переменных недостоверны.

Устранение мультиколлинеарности

- исключение коррелированных переменных;

- пошаговый отбор информативных переменных.

Пошаговая регрессия

- Найти переменную, максимально коррелированную с Y ;

- Включить эту переменную в модель;

- Найти следующую максимально коррелированную переменную;

включить ее и т.д.

Метод включения-исключения – аналогично (исключается

наименее коррелированная переменная).

Гребневая регрессия

Штраф на сумму квадратов коэффициентов (L2 регуляризация).

( ) ( ) 2 2

0 1

ˆ arg min ( )n n

ridge i ij j j

i j j

y x λ β

.

Решение: T T

nI 1

b (X X ) X Y.

Добавление «гребня» увеличивает все собственные значения

матрицы TX X , не меняя собственных векторов.

Пример: оптимизируемые функционалы

6.6. Метод LASSO (Least Absolute Shrinkage and Selection

Operator)

Вместо штрафа введем ограничения:

( ) ( ) 2

0

1

ˆ arg min{ ( ) }

to | |

nlasso i i

j j

i j

n

j

j

y x

subject s

либо

( ) ( ) 2

0 1

ˆ arg min ( ) | |n n

lasso i ij j j

i j j

y x

(L1 регуляризация).

Получаем задачу квадратичного программирования.

Решение: метод градиентного спуска. 0 - начальное значение вектора параметров;

1 ( )i i iJ ,

- длина шага.

Можно показать, что при уменьшении параметра s все больше

коэффициентов j принимают нулевое значение – происходит

отбор информативных переменных.

LASSO RIDGE

6.7. Метод опорных векторов в регрессионном анализе (SVR)

Рассмотрим линейную решающую функцию

j j

j

f ( x ) w x b w,x b

- скалярное произведение. Оптимизационная задача:

найти вектор w и константу b такие, что

21

2|| w || min , при условии

( i ) ( i )

( i ) ( i )

y w,x b

w,x b y

где 0 - параметр.

То есть требуется найти такую полосу, чтобы все

наблюдения попали внутрь нее и она была как

можно более «плоской». 2|| w|| min - эквивалентно минимизации

2( )j в гребневой регрессии.

Можно обобщить задачу, допустив нарушения полосы:

минимизировать 2

1

1( + )

2

N*

i i

i

|| w || C

,

при условии

0

( i ) ( i )i

( i ) ( i ) *i

*i i

y w,x b

w,x b y

,

где 0C - параметр, *i i, - отклонение от границы полосы.

ε – функция потерь

Лагранжиан:

2

1 1

1( + ) ( + )

2

N N* * *

i i i i i i

i i

L || w || C

1

( )N

( i ) ( i )i i

i

y w,x b

1

( )N

* * ( i ) ( i )i i

i

y w,x b

,

где 0* *i i i i, , , - множители Лагранжа.

Условие седловой точки производные по *i iw,b, , равны 0:

0*b i iiL ,

0*w i i iiL w x

( )

(*) (*) 0*

ii iL C

, где (*)

i i или *i

подставим в Лагранжиан

двойственная задача: максимизировать

( ) ( ) ( )

1 1 1

1( )( ) ( )+ ( )

2

N N N* * i j * i *

i i j j i i i i

i , j i i

x ,x y

,

при условии: 1

) = 0N

*i i

i

(

и [0 ]*i i, ,C .

Из системы ( ) ( )

1 1

( ) ( )= ( )N N

* i * ii i i i

i i

w x f x x ,x b

,

то есть решение – линейная комбинация функций от

обучающих векторов.

Поиск оптимального решения - метод последовательной

оптимизации (sequential minimal optimization, SMO),

аналогично рассмотренному ранее в задаче распознавания.

0i i, C

0 0i i, C

0 0i i,

Из условий Каруша-Куна-Таккера (в седловой точке произведения

двойственных переменных на функции в ограничениях = 0)

( )=0( i ) ( i )i i y w,x b , ( )=0* * ( i ) ( i )

i i y w,x b ,

0

i

i iС

, 0

*

i

* *i iС

.

Значит, только те точки, для которых (*)i C лежат вне -полосы.

Если 0 i C , то 0i и

( i ) ( i )y w,x b , то есть i-я точка лежит на границе полосы;

можно выразить b .

Если 0i , то 0i и

( i ) ( i )y w,x b , то есть i-я точка лежит внутри полосы.

Аналогично для *i .

Вместо скалярного произведения введем ядро:

( )x,x' k x,x' .

Если выполняются условия теоремы Мерсера, то ядро

( )k x,x' определяет скалярное произведение в некотором

пространстве.

Таким образом, решение – ( ) ( )*i i i

i:sup .vect

f ( x ) k x ,x b .

Примеры ядер:

- полиномиальное ( )p

k x,x' x,x' c , где 0p ,c ,

- RBF ядро 2

( )2

|| x x' ||k x,x' exp

.

6.8. Непараметрическая регрессия

1.Пусть 1{ ,..., }KX x x - дискретная переменная,

[ ]I - индикаторная функция, [ ] {0,1}jI X x - сл. величина.

Тогда [ [ ]] [ ]j jE I X x P X x ,

, [ [ ]] [ | ] [ ]Y X j Y j jE Y I X x E Y X x P X x

и функция регрессии равна [ [ ]]

( ) [ | ][ [ ]]

jr j j

j

E Y I X xf x E Y X x

E I X x

.

Значит можно строить оценку

( )

1

1

[ ]

ˆ ( )

[ ]

Ni

j

ir j N

j

i

y I X x

f x

I X x

(среднее по вертикальному сечению jX x ).

2.Пусть X - непрерывная переменная. Обозначим 0h - ширина

окна. Тогда можно обобщить формулу: ( ) ( )

( )

[ ]

ˆ ( )[ ]

i i

ir i

i

y I x h x x h

f xI x h x x h

(среднее по наблюдениям из «окна»).

Дальнейшее обобщение: пусть ( )x - ядро: ( ) 1x dx ;

нормированное ядро: 1

( ) ( )h

xx

h h .

Положим ( ) ( )

( )

( )

ˆ ( )( )

i ih

ir i

h

i

y x x

f xx x

- оценка Надарая-Уотсона для регрессии.

Метод k ближайших соседей kNN

Пусть задано ядро (для пар точек):

( )( , ) 1ix x , если ( )ix входит в число k ближайших соседей x,

( )( , ) 0ix x , иначе.

Таким образом, прогноз Y для x равен среднему y -ков по k

ближайшим точкам.

3. Многомерный случай

Пусть 1( ,..., )nX X X . Определим n n симметричную положительно

определенную матрицу ширины окна H .

Положим 11( )

detH x H x

H .

Тогда оценка Надарая-Уотсона: ( ) ( )

( )

( )

ˆ ( )( )

i iH

ir i

H

i

y x x

f xx x

.

Выбор ядра и матрицы H :

а) ядро-произведение 1

1( )

nj

H jj jj

xx

h h

, матрица H -

диагональная (зависимость между переменными не учитывается).

б) 1/2H h S , где h - общая ширина окна, S - ковариационная

матрица.

6.9. Сеть радиальных базисных функций

В оценке Надарая-Уотсона ( ) ( )

( )

( )

ˆ ( )( )

i iH

i

iH

i

y x x

f xx x

учитывается каждая точка ( )ix . Для повышения устойчивости

целесообразно рассматривать только наиболее «важные» точки

, 1,...,kс k K в качестве «эталонных»:

ˆ ( ) ( , )k k

k

f x a h x c ,

где h- некоторое ядро, { }ka - веса.

RBF ядро, например, гауссово: 2( , ) exp || ||k kh x c x c .

Представление регрессионной функции в форме

нейронной сети

Input layer Hidden layer

RBF functions

Output layer

x1

x2

x3

xn

h1

h2

h3

hk

f(x)

a1

a2

a3

ak

Обучение сети: два этапа

1. Определить опорные точки { }kc ;

2. Вычислить веса { }ka .

1 этап: можно, например, использовать алгоритм кластерного

анализа К-means

2 этап: нужно подобрать такие веса { }ka , чтобы минимизировать

функционал ошибки 2

( ) ( )( , )i ik k

k

y a h x c

.

Получили задачу нахождения параметров линейной

регрессионной модели;

оптимальные оценки находятся по методу наименьших

квадратов.

6.10. Дерево регрессии Структура аналогична дереву решений для распознавания образов. Конечным вершинам приписывается прогноз - вещественное число.

Критерий качества - относительная дисперсия: 0

ocom

dd

d , где

2

1

1 ˆ( ( ) )i m

Mi

oc

m x E

d Y m yN

– остаточная дисперсия,

20

1

1( )

Ni

i

d y yN

– исходная дисперсия,

1

1 Ni

i

y yN

,

1ˆ( )m

i

m i E

Y m yN

- прогноз для m -й конечной вершины, mE -

подобласть, соответствующая m -му листу.

Методы построения деревьев регрессии – аналогичны

методам построения дерева классификации.

1. Алгоритм построения бинарного дерева с помощью

поэтапного ветвления: в каждой вершине выбирается

переменная и ее разбиение так, чтобы остаточная дисперсия

была минимальной; максимально допустимое число конечных

вершин – заданный параметр;

2. Процедура усечения по части выборки (CART);

6.11. Логистическая регрессия

Метод, позволяющий использовать аппарат регрессионного

анализа в распознавании образов

Пусть {0,1}Y . Предположим, вероятность ( 1 | ) ( )P Y x f x , где

( )f x - заданная функция, тогда

( 0 | ) 1 ( )P Y x f x , или 1( | ) ( ) (1 ( ))y yP y x f x f x .

Логистическая функция –

0( )

1( ) ( ; )

1 j jxx x

e

(сигмоид).

По таблице данных ( ) ( )( , ), 1,...,i ix y i N требуется найти параметры

модели, оптимальные по некоторому критерию.

Например, пусть максимизируется логарифмическая функция

правдоподобия: ( ) ( )

1

log β log ( | )N

i i

i

L P Y y X x

( ) ( )

1

log ( | )N

i i

i

P Y y x x

( ) ( ) ( ) ( )

1

( log ( ; ) (1 ) log(1 ( ; ))N

i i i i

i

y x y x

Можно показать, что задача выпукла, т.е. решение единственно.

поиск оптимального решения – градиентный метод (после

преобразования log ( )L ):

( ) ( ) ( )

1

: log ( ) ( ( ; ))N

i i i

i

L y x x

,

где 0 - параметр.

Принятие решения:

если 1

( ; )2

x , то 1y , иначе 0y .

Другие варианты ( )f x :

- пробит-регрессия: ( ) ( )f x x - функция стандартного

нормального распределения.

Метод стохастического градиента

Пусть оптимизируемый критерий зависит от некоторой суммы

(среднего) по всему множеству наблюдений, тогда можно

аппроксимировать его выборочной суммой (средним) по

подмножеству наблюдений v .

( ) ( ) ( )log ( ) ( ( ; ))i i i

i v

L y f x x

.

Трудоемкость (1)O - метод можно использовать для big data.

Многокласовый случай

Пусть 2K . Рассмотрим функцию softmax:

1 1( ,..., ) softmax( ) ( ,..., )K Kz z z z p p , где exp( )

,exp( )

kk k

l

l

zz p

z

R ,

величина kp интерпретируется как условная вероятность

принадлежности точки x к k -му классу, ( )z z x - вектор оценок за

классы.

В случае 2K получим логистическую функцию, если положить

1

0

n

j j

j

z x

, где 0 1x , 2 0z .

Пусть ,

0

( ; )n

k k j j

j

z x x

- оценка за k -й класс, 0Kz .

Требуется найти оптимальные параметры ,k j , максимизирующие

log βL ( )

( ) ( ) ( )

1 1

log ( | ) logsoftmax ( ( ; ))i

N Ni i i

yi i

P y x z x

градиентный метод.

координата

6.12. Коллективный регрессионный анализ

Пусть имеется набор базовых методов (алгоритмов ) 1,..., L

построения функции регрессии

1( ),..., ( )Lf x f x

(может быть один алгоритм, но с разными параметрами,

подвыборками или подсистемами переменных).

Коллективная решающая функция (ансамбль, композиция,

комитет):

1( ) ( ( ),..., ( ))La x G f x f x , G - некоторый оператор согласования.

Пример: усреднение: 1

( ) ( )la x f xL

.

Процедуры построения ансамбля:

- последовательные ( l зависит от 1 1( ),..., ( )lf x f x ) - бустинг;

- независимые - бэггинг.

Предположим, вектор x задан, каждая функция ( )lf x делает

ошибку ~ (0, )l N , [ ] , cov[ , ] , , {1,..., }l i jVar v c i j L .

Ошибка ансамбля 1

l

lL ; ожидаемая квадратичная ошибка:

2

2

2

1 1l l l j

l l j l

r E EL L

1 1Lv c

L L

.

1. Пусть v c (ошибки – статистические копии друг друга), тогда

r v ожидаемая ошибка ансамбля не уменьшается.

2. Пусть 0c (решения независимы), тогда 1

.r vL

То есть качество ансамбля по крайней не хуже, чем у его

отдельных элементов, а если элементы делают ошибки

независимо, то гораздо лучше.

6.13. Отбор информативных переменных и снижение

размерности

Требуется найти подсистему наиболее значимых переменных.

Метод случайного поиска с адаптацией

Переменной jX припишем вес jp – вероятность ее отбора в

подсистему переменных. Вначале 1/jp n .

Выбор подмножества m переменных из n переменных будем

называть испытанием.

Общее число испытаний разбивается на R групп по r испытаний

в каждой.

Случайный бесповторный отбор 1

( ,..., )mj jX X оценки

параметров модели критерий качества F .

После получения первой группы случайно выбранных

переменных определяются 1

min 1min( ,..., )rF F F и

1

max 1max( ,..., )rF F F , где jF - значение критерия для j-й

подсистемы переменных.

Адаптация - изменение вектора 1( )j np … p … p на последующих

этапах в зависимости от результатов предыдущих этапов.

Пусть требуется минимизировать критерий.

Переменная, вошедшая состав с

min

rF F «поощряется»:

1: min ,1

r r

j jp p

,

а в состав с max

rF F «наказывается»:

1: max ,0

r r

j jp p

,

где - параметр, 1,2,.., 1r R .

Испытания заканчиваются, если веса больше не меняются.

Снижение размерности

Пусть объекты описываются большим числом переменных

1,..., nX X , причем n очень большое.

Требуется описать эти объекты меньшим числом переменных

1,..., kZ Z (k n), не потеряв при этом существенной информации.

Задачи:

а) из исходных переменных выбрать подсистему наиболее

информативных переменных (feature selection)

б) сформировать новые переменные путем комбинации

исходных переменных (feature extraction)

с) ранжировать переменные по их информативности (feature

ranking).

Целесообразность:

Как правило, снижается ошибка за счет уменьшения эффекта

переобучения;

Уменьшается время работы алгоритма;

Лучшее понимание закономерностей области исследования;

Проще собрать и хранить информацию;

Возможность визуализации данных ( 2,3k ).

Выбор подсистемы переменных

Три основных подхода:

- Встраивание (Embedding) – в алгоритм анализа встроена возможность оценки информативности (например, дерево решений, LASSO - регрессия);

-Обертывание (Wrapper) - использует некоторую модель, алгоритм, с помощью которых по данным оценивается информативность переменных;

- Фильтрация (Filter) – для оценки информативности используются только данные.

Wrappers

В идеале – полный перебор подсистем переменных с построением решающей функции и оцениванием качества. Модель – например, множественная линейная регрессия.

1 3 2 5, ' ' 'Y a bX cX Y a b X c X , и т.д.

Критерий – например, ошибка скользящего экзамена.

Эвристический поиск:

- последовательное добавление переменных;

- последовательное исключение переменных:

- комбинация исключения – добавления.

Filters: обычно менее затратные процедуры, оцениваются характеристики распределения данных.

примеры:

- Процент пропущенных значений (если больше

порога, то переменная неинформативна);

- Фильтр малой дисперсии (Low Variance Filter);

необходима предварительная нормировка данных;

- Фильтр высокой корреляции: если две коэффициент

корреляции (линейной, ранговой) между

переменными выше порога, одна из них исключается.

Метод главных компонент

Из n исходных переменных X1,X2,...,Xn:

Образовать k новых переменных: Z1,Z2,...,Zk:

Z1 = a11X1 + a12X2 + ... + a1nXn

Z2 = a21X1 + a22X2 + ... + a2nXn

...

Zk = ak1X1 + ak2X2 + ... + aknXn

так, что Z1 …Zk некоррелированные (ортогональные)

Z1 объясняет как можно большую часть исходной

дисперсии данных: 1

1

max... n

DZ

DX DX

Z2 объясняет как можно большую часть оставшейся

дисперсии: 1 2

1

max... n

DZ DZ

DX DX

и.т.д.

|| || 1a .

Рассмотрим 1 компоненту: 1TZ a X , ее дисперсия

1( ) ( )Tj j

j

D Z D a X D a X

,

cov( , ) Ti j i j

i j

a a X X a Sa ,

где cov( , )i jS X X - ковариационная матрица.

Задача:

Функция Лагранжа: ( , ) ( 1)T TL a a Sa a a .

0L

Sa aa

Sa a a - собственный вектор S .

Так как T Ta Sa a a , то максимальная дисперсия по 1Z

достигается для наибольшего собственного числа 1 .

max Ta Sa при ограничении 1Ta a .

Вторая компонента соответствует второму по величине

собственному вектору 2 , и т.д.

симметрическая все собственные вектора ортогональны

преобразование соответствует линейному проецированию в

пространство первых k главных компонент.

4.0 4.5 5.0 5.5 6.02

3

4

5

1-я главная

компонента

2-я главная

компонента

Алгоритм PCA

Вход: таблица данных ( )( ), 1,..., ; 1,...,ljx l N j n X ; число

главных компонент k .

Выход: матрица преобразования A, преобразованная таблица

данных ( )( ), 1,..., ; 1,...,ljz l N j k Z .

1. Вычислить ковариационную матрицу ,( )i jS s ,

( ) ( ),

1( )( )l l

i j i i j j

l

s x x x xN

, где ( )1 l

j j

l

x xN

.

2. Найти собственные числа и собственные вектора для S .

3. Составить 1( ,..., )j j na a из компонент собственного вектора с

j-м по величине собственным числом;

4. Вычислить ( ) ( ) ( )

1 1 ... , 1,..., ; 1,...,l l lj j j n nz a x a x l N j k .

Пример визуализации с использованием PCA

Данные “oil pipe dataset”: 12 числовых признаков (датчики

бесконтактного измерения уровня радиоизотопного излучения);

3 класса состояний (однородное, вихревое, расслоенное).

Данные после преобразования PCA, в пространстве первых

двух компонент:

6.14. Регрессионные модели в анализе временных рядов

Временной ряд 1{ ,..., }Nx x - это реализация случайного процесса

( )X t ; набор измерений ряда в моменты времени 1,..., Nt t .

Цель анализа – найти наиболее точный прогноз N hx .

Основные модели временных рядов

- трендовые модели вида ( )t tX f t ,

где ( )f t - неслучайная компонента (тренд), i - случайная ошибка

(обычно считают, что 0tE , ошибки независимы для разных

моментов времени и образуют стационарный ряд);

например, линейный тренд: ( )f t a b t , где ,a b - параметры

тренда;

циклический тренд: ( ) cos( )f t a b t ;

линейно-циклический тренд, модель сезонных эффектов и.т.д.

Примеры

Анализ: а) выделение неслучайного тренда;

б) оценивание характеристик случайной ошибки.

1. Оценка параметров тренда: метод наименьших квадратов

( ,t i ix y t x ):

2 2, , .

( ) ( )

i i

ii i i

i

i

x t N xt

x at b a b x att N t

2. Модель линейной авторегрессии AR(p):

1 1 ...t t L t p tX a a X a X ,

где p - порядок авторегрессии (лаг).

Т.е. предполагается, что текущее значение ряда зависит от L

предыдущих значений, причем зависимость – линейная.

Оценка параметров авторегрессии – с помощью МНК:

( 1 1, ,...,t i t t l lx y x z x z ).

LS оценки: T T1

a (Z Z) Z Y

Стационарный ряд может быть представлен в виде разложения

Вольда: 1t i t ii

X m b

, где m - математическое ожидание

ряда, 1 2, ,...t t - одинаково распределенные некоррелированные

случайные величины, 0jE . Отсюда получаем:

3. Модель скользящего среднего МА(q) (для описания модели ошибок):

1 1 ...t t q t qY b b b ,

где Y - очищенный от тренда ряд, q - порядок модели, t i -

случайная величина (белый шум), 0t iE , в разные моменты

времени ошибки некоррелированы; имеют одинаковые распределения.

Часто предполагают нормальный белый шум.

Оценка параметров модели:

Метод максимального правдоподобия, предполагая некоторую модель ошибки (например, нормальное распределение). Поиск оптимальных параметров – численные методы.

4. Модель авторегрессии - скользящего среднего ARMA(p,q):

1 1 1 1... ...t t p t p t t q t qX a a X a X b b .

Оценивание параметров – МНК, аналогично предыдущей модели.

5. Модель авторегрессии- интегрированного скользящего среднего (ARIMA).

1 1

p qd d

t i t i t j t j

i j

X a a X b

,

где d - оператор разности порядка d .

1:d приращения ряда 11( ) ,t t tX X X

2 :d 2 1 1( ) ( ( ))t tX X и т.д.

Непараметрические модели (экспоненциальное сглаживание)

Экспоненциальная средняя (модель Брауна):

1(1 )t t ts x s ,

где (0,1) - параметр сглаживания (вес

наблюдения). Выразим ts :

1

1 2 0

0

(1 )( (1 ) ) ... (1 ) (1 )N

j Nt t t t t j

j

s x x s x s

(можно положить 0 1s x ). Так как 1 , то (1 ) 0N при N .

То есть 1

0

(1 )N

jt t j

j

s x

- взвешенная сумма предыдущих

значений с экспоненциально убывающими весами. Чем меньше

, тем более «сглажен» ряд.

Прогноз: 1ˆN Nx s .

tx 1ts

ts

Модель Хольта (учитывает тренд)

1 1(1 )( )t t t ts x s b ,

1 1( ) (1 )t t t tb s s b

В качестве начальных значений можно задать:

0 1 0, 0s x b .

Параметр (0,1) отвечает за скорость адаптации к

изменениям тренда: чем больше значение , тем больший

вклад в значение тренда вносит разность между двумя

последними значениями ряда (очищенными от тренда).

Прогноз: N h N Nx s hb .

x izjzf lj y 0 0 1 z - nsc.ru · 2019-12-19 · fzl_fzlbq_kdh_h`b^zgb_b ihklhyggmx^bki_jkbx 1 2 z...

Documents