x izjzf lj y 0 0 1 z - nsc.ru · 2019-12-19 · fzl_fzlbq_kdh_h`b^zgb_b ihklhyggmx^bki_jkbx 1 2 z...
TRANSCRIPT
Глава 6. Прогнозирование количественных переменных
В задаче распознавании образов: 1{ ,..., }Y KY D - набор
неупорядоченных значений, т.е. Y - качественная переменная;
Регрессионный анализ: Y R - вещественная переменная.
Дано:
случайная выборка объектов 1{ ,..., }
No o ;
набор переменных X1,...,Xn, ;
таблица данных ( )i
jx =Xj(o(i)
), 1,...,j n , ( ) ( )( )i iy Y o 1,...,i N ;
Цель анализа - предсказать значение переменной Y в
зависимости от значений X , для произвольного нового объекта; при этом минимизировать ожидаемую функцию потерь ( , )L y y
Обычно задается 2
( , )L y y y y .
Основные подходы в регрессионном анализе:
- Параметрические модели;
- Непараметрические методы;
- Метод опорных векторов (support vector regression, SVR);
- Сети (Radial Basis Functions, RBF);
- Логический (деревья регрессии);
- Коллективный;
- итд.
6.1. «Классическая» модель множественной линейной регрессии
( ) ( )0 1 1
i ii in nY x x ,
где Y(i) — случайное значение Y, соответствующее i-му
наблюдению,
ijx — i-е значение неслучайной переменной Xj; j = 1, …, n;
ε(i) - случайная ошибка, i = 1, …, N;
β0, …, βn — параметры модели.
Предполагается, что случайная ошибка имеет нулевое
математическое ожидание и постоянную дисперсию σ2, а
ошибки ε(i), ε
(j) для различных наблюдений i,j независимы.
Параметр βj показывает ожидаемое изменение Y при изменении
Xj на одну единицу измерения (при прочих неизменных значениях
переменных).
простейшая (одномерная)
линейная регрессия ( ) ) (
1( )
0 i i iY x
β0 коэффициент пересечения (с осью
X=0)
β1 коэффициент наклона
Пусть
0
1
n
β
- вектор параметров,
(1)
(2)
( )N
y
y
y
Y - вектор
наблюдений зависимой переменной Y,
(1) (1)1
(2) (2)1
( ) ( )1
1 ...
1 ...
... ... ... ...
1 ...
n
n
N Nn
x x
x x
x x
Х – «расширенная» матрица наблюдений
объясняющих переменных,
(1)
(2)
( )N
ε — вектор ошибок.
Модель в матричном виде: Y = Xβ + ε.
Нахождение оценок параметров: метод наименьших квадратов
(МНК, LS):
0 1
2
( ) ( )0 1
, ,...,0
( , ,..., ) minn
ni i
n j j
i j
S y x
.
( ) ( ) ( )
0
( ) 0, 0,1,...,n
i i i
j j l
i jl
Sy x x l n
( ) ( ) ( ) ( )
0
0, 0,1,...,n
i i i i
l j j l
i i j
y x x x l n
( ) ( ) ( ) ( )
0
, 0,1,...,n
i i i i
j j l l
j i i
x x y x l n
- система нормальных уравнений.
В матричном виде: T T(X X)β X Y
TX - транспонированная матрица.
Предположим, что существует обратная матрица T 1
(X X) (ранг(Х)=n+1). Тогда
T T 1
β (X X) X Y b,
где
0
1
n
b
b
b
b — вектор оценок параметров.
Модель: Y(i) = β0 + β1x
(i) + ε
(i), МНК-оценка параметров:
0 1b y b x ,
( ) ( )
1 ( ) 2 2
cov( , )
( ) ( ) Var( )
i i
i
i
i
y x N y xX Y
bx N x X
,
,y x - средние значения.
Теорема Гаусса-Маркова
Пусть выполняются условия классической модели. Тогда МНК-
оценки являются наиболее эффективными, т.е. обладают
наименьшей дисперсией среди всех линейных несмещенных
оценок.
0 1( , )
МНК не МНК
0 1( , )
best linear unbiased estimate (BLUE)
Пояснения. Линейная оценка :j любая оценка вида:
(1) ( )
1, ,... N
j j N jb c y c y ,
где ,i jc зависят только от X .
Несмещенная оценка:
[ ]j jE b .
Оценка МНК T T1
b (X X) X Y - линейная,
T T T T[ ] [ ] [ ]E E E1 1b (X X) X Y (X X) X Xβ ε
T T [ ]E1(X X) X X β β
- несмещенная.
Пусть b CY - любая другая линейная несмещенная оценка; T TC 1
(X X) X D. Можно показать, что
2Cov[ ] Cov[ ] Cov[ ] T b CY b DD var[ ] var[ ]j jb b .
Замечание: Cov[ ]b - это матрица ковариаций между элементами
вектора (на главной диагонали - дисперсии).
Анализ качества модели:
- определение степени соответствия модели и наблюдений
(дисперсионный анализ остатков);
- проверка гипотез о значимости оценок параметров и модели в
целом;
- проверка предположений классической модели.
6.2. Цель дисперсионного анализа регрессионной модели - проверить, насколько вариация (изменчивость) зависимой переменной объясняется включенными в модель факторами.
Пусть ( ) ( ) ( )i i ie y y
i -й остаток, где ( )( ) ( )
0 1 1 ...ii in ny b b x b x
прогноз для i -го наблюдения.
Остаточная вариация (residual sum of squares)
( ) 2
1
( )N
i
i
RSS e
;
Стандартная ошибка (несмещенная оценка дисперсии ошибки): 2 / ( 1)s RSS N n .
Общая вариация ( ) 2
1
( )N
i
i
TSS y y
;
Вариация, объясненная регрессией ( ) 2
1
( )N
i
i
ESS y y
.
Основное тождество вариации:
TSS ESS RSS (если 0 0 ).
( ) ( ) ( ) ( )( ) ( ) ( )i i i iy y y y y y
22( ) ( ) ( ) ( )( ) ( ) ( )i i i i
i i
y y y y y y
2( ) ( ) ( ) 2 ( ) 2( ) ( ) ( )i i i i
i i
y y y y y y +
( ) ( ) ( )2 ( ) ( )i i i
i
y y y y
=0 если 0 0
TSS
RSS ESS
Коэффициент детерминации 2 1R RSS TSS ESS TSS ; 2 [0,1]R
показывает степень подгонки модели к наблюдаемым значениям Y (чем ближе к 1, тем лучше).
для парной линейной модели 2 2
xyR r (коэффициент
корреляции)
Y
X
0RSS ,
TSS ESS т.е. регрессия полностью объясняет
вариацию Y
- Остаточная вариация – «необъясненная»
Пример.
2R можно использовать для сравнения моделей по
качеству (степени соответствия наблюдениям)
Недостаток 2R - автоматически увеличивается при
включении в модель дополнительных переменных (даже
если они незначимы).
Нормированный (скорректированный, adjusted)
коэффициент детерминации:
2 ( 1)1
( 1)adj
RSS N nR
TSS N
.
2 1adjR , но может быть 2 0adjR .
6.3. Гипотеза о значимости параметра
0 ” 0”j jH (насколько существенно влияние jX на Y ).
Проверка: t- критерий Стьюдента (предполагает нормальное
распределение + классическая модель).
1. Вычислить j
j observedj
bt
s , где js - стандартная ошибка параметра:
j js s q , jq j -й диагональный элемент матрицы T 1(X X) ,
2. Определить табличное критическое значение , – –1crt P N n , где
1 – ; P - заданный уровень значимости;
– – 1N n - число степеней свободы.
3. Если j observed crt t , то гипотеза отвергается ( jX значима), иначе
отвергается.
p-value: Prob[ | ]j j observed o jT t H , где jT величина с распределением
Стьюдента;
- чем меньше p-value, тем более значима jX .
Гипотеза о значимости регрессии в целом:
H0: ”β1 = β 2 = … = βn = 0”.
F-критерий: 2
2
1
1
R N nF
R n
подчиняется F-распределению (нормальное
распределение ошибки + классическая модель)
.
H0 отвергается на уровне значимости , если
Fobserved > Fcritical(; n; N–n–1),
где Fcritical(; n; N–n–1) определяется из таблицы F-
распределения, - уровень значимости.
p-value: Prob[ | ]observed oF F H
Таблица результатов дисперсионного анализа:
df
степень
свободы
SS
сумма
квадратов
MS
средний квадрат
(дисперсия)
observedF
Значи-
мость
F
Регрессия n ESS /ESS n Остаток 1N n RSS / ( 1)RSS N n
Итого 1N TSS / ( 1)TSS N
/
/ 1
ESS n
RSS N n ( )
observedP F F
Степень свободы: равна числу слагаемых в формуле для вариации, значения которых могут быть выбраны произвольно (независимо от других слагаемых). Например,
(1) 2 (2) 2 ( ) 2
.; . .;
( ) ( ) ... ( )N
произв y задано произв непроизв среднеедолжно совпасть с y
TSS y y y y y y . . 1d f N
Пример
Результаты
6.4. Обобщения линейной модели
6.4.1. Нелинейные модели
(используется линеаризация)
Например, показательная (экспоненциальная) модель: 10
XaY a e
0 1ln ln lnY Xa a .
Замена:
* *0 0 1 1ln ln lnY Y b a b a .
Получим линейную модель * *
0 1Y X LSb b
Другая форма модели: 0 1( )XY
Другие распространенные модели:
- степенная 1
0Y X ;
- логарифмическая 0 1 logY X ;
- полиномиальная степени d : 0 1 ... ddY X X ;
- циклическая: 0 1 2sin( )Y X , итд.
6.4.2. Модели с качественными переменными
введение фиктивных переменных:
Например, Y, X1, X2 количественные, 3 ( , )X a b -
качественная. Фиктивная переменная
3
3
1, ;
0, .
если X aX
иначе
0 1 1 2 2 3 3Y X X X
Коэффициент 3 : ожидаемое изменение Y при 1X по
сравнению с 0X .
Если 2L , то вводятся 1L фиктивных переменных.
Например, если 4 , , , X a b c то вводятся фиктивные
переменные
4(1)4
1, 1;
0, ;
если XX
иначе
4(2)4
1, ;
0, .
если X bX
иначе
Если (1)4 0X и (2)
4 0X 4X c .
Коэффициенты при фиктивных переменных в линейной модели
имеют смысл ожидаемого изменения Y по сравнению с базовым
уровнем.
6.5 Проблема мультиколлинеарности - коррелированность
(зависимость) двух или нескольких объясняющих переменных в
модели.
Последствия:
оценки коэффициентов регрессии - ненадежные (определитель
матрицы объясняющих переменных Tdet X X близок к нулю);
неустойчивые, т. е. сильно меняются при исключении
небольшой части наблюдений; результаты проверки
значимости переменных недостоверны.
Устранение мультиколлинеарности
- исключение коррелированных переменных;
- пошаговый отбор информативных переменных.
Пошаговая регрессия
- Найти переменную, максимально коррелированную с Y ;
- Включить эту переменную в модель;
- Найти следующую максимально коррелированную переменную;
включить ее и т.д.
Метод включения-исключения – аналогично (исключается
наименее коррелированная переменная).
Гребневая регрессия
Штраф на сумму квадратов коэффициентов (L2 регуляризация).
( ) ( ) 2 2
0 1
ˆ arg min ( )n n
ridge i ij j j
i j j
y x λ β
.
Решение: T T
nI 1
b (X X ) X Y.
Добавление «гребня» увеличивает все собственные значения
матрицы TX X , не меняя собственных векторов.
Пример: оптимизируемые функционалы
6.6. Метод LASSO (Least Absolute Shrinkage and Selection
Operator)
Вместо штрафа введем ограничения:
( ) ( ) 2
0
1
ˆ arg min{ ( ) }
to | |
nlasso i i
j j
i j
n
j
j
y x
subject s
либо
( ) ( ) 2
0 1
ˆ arg min ( ) | |n n
lasso i ij j j
i j j
y x
(L1 регуляризация).
Получаем задачу квадратичного программирования.
Решение: метод градиентного спуска. 0 - начальное значение вектора параметров;
1 ( )i i iJ ,
- длина шага.
Можно показать, что при уменьшении параметра s все больше
коэффициентов j принимают нулевое значение – происходит
отбор информативных переменных.
LASSO RIDGE
6.7. Метод опорных векторов в регрессионном анализе (SVR)
Рассмотрим линейную решающую функцию
j j
j
f ( x ) w x b w,x b
- скалярное произведение. Оптимизационная задача:
найти вектор w и константу b такие, что
21
2|| w || min , при условии
( i ) ( i )
( i ) ( i )
y w,x b
w,x b y
где 0 - параметр.
То есть требуется найти такую полосу, чтобы все
наблюдения попали внутрь нее и она была как
можно более «плоской». 2|| w|| min - эквивалентно минимизации
2( )j в гребневой регрессии.
Можно обобщить задачу, допустив нарушения полосы:
минимизировать 2
1
1( + )
2
N*
i i
i
|| w || C
,
при условии
0
( i ) ( i )i
( i ) ( i ) *i
*i i
y w,x b
w,x b y
,
где 0C - параметр, *i i, - отклонение от границы полосы.
ε – функция потерь
Лагранжиан:
2
1 1
1( + ) ( + )
2
N N* * *
i i i i i i
i i
L || w || C
1
( )N
( i ) ( i )i i
i
y w,x b
1
( )N
* * ( i ) ( i )i i
i
y w,x b
,
где 0* *i i i i, , , - множители Лагранжа.
Условие седловой точки производные по *i iw,b, , равны 0:
0*b i iiL ,
0*w i i iiL w x
( )
(*) (*) 0*
ii iL C
, где (*)
i i или *i
подставим в Лагранжиан
двойственная задача: максимизировать
( ) ( ) ( )
1 1 1
1( )( ) ( )+ ( )
2
N N N* * i j * i *
i i j j i i i i
i , j i i
x ,x y
,
при условии: 1
) = 0N
*i i
i
(
и [0 ]*i i, ,C .
Из системы ( ) ( )
1 1
( ) ( )= ( )N N
* i * ii i i i
i i
w x f x x ,x b
,
то есть решение – линейная комбинация функций от
обучающих векторов.
Поиск оптимального решения - метод последовательной
оптимизации (sequential minimal optimization, SMO),
аналогично рассмотренному ранее в задаче распознавания.
0i i, C
0 0i i, C
0 0i i,
Из условий Каруша-Куна-Таккера (в седловой точке произведения
двойственных переменных на функции в ограничениях = 0)
( )=0( i ) ( i )i i y w,x b , ( )=0* * ( i ) ( i )
i i y w,x b ,
0
i
i iС
, 0
*
i
* *i iС
.
Значит, только те точки, для которых (*)i C лежат вне -полосы.
Если 0 i C , то 0i и
( i ) ( i )y w,x b , то есть i-я точка лежит на границе полосы;
можно выразить b .
Если 0i , то 0i и
( i ) ( i )y w,x b , то есть i-я точка лежит внутри полосы.
Аналогично для *i .
Вместо скалярного произведения введем ядро:
( )x,x' k x,x' .
Если выполняются условия теоремы Мерсера, то ядро
( )k x,x' определяет скалярное произведение в некотором
пространстве.
Таким образом, решение – ( ) ( )*i i i
i:sup .vect
f ( x ) k x ,x b .
Примеры ядер:
- полиномиальное ( )p
k x,x' x,x' c , где 0p ,c ,
- RBF ядро 2
( )2
|| x x' ||k x,x' exp
.
6.8. Непараметрическая регрессия
1.Пусть 1{ ,..., }KX x x - дискретная переменная,
[ ]I - индикаторная функция, [ ] {0,1}jI X x - сл. величина.
Тогда [ [ ]] [ ]j jE I X x P X x ,
, [ [ ]] [ | ] [ ]Y X j Y j jE Y I X x E Y X x P X x
и функция регрессии равна [ [ ]]
( ) [ | ][ [ ]]
jr j j
j
E Y I X xf x E Y X x
E I X x
.
Значит можно строить оценку
( )
1
1
[ ]
ˆ ( )
[ ]
Ni
j
ir j N
j
i
y I X x
f x
I X x
(среднее по вертикальному сечению jX x ).
2.Пусть X - непрерывная переменная. Обозначим 0h - ширина
окна. Тогда можно обобщить формулу: ( ) ( )
( )
[ ]
ˆ ( )[ ]
i i
ir i
i
y I x h x x h
f xI x h x x h
(среднее по наблюдениям из «окна»).
Дальнейшее обобщение: пусть ( )x - ядро: ( ) 1x dx ;
нормированное ядро: 1
( ) ( )h
xx
h h .
Положим ( ) ( )
( )
( )
ˆ ( )( )
i ih
ir i
h
i
y x x
f xx x
- оценка Надарая-Уотсона для регрессии.
Примеры ядер:
равномерное: 1
( ) [| | 1]2
x I x ;
треугольное: ( ) (1 | |) [| | 1]x x I x ;
Епанечникова: 23( ) (1 ) [| | 1]
4x x I x ;
Гауссово: 21
( ) exp22
xx
.
Выбор оптимальной ширины окна: кроссвалидация
Метод k ближайших соседей kNN
Пусть задано ядро (для пар точек):
( )( , ) 1ix x , если ( )ix входит в число k ближайших соседей x,
( )( , ) 0ix x , иначе.
Таким образом, прогноз Y для x равен среднему y -ков по k
ближайшим точкам.
3. Многомерный случай
Пусть 1( ,..., )nX X X . Определим n n симметричную положительно
определенную матрицу ширины окна H .
Положим 11( )
detH x H x
H .
Тогда оценка Надарая-Уотсона: ( ) ( )
( )
( )
ˆ ( )( )
i iH
ir i
H
i
y x x
f xx x
.
Выбор ядра и матрицы H :
а) ядро-произведение 1
1( )
nj
H jj jj
xx
h h
, матрица H -
диагональная (зависимость между переменными не учитывается).
б) 1/2H h S , где h - общая ширина окна, S - ковариационная
матрица.
6.9. Сеть радиальных базисных функций
В оценке Надарая-Уотсона ( ) ( )
( )
( )
ˆ ( )( )
i iH
i
iH
i
y x x
f xx x
учитывается каждая точка ( )ix . Для повышения устойчивости
целесообразно рассматривать только наиболее «важные» точки
, 1,...,kс k K в качестве «эталонных»:
ˆ ( ) ( , )k k
k
f x a h x c ,
где h- некоторое ядро, { }ka - веса.
RBF ядро, например, гауссово: 2( , ) exp || ||k kh x c x c .
Представление регрессионной функции в форме
нейронной сети
Input layer Hidden layer
RBF functions
Output layer
x1
x2
x3
xn
h1
h2
h3
hk
f(x)
a1
a2
a3
ak
Обучение сети: два этапа
1. Определить опорные точки { }kc ;
2. Вычислить веса { }ka .
1 этап: можно, например, использовать алгоритм кластерного
анализа К-means
2 этап: нужно подобрать такие веса { }ka , чтобы минимизировать
функционал ошибки 2
( ) ( )( , )i ik k
k
y a h x c
.
Получили задачу нахождения параметров линейной
регрессионной модели;
оптимальные оценки находятся по методу наименьших
квадратов.
6.10. Дерево регрессии Структура аналогична дереву решений для распознавания образов. Конечным вершинам приписывается прогноз - вещественное число.
Критерий качества - относительная дисперсия: 0
ocom
dd
d , где
2
1
1 ˆ( ( ) )i m
Mi
oc
m x E
d Y m yN
– остаточная дисперсия,
20
1
1( )
Ni
i
d y yN
– исходная дисперсия,
1
1 Ni
i
y yN
,
1ˆ( )m
i
m i E
Y m yN
- прогноз для m -й конечной вершины, mE -
подобласть, соответствующая m -му листу.
Методы построения деревьев регрессии – аналогичны
методам построения дерева классификации.
1. Алгоритм построения бинарного дерева с помощью
поэтапного ветвления: в каждой вершине выбирается
переменная и ее разбиение так, чтобы остаточная дисперсия
была минимальной; максимально допустимое число конечных
вершин – заданный параметр;
2. Процедура усечения по части выборки (CART);
6.11. Логистическая регрессия
Метод, позволяющий использовать аппарат регрессионного
анализа в распознавании образов
Пусть {0,1}Y . Предположим, вероятность ( 1 | ) ( )P Y x f x , где
( )f x - заданная функция, тогда
( 0 | ) 1 ( )P Y x f x , или 1( | ) ( ) (1 ( ))y yP y x f x f x .
Логистическая функция –
0( )
1( ) ( ; )
1 j jxx x
e
(сигмоид).
По таблице данных ( ) ( )( , ), 1,...,i ix y i N требуется найти параметры
модели, оптимальные по некоторому критерию.
Например, пусть максимизируется логарифмическая функция
правдоподобия: ( ) ( )
1
log β log ( | )N
i i
i
L P Y y X x
( ) ( )
1
log ( | )N
i i
i
P Y y x x
( ) ( ) ( ) ( )
1
( log ( ; ) (1 ) log(1 ( ; ))N
i i i i
i
y x y x
Можно показать, что задача выпукла, т.е. решение единственно.
поиск оптимального решения – градиентный метод (после
преобразования log ( )L ):
( ) ( ) ( )
1
: log ( ) ( ( ; ))N
i i i
i
L y x x
,
где 0 - параметр.
Принятие решения:
если 1
( ; )2
x , то 1y , иначе 0y .
Другие варианты ( )f x :
- пробит-регрессия: ( ) ( )f x x - функция стандартного
нормального распределения.
Метод стохастического градиента
Пусть оптимизируемый критерий зависит от некоторой суммы
(среднего) по всему множеству наблюдений, тогда можно
аппроксимировать его выборочной суммой (средним) по
подмножеству наблюдений v .
( ) ( ) ( )log ( ) ( ( ; ))i i i
i v
L y f x x
.
Трудоемкость (1)O - метод можно использовать для big data.
Многокласовый случай
Пусть 2K . Рассмотрим функцию softmax:
1 1( ,..., ) softmax( ) ( ,..., )K Kz z z z p p , где exp( )
,exp( )
kk k
l
l
zz p
z
R ,
величина kp интерпретируется как условная вероятность
принадлежности точки x к k -му классу, ( )z z x - вектор оценок за
классы.
В случае 2K получим логистическую функцию, если положить
1
0
n
j j
j
z x
, где 0 1x , 2 0z .
Пусть ,
0
( ; )n
k k j j
j
z x x
- оценка за k -й класс, 0Kz .
Требуется найти оптимальные параметры ,k j , максимизирующие
log βL ( )
( ) ( ) ( )
1 1
log ( | ) logsoftmax ( ( ; ))i
N Ni i i
yi i
P y x z x
градиентный метод.
координата
6.12. Коллективный регрессионный анализ
Пусть имеется набор базовых методов (алгоритмов ) 1,..., L
построения функции регрессии
1( ),..., ( )Lf x f x
(может быть один алгоритм, но с разными параметрами,
подвыборками или подсистемами переменных).
Коллективная решающая функция (ансамбль, композиция,
комитет):
1( ) ( ( ),..., ( ))La x G f x f x , G - некоторый оператор согласования.
Пример: усреднение: 1
( ) ( )la x f xL
.
Процедуры построения ансамбля:
- последовательные ( l зависит от 1 1( ),..., ( )lf x f x ) - бустинг;
- независимые - бэггинг.
Предположим, вектор x задан, каждая функция ( )lf x делает
ошибку ~ (0, )l N , [ ] , cov[ , ] , , {1,..., }l i jVar v c i j L .
Ошибка ансамбля 1
l
lL ; ожидаемая квадратичная ошибка:
2
2
2
1 1l l l j
l l j l
r E EL L
1 1Lv c
L L
.
1. Пусть v c (ошибки – статистические копии друг друга), тогда
r v ожидаемая ошибка ансамбля не уменьшается.
2. Пусть 0c (решения независимы), тогда 1
.r vL
То есть качество ансамбля по крайней не хуже, чем у его
отдельных элементов, а если элементы делают ошибки
независимо, то гораздо лучше.
6.13. Отбор информативных переменных и снижение
размерности
Требуется найти подсистему наиболее значимых переменных.
Метод случайного поиска с адаптацией
Переменной jX припишем вес jp – вероятность ее отбора в
подсистему переменных. Вначале 1/jp n .
Выбор подмножества m переменных из n переменных будем
называть испытанием.
Общее число испытаний разбивается на R групп по r испытаний
в каждой.
Случайный бесповторный отбор 1
( ,..., )mj jX X оценки
параметров модели критерий качества F .
После получения первой группы случайно выбранных
переменных определяются 1
min 1min( ,..., )rF F F и
1
max 1max( ,..., )rF F F , где jF - значение критерия для j-й
подсистемы переменных.
Адаптация - изменение вектора 1( )j np … p … p на последующих
этапах в зависимости от результатов предыдущих этапов.
Пусть требуется минимизировать критерий.
Переменная, вошедшая состав с
min
rF F «поощряется»:
1: min ,1
r r
j jp p
,
а в состав с max
rF F «наказывается»:
1: max ,0
r r
j jp p
,
где - параметр, 1,2,.., 1r R .
Испытания заканчиваются, если веса больше не меняются.
Снижение размерности
Пусть объекты описываются большим числом переменных
1,..., nX X , причем n очень большое.
Требуется описать эти объекты меньшим числом переменных
1,..., kZ Z (k n), не потеряв при этом существенной информации.
Задачи:
а) из исходных переменных выбрать подсистему наиболее
информативных переменных (feature selection)
б) сформировать новые переменные путем комбинации
исходных переменных (feature extraction)
с) ранжировать переменные по их информативности (feature
ranking).
Целесообразность:
Как правило, снижается ошибка за счет уменьшения эффекта
переобучения;
Уменьшается время работы алгоритма;
Лучшее понимание закономерностей области исследования;
Проще собрать и хранить информацию;
Возможность визуализации данных ( 2,3k ).
Выбор подсистемы переменных
Три основных подхода:
- Встраивание (Embedding) – в алгоритм анализа встроена возможность оценки информативности (например, дерево решений, LASSO - регрессия);
-Обертывание (Wrapper) - использует некоторую модель, алгоритм, с помощью которых по данным оценивается информативность переменных;
- Фильтрация (Filter) – для оценки информативности используются только данные.
Wrappers
В идеале – полный перебор подсистем переменных с построением решающей функции и оцениванием качества. Модель – например, множественная линейная регрессия.
1 3 2 5, ' ' 'Y a bX cX Y a b X c X , и т.д.
Критерий – например, ошибка скользящего экзамена.
Эвристический поиск:
- последовательное добавление переменных;
- последовательное исключение переменных:
- комбинация исключения – добавления.
Filters: обычно менее затратные процедуры, оцениваются характеристики распределения данных.
примеры:
- Процент пропущенных значений (если больше
порога, то переменная неинформативна);
- Фильтр малой дисперсии (Low Variance Filter);
необходима предварительная нормировка данных;
- Фильтр высокой корреляции: если две коэффициент
корреляции (линейной, ранговой) между
переменными выше порога, одна из них исключается.
Метод главных компонент
Из n исходных переменных X1,X2,...,Xn:
Образовать k новых переменных: Z1,Z2,...,Zk:
Z1 = a11X1 + a12X2 + ... + a1nXn
Z2 = a21X1 + a22X2 + ... + a2nXn
...
Zk = ak1X1 + ak2X2 + ... + aknXn
так, что Z1 …Zk некоррелированные (ортогональные)
Z1 объясняет как можно большую часть исходной
дисперсии данных: 1
1
max... n
DZ
DX DX
Z2 объясняет как можно большую часть оставшейся
дисперсии: 1 2
1
max... n
DZ DZ
DX DX
и.т.д.
|| || 1a .
Рассмотрим 1 компоненту: 1TZ a X , ее дисперсия
1( ) ( )Tj j
j
D Z D a X D a X
,
cov( , ) Ti j i j
i j
a a X X a Sa ,
где cov( , )i jS X X - ковариационная матрица.
Задача:
Функция Лагранжа: ( , ) ( 1)T TL a a Sa a a .
0L
Sa aa
Sa a a - собственный вектор S .
Так как T Ta Sa a a , то максимальная дисперсия по 1Z
достигается для наибольшего собственного числа 1 .
max Ta Sa при ограничении 1Ta a .
Вторая компонента соответствует второму по величине
собственному вектору 2 , и т.д.
симметрическая все собственные вектора ортогональны
преобразование соответствует линейному проецированию в
пространство первых k главных компонент.
4.0 4.5 5.0 5.5 6.02
3
4
5
1-я главная
компонента
2-я главная
компонента
Алгоритм PCA
Вход: таблица данных ( )( ), 1,..., ; 1,...,ljx l N j n X ; число
главных компонент k .
Выход: матрица преобразования A, преобразованная таблица
данных ( )( ), 1,..., ; 1,...,ljz l N j k Z .
1. Вычислить ковариационную матрицу ,( )i jS s ,
( ) ( ),
1( )( )l l
i j i i j j
l
s x x x xN
, где ( )1 l
j j
l
x xN
.
2. Найти собственные числа и собственные вектора для S .
3. Составить 1( ,..., )j j na a из компонент собственного вектора с
j-м по величине собственным числом;
4. Вычислить ( ) ( ) ( )
1 1 ... , 1,..., ; 1,...,l l lj j j n nz a x a x l N j k .
Пример визуализации с использованием PCA
Данные “oil pipe dataset”: 12 числовых признаков (датчики
бесконтактного измерения уровня радиоизотопного излучения);
3 класса состояний (однородное, вихревое, расслоенное).
Данные после преобразования PCA, в пространстве первых
двух компонент:
6.14. Регрессионные модели в анализе временных рядов
Временной ряд 1{ ,..., }Nx x - это реализация случайного процесса
( )X t ; набор измерений ряда в моменты времени 1,..., Nt t .
Цель анализа – найти наиболее точный прогноз N hx .
Основные модели временных рядов
- трендовые модели вида ( )t tX f t ,
где ( )f t - неслучайная компонента (тренд), i - случайная ошибка
(обычно считают, что 0tE , ошибки независимы для разных
моментов времени и образуют стационарный ряд);
например, линейный тренд: ( )f t a b t , где ,a b - параметры
тренда;
циклический тренд: ( ) cos( )f t a b t ;
линейно-циклический тренд, модель сезонных эффектов и.т.д.
Примеры
Анализ: а) выделение неслучайного тренда;
б) оценивание характеристик случайной ошибки.
1. Оценка параметров тренда: метод наименьших квадратов
( ,t i ix y t x ):
2 2, , .
( ) ( )
i i
ii i i
i
i
x t N xt
x at b a b x att N t
2. Модель линейной авторегрессии AR(p):
1 1 ...t t L t p tX a a X a X ,
где p - порядок авторегрессии (лаг).
Т.е. предполагается, что текущее значение ряда зависит от L
предыдущих значений, причем зависимость – линейная.
Оценка параметров авторегрессии – с помощью МНК:
( 1 1, ,...,t i t t l lx y x z x z ).
LS оценки: T T1
a (Z Z) Z Y
Стационарный ряд может быть представлен в виде разложения
Вольда: 1t i t ii
X m b
, где m - математическое ожидание
ряда, 1 2, ,...t t - одинаково распределенные некоррелированные
случайные величины, 0jE . Отсюда получаем:
3. Модель скользящего среднего МА(q) (для описания модели ошибок):
1 1 ...t t q t qY b b b ,
где Y - очищенный от тренда ряд, q - порядок модели, t i -
случайная величина (белый шум), 0t iE , в разные моменты
времени ошибки некоррелированы; имеют одинаковые распределения.
Часто предполагают нормальный белый шум.
Оценка параметров модели:
Метод максимального правдоподобия, предполагая некоторую модель ошибки (например, нормальное распределение). Поиск оптимальных параметров – численные методы.
4. Модель авторегрессии - скользящего среднего ARMA(p,q):
1 1 1 1... ...t t p t p t t q t qX a a X a X b b .
Оценивание параметров – МНК, аналогично предыдущей модели.
5. Модель авторегрессии- интегрированного скользящего среднего (ARIMA).
1 1
p qd d
t i t i t j t j
i j
X a a X b
,
где d - оператор разности порядка d .
1:d приращения ряда 11( ) ,t t tX X X
2 :d 2 1 1( ) ( ( ))t tX X и т.д.
Непараметрические модели (экспоненциальное сглаживание)
Экспоненциальная средняя (модель Брауна):
1(1 )t t ts x s ,
где (0,1) - параметр сглаживания (вес
наблюдения). Выразим ts :
1
1 2 0
0
(1 )( (1 ) ) ... (1 ) (1 )N
j Nt t t t t j
j
s x x s x s
(можно положить 0 1s x ). Так как 1 , то (1 ) 0N при N .
То есть 1
0
(1 )N
jt t j
j
s x
- взвешенная сумма предыдущих
значений с экспоненциально убывающими весами. Чем меньше
, тем более «сглажен» ряд.
Прогноз: 1ˆN Nx s .
tx 1ts
ts
Модель Хольта (учитывает тренд)
1 1(1 )( )t t t ts x s b ,
1 1( ) (1 )t t t tb s s b
В качестве начальных значений можно задать:
0 1 0, 0s x b .
Параметр (0,1) отвечает за скорость адаптации к
изменениям тренда: чем больше значение , тем больший
вклад в значение тренда вносит разность между двумя
последними значениями ряда (очищенными от тренда).
Прогноз: N h N Nx s hb .