лекция 7 эмм в менеджменте регресс анализ_часть i
TRANSCRIPT
Экономико-математические методы в планировании и управленииУральский федеральный университет
2014
им. первого Президента России Б.Н.Ельцина
Кафедра «Экономика и управление строительством и рынком недвижимости»
Автор: доцент, к.ф.-м.н. В.А.Ларионова 2
Тема 7. Корреляционно-регрессионный анализ
План Парная регрессия и корреляция
Линейная модель парной регрессии Нелинейная модель парной
регрессии Множественная регрессия и
корреляция Практика применения
регрессионного анализа в оценочной деятельности
Целью регрессионного анализа является выявление и количественное описание взаимосвязей между случайными величинами.
Автор: доцент, к.ф.-м.н. В.А.Ларионова 3
Задачи корреляционно-регрессионного анализа Установление существенной связи
междуслучайными величинами;
Выбор спецификации модели, определение формы корреляционной связи;
Оценка параметров уравнения регрессии;
Проверка адекватности модели.
Уравнение регрессии выражает зависимость средней величины случайной переменной (признака-результата) от значений другой или других переменных (признаков-факторов).Линия регрессии – это график функции, описывающей эту зависимость.
Автор: доцент, к.ф.-м.н. В.А.Ларионова 4
Предпосылки корреляционно-регрессионного анализа
«В этом мире все взаимосвязано…»
Существование причинно-следственной связи между переменными-признаками;
Из всех факторов, влияющих на результативный признак, наличие одного или нескольких наиболее существенно влияющих факторов;
Двусторонняя связь между признаками, т.е. изменение одного признака меняет вариацию другого и наоборот (исключение составляют временные ряды или ряды динамики).
Автор: доцент, к.ф.-м.н. В.А.Ларионова 5
Виды регрессий по количеству переменных
Парная - регрессия между двумя переменными у и x, т. е, модель вида: у = f (x) + , где у -зависимая переменная (результативный признак), x – независимая, объясняющая переменная (признак - фактор), - возмущение, или стохастическая переменная, включающая влияние неучтенных в модели факторов;
Множественная - регрессия между переменными у и х1 , х2 ...xm, т. е. модель вида: у = f(х1 , х2 ...xm)+ , где у - зависимая переменная (результативный признак), х1 , х2 ...xm - независимые, объясняющие переменные (признаки-факторы), - возмущение или стохастическая переменная;
Автор: доцент, к.ф.-м.н. В.А.Ларионова 6
Виды регрессий по функциональной зависимости
линейная - регрессия, применяемая в статистике в виде четкой экономической интерпретации ее параметров: у = а+b*х+ ;
нелинейная - регрессия, нелинейная относительно включенных в анализ объясняющих переменных, но линейная по оцениваемым параметрам. полиномиальная – регрессия,
выраженная полиномом степени 2 и более: y=a1*xn+a2*xn-1+…+an*x+b+ ;
гиперболическая - регрессия равносторонней гиперболы: у = а + b / х + ;
логарифмически линейная - регрессия вида: In у = In а + b * In x + In ;
обратная - регрессия, приводимая к линейному виду: у = 1/a + b*х+ .
Автор: доцент, к.ф.-м.н. В.А.Ларионова 7
Основные типы линий регрессий
Автор: доцент, к.ф.-м.н. В.А.Ларионова 8
Парная линейная регрессия
Пусть задано корреляционное поле, представляющее собой исходные данные (значения переменных х и у), нанесенных на график в виде точек в прямоугольной системе координат:
Линейная регрессия сводится к нахождению уравнения вида:
Автор: доцент, к.ф.-м.н. В.А.Ларионова 9
Парная линейная регрессияЗадача регрессионного анализа – найти параметры линейной регрессии a и b. Классический подход к оценке параметров линейной регрессии основан на методе наименьших квадратов.МНК позволяет получить такие оценки параметров , при которых сумма квадратов отклонений фактических значений результативного признака от теоретических минимальна:
то есть из всего множества линий линия регрессии на графике выбирается такая, чтобы сумма квадратов расстояний по вертикали между точками и этой линией была бы минимальной.
Автор: доцент, к.ф.-м.н. В.А.Ларионова 10
Парная линейная регрессия
Для нахождения минимума функции, надо вычислить частные производные по каждому из параметров a иb и приравнять их к нулю. Обозначим через , тогда: Продифференцируем уравнение по a иb:
Приведем к виду:
Автор: доцент, к.ф.-м.н. В.А.Ларионова 11
Парная линейная регрессия
Решением системы уравнений будет:
где - ковариация признаков x и y,
- дисперсия признака x, а
Параметр b называется коэффициентом регрессии Его величина показывает среднее изменение результата с изменением фактора на одну единицу.Формально а – это значение y при x=0.
Автор: доцент, к.ф.-м.н. В.А.Ларионова 12
Парная линейная регрессия
Ковариация – числовая характеристика совместного распределения двух случайных величин, равная математическому ожиданию произведения отклонений этих случайных величин от их математических ожиданий:
Дисперсия – характеристика случайной величины, определяемая как математическое ожидание квадрата отклонения случайной величины от ее математического ожидания.
cov( , )xy y x
x yn n n
22
22 1x
x xx x
n n n
Авто: доцент, к.ф.-м.н. В.А.Ларионова 13
Парная линейная регрессия
Для оценки тесноты связи для парной линейной регрессии используют линейный коэффициент корреляции:
где
Линейный коэффициент корреляции находится в пределах: . Чем ближе абсолютное значение к единице, тем сильнее линейная связь между факторами. Считают, что если этот коэффициент не больше 0,30, то связь слабая: от 0,3 до 0,7 - средняя; больше 0,7 - сильная, или тесная.
Авто: доцент, к.ф.-м.н. В.А.Ларионова 14
Парная линейная регрессия
Проверка качества и значимости уравнения регрессии:
Соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным?
Достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной.
Качество модели определяется средней ошибкой аппроксимации:
Средняя ошибка не должна превышать 8–10%.
Авто: доцент, к.ф.-м.н. В.А.Ларионова 15
Для оценки качества подбора линейной функции рассчитывается квадрат линейного коэффициента корреляции , называемый коэффициентом детерминации.
гдеКоэффициент детерминации характеризует долю дисперсии результативного признака , объясняемую регрессией, в общей дисперсии результативного признака. Соответственно величина 1-rxy характеризует долю дисперсии y, вызванную влиянием остальных, не учтенных в модели, факторов.
Парная линейная регрессия
Авто: доцент, к.ф.-м.н. В.А.Ларионова 16
Для изучения качества регрессионной модели применяется дисперсионный анализ, согласно которому общая сумма квадратов отклонений переменной от среднего значения раскладывается на две части – «объясненную» и «необъясненную»:
где – общая сумма квадратов отклонений; – сумма квадратов отклонений, объясненная регрессией (или факторная сумма квадратов отклонений); – остаточная сумма квадратов отклонений, характеризующая влияние неучтенных в модели факторов.
Парная линейная регрессия
Авто: доцент, к.ф.-м.н. В.А.Ларионова 17
Парная линейная регрессия
Схема дисперсионного анализа:
где n – число наблюдений, m – число параметров при переменной
Компоненты дисперсии
Сумма квадратов
Число степеней свободы
Дисперсия на одну степень свободы
Общая
Факторная
Остаточная
Авто: доцент, к.ф.-м.н. В.А.Ларионова 18
Оценка значимости уравнения регрессии в целом производится на основе F- критерия Фишера, который для парной линейной регрессии равен:
или
где n – количество наблюдений.Фактическое значение критерия Фишера сравнивается с табличным значением. При этом, если фактическое значение критерия больше табличного, то признается статистическая значимость уравнения в целом.
Парная линейная регрессия
Авто: доцент, к.ф.-м.н. В.А.Ларионова 19
Парная линейная регрессия
В парной линейной регрессии оценивается значимость не только уравнения в целом, но и отдельных его параметров. С этой целью по каждому из параметров a и b определяется его стандартная ошибка. Для параметра b она равна:
Стандартная ошибка параметра a определяется по формуле:
Авто: доцент, к.ф.-м.н. В.А.Ларионова 20
Для оценки существенности коэффициентов регрессии его величина сравнивается с его стандартной ошибкой, т.е. определяется фактическое значение t-критерия Стьюдента:
которое затем сравнивается с табличным значением при определенном уровне значимости и числе степеней свободы n-2.
Доверительный интервал для коэффициентов регрессии определяется как
Парная линейная регрессия
Автор: доцент, к.ф.-м.н. В.А.Ларионова 21
Парная линейная регрессия
Значимость линейного коэффициента корреляции проверяется на основе величины ошибки коэффициента корреляции:
Фактическое значение -критерия Стьюдента определяется как
Существует связь между t-критерием Стьюдента и F-критерием Фишера:
Автор: доцент, к.ф.-м.н. В.А.Ларионова 22
Парная линейная регрессияПример. Определить стоимость
объекта недвижимости, если известно, что на местном рынке зафиксированы следующие сделки c аналогичными объектами недвижимости:
Показатель Значение показателя
Месяц от даты оценки 18 15 12 10 9
Сделка, тыс. руб. за 1 м2 240 240 270 270 280
Месяц от даты оценки 7 6 5 3 1
Сделка, тыс. руб. за 1м2 300 310 330 330 335
Автор: доцент, к.ф.-м.н. В.А.Ларионова 23
Парная линейная регрессия
0 2 4 6 8 10 12 14 16 18 200
50
100
150
200
250
300
350
400
Автор: доцент, к.ф.-м.н. В.А.Ларионова 24
Парная линейная регрессияX Y XY X^2 Y^2 Yf Y-Yf (Y-Yf)^2 ABS((Y-Yf)/Yf) (Yf-Yср)^2 (Y-Yср)^2
18 240 4320 324 57600 228,8679 11,13208 123,9231 0,0486 3798,5127 2550,2515 240 3600 225 57600 248,5377 -8,53774 72,89293 0,0344 1760,8316 2550,2512 270 3240 144 72900 268,2075 1,792453 3,212887 0,0067 496,95345 420,2510 270 2700 100 72900 281,3208 -11,3208 128,1595 0,0402 84,258544 420,25
9 280 2520 81 78400 287,8774 -7,87736 62,05278 0,0274 6,8782485 110,257 300 2100 49 90000 300,9906 -0,99057 0,981221 0,0033 110,05198 90,256 310 1860 36 96100 307,5472 2,45283 6,016376 0,0080 290,606 380,255 330 1650 25 108900 314,1038 15,89623 252,69 0,0506 557,13813 1560,253 330 990 9 108900 327,217 2,783019 7,745194 0,0085 1348,1367 1560,251 335 335 1 112225 340,3302 -5,33019 28,41091 0,0157 2483,0477 1980,25
Xср Yср XYср X^2ср Y^2ср СУММ ABS()ср, % СУММ СУММ8,6 290,5 2331,5 99,4 85552,5 686,0849 2,4332 10936,415 11622,5
Автор: доцент, к.ф.-м.н. В.А.Ларионова 25
Рассчитаем параметры линейного уравнения парной регрессии .
Парная линейная регрессия
cov( , ) 2331,5 8,6 290,5 166,8x y xy x y
2
cov( , ) 166,86,5566
25,44x
x yb
22 2 299,4 8,6 25,44x x x
290,5 ( 6,5566) 8,6 346,8868a y bx
346,8868 6,5566xy a bx x
Автор: доцент, к.ф.-м.н. В.А.Ларионова 26
Парная линейная регрессия
0 2 4 6 8 10 12 14 16 18 200
50
100
150
200
250
300
350
400
f(x) = − 6.55660377358491 x + 346.88679245283
Автор: доцент, к.ф.-м.н. В.А.Ларионова 27
Парная линейная регрессия
Уравнение линейной регрессии всегда дополняется показателем тесноты связи – линейным коэффициентом корреляции:
Близость коэффициента корреляции к 1 указывает на тесную линейную связь между признаками.
Коэффициент детерминации показывает, что уравнением регрессии объясняется 94% дисперсии результативного признака, а на долю прочих факторов приходится лишь 6%.
2 2( 0,97) 0,94097xyr
5,04386,5566 0,97
34,0918x
xyy
r b
Автор: доцент, к.ф.-м.н. В.А.Ларионова 28
Парная линейная регрессия
Оценим качество уравнения регрессии в целом с помощью F-критерия Фишера и сравним с фактическим значением F -критерия:
Табличное значение F –критерия при k1=1, k2=10-2, =0,05 равно 5,3118. Так как , то признается статистическая значимость уравнения в целом.
2
2
0,940972 (10 2) 127,5226
1 1 0,94097xy
xy
rF n
r
Автор: доцент, к.ф.-м.н. В.А.Ларионова 29
Парная линейная регрессия
Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитаем t-критерий Стьюдента и доверительные интервалы каждого из показателей.2
2 ( ) 686,084985,7606
2 10 2x
ост
y yS
n
85,76060,58061
25,44 10ост
b
x
Sm
n
2( ) 85,7606 99,4 10
5,7886725,44 10
ост
ax
S xm
n
21 1 0,940970,0859
2 10 2r
rm
n
Автор: доцент, к.ф.-м.н. В.А.Ларионова 30
Парная линейная регрессия
Фактические значения t-статистик:
Табличное значение t -критерия Стьюдента приk=10-2=8, =0,05 равно 2,3060. Так как значения коэффициентов больше табличных, то признаем статистическую значимость параметров регрессии и показателя тесноты связи.
6,556611,2926
0,58061
346,886859,9252
5,78867
0,9700411,2926
0,0859
bb
aa
rr
bt
m
at
m
rt
m
Автор: доцент, к.ф.-м.н. В.А.Ларионова 31
Парная линейная регрессия
Рассчитаем доверительные интервалы для параметров регрессии:
Средняя ошибка аппроксимации:
что говорит о хорошем качестве уравнения регрессии, т.е. свидетельствует о хорошем подборе модели к исходным данным.
6,5566 2,3060 0,580611
[ 7,8955; 5,2177]
346,8868 2,3060 5,78867
[333,5381;360,2355]
табл b
табл a
b t m
b
a t m
a
( )12,43321%xy y
An y
Автор: доцент, к.ф.-м.н. В.А.Ларионова 32
Парная линейная регрессияНайдем прогнозное значение результативного фактора при значении признака-фактора, составляющем 110% от среднего уровня, т.е.
Ошибка прогноза находится по формуле:
1,1 1,1 8,6 9,46346,8868 6,5566 9,46 284,8613
p
p
x xy
2 2
2
1 0,861 85,7606 1 0,1
10 25,44
9,7255
284,8613 2,3060 9,7255
[262,4342;307,2884]
p
p
p
p
y остx
y
p y
p
x xm S
n n
m
y t m
y
Автор: доцент, к.ф.-м.н. В.А.Ларионова 33
Спасибо за внимание